Pornhub analyseert video's met beeldherkenning om tags te verbeteren

Pornosite Pornhub heeft afgelopen tijd software getest die video's op de site frame voor frame kan analyseren. Daardoor is het mogelijk om automatisch namen van acteurs toe te voegen en de juiste tags bij de video's te zetten. Zo moeten video's die aansluiten op interesses van bezoekers beter vindbaar zijn.

De software maakt gebruik van beeldherkenning om karakteristieken van de video te herkennen, schrijft The Next Web. Zo kan het gezichten van acteurs en actrices herkennen, net als de posities waarin ze in de video's te zien zijn. Bovendien kan het elementen als haarkleur en decor herkennen en groeperen. Om de mensen te kunnen herkennen, heeft Pornhub officiële foto's van veel hoofdrolspelers van de video's op zijn site vooraf in de database ingebracht.

Met de functie wil Pornhub automatisch tags kunnen toevoegen die posters van video's vergeten of verkeerd hebben neergezet, zodat gebruikers op de site betere zoekresultaten krijgen. Het systeem checkt bovendien bij gebruikers of de gebruikte tags en omschrijvingen kloppen. Gebruikers kunnen dat aangeven door een duimpje omhoog of omlaag.

In de eerste test scande het systeem 50.000 video's. De komende maanden wil Pornhub dat de software alle video's op de site frame voor frame indexeert. Dat zijn er zo rond vijf miljoen. De software moet daar begin volgend jaar mee klaar zijn.

Door Arnoud Wokke

Redacteur Tweakers

11-10-2017 • 17:22

116

Reacties (116)

116
112
67
4
0
19
Wijzig sortering
Anoniem: 260522 11 oktober 2017 17:35
Lekker bezig PornHub!
Nu nog 1080p gratis maken en 4k/vr voor premium accounts
Youtube kan betreft dit soort functies nog wel wat leren, ook met bijvoorbeeld de voorvertoning van video's die op de meeste pornosites al jaren werkt, en vaak nog veel beter ook!
Pornhub kan ook wat van YouTube leren door te betalen voor zelf geuploade content :+
Al enkele jaren blijkbaar: https://www.pornhub.com/partners/mpp

Maar geen idee hoe het zit met al die andere gejatte content :+

[Reactie gewijzigd door Melkunie op 26 juli 2024 03:40]

Linkje ziet er behoorlijk nsfw uit. Dit hele artikel trouwens :o
Zou inderdaad wel een markering bij mogen staan. ;)
De markering "Pornhub" staat in de titel. Ik geloof dat we uit mogen gaan van common sense hier. (meestal :P)
En dat terwijl het normaal gesproken zo'n keurige SFW website is!
Om die inkomsten vervolgens compleet de kop in te drukken? ;)
Pornhub kan ook wat van YouTube leren door te betalen voor zelf geuploade content :+
Je bent een gedupeerde, begrijp ik? :p
Idd, vooral dat 1080p. Kan ik tenminste sneller aan mijn trekken komen zo. En als ik dan een aantrekkelijk persoon zie kan ik makkelijker de naam zoeken via andere kanalen.
Hmm...5 miljoen frames. Er gemakshalve vanuit gaande dat iedere video opgenomen is met 30 frames per seconden, cum ik uit op 2777 46 uur aan educatieve video... :D

Kan mij voorstellen dat je daar een stevig renderrack voor nodig hebt om iedere frame te analyseren en pas begin 2018 klaar mee bent. Echter als je van iedere frame een kopie moet opslaan in een database (png/jpg) komt er nog een flinke database achter te hangen...

Alleen...al die moeite om de tags te verbeteren...?

Edit 1:
Foutje in berekening

Edit 2:
Delen door 3600 ipv 60.. ahum.. Dank MischaT

[Reactie gewijzigd door Black Piet op 26 juli 2024 03:40]

Aanname: Ze bekijken niet alle frames maar enkel de keyframes.
Bedoel je de moneyshots?
Hoewel dat de interessante shots zijn, is het technisch gezien aan te raden om enkel de keyframes te scannen. Tussen 2 keyframes worden geen volledige frames opgeslagen, maar slechts het verschil tussen de vorige en huidige frame zodat er minder data moet opgeslagen worden. Keyframes liggen vaak enkele seconden uit elkaar. In veel films heb je als je doorspoelt zo even slecht beeld. Dat is omdat je enkel de tussendata bekijkt en moet wachten op een keyframe.
Van "een vriend van mij" :+ hoorde ik dat er ook wel eens speelfilms op die site staan die meerdere acteurs bevatten. Je zal dan echt elke frame moeten analyseren.

Besef mij nu wel dat je database een stuk kleiner is als in een speelfilm maar een paar acteurs/actrices meespelen. Die paar jpg/png vallen dan nog wel mee in een database.
Waarom? Er zitten vaak meerdere key frames in een scene van 1 seconden. Waarom zou je dan alle frames moeten controleren? Dat heeft enkel zin als een acteur minder dan 25/30 frames in beeld is. En welke acteur is nou minder dan een seconde in beeld?


Daarnaast, wat uitleg over keyframes en i-frames:
https://en.wikipedia.org/wiki/Key_frame
analyseren... ?
ja maar nog steeds zal een acteur niet maar een paar seconden in beeld zijn. tenzij zeer zijn als bijrol en is het dan wel handig om die persoon in te taggen?
Hoe doet die dat dan met ladyboys?

:*)
Er staat "...alle video's op de site frame voor frame indexeert. Dat zijn er zo rond vijf miljoen." Zijn dat frames of video's?
Ik neem aan video's. Want met frames kom je uit op minder dan 50 uur aan video (30fps), ofwel minder dan 600 video's van 5 minuten.
Ik denk dat je vrij snel kunt concluderen dat er meer dan 50 uur aan video op deze website beschikbaar is.

En er staat ook duidelijk frame voor frame, dus niet alleen key-frames maar alle frames. Het kan dus niet anders zijn dan dat er 5M video's zijn.
Anoniem: 221563 @JDVB12 oktober 2017 08:46
Ik denk dat je vrij snel kunt concluderen dat er meer dan 50 uur aan video op deze website beschikbaar is
Ik denk dat de meeste gebruikers inmiddels ook wel al veel meer dan die 50 uur hebben gezien (in totaal) :+
Ik denk dat de meeste gebruikers inmiddels ook wel al veel meer dan die 50 uur hebben gezien (in totaal) :+
En daar gemiddeld een uur of drie over hebben gedaan. O-)
Volgens mij bedoelt de schrijver 5 miljoen video's en niet frames.
Dan voor het gemak gemiddeld 5 minuten per video x 30 frames/s = 9000 frames per video

9000 frames*5000000 video's = 45,000,0000,000 frames, niet 5,000,000 :)
Volgens de bron zijn het inderdaad 5 miljoen video's en worden er volgens PH 10.000 video's per dag geupload... De zin in het artikel kan anders gelezen worden.

Maar dan blijf het nog steeds de vraag....dit alleen voor het verbeteren van tags doen?
Hmm...5 miljoen frames. Er gemakshalve vanuit gaande dat iedere video opgenomen is met 30 frames per seconden, cum ik uit op 2777 uur aan educatieve video... :D
Edit:
Foutje in berekening
Volgens mij nog steeds fout: 5 miljoen / 30 = 166.666 seconden. (3600 seconden in 1 uur ) = 46,3 uur.
Oeps... je hebt helemaal gelijk... |:(
Er zal wel meer dan 46,3 uur aan video's op die site staan. Ik denk ... 5 miljoen stuks...?
You are right: het woord "dat" verwijst inderdaad naar video's (immers het onderwerp van de alinea), niet naar frames ;)
Waarom losse jpg images opslaan als je gewoon de frame zelf gemakkelijk kan ophalen? Is niet veel zwaarder dan een image van disk lezen. Je hoeft niet de hele video in te laden, uiteindelijk is een video ook gewoon een lijst afbeeldingen en geluid
Cum ik uit... Pun intended? :D

[Reactie gewijzigd door SinergyX op 26 juli 2024 03:40]

Denk je serieus dat er maar 50 uur aan porno op een willekeurige site staat?

Het gaat om 5 miljoen video's. Uitgaande van gemiddeld 10 minuten video is dat 95 jaar (!) aan beeldmateriaal.

Een persoon in een talkshow maakt eens de volgende grap:
Er is zoveel porno beschikbaar. Als je iemand van baby af aan zou forceren alle porno op alfabetische volgorde te bekijken, deze op zijn 50e nog steeds niet voorbij de anaal categorie gekomen zijn.

Een grap met een grote kern van waarheid. Porno is groter dan alle reguliere films bij elkaar.
Maar het meeste is amateur-troep. Dan kun je ook wel zeggen dat je alle YouTube filmpjes moet bekijken.

Het is leuk om grappen te maken over hoe alomtegenwoordig porno is online. Maar uiteindelijk is het toch echt niet zo'n gigantisch grote markt als mensen denken (en al helemaal niet zo winstgevend als ze denken)
"Henk, gefeliciteerd, jij mag je bezig houden met de code om anaal fisten te herkennen. Succes jongen"
Ze willen machine learning gebruiken, het algoritme moet dit dus zelf leren.
Wat is de logica om uitgerekend op een pornosite uitsluitend gezichtsherkenning te gebruiken, terwijl een groot deel van de opnames juist andere lichaamsdelen gedetailleerd in beeld brengt? Het zou me niets verbazen als Pornhub op basis van machine learning met bijvoorbeeld schaamlipherkenning het percentage geïdentificeerde acteurs verder kan verhogen.
Uit het artikel: "Zo kan het gezichten van acteurs en actrices herkennen, net als de posities waarin ze in de video's te zien zijn. Bovendien kan het elementen als haarkleur en decor herkennen en groeperen."
Posities, haarkleur en decor zijn alleen bedoeld om scenes of personen in categorieën in te delen, dat is een stuk minder geavanceerd dan individuele acteurs te identificeren.
Dat is ook juist wat ze willen doen.

"Daardoor is het mogelijk om automatisch namen van acteurs toe te voegen en de juiste tags bij de video's te zetten."
Een gezicht is makkelijker te herkennen...
Er staat toch beeldherkenning? Dat is alles omvattend, dus ook gezicht, postie, kleur, etc....
Beeldherkenning = beeld + herkenning. Jij herkent ook niet alles in het beeld dat je ziet. Software dus ook niet... tot dat je het een specifieke opdracht geeft, gerelateerd aan wat het al 'weet' of moet leren. Wat de software moet herkennen kan net zo breed of smal worden ingesteld als je zelf wil; het hoeft niet het hele beeld te omvatten, met alles er in.
In de context van wat er staat in het artikel en hoe de opmerking samengesteld is, zeg ik meer dan voldoende. Het helpt als men eerst de tekst goed leest, nadenkt en dan pas eventueel iets opmerkt. Maar goed, ik zal de volgende keer er een hele paragraaf van maken. Ik weet echt wel meer als het gaat om software en techniek, maar ga niet alles tot in de puntjes uitleggen.
Ik merk ook dat het lastig wordt sommige reacties te plaatsen (vind ik) omdat de link tussen het originele commentaar en een reactie daarop los lijkt te raken door alle antwoorden/reacties er tussen.
lezen blijft moeilijk
Moet je echter wel eerste een trainingsset maken...

En dan ook nog een testset hebben.
Machine learning moet je eerst trainen... En wie traint het systeem? (Henk ;) )
Henk komt vervolgens 5 dagen later zijn kantoor uit, uitgedroogd en klaagt over een "muisarm"
Opmerking van het jaar
Dat!
De leukste toepassing van BI :+
Waarmee ze ook kunnen herkennen of er videos van betaalde websites geüpload worden en deze dus zullen gaan verwijderen?
De meeste clips van betaalde sites zijn door de site-eigenaren zelf op Pornhub gezet om reclame te maken. Je vindt misschien geen hele films of scènes van een half uur, maar alleen ingekorte stukjes van 5-10 minuten.

Als je een hele film wil uploaden dan is er al een bot die het als copyrighted aanmerkt en de film gewoon direct er weer af trapt.
maar alleen ingekorte stukjes van 5-10 minuten.
Dat is voor de meeste mannen toch meer dan genoeg :+
Dat zou je verassen. Heb 4uurs banden teruggekregen omdat hij op 3uur en 33seconden even hapert.

Maar goed, Pornhub is enorm groot. En ook heel interessant om in te werken vanuit IT oogpunt omdat zij het geld hebben én investeren in hun data centers/infrastructuur.
Ik was een aantal jaren geleden nog binnen bij een grote Nederlandse webwinkel en dat was best interessant. Ze hadden toen high end spul staan in hun serverruimte wat je niet veel vond. Heb in een shop van ze gewerkt.

Pornhub heeft overeenkomsten met de meeste grote filmhuizen in dat genre en die geven inderdaad de 5-10 minuten durende 'promo' filmpjes waar flink in gesneden is. Daarmee lokken ze mensen naar hun eigen betaalde sites. Waar je tegenwoordig ook flink waar krijgt voor je geld ;)

Als ik het goed heb is Pornhub in de jaren 2010-2012 in vele rechtszaken terecht gekomen vanwege hun aard. Alle filmhuizen hadden klachten vanwege dat hun content erop stond. Het ging dus niet echt goed. Ik dacht dat een van de grootste schuldeisers Echter kwam toen een Duitser met de naam Thylmann met een voorstel om het over te kopen van de Canadezen. Hij was een Duiste programmeur/nerd en heeft in de tijd die erop volgt Pornhub tot één van de grootste sites gemaakt zoals we dat nu kennen. Hij heeft een behoorlijke Villa nabij Brussel maar die is niet op Streetview te zien. Hoe hij dat geld bij elkaar kreeg om Pornhub te kopen? Hij starte in 1999 als HTML programmeur met websites en links om mensen door te verwijzen naar de betaalde content. Simpel zat of toch niet? Niet helemaal gezien hij 'NATS' ontwikkeld. Een programma dat verkeersstromen tussen sites volgt en registreert. Dat werd de standaard bij porno websites. Daarna richtij hij een amateur website op en daar verdiende hij ook weer behoorlijk mee. Daarna gaat het hard. Hij kan met zijn bedrijf door wat financieel goede overeenkomsten eigenlijk zo goed als alle "tube" sites in handen krijgen. Zelfs de online diensten van Playboy komen voor zijn rekening. Hij is ook iemand die "safe sex" onder de aandacht brengt. Hij heeft in een paar jaar tijd de het hele landschap verandert naar zoals we dat nu kennen. Veel filmhuizen zijn onderdeel van zijn imperium geworden of zelf opgestart. Echter is hij wel gearresteerd vanwege fraude, vele postbusfirma's en hij liet zich na de rechtszaak uitkopen.

Dit is even een korte samenvatting maar misschien een leuk weetje :)
Dat zou je denken maar dat is geen onderdeel van hun verdienmodel. Het is voor hun helemaal niet zinvol om die video's er af te halen. Ze moeten het natuurlijk wel maar ze kunnen lang volhouden dat ze nou eenmaal niet alles kunnen scannen, dat er teveel wordt geupload, enzovoorts enzovoorts.

Ze hebben al tooling die op een redelijk basic niveau de uploads in de gaten houdt maar er zijn genoeg manieren om er onderuit te komen. Plus, het kan ook goed zijn voor de studio / het model om zulk materiaal expres te laten staan.

Ze laten het zoveel mogelijk aan die studio's zelf over. Tot ze een takedown-request krijgen hebben ze reclame-inkomsten en bezoekers. Dus waarom zouden ze in hun eigen vingers snijden?
Heel veel betaalde websites plaatsen idd. ook hun eigen content daar
Ik heb gehoord :+ dat ze daar wel erg veel in knippen en hele scenes weg laten.
Klopt, maar ik heb gehoord dat veel videa's überhaupt niet afgekeken worden.
ook voor de amateurvideo's?
ja dat zou wat zijn, facebooklinkje erbij :o
"Vlizzjeffrey heeft je getagd in een video. Ga naar je tijdlijn om de video te bekijken en met je vrienden te delen."
Tja straks staat je giegel er ineens met naam en toenaam op :o
Ik ben er vrij zeker van dat ik het nog eens mee ga maken dat je op basis van een foto van iemand even het internet kan afzoeken naar filmpjes en andere foto's van deze persoon.
En dat gaat er sneller zijn dan je denkt.
Upload maar filmpjes naar youtube , twiiter en facebook.

Live gezichtsherkenning op camera kan al
Meer aansluitende video's? Uit "betrouwbare" bron heb ik vernomen dat je 1 goed filmpje niet eens helemaal af kan kijken, laat staan een 2e ;)
Kijk, dit is nu pas echt Tweakers nieuws :9 :+
Aan je avatar te zien ben je into the Oni Chan Hentai?
een yuri, vast en zeker.
Oke :o

Eigenlijk niets nieuws, anders dan dat het een bedrijf is dat gespecialiseerd is in porno.
Kan niet helpen dan aan https://youtu.be/dj4qmmkiZyU?t=20m8s te denken elke keer de porno industrie weer innoveert. :o
Ben benieuwd wanneer de eerste tag van "eye of sauron" komt :+

Op dit item kan niet meer gereageerd worden.