Advertorial

Door Tweakers Partners

Machinelearning ‘on steroids’ levert persoonlijke content bij DPG Media

26-01-2021 • 08:00

51

Als nieuwsconsument blijf je graag op de hoogte van belangrijke nieuwsevents, door middel van een pushmelding op het moment dat dit relevant is. Bij de meeste mediatitels zijn deze meldingen nog niet gepersonaliseerd en worden ze handmatig geselecteerd door de redacties. DPG Media (uitgever van onder andere De Volkskrant, AD, Tweakers, VTM en Donald Duck) onderzoekt daarom de inzet van machinelearning en technologieën zoals elasticsearch, Kubernetes, Terraform en Spark. Tweakers is overigens geen onderdeel van deze test en zal dat ook niet worden.

Het project Personalised Push van DPG Media maakt deel uit van een breder initiatief dat de mogelijkheden onderzoekt van het verder personaliseren van content. Een team van twaalf developers is hiermee bezig, verdeeld over drie subteams die zich onder andere richten op het analyseren van datapatronen (zowel voor gebruikers als voor content) en het ranken van content om middels machinelearning de best passende artikelen voor gebruikers te selecteren. “Er is ongelooflijk veel content beschikbaar, maar deze is niet voor iedereen even relevant”, verklaart machinelearning-developer Aron Hammond. “Sommige grote nieuwsevents zijn relevant voor iedereen. Maar er zijn ook veel niche-onderwerpen die mensen interessant vinden, en die interesse verschilt per gebruiker. Als wij kunnen leren wat die niches zijn, kunnen wij de waarde van push daarvoor leveren.”

Uitdagingen in content en gebruikers

De hamvraag is natuurlijk: wat moet hiervoor gebeuren? “Het idee is op zich vrij simpel. Aan de ene kant zijn er artikelen met bepaalde onderwerpen en aan de andere kant zijn er de gebruikers die geïnteresseerd zijn in bepaalde onderwerpen. Maar om het echt uit te voeren, in een continue stroom van nieuwe content, moeten we deze verrijken met metadata. Daarvoor analyseren we content met verschillende machinelearning-modellen, waaronder natural language processing (nlp). Hetzelfde geldt voor gebruikers. Momenteel wordt een gebruiker die zowel via een app als op de website leest, vaak gezien als twee verschillende gebruikers omdat de cookies verschillend zijn. Daar ligt een uitdaging om te onderzoeken welke datasets bij elkaar horen.”

Behalve het analyseren van de content en de gebruiker is het ranken een grote uitdaging. De kunst is hier om te evalueren of gemaakte voorspellingen op basis van verrijkingen en modellen die op content zijn toegepast ook het meest relevant zijn voor de gebruiker. “We moeten vooral de juiste conclusies trekken uit impliciete signalen, zoals welke content geopend en gelezen is. Daar maken we een datalabel van dat we gebruiken voor historische datasets van gebruikers en hun leesgeschiedenis. Op basis van deze datasets proberen we vervolgens de hypothese steeds te verbeteren, door te kijken naar verschillen in leesgedrag tussen wel en niet aangeraden artikelen. Met de conclusies die we daaruit trekken, passen we de labels aan en trainen we steeds het volgende nieuwe model. Zo is er sprake van een continue feedbackloop, waardoor de voorspellingen steeds beter worden.”

Complexe en schaalbare infrastructuur nodig

Het bovenstaande vertelt een versimpelde weergave van het proces, waar nog veel meer bij komt kijken. De door DPG Media gebruikte infrastructuur is er bijvoorbeeld op ingericht dat gebruikers niet overspoeld worden door pushnotificaties en dat zij deze ontvangen op relevante momenten. Op verschillende momenten worden ook nog eens verschillende modellen naast elkaar gedraaid om te testen welke beter werken. “Hier hebben wij een eigen service voor geschreven en bouwen en onderhouden we een, vind ik, best complexe infrastructuur. Er gebeurt hier ongelooflijk veel met onder meer AWS en tooling zoals Kubernetes en Docker. Machinelearning in de vorm waarin wij het gebruiken, kan niet zonder zo’n schaalbare infrastructuur. Daar wordt dan ook veel energie in gestoken.”

De push-pipeline waar Hammond nu aan werkt, is ingericht naar het AD. Naast het genoemde Kubernetes en AWS maakt de architectuur ook gebruik van onder meer Kafka, elasticsearch, Terraform en Spark, voor onder meer het verrijken en classificeren van content, A/B-testen en het pushen van nieuws events. Voor het machinelearning-gedeelte houden de teams bij DPG Media nauwlettend de ontwikkelingen op mlops-gebied in de gaten. “In vergelijking met devops, met veel volwassen tooling, is mlops nog een beetje het Wilde Westen. Maar er gebeurt al wel veel, er is bijvoorbeeld MLflow. Dat is een opensource-project voor het loggen van training voor modellen, het instellen van parameters en het behouden van het overzicht over modellen die in productie zijn.”

Verschillende paradigma’s in beeld

De modellen van DPG Media maken gebruik van verschillende machinelearning-paradigma’s, zoals het al genoemde nlp en ranking, maar ook van collaborative filtering, ranking en information retrieval. “Collaborative filtering sluit aan op het idee dat je vaak geen expliciete feedback hebt van gebruikers. Het is een manier om met losse properties verbanden te leggen en voorspellingen te kunnen doen over combinaties die je nog niet hebt geobserveerd. Een voorbeeld daarvan is het voorspellen van de rating die je zou geven aan een bioscoopfilm die je nog niet hebt gezien, gebaseerd op je IMDB-ratings voor andere films en de ratings voor deze films van andere IMDB-gebruikers die de bewuste bioscoopfilm wél hebben gezien en beoordeeld.”

Met de genoemde ranking combineert Hammond data van gebruikers met data over content. Deze activiteit valt binnen het paradigma van information retrieval, evenals search, wat neerkomt op het combineren van een query met content. “Veel technologieën op dit gebied zijn we nog aan het onderzoeken. En dat geldt bijvoorbeeld ook voor nlp, een gebied waarbinnen nu ontzettend veel gebeurt. Neem GPT-3 van OpenAI. Wat ze daarmee nu naar buiten brengen als je de interactieve voorbeelden bekijkt, dat is echt ongelooflijk. Dit model genereert op basis van één alinea hele teksten die daarmee consistent zijn. Zeker voor wie veel tekstdata heeft, biedt dit een kans om nieuwe en creatieve dingen te doen. Wij gaan als proef ook zo’n model gebruiken om onderzoek te doen naar onze data.”

Vinger aan de pols bij de wetenschap

Initiatieven als deze, evenals de schaal waarop ze worden toegepast, spreken Hammond aan. “Ik ben hier bezig met ongeveer dezelfde concepten als in mijn vorige baan, maar dan wel echt on steroids. We zijn veel bezig met ongestructureerde data en state-of-the-art-toepassingen die soms nog niet altijd direct in productie kunnen. Dat doen wij met het idee in ons achterhoofd dat als dit eenmaal wél mogelijk is, wij hiervoor de benodigde expertise hebben opgedaan. Er is binnen mijn team veel ruimte voor onderzoek en discussie, er is zeker geen blinde focus op alleen maar directe stakeholder value produceren. Dat geeft mij en mijn collega’s echt een prikkel om enthousiast te blijven, de vinger aan de pols te houden bij wat er gebeurt op wetenschappelijk gebied, en ons te blijven verdiepen in wat er speelt op het gebied van machinelearning."

DPG Media IT is partner bij de Digital Tweakers Meet-up A.I. Meer weten over machinelearning? Schrijf je dan nu in voor de Tweakers Digital Meet-up AI op 11 februari 2021! Je kunt hier onder andere in gesprek met de developers van DPG Media en vele andere organisaties die bezig zijn met AI.

Interesse om bij DPG Media te komen werken? Heb je een vraag, een opmerking of wil je gewoon graag jouw opties bekijken? Check de vacatures op de website van DPG Media IT voor Nederland of België, en neem gerust contact op met ons Recruitment Team:

Recruitment Team:
Lino Vandoorne (BE) - lino.vandoorne@dpgmedia.be
Mark van Dommelen (NL) - mark.van.dommelen@dpgmedia.nl

Edit:

  • In de inleiding maken we duidelijk dat Tweakers geen onderdeel is van de test van DPG Media IT, en zal dit ook niet worden.
  • Aangegeven dat DPG Media IT partner is bij de Digital Tweakers Meet-up.

Dit artikel is geen redactioneel artikel, maar een advertorial en tot stand gekomen dankzij DPG Media IT en Tweakers Partners. Dit is de afdeling binnen Tweakers die verantwoordelijk is voor commerciële samenwerkingen, winacties en Tweakers-events zoals Meet-ups, Developers Summit, Testfest en meer. Kijk hier voor een overzicht van alle acties en events. Mocht je ideeën met ons willen delen over deze vorm van adverteren, dan horen wij dat graag. Hierover kun je met ons in gesprek via [Discussie] Reclame algemeen].

Reacties (51)

51
51
37
17
5
13
Wijzig sortering
Ik wil gewoon algemeen nieuws ontvangen, niet: "gepersonaliseerd nieuws".

Dan krijgt een persoon maar de helft van het nieuws te zien?
Of worden bronnen zoals de Donald Duck ook toegevoegd aan de lijst van Tweakers artikelen?

Ik vindt het maar raar.
Gaat een beetje de richting op van Facebook zo; en dan lekker alles nog meer polariseren?
DPG Media heeft een eigen IT-afdeling. Bovenstaand stuk is van toepassing op de technologie binnen DPG Media. Tweakers heeft een eigen development team. Bovenstaande ontwikkelingen staan niet op de planning bij Tweakers.
Klinkt mooi maar ik lees dat soort zaken als nog niet. Tweakers is onderdeel van dpg en uiteindelijk is het dpg die bepaald. Dat kan nu nog niet zo zijn over x tijd kan dat anders zijn.
xs4all is wat dat betreft mooi voorbeeld, ook heel lang onderdeel van kpn die dan ook veranderingen heeft doorgevoerd.
Vergeet vooral niet ook bij tweakers moet er gewoon geld verdiend worden.
Ah, top ik zie dat deze nuance toegevoegd is aan de intro en onderaan het artikel.
Je bedoeld dit:
n de inleiding maken we duidelijk dat Tweakers geen onderdeel is van de test van DPG Media IT, en zal dit ook niet worden.
Klinkt leuk maar stel de test is in de ogen van dpg succesvol. Dan kan dpg dit binnen de groep uitrollen. DPG is en blijft eigenaar van tweakers dus het is niet gezegd dat als die voor dpg succesvol is het nooit naar tweakers zal komen.
Schreef hierboven xs4all al tijden onderdeel van kpn totdat kpn de boel tijdje terug ook op zijn kop gooide. Tweakers is gewoon onderdeel van DPG en uiteindelijk bepaald die.
Als je vaak discussies over cookies toestemming gelezen hebt weet je ook dat tweakers zich achter de moeder verschuild die dat beleid heeft. tweakers mag daar zelf niets aan doen en iedere keer als ze een artikel daarover schrijven komt de kritiek
DPG Media heeft een eigen IT-afdeling. Bovenstaand stuk is van toepassing op de technologie binnen DPG Media. Tweakers heeft een eigen development team. Bovenstaande ontwikkelingen staan niet op de planning bij Tweakers.
ze staan nog niet op de planning. Komt nog wel. Door meer targeted te gaan werken denkt men mensen meer naar de site te brengen wat reclameinkomsten doet stijgen.
Ik vind gepersonaliseerd nieuws echt verschrikkelijk.

Kijk niet meer in mijn Google Nieuws Feed, want als ik een paar keer nieuws lees over Rico Verhoeven, komt er toch niks anders meer naar boven.
Afhankelijk van welke site en hoe hard ze het toepassen, ben ik hier wel voor te vinden... HLN.be bijvoorbeeld is ook van DPG, en op die site is de helft van de content totaaaaal niets voor mij (bijvoorbeeld celebrity en lifestyle&beauty). Dit is soorten content en nieuws dat ik niets aan heb, maar toch 50% van het overzicht in beslag neem. Zou het niet erg vinden dat dit in een andere tab komt of pas veel later op de pagina getoond wordt. Indien het slecht geïmplementeerd is daarintegen zal het meer kwaad dan goed doen.
Slechte zaak om iedereen een eigen bubbel aan te laten meten, algoritmes kunnen goede dingen doen maar ook veel zaken slopen. Steeds verder wordt men naar 1 kant geduwd, wederhoor is er niet meer bij. Ik bekijk graag zaken van verschillende kanten. Als ik straks alleen maar nieuws op mij afgestemd krijg kan dit dus niet meer.

Raar hoor, terwijl de roep nu groter dan ooit is om zulke algoritmes niet te gebruiken (zie zondag met lubach - https://www.youtube.com/watch?v=FLoR2Spftwg ), gaat DPG media ook al deze kant op. Bizar.
Inderdaad een zeer slechte zaak om de bubbel die mensen om om zich heen hebben in deze tijden, niet corona-tijden maar gewoon deze moderne tijd, dicht te timmeren met algoritmes. Wat DPG van plan is om te doen is dé nieuwe vorm van censuur. Wappies worden nog meer wappie. Techies weten straks niet meer wie de koning van nederland is en voetbalfans kunnen alleen nog maar praten over de transfermarkt. Allemaal bij wijs van spreken natuurlijk, maar ik denk dat hier wel mensen zijn die begrijpen wat ik bedoel.

Als ik ook maar een seconde het gevoel heb dat ik op tweakers in mijn eigen bubbel wordt geduwd, zoals ik dat +- 8 jaar geleden bij Facebook had, zwaai ik iedereen van DPG media ook gedag.

Edit: spatie toegevoegd

[Reactie gewijzigd door Generaal Pep op 24 juli 2024 20:14]

De vraag is zelf of er überhaupt nog een mens aan te pas komt. Als je leest over de ontwikkeling van ai die hele artikelen kan schrijven dan krijg je dus straks bij dpg met de paplepel exact dat te lezen wat jij wil lezen. Doe daar wat deepfake video's bij en je krijgt ook nog dat te zien wat je van diegene wil zien.

Meer en meer betekend dit dat je moet gaan werken met adblockers, vpn, wisselende ip's en andere zaken zodat er van jou geen profiel kan worden opgebouwd.

Wat ik me afvraag is dat er een generatie is die er nu nog kritisch naar kijkt maar voor een jongere generatie vraag ik me af of die nog zo kritisch zijn als die met de paplepel wordt ingegoten. Is het over 20 jaar misschien heel normaal dat we niet meer kritisch zijn en in onze eigen wereld leven ?
Kijk maar eens op Neflix, deze doet het zelfde. Deze schotelt mij alles voor wat ik misschien wel leuk vind. Het was mijn vrouw welke graag 'The Crown' wilde zien. Fantastische serie trouwens, maar die had ik zelf nooit geadviseerd gekregen. Deze zou echt niet in mijn Sci-F/Anime gerelateerde bubbel terecht zijn komen.

Jammer dat Netflix het uitgebreide moderatiesysteem er uit gegooid heeft, anders kon je daar nog iets mee.

Daarbij is er natuurlijk wel de wat grotere Nederlands bubbel, met de top 10 series nederland.
Kwalijk dat krantenuitgevers op deze wijze hun neutraliteit te grabbel leggen. De artikelen mogen dan wel conform journalistieke regels gemaakt zijn maar door dit filter krijg je de wereld te zien door een gekleurde bril. Dan liever gewoon een krant opslaan en koppensnellen om te zien wat je er zelf uit wilt filteren.
Kortom: leuke optie voor de luie lezer maar ik zie graag iets meer van de wereld.
Kranten die hun neutraliteit te grabbel leggen. Kranten zijn nooit echt neutraal, je hebt al heel veel jaren kranten die voorkeuren hebben, lees telegraaf wordt gezien als rechts, andere krant als links.
Laat van 2 kranten 2 journalisten over eenzelfde onderwerp schrijven en je krijgt 2 verschillende artikelen.
2 artikelen die ook een totaal andere zienswijze laten zien.
Dat is juist het mooie aan journalistiek, die zienswijze van de journalist.

Voorbeeld, rellen van de afgelopen dagen. Daar kun je over schrijven tuig, belachelijk, hard aanpakken, maar ik lees ook artikelen van psychologen die de onderliggende redenen voor dit gedrag aangeven.

Probleem met gegenereerde artikelen naar jou wens is dat ze waarschijnlijk aansluiten op een mening die jij hebt. Ze bevestigen die mening maar laten je niet een keer een andere kant zien. Die andere kant kan jou mening of zienswijze op iets veranderen. Het gevaar is dat je met dit soort ai systemen steeds dieper in je eigen wereld komt en steeds bevestigd wordt door de artikelen die je gegenereerd te lezen krijgt.
Hoewel het natuurlijk mooi lijkt dat iedereen het nieuws ziet wat hij wil lezen, is de keerzijde natuurlijk dat nieuws wat het algoritme als niet relevant voor deze gebruiker beschouwd nooit te zien krijgt. Hierdoor kan het zijn dat de gebruiker een eenzijdige kijk krijgt op bepaalde onderwerpen.

Verder is het doel natuurlijk niet 'gepersonaliseerde nieuws berichten' maar meer gelezen artikelen. Resulterende in meer tijd op de website en meer advertenties die gezien zijn, derhalve meer inkomsten. Men gaat er hier dan, al dan niet bewust, aan voorbij dat men eigenlijk de tijd van bezoekers aan het bepalen is. De vraag is of dat moreel verantwoord is.
Tenslotte wat is er mis met gewoon een lijst van nieuws en de gebruiker zelf laten beslissen waar op geklikt wordt?
Een algoritme is en blijft een algoritme. Netflix heeft ook die zooi, op basis van wat je gekeken hebt krijg je dan weer dezelfde zooi aangeboden.
Ik merk bij mezelf bij film, laat ik eens dat kijken, iets wat je misschien normaal nooit zou kijken. Blijkt het toch ineens mooie film te zijn.
Je gaat eten besteld iets wat je nog nooit gehad hebt, blijkt het toch heel lekker te zijn.
Als je als mens jezelf kan verbazen of nieuwe dingen leren. Een algoritme kiest op basis van eerdere zaken, maakt daar aannames over maar blijft voor in the box. Out of the box denken zie ik nog niet in algoritmes en dat is 1 reden waarom ik totaal geen interesse heb in dat soort systemen. Ze houden ons gevonden in de hokje.
Dat is precies mijn punt. Netflix is een goed voorbeeld. In mijn overzicht krijg ik altijd dezelfde soort films. Ik moet flink mijn best doen om een ander soort film te vinden in het aanbod van Netflix terwijl die er wel zijn!
Precies de reden waarom ik dus nooit inlog bij Youtube en na iedere sessie de koekjes zelf opeet.
En zoveel mogelijk de incognito-mode gebruik.

[Reactie gewijzigd door LooneyTunes op 24 juli 2024 20:14]

Hetzelfde geldt voor gebruikers. Momenteel wordt een gebruiker die zowel via een app als op de website leest, vaak gezien als twee verschillende gebruikers omdat de cookies verschillend zijn. Daar ligt een uitdaging om te onderzoeken welke datasets bij elkaar horen.”
Ik ben blij dat jullie, ondanks dat ik expliciet aangeef niet gevolgd te willen worden, toch manieren hebben gevonden om de wet te omzeilen.

Het was al langer bekend dat Tweakers/DPG zich van de "cookiewet" niet zoveel aantrekt maar nu gaat men zelfs bezig met expliciet die wet te omzeilen. Voor een website als deze vindt ik dat op zijn minst immoreel.

Daarnaast zoals hierboven ook al enkele keren gemeld; dit soort algoritmen zijn de doodsteek voor niche informatie. ML gaat over "De grootste gemene deler" en is daarmee per definitie onbruikbaar voor mensen die op zoek zijn naar (iets) nieuws. ML heeft hele zinvolle toepassingen waar je alle gegevens op een hoop gooit en uitspraken wilt doen over die hoop. Zodra je die hoop wilt projecteren op een kleinere groep (of individu) is het compleet zinloos.

Om even een analogie te trekken; Men was bezig een algoritme te bouwen wat kanker kan herkennen. Het algoritme is 95% effectief. Het resultaat zal zijn dat 5% van de mensen met kanker, waar het door een doctor gezien had kunnen worden, zullen sterven omdat het algoritme zegt "Nope".

Helaas is Machine Learning de nieuwe hype en zal dus iedereen proberen deze "hamer" los te laten op alles wat men maar ziet. Of dat nu een spijker blijkt, een schroef, of zelfs een meloen. Bij het CBS hebben ze vooral spijkers. Bij veel IT bedrijven praat je vaker over schroeven. En dit vindt ik meer op een meloen lijken; gebruik gerust je hamer.....
Geweldig, krijgen we ook op Tweakers te maken met je gepersonaliseerde bubbel, ingevuld door AI-gegenereerd non-nieuws.

Nee, bedankt.
“ Dit model genereert op basis van één alinea hele teksten die daarmee consistent zijn. Zeker voor wie veel tekstdata heeft, biedt dit een kans om nieuwe en creatieve dingen te doen.”


Nog een keer gadverdamme.. Een nieuwssite die de computer voorgekauwde (laat me raden; en tevens SEO geoptimaliseerde) artikelen laat schrijven..? 8)7
In een tijd waarin Youtube, Instagram en Facebook juist onder vuur liggen wegens (al dan niet) polariseren door het aanbieden van persoonlijk nieuws had 'men' geen slechter moment kunnen kiezen. Het klinkt allemaal hartstikke hip dat machine learning, maar er moet gestopt worden met denken dat dit voor elke toepassing een goede oplossing is.

Nieuws moet niet volledig persoonlijk zijn, alle neuzen moeten enigszins dezelfde richting op blijven staan. Je kunt zelf al een voorselectie maken in het soort nieuws door een bepaalde site of krant te kiezen, met een bepaalde klank of politieke kleur. Dat advertenties voor tech-toys gepersonaliseerd worden is nog relatief ongevaarlijk, dit zeker niet.
Straks ook een nieuwe feature op Tweakers:

“We hebben nu nóg meer community members. 40% van de users is gebaseerd op AI zodat je nóg meer gelijkgestemden kunt vinden en connecties kunt maken!”
Komt er ook een opt-out?

Op dit item kan niet meer gereageerd worden.