Als nieuwsconsument blijf je graag op de hoogte van belangrijke nieuwsevents, door middel van een pushmelding op het moment dat dit relevant is. Bij de meeste mediatitels zijn deze meldingen nog niet gepersonaliseerd en worden ze handmatig geselecteerd door de redacties. DPG Media (uitgever van onder andere De Volkskrant, AD, Tweakers, VTM en Donald Duck) onderzoekt daarom de inzet van machinelearning en technologieën zoals elasticsearch, Kubernetes, Terraform en Spark. Tweakers is overigens geen onderdeel van deze test en zal dat ook niet worden.
Het project Personalised Push van DPG Media maakt deel uit van een breder initiatief dat de mogelijkheden onderzoekt van het verder personaliseren van content. Een team van twaalf developers is hiermee bezig, verdeeld over drie subteams die zich onder andere richten op het analyseren van datapatronen (zowel voor gebruikers als voor content) en het ranken van content om middels machinelearning de best passende artikelen voor gebruikers te selecteren. “Er is ongelooflijk veel content beschikbaar, maar deze is niet voor iedereen even relevant”, verklaart machinelearning-developer Aron Hammond. “Sommige grote nieuwsevents zijn relevant voor iedereen. Maar er zijn ook veel niche-onderwerpen die mensen interessant vinden, en die interesse verschilt per gebruiker. Als wij kunnen leren wat die niches zijn, kunnen wij de waarde van push daarvoor leveren.”
Uitdagingen in content en gebruikers
De hamvraag is natuurlijk: wat moet hiervoor gebeuren? “Het idee is op zich vrij simpel. Aan de ene kant zijn er artikelen met bepaalde onderwerpen en aan de andere kant zijn er de gebruikers die geïnteresseerd zijn in bepaalde onderwerpen. Maar om het echt uit te voeren, in een continue stroom van nieuwe content, moeten we deze verrijken met metadata. Daarvoor analyseren we content met verschillende machinelearning-modellen, waaronder natural language processing (nlp). Hetzelfde geldt voor gebruikers. Momenteel wordt een gebruiker die zowel via een app als op de website leest, vaak gezien als twee verschillende gebruikers omdat de cookies verschillend zijn. Daar ligt een uitdaging om te onderzoeken welke datasets bij elkaar horen.”
Behalve het analyseren van de content en de gebruiker is het ranken een grote uitdaging. De kunst is hier om te evalueren of gemaakte voorspellingen op basis van verrijkingen en modellen die op content zijn toegepast ook het meest relevant zijn voor de gebruiker. “We moeten vooral de juiste conclusies trekken uit impliciete signalen, zoals welke content geopend en gelezen is. Daar maken we een datalabel van dat we gebruiken voor historische datasets van gebruikers en hun leesgeschiedenis. Op basis van deze datasets proberen we vervolgens de hypothese steeds te verbeteren, door te kijken naar verschillen in leesgedrag tussen wel en niet aangeraden artikelen. Met de conclusies die we daaruit trekken, passen we de labels aan en trainen we steeds het volgende nieuwe model. Zo is er sprake van een continue feedbackloop, waardoor de voorspellingen steeds beter worden.”
Complexe en schaalbare infrastructuur nodig
Het bovenstaande vertelt een versimpelde weergave van het proces, waar nog veel meer bij komt kijken. De door DPG Media gebruikte infrastructuur is er bijvoorbeeld op ingericht dat gebruikers niet overspoeld worden door pushnotificaties en dat zij deze ontvangen op relevante momenten. Op verschillende momenten worden ook nog eens verschillende modellen naast elkaar gedraaid om te testen welke beter werken. “Hier hebben wij een eigen service voor geschreven en bouwen en onderhouden we een, vind ik, best complexe infrastructuur. Er gebeurt hier ongelooflijk veel met onder meer AWS en tooling zoals Kubernetes en Docker. Machinelearning in de vorm waarin wij het gebruiken, kan niet zonder zo’n schaalbare infrastructuur. Daar wordt dan ook veel energie in gestoken.”
De push-pipeline waar Hammond nu aan werkt, is ingericht naar het AD. Naast het genoemde Kubernetes en AWS maakt de architectuur ook gebruik van onder meer Kafka, elasticsearch, Terraform en Spark, voor onder meer het verrijken en classificeren van content, A/B-testen en het pushen van nieuws events. Voor het machinelearning-gedeelte houden de teams bij DPG Media nauwlettend de ontwikkelingen op mlops-gebied in de gaten. “In vergelijking met devops, met veel volwassen tooling, is mlops nog een beetje het Wilde Westen. Maar er gebeurt al wel veel, er is bijvoorbeeld MLflow. Dat is een opensource-project voor het loggen van training voor modellen, het instellen van parameters en het behouden van het overzicht over modellen die in productie zijn.”
Verschillende paradigma’s in beeld
De modellen van DPG Media maken gebruik van verschillende machinelearning-paradigma’s, zoals het al genoemde nlp en ranking, maar ook van collaborative filtering, ranking en information retrieval. “Collaborative filtering sluit aan op het idee dat je vaak geen expliciete feedback hebt van gebruikers. Het is een manier om met losse properties verbanden te leggen en voorspellingen te kunnen doen over combinaties die je nog niet hebt geobserveerd. Een voorbeeld daarvan is het voorspellen van de rating die je zou geven aan een bioscoopfilm die je nog niet hebt gezien, gebaseerd op je IMDB-ratings voor andere films en de ratings voor deze films van andere IMDB-gebruikers die de bewuste bioscoopfilm wél hebben gezien en beoordeeld.”
Met de genoemde ranking combineert Hammond data van gebruikers met data over content. Deze activiteit valt binnen het paradigma van information retrieval, evenals search, wat neerkomt op het combineren van een query met content. “Veel technologieën op dit gebied zijn we nog aan het onderzoeken. En dat geldt bijvoorbeeld ook voor nlp, een gebied waarbinnen nu ontzettend veel gebeurt. Neem GPT-3 van OpenAI. Wat ze daarmee nu naar buiten brengen als je de interactieve voorbeelden bekijkt, dat is echt ongelooflijk. Dit model genereert op basis van één alinea hele teksten die daarmee consistent zijn. Zeker voor wie veel tekstdata heeft, biedt dit een kans om nieuwe en creatieve dingen te doen. Wij gaan als proef ook zo’n model gebruiken om onderzoek te doen naar onze data.”
Vinger aan de pols bij de wetenschap
Initiatieven als deze, evenals de schaal waarop ze worden toegepast, spreken Hammond aan. “Ik ben hier bezig met ongeveer dezelfde concepten als in mijn vorige baan, maar dan wel echt on steroids. We zijn veel bezig met ongestructureerde data en state-of-the-art-toepassingen die soms nog niet altijd direct in productie kunnen. Dat doen wij met het idee in ons achterhoofd dat als dit eenmaal wél mogelijk is, wij hiervoor de benodigde expertise hebben opgedaan. Er is binnen mijn team veel ruimte voor onderzoek en discussie, er is zeker geen blinde focus op alleen maar directe stakeholder value produceren. Dat geeft mij en mijn collega’s echt een prikkel om enthousiast te blijven, de vinger aan de pols te houden bij wat er gebeurt op wetenschappelijk gebied, en ons te blijven verdiepen in wat er speelt op het gebied van machinelearning."
DPG Media IT is partner bij de Digital Tweakers Meet-up A.I. Meer weten over machinelearning? Schrijf je dan nu in voor de Tweakers Digital Meet-up AI op 11 februari 2021! Je kunt hier onder andere in gesprek met de developers van DPG Media en vele andere organisaties die bezig zijn met AI.
Interesse om bij DPG Media te komen werken? Heb je een vraag, een opmerking of wil je gewoon graag jouw opties bekijken? Check de vacatures op de website van DPG Media IT voor Nederland of België, en neem gerust contact op met ons Recruitment Team:
Recruitment Team:
Lino Vandoorne (BE) - lino.vandoorne@dpgmedia.be
Mark van Dommelen (NL) - mark.van.dommelen@dpgmedia.nl
Edit:
- In de inleiding maken we duidelijk dat Tweakers geen onderdeel is van de test van DPG Media IT, en zal dit ook niet worden.
- Aangegeven dat DPG Media IT partner is bij de Digital Tweakers Meet-up.
Dit artikel is geen redactioneel artikel, maar een advertorial en tot stand gekomen dankzij DPG Media IT en Tweakers Partners. Dit is de afdeling binnen Tweakers die verantwoordelijk is voor commerciële samenwerkingen, winacties en Tweakers-events zoals Meet-ups, Developers Summit, Testfest en meer. Kijk hier voor een overzicht van alle acties en events. Mocht je ideeën met ons willen delen over deze vorm van adverteren, dan horen wij dat graag. Hierover kun je met ons in gesprek via [Discussie] Reclame algemeen].