Door Tweakers Partners

Dev Summit 2025: van Kafka-cluster naar Postgres: lessen in search bij DPG Media

02-10-2025 • 08:00

7

De spanning stijgt, want... de Tweakers Developers Summit 2025 is nog maar een kleine maand van ons verwijderd. Een van de sprekers die je absoluut niet wilt missen, is Querijn de Graaf, Search Engineer bij DPG Media. Met zijn team bouwt hij de zoekfunctie achter platforms als NU.nl, AD en de Volkskrant. Tijdens zijn talk deelt hij rauwe praktijklessen over search: over-engineering, simpele oplossingen én het bewaken van relevantie en transparantie in een post-LLM tijdperk. Bestel snel je kaartjes.

Querijn is Search Engineer bij DPG Media en onderdeel van SRX, een klein searchteam binnen de grotere Recommendations & Search-afdeling: de club die aanbevelingen en zoekfunctionaliteit bouwt voor uiteenlopende DPG-platforms.

SRX levert niet álle zoekmachines van het concern, maar wel het overgrote deel van de user-facing search. Ze doen search voor nieuwstitels als AD, NU.nl, Volkskrant en Het Laatste Nieuws, en voor platforms als VTM Go, Streamz, RTL Play, de search achter de interne RAG-oplossingen en ga zo maar door. Tweakers heeft op dit moment nog een eigen zoekoplossing, maar er lopen gesprekken om dat misschien ook bij SRX onder te brengen.

Een hygiënefunctie met grote impact

Hoe ziet Querijns werkweek eruit? Chaotisch, in de beste zin van het woord. Search bij DPG is geen groot succesverhaal van dé feature die iedereen dagelijks gebruikt. Het is een hygiënefunctie: essentieel, maar zelden bovenaan ieders prioriteitenlijst. Intussen is de oppervlaktespanning enorm. Het team bestaat uit drie mensen ('wat in search best groot is') en samen runnen ze heel veel infrastructuur: pipelines, api's, indexers. Een fors deel van de tijd gaat naar het overeindhouden en verfijnen van alle onderdelen, terwijl tegelijk nieuwe eisen, titels en edgecases binnenrollen.

“Je moet het hebben,” zegt Querijn, “anders gaan mensen naar Google en tikken ze ‘Volkskrant review X’. Maar het is niet belangrijk genoeg om overal op nummer 1 te staan.”

Van natuurkunde naar search

Querijn werkt inmiddels zo’n drie jaar bij DPG, waarvan het laatste anderhalf jaar in het searchdomein. Daarvoor was hij vooral met data bezig: traditioneel data-engineering, data van plek A naar plek B via plek C verplaatsen. Zijn weg naar IT was grillig maar logisch: een korte flirt met natuurkunde, starten als data-analist, daarna development bij e-commerce bureaus en een periode bij ProRail als data engineer. 'Ik had een grotere liefde voor naming conventions dan voor snelle dashboards.' Zo kwam hij in de softwarewereld terecht.

Bij DPG belandde hij via een omgekeerd sollicitatieplatform, waar bedrijven bij kandidaten solliciteren. DPG viel op door toon en transparantie: 'Het was bovengemiddeld goed. Heel open over wat niet leuk was en wat wél. En een verbazingwekkend goede tech-stack, wat ook echt waar bleek.'

Voor Querijn biedt DPG de juiste mix van tempo, schaal en maatschappelijke relevantie. Hij kent beide uitersten: de trage, procedurele wereld van grote publieke organisaties én de hypernerveuze start-upscene. 'Ik ga goed op snel schakelen, maar vind schaal, impact en relevantie ook belangrijk. We kunnen snel bewegen, mét de geoliede machine van een 800-personen IT-afdeling erachter.'

Daar komt bij dat het product ertoe doet. Search raakt alle nieuwsbrands van DPG. Het bedrijf is geen NGO, maar vervult wel degelijk een publieke functie: onafhankelijke journalistiek, een mediaproduct dat de samenleving nodig heeft. Dat zijn werk die infrastructuur beter en vindbaarder maakt, motiveert hem.

Technisch en organisatorisch ontkoppelen

Die nuchtere reflex zie je terug in de keuzes die SRX nu maakt. Het team zet in op versimpelen. 'We hebben best wel een high-tech setup en dat is hartstikke leuk,' zegt Querijn, 'maar soms is doing the simple thing doing the clever thing.' Minder onderdelen, minder onderhoud, meer focus: SRX is de architectuur flink aan het versimpelen.

Nieuws maakt dat extra complex. Het standaard relevance-tuning proces, waarbij stakeholders door middel van 'judgements' aangeven wat relevante documenten zijn voor standaard zoekopdrachten en de searchengineers vervolgens aan het algoritme sleutelen tot aan zo veel mogelijk van deze judgements voldaan wordt, werkt niet. Wat je bovenaan wilt zien bij een zoekopdracht naar ‘Trump’ verandert minimaal dagelijks, waarschijnlijk per uur. In dit 'post-LLM era' wil je bovendien transparant blijven. AI mag helpen, maar niet alles kan de blackbox in.

Versimpeling raakt niet alleen de techniek, maar ook de samenwerking. Bij search is het vaak omgekeerd: het team moet kijken wie tijd hééft voor hén. Een nieuwe api-feature heeft weinig zin als Volkskrant, AD, Parool, Trouw, NU.nl en HLN hun frontends moeten aanpassen terwijl search onderaan de prioriteitenlijst staat.

Met NU.nl testen ze daarom een list-of-lists: blokken als 'dingen die je eerder zocht', 'matches op titel' en 'net verschenen' worden centraal aangestuurd. Als SRX de titel van een blok wil aanpassen, hoeft dat niet meer langs élke frontend – eindeloos gedoe wordt zo voorkomen.

Ook op technisch vlak wordt opgeschoond. Video- en site/newssearch zijn losgetrokken: filosofisch verschillende problemen verdienen een andere pijplijn. Voor video experimenteert het team met learning-to-rank: zoekt iemand op The Dark Knight en klikt men vaker op The Dark Knight Rises, dan schuift die omhoog. Nog niet gepersonaliseerd, maar wel geautomatiseerd. Nieuws daarentegen vraagt om uitlegbaarheid: niet alles kan aan een blackboxalgoritme worden overgelaten.

De prioriteit blijft nuchter. Search is belangrijk, maar niemand neemt een abonnement omdat de zoekfunctie zo goed werkt. Simpel, stabiel en uitlegbaar wint.

Eerlijke lessen op de Tweakers Dev Summit 2025

Die drie lijnen - architectuur, organisatie en relevantie - vormen ook de kapstok van Querijns talk op Dev Summit 2025: Building Better Search: Navigating Challenges at DPG Media. Nieuwssearch is een bewegend doel: operationele last, gebruiksvriendelijkheid, relevantie en transparantie moeten voortdurend in balans blijven. Traditionele methoden schieten tekort, maar volledig leunen op blackbox-ai kan én wil je als nieuwsorganisatie niet.

Om dat duidelijk te maken, deelt Querijn ook voorbeelden van overengineering. Zo bouwde SRX ooit een forse Kafka-infrastructuur om interne redactionele zoekvragen in real time te voeden: alle cms-events door een cluster, naar een infinite-retentiontopic, als input voor de index. Eigenlijk was dat een gevolg van één architectuurkeuze die nooit zo gemaakt had hoeven worden. Het resultaat: backfills, retries, onderhoud… voor hoeveel berichten? Niet 100 miljoen per dag, waar een dergelijke opstelling voor bedoeld is, maar ongeveer 10.000. Zijn conclusie: misschien is een suffe Postgresdatabase soms precies de juiste tool.

Waarom absoluut je naar de talk van Querijn moet gaan

Waarom zouden bezoekers naar zijn talk moeten gaan? Querijn vindt dat het niet uitmaakt of je iets met search hebt. Je krijgt sowieso een blik in de machinekamer, inclusief de rafelranden die je zelden op conferenties ziet. Geen gladde succescase, maar echte praktijk. Een talk met historische keuzes, gedeelde verantwoordelijkheden en prioriteiten die niet altijd op elkaar klikken. Precies die frictie maakt het verhaal relevant: hoe kom je vooruit mét alle beperkingen?

Waar haalt Querijn tenslotte zelf zijn inspiratie vandaan? Opmerkelijk vaak uit oude bronnen, bekent hij. De laatste weken leest hij veel terug van John Carmack, de man achter Doom en Quake, maar nog altijd verrassend actueel. 'Het YAGNI-principe – You Aren’t Gonna Need It – in het kwadraat: begin niet te vroeg met toeters en bellen. De paradox: Carmacks inzichten over C++ uit 2007 zijn nog steeds toepasbaar op wat we nu doen in Python. De tools veranderen, de valkuilen zelden.'

Koop nu je kaartjes voor de Dev Summit 2025

Enthousiast geworden om Querijn en alle andere sprekers te zien en horen op de Dev Summit 2025? Scoor dan nu je entreekaartje. Helaas, de earlybirdtickets zijn inmiddels uitverkocht en ook de reguliere kaartverkoop loopt hard. Een regulier ticket kost 299 euro en je kunt nog gebruikmaken van de actie waarbij je drie tickets voor de prijs van twee kunt scoren.

Koop hier nu je tickets!

Als je werkgever de kosten voor het ticket op zich neemt, ontvang je uiteraard een factuur voor de administratie. Persoonlijke gegevens worden niet gedeeld met partners.

Ben je student? Dan bieden we graag een gereduceerd tarief aan. Ook hiervoor kun je terecht in de ticketshop.

Onze partners dit jaar

Politie DPG Media Chipsoft WvN Logitech CGI

Reacties (7)

Sorteer op:

Weergave:

Nou ik kan 1 ding zeggen: PostgreSQL is zeker niet suf of saai.

Maar eigenlijk is dat voor ieder DBMS van toepassing.

Check eens de K8s operator waar hard aan gewerkt wordt: cloudnativepg.
DBMS'n zijn inderdaad alles behalve saai. Al is het natuurlijk niet erg 'hip' ;)
Precies. Je ziet het zo vaak die hele kafka(esque) over engineering. Solicitanten zijn er ook dol op. 100mio per dag is trouwens nog steeds niks; je kan prima bv 10mio rows/sec door een postgres jassen of 100TB storage. Zo veel bedrijven komen daar al helemaal nooit aan.
Maar goed elk probleem heeft specifieke oplossingen, het is niet altijd de holy grail. Zo ook kafka en cloud etc. totdat je ineens wel ACID guarantees nodig hebt.

Ter vergelijk, wikipedia is 65mio paginas en 25GB compressed. Dat past dus gewoon makkelijk in een pg db, replicated/cached voor vele reads.

(Inf retention kafka queue klinkt idd heel eng als het gebruikt wordt voor search; kafka is geen database, het is een transport layer. Due retention is alleen voor fault tolerance eigenlijk dat je geen inflights verliest bij een crash)

[Reactie gewijzigd door Zoijar op 2 oktober 2025 09:27]

Ik heb 25 jaar met Oracle gewerkt maar ik ga Postgres steeds meer omarmen. Is echt mijn eerste keus tegenwoordig. Scheelt ook best wat in licenties.
Hehe leuke voornaam voor iemand die met databases werkt :)
Voor mij niet genoeg om naar de Dev Summit te gaan, maar lijkt me wel een interessant praatje. Wordt deze na de Summit ook ergens anders gedeeld? Anders heel jammer dat een stukje BTS/diepgang achter een héle hoge paywall gestopt wordt :o
Interessant onderwerp; maar niet om exclusief hiervoor naar de dev summit te gaan. Ben wel benieuwd hoe vectorisatie enigzins performand te krijgen is binnen DPG. Externe partijen zijn notoir traag. Maargoed, wellicht is DPG groot genoeg om enkele tienduizenden per maand te betalen voor in-house halen van een goede embedder. (VoyageAI of zoiets)

Uitdaging waar ik zelf voor sta, en eigenlijk de reden dat we geen externe partijen willen inschakelen, latency is al gauw meer dan je zou willen en nagenoeg alle endpoints die die ook maar een beetje ruiken naar AI zijn notoir onbetrouwbaar tenzij je ze in-house haalt.


Iemand nog goede boekentips? 'Relevant Seach' 9781617292774 en 'AI Powered Search' 9781617296970 -- voor diegene die op zoek zijn naar leesvoer over het onderwerp.


Om te kunnen reageren moet je ingelogd zijn