Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie
Advertorial

Door Tweakers Partners

Hoe datascientist Damiaan Zwietering (IBM) een covid-model maakte

16-09-2020 • 08:00

16 Linkedin

Damiaan Zwietering, datascientist en developer advocate bij IBM, ontwikkelde de afgelopen maanden een model dat cijfers over de dagelijkse covid-besmettingen in een land of regio kan interpreteren. Welke overwegingen maakt hij bij het interpreteren van data en het modelleren ervan?

Het model is nog in ontwikkeling, maar blijkt nu al het beloop van het aantal besmettingen in verschillende landen behoorlijk goed in kaart te brengen. Het grote verschil met andere modellen en statistische analyses is dat het model op basis van voortschrijdend inzicht het verloop van afzonderlijke besmettingsgolven kan analyseren. Dit geeft bijvoorbeeld inzicht bij de vraag of hoge nieuwe besmettingscijfers het gevolg zijn van een nieuwe megagolf, of een optelsom vormen van meerdere afvlakkende kleinere golven. Het model kan geen nieuwe golf voorspellen. Zo was op basis van het model al te zien dat de alarmerende cijfers rond het aantal nieuwe besmettingen in Nederland een optelling waren van meerdere kleinere golven, en dat verwacht mocht worden dat de aantallen geleidelijk terug zouden lopen. In een ander land (Australië) was echter direct duidelijk dat de cijfers duidden op het begin van een nieuwe golf die zou optreden als overheidsingrijpen uitbleef.

Zwieterings rol als IBM-developer advocate vormde de aanleiding om met de covid-data aan de slag te gaan. “Ik ben al zo’n vijfentwintig jaar met datascience bezig en kijk naar hoe je technologie, bij voorkeur opensource, inzet voor verschillende vraagstukken. Ik zag in januari de nieuwe uitbraak in China en vond het direct interessant materiaal. Er is volop openbare data beschikbaar, onder meer van het EU Center for Disease Control (EU CDC). Bovendien is mijn vrouw verpleegkundige. Zij werkte op een gegeven moment met patiënten in volledige isolatie. Mij leek het wel mooi als ik vanuit mijn studeerkamer daar ook een bijdrage aan kon leveren. Als startpunt nam ik de vraag: ‘Hoe ziet het verloop van een uitbraak eruit?’ Vervolgens ben ik gaan kijken hoe dit was te relateren aan de maatregelen die verschillende landen namen. Denk daarbij aan de strenge lockdown in Frankrijk, of de juist heel minimale maatregelen in een land als Zweden.”

Denk na over de dataset

De werkwijze van Zwietering is om altijd bij voorkeur te starten met minimale datasets. “Veel mensen hebben de neiging om aanvankelijk grote hoeveelheden data te verzamelen en dan pas te kijken wat erin zit. Het lastige is dat je dan ook veel willekeurige verbanden vindt, waardoor de data lastig zijn te duiden.” In het geval van covid maakte het model aanvankelijk slechts gebruik van drie kolommen: locatie, aantallen, en de datum van nieuwe besmettingsgevallen. Het gaat hier om open data die niet aan een persoon zijn te relateren. Tegelijkertijd is de dataset zo breed mogelijk, met data uit 180 landen. “Daardoor is het model op verschillende niveaus toepasbaar. Dit is ook waarom je niet zomaar een kolom toevoegt; je hebt dan al snel te maken met informatie die je niet voor alle landen hebt. Het beste is om te zoeken naar de grootste gemene delers tussen landen, om te voorkomen dat er ergens bias ontstaat in je model. Het mooie van zo’n brede dataset is ook dat situaties per land sterk verschillen. Als je overeenkomsten vindt, kun je er daardoor van uitgaan dat ze algemeen geldend zijn.”

Het mooie is dat je met weinig data toch veel kunt leren. “In dit geval heeft het echt fantastisch gewerkt. Als je kijkt naar de situatie in Nederland, is er sprake van aparte golven die verschillende uitbraken laten zien. Er was carnaval in Brabant, toerisme in Amsterdam, het Offerfeest in Rotterdam, en Pinksteren, Pasen en Moederdag, om een paar voorbeelden te noemen. We zagen allerlei uitbraken die gerelateerd waren aan een datum en een plek.” Dit vormde de eerste stap. In de door Tweakers en IBM georganiseerde workshop over machinelearning en modelleren, die op 22 september plaatsvindt, zal Zwietering laten zien hoe je een omgeving opzet waarin je vragen aan data kunt stellen. “Met Python en Jupyter Notebooks is daar een goede interactieve omgeving voor, waarin je data kunt inladen en visualiseren.”

Inspiratie uit de industrie

Een probleem bij het modelleren van de data is dat er geen kant-en-klare oplossing is die je op een vraagstuk loslaat waarna de antwoorden verschijnen. “Er is niet zoveel beschikbaar. Je kunt wel met Time Series gaan werken en ziet dan ook al direct een weekpatroon, maar daar leer je niet erg veel van. Dat patroon zie je met het blote oog ook wel. Wat ik wil weten, is hoe een uitbraak piekt en weer uitdooft.” Op zoek naar alternatieven kwam Zwietering uit in de wereld van predictive maintenance. “Dat klinkt gek,
maar iedereen heeft het steeds over de R-waarde, dus de kans dat jij vandaag besmet wordt. Nou, bij predictive maintenance kijkt men niet naar de kans dat een machine kapot gaat, maar naar de verwachte Het probleem is natuurlijk dat een mens geen machine is en er verschillende curves bestaan binnen predictive maintenancetijd voordat het ding storing krijgt: de time to failure. Vergelijkbare machines vertonen steeds een vergelijkbaar verloop. Daar zit veel wiskunde achter en er is veel over gedocumenteerd.”

Op basis van dit idee vroeg Zwietering zich af of hij de modellering van predictive maintenance kon gebruiken voor de vraag ‘Hoelang duurt het voordat een persoon besmet raakt met covid?’ “Het probleem is natuurlijk dat een mens geen machine is en er verschillende curves bestaan binnen predictive maintenance. Deze curve verloopt iets anders dan in het geval van een virusuitbraak. Daarom ben ik verder gaan kijken, bijvoorbeeld naar de verzekeringswereld. Ook daar werkt men veel met modellen, bijvoorbeeld over levensverwachting. Deze heb ik bestudeerd, inclusief aangrenzende gebieden zoals survival analysis met betrekking tot verschillende andere ziekten. Als model heb ik de Gumbel-distributie toegepast die in de wereld van de statistiek wordt gebruikt voor het modelleren van uitzonderlijke situaties, zoals zware aardbevingen. Als je deze vorm uittekent, kom je op een curve uit die sterk lijkt op het verloop van covid.”

Verloop uitbraken zichtbaar in model

Het modelleren speelde zich volledig af in Python en Jupyter Notebooks, met “stukjes machinelearning van de plank”. Deze combineerde Zwietering om curves te detecteren. “Daaruit bleek dat je, door één laag onder de hoofdcurve te kijken, met deze aanpak in staat bent om de afzonderlijke golven te detecteren die opgeteld de gehele curve vormen. Ik kan nu heel duidelijk zien waar we ons bevinden. Midden in een grote golf of juist in een staartje. En omdat ik nu begrijp hoe zo’n golf werkt, kan ik projecteren naar de toekomst.” Het woord ‘voorspellen’ neemt Zwietering bewust niet in zijn mond. “Ik kan niet weten of er dit weekend tweehonderd jongeren onder een viaduct staan te feesten. Maar ik kan wel laten zien waar we nu zitten en hoe de uitbraak verder verloopt. En dat is nog steeds volledig op basis van de beperkte dataset waarmee ik ben begonnen.”

Het model is inmiddels bruikbaar voor besluitvormers, als tool op basis van waargenomen cijfers om een inschatting te maken of extra maatregelen nodig zijn om uitbraken te bestrijden. “Natuurlijk resulteren extra maatregelen er wel in dat de cijfers lager uitvallen dan geprojecteerd. In die zin zorgt het model voor zijn eigen ‘self-denying prophecy’.” De Nederlandse cijfers over de afgelopen maanden zijn in een heatmap te bekijken op Zwieterings’ homepage. Inmiddels is Zwietering ook alvast een ander spoor ingeslagen, door een zwaarte-index te maken van covid-uitbraken per land, gekoppeld aan een dataset met de genomen maatregelen. “Daarin is direct zichtbaar dat een strenge lockdown in sommige landen effect heeft gehad.”

Programma webinar 22 september

18:30 - 19.30 - Interactie live-sessie
19:30 - 19:45 - Video-break
19:45 - 20:15 - Intro workshop
20:15 - 21:15 - Workshop
21:15 - 21:45 - Bespreking en afsluiting

Meer weten? Meld je aan!

Meer weten over kritisch kijken naar data en modelleren? Volg dan op 22 september het door Tweakers en IBM georganiseerde webinar met workshop. Het mappen en verkennen van data komt hierin uitgebreid aan bod en je krijgt volop de ruimte om te werken aan je skills op dit gebied. Inschrijven kan via de poll hieronder.

IBM-webinar

Poll

De opties zijn uitgeschakeld omdat je niet ingelogd bent

Voorwaarden:

  • Je Tweakers-account moet voor 15 september 2020 geactiveerd zijn.
  • Meedoen kan tot 20 september 2020 08:00 uur, alleen via de poll.
  • Alleen ingelogde bezoekers kunnen deelnemen.
  • Je kunt één keer aan de poll deelnemen.
  • Aanwezigen krijgen uiterlijk 21 september 2020 bericht per mail in de vorm van een officiële uitnodiging. Niet-aanwezigen ontvangen geen bericht.
  • Aanwezigen worden at random geselecteerd. Over de uitslag wordt niet gecorrespondeerd.
  • Deelnemers zijn op dinsdag 22 september 2020 beschikbaar om het gehele programma te volgen.
  • De uitnodiging voor het evenement is strikt persoonlijk en kan niet worden overgedragen.
  • Er is plek voor 160 personen.
  • Klachten kunnen via klachten@tweakers.net ingediend worden.
  • Medewerkers van Tweakers & IBM zijn uitgesloten van deelname.

Dit artikel is geen redactioneel artikel, maar een advertorial en tot stand gekomen dankzij IBM en Tweakers Partners. Dit is de afdeling binnen Tweakers die verantwoordelijk is voor commerciële samenwerkingen, winacties en Tweakers-events zoals Meet-ups, Developers Summit, Testfest en meer. Kijk hier voor een overzicht van alle acties en events. Mocht je ideeën met ons willen delen over deze vorm van adverteren, dan horen wij dat graag. Hierover kun je met ons in gesprek via [Discussie] Reclame algemeen].

Reacties (16)

Wijzig sortering
Ik ben helaas die avond verhinderd, maar heb me toch aangemeld, hoop nl. dat er een (video) opname van de sessie komt, ben nl. wel erg nieuwsgierig naar de sessie en de gedachten die gebruikt worden!
Mij interesseert het ook, maar aangezien het aantal plaatsen beperkt is, lijkt het me beter om eerst te laten inschrijven wie effectief aanwezig kan zijn (ik bevind me namelijk in dezelfde situatie als jij).
Ja kan overal een model op loslaten; of het succesvol is, is een heel ander verhaal.

Er lopen veel trading algoritmes mee op de beurzen en de meesten zijn niet (erg) winstgevend en / of richten zich alleen op day trading. De algortimes zijn behoorlijk simpel van aard (kijken alleen naar waardering / verloop in waardering / verhouding tot andere aandelen) en moeten het vooral hebben van de snelheid waarmee ze kunnen traden. Dit soort algoritmes werken op basis van heuristieken en hebben meestal geen diepe machine learning component; dat zou de snelheid er teveel uithalen.

Complexere algoritmes zijn ongetwijfeld ook geprobeerd, maar de beurs is toch een extreem complex samenspel van factoren / psychologie. Nieuws bijvoorbeeld speelt een grote rol, maar is lastig samen te vatten door een algoritme (maar NLP maakt zeker mooie stappen de laatste jaren). Verder is de conjunctuur voorspellen op een redelijk lange termijn ook niet heel eenvoudig. En de grootste dalingen / stijgingen op de beurs komen toch van onverwachte en onbekende gebeurtenissen en deze zijn per definitie lastig te voorspellen (helemaal op basis van historische data).

M.a.w. ja er is wel wat mogelijk, maar met fancy AI heeft het (nog) niet veel te maken :)
@Tweakers Partners Omdat ik dinsdagavond zelf verhinderd ben en het aantal plaatsen beperkt zijn tot 160, wil ik niet zomaar iemands plaats innemen die wél aanwezig zou kunnen zijn. Komt er een recording van de webinar nadien online, samen met de data om mee te spelen? En kunnen we ons daarvoor eventueel aanmelden (al is het nu misschien wat laat om daarvoor een derde optie toe te voegen).


Om te kunnen reageren moet je ingelogd zijn


Apple iPhone SE (2020) Microsoft Xbox Series X LG CX Google Pixel 4a CES 2020 Samsung Galaxy S20 4G Sony PlayStation 5 Nintendo Switch Lite

'14 '15 '16 '17 2018

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2020 Hosting door True