Organisaties die hun data goed gebruiken, boeken concurrentievoordelen. Dus een goede inrichting van data-infrastructuur wordt steeds belangrijker. “Maar data moet wel voorzien zijn van betekenis. Waar komt die data vandaan? Uit welke systemen komt die data en welke verbanden zijn te leggen tussen datasets? Ook belangrijk, hoe is de data governance ingericht?” Remus Lazar, Director Watson Data Platform, Data Science and Machine Learning bij IBM is dagelijks bezig met deze vragen. Hij neemt de bezoekers van zijn presentatie op de Big Data Expo in Mechelen mee op een reis langs de uitdagingen van Big Data. Het Watson Data Platform vormt de basis.
Thomas J. Watson, de oprichter van IBM, heeft een waardig naamgenoot gekregen met Watson, de supercomputer van het Amerikaanse bedrijf. Wereldwijd steken technologiebedrijven als IBM, Google en Microsoft miljarden dollars in de supercomputers van de toekomst.
Big data vs quantumcomputers
Onlangs werd er meer nieuws bekend over de ontwikkeling van een supercomputer die werkt volgens het quantumprincipe: Delftse en Eindhovense fysici schreven in het gerenommeerde wetenschappelijke tijdschrift Nature over nieuw bewijs voor het bestaan van het Majorana-deeltje. Dat deeltje zou een goede bouwsteen zijn om een quantumcomputer op te baseren. Dit betekent dat een stabiele quantumcomputer een stap dichterbij is gekomen. De Delftse natuurkundige Leo Kouwenhoven kondigde al in 2012 op een conferentie in Boston aan dat hij dichtbij de ontdekking was van dit deeltje, waar tachtig jaar tevergeefs naar was gezocht.
De Italiaanse theoreticus Ettore Majorana (1906-1938) voorspelde al in 1937 dat Majorana-deeltjes moeten bestaan. Sindsdien hebben wetenschappers er uitgebreid naar gezocht maar ze nooit gevonden. De Delftse onderzoekers kregen wel sterke aanwijzingen dat ze Majorana-achtig gedrag konden opwekken in supergeleidende chips.
IBM pakt het anders aan
IBM en Google gebruiken andere methoden en hebben inmiddels de eerste testcomputers aan de praat die op termijn wellicht kunstmatige intelligentie ondersteunen en menselijke vragen kunnen beantwoorden. Er is een wedloop aan de gang met andere technologiegiganten, zoals Microsoft. Dat heeft de hoop gevestigd op Majorana-deeltjes voor de bouw van betrouwbare quantumcomputers, omdat die in theorie zeer stabiel zijn in een geheugenchip. Dat komt door hun topologische eigenschappen. Om wiskundige redenen kunnen Majorana-deeltjes niet van toestand veranderen.
Interpretatie van big data
Alle supercomputers draaien om de interpretatie van grote hoeveelheden data. Logischerwijze hét centrale thema van de Big Data Expo. Bijzonder aan het Watson-dataplatform van IBM is dat het zich al bewezen heeft in de praktijk. Watson deed in februari 2011 mee aan het tv-programma Jeopardy!, een tv-quiz waarbij kandidaten geld kunnen winnen als ze als eerste vragen correct beantwoorden. Deze Amerikaanse quiz kent een Vlaamse variant onder de naam Waagstuk, een spelprogramma op de Belgische zender VTM in de jaren ’90.
Watson wint Jeopardy!
De eerste versie van Watson, die werd ontwikkeld in 2007, wist slechts de helft van de vragen correct te beantwoorden. Om de beste menselijke deelnemers te verslaan, moest hij 90 procent van de antwoorden goed hebben. Watson moest dan bijvoorbeeld ironie en raadsels herkennen, iets waar computers meer moeite mee hebben dan mensen. In februari 2011 deed Watson opnieuw mee aan Jeopardy! en nam hij het op tegen de twee grootste spelers uit de geschiedenis van het programma: Brad Rutter en Ken Jennings. Rutter speelde in de eerste ronde nog gelijk tegen Watson maar de supercomputer van IBM won vervolgens alle andere rondes overtuigend. De eindstand van de driedaagse competitie was: Watson: $77.147, Jennings: $24.000 en Rutter: $21.600. Twee weken na zijn succesvolle tv-optreden nam Watson het in een proefwedstrijd van Jeopardy! op tegen vijf leden van het Amerikaanse Congres. Watson won ook deze wedstrijd ($40.300-$30.000) maar verloor wel van het congreslid Rush D. Holt, Jr., een oud-deelnemer.
Zelflerend systeem
Watson bestaat uit een zelflerend systeem, dat een in spreektaal gestelde vraag kan interpreteren. Het gebruikt een verzameling van encyclopedieën, boeken, tijdschriften, wetenschappelijke artikelen en gedownloade websites om binnen enkele seconden een goed antwoord op vragen te geven. Watson maakt gebruik van op maat gemaakte 'diepe-vraag-en-antwoordsoftware' die verder gaat dan conventionele kunstmatige intelligentie. Watson berekent ook de betrouwbaarheid van zijn antwoorden, wat de goede scores verklaart bij de Jeopardy!-quiz.
Big data-uitdagingen
Remus Lazar legt uit hoe IBM met Watson inspeelt op de uitdagingen van big data: “Watson begon als een intern project. Sinds september 2016 stellen we dit platform ook beschikbaar voor extern gebruik. Engineers, applicatieontwikkelaars en businessanalisten kunnen deze gebruiken om hun eigen big data-toepassingen te ontwikkelen. Wij spelen in op hun behoeften door de toegangscontrole optimaal te regelen. Uiteraard voldoet de governance, het toezicht op en het beheer van onze datasets en analysemodellen, aan de eisen die de Europese Unie hieraan stelt via de gdpr-wetgeving. In onze zwaarbeveiligde datacenters in Londen en Frankfurt kan IBM data betrouwbaar en redundant opslaan en beschikbaar stellen aan onze klanten voor analyses en onderzoek voor pipeline computing.
Volgens Lazar krijgen ontwikkelaars, engineers en businessanalisten door de combinatie van big data en machine learning voorheen ongekende instrumenten om kunstmatige intelligentie naar een hoger plan te tillen. “Maar het is dan wel belangrijk om eerst goed na te denken over de implicaties die technologie gaat krijgen voor ons leven. IBM heeft een lange geschiedenis op dit gebied en kan data op vele manieren toegankelijk maken, rekening houdend met de risico’s. Computers zullen steeds beter in staat zijn om in gewone taal te communiceren met mensen. In mijn presentatie zal ik uitleggen hoe IBM organisaties helpt het beheer van de benodigde data te vereenvoudigen om er grip op te houden.”