Microsoft opende in de afgelopen zomer een onderzoeksinstituut voor het bestuderen van moleculen met behulp van machinelearning. De onderzoekers hopen met verschillende modellen en datasets te onderzoeken hoe die in elkaar zitten. Tweakers sprak met professor Max Welling, die het instituut gaat leiden.
Jullie zijn deze zomer begonnen met een machinelearninglab. Hoever zijn jullie nu met het opstarten?
"We doen in Amsterdam onderzoek waarbij verschillende wetenschappen bij elkaar komen. Het gaat behalve om machinelearning bijvoorbeeld om high performance computing en computerwetenschappen, maar ook om chemie en natuurkunde. Nederland is daar zelf erg goed in, maar ook in computationele scheikunde en biologie en machine learning zelf. Er zijn hier dus veel mensen om mee te praten, wat we nu ook doen. Op dit moment zijn we ook veel in gesprek met bedrijven in zowel Nederland als internationaal, om te kijken wat voor soort samenwerkingen we op technologisch gebied kunnen aangaan."
Hoe gebruiken jullie machinelearning om moleculen te bekijken?
Het onderzoek moet de samenstelling van moleculen met machinelearning in kaart brengen
"We beginnen met het in kaart brengen van de structuur en werking van moleculen. Die bestaan uit atomen die je kunt zien als kraaltjes die willen bewegen in een krachtenveld. Die bewegingen willen we proberen te voorspellen. Zo kunnen we bijvoorbeeld de 3d-structuur berekenen die atomen in een molecuul aannemen. Daarvoor moet je kunnen uitrekenen wat de krachten zijn die op een atoom werken. Elk atoom ondervindt krachten van bijvoorbeeld andere atomen of van zijn omgeving, maar belangrijker nog, van elektronen eromheen. Die elektronen zijn erg licht en snel, en je moet hun bewegingen zien als een wolk. Wat wij uitzoeken, is berekenen welke krachten in atomen voorkomen, waar die op reageren en wat er daarna weer gebeurt."
"Dat hele proces gebeurt op quantummechanisch niveau en je hebt quantumcomputers nodig om die met heel hoge precisie te kunnen berekenen. Klassiek is het moeilijker om dit soort berekengen heel accuraat te doen voor grote moleculen met veel electronen. Maar met behulp van machine learning modellen die getraind worden op data van dure simulaties kan je het proces verbeteren en versnellen."
"Het doel van ons onderzoek is om zoveel mogelijk technologie te kunnen opzetten voor anderen om te gebruiken. We gebruiken daarvoor de kracht van compute clouds in Azure om berekeningen op grote schaal uit te voeren. De verschillende berekeningen die we doen, hebben allemaal hun eigen technieken nodig. We doen veel verschillende simulaties op datasets. Het idee is dat we het genereren van data met die simulaties in de cloud kunnen doen. Dat zijn high performance computer-berekeningen met cpu's, maar ook gpu's. Vervolgens gebruiken we die resultaten als data om de machinelearningmodellen verder te trainen op grote gpu-clusters. Dat laatste kun je vergelijken met hoe bijvoorbeeld de community's rondom natural language processing of machinevision nu al werken."
Proberen jullie dan zelf quantumberekeningen na te bootsen?
"Quantummechanische berekeningen uitvoeren is op dit moment niet mogelijk. Die computers zijn daar pas over tien jaar echt goed genoeg voor. Dus moeten we het nu nog doen met enorme cloudinfrastructuren waarmee we quantumberekeningen kunnen benaderen. Je krijgt dan een emulator. Geen simulator, want daarmee boots je de fysische processen zelf na, maar een emulator die de input en output van een quantummechanisch proces kan nabootsen. Die kijkt wat erin gaat en wat eruit komt. Als je dat vaak genoeg doet, kun je quantumberekeningen nabootsen."
"Er zijn al heel nauwkeurige benaderingen die zijn opgesteld door chemici en natuurkundigen. Die zijn altijd op zoek naar de juiste chemical accuracy. Je wilt een bepaald niveau bereiken om nuttige voorspellingen te kunnen doen, die altijd binnen die accuracy uitkomen. Ze gebruiken bijvoorbeeld density functional theory. Dat levert een redelijk goedkope benadering van die berekeningen op, die soms goed genoeg is."
Welke data gebruiken jullie?
"Voor de berekeningen zelf bestaan er al databases waarbij quantummechanische processen zijn nagebootst. Zo is er het Materials Project of het OC20-project van Facebook en de Carnegie Mellon Universiteit. Die hebben al honderden miljoenen simulaties uitgevoerd om quantummechanica na te bootsen, maar je moet aan een nóg grotere schaal denken. Ook bij Microsoft gaan we meer van zulke simulaties doen. Die zetten we in een database en daar bouwen we een platform bovenop."
/i/2004777812.webp?f=imagenormal)
"Er zijn ook datasets die specifiek data hebben over molecuuleigenschappen, zoals QM9. Zulke databases, en de nieuwe die we nog willen aanleggen, bevatten veel eigenschappen van moleculen. Het gaat dan bijvoorbeeld over thermodynamische eigenschappen, zoals de grondtoestand of hoe een molecuul zich met een ander bindt, maar ook hoe toxisch het bijvoorbeeld is."
Binnen machinelearning bestaan modellen die je zelf kunt laten leren met vrijwel geen informatie, maar ook modellen die je eerst van data moet voorzien. Hoe werkt dat bij de modellen die jullie gebruiken?
"Machinelearning kent inderdaad altijd een spel waarbij je het model zoveel mogelijk kennis moet meegeven over hoe de wereld in elkaar zit. Die aannames heten inductive biases. Hoe meer van zulke aannames je in een model stopt, hoe minder data je nodig hebt om tot een bepaald resultaat te komen. Dat zag je aanvankelijk bij natural language processing of nlp. Dat gebruikte modellen over taal die maar bij benadering correct zijn., maar het bleek dat hoe meer data je erin zette, hoe preciezer het werd. Dat spel is er altijd bij machinelearning; als je niet zoveel data hebt, moet je veel aannames doen. Als je wel veel data hebt, kun je die aannames wat loslaten."
Hoe zit het met het onderzoek zelf? Wat voor soort machinelearning doen jullie?
"Er zijn sommige machinelearningmodellen die beter zijn dan anderen. Het best geschikt zijn graph neural nets. Dat is omdat moleculen een graphstructuur hebben, of punten die met interactielijntjes aan elkaar zitten. Een belangrijke eigenschap van modellen heet equivariantie. Dat is het principe dat de eigenschappen van een molecuul niet veranderen als je het molecuul op z'n kop draait. De oriëntatie en locatie in een ruimte mogen geen invloed hebben op het molecuul. Dat moet je het neurale netwerk vooraf vertellen; je moet dat hardcoden in het model en die techniek hebben we in Amsterdam ontwikkeld."
/i/2004777814.png?f=imagenormal)
Wat is het einddoel? Wat hopen jullie te ontdekken?
"Ons onderzoek richt zich vooral op twee toepassingen: farmaceutische en toepassingen rondom klimaat. Denk aan onderzoek waarbij je zoekt naar een bepaald medicijn met eigenschappen X en Y. Dan kun je een neuraal netwerk gebruiken om te voorspellen of een medicijn met een specifieke structuur zich bindt aan een ziektekiem. Het farmaceutische gedeelte is vooral waar ook in Cambridge aan gewerkt wordt. Hier in Amsterdam werken we daarnaast aan klimaattoepassingen. Dat kan gaan om het ontdekken van betere katalysatoren voor waterstof, het ontdekken van nieuwe materialen om koolzuur uit de lucht te halen, of het ontwikkelen van nieuwe, afbreekbare plastics. Er zijn veel dingen die je kunt doen met deze technologie."
Die medicijnen en plastics ontwikkelen jullie niet zelf. Wat is jullie rol in dat onderzoek?
"Wij verbeteren de technologie die chemici en biologen nu gebruiken in hun onderzoek. We vragen welke behoefte er is vanuit de community, vanuit bedrijven en bij andere wetenschappers. Als we goede modellen voor ze hebben, kunnen ze die gebruiken of we maken ze open source beschikbaar. Dat doen we door te praten met bedrijven die bijvoorbeeld aan de energietransitie werken. Als we van hen horen dat ze zoeken naar een nieuwe soort katalysator, dan vragen we welke technieken ze nodig hebben waar wij het best bij kunnen helpen."