Google's Gmail-app Inbox gaat antwoordopties aanbieden als 'Smart Reply'-functie. Smart Reply suggereert drie antwoorden die gebaseerd zijn op de e-mails die de gebruiker krijgt. Voor e-mails die slechts een snel antwoord nodig hebben, 'bedenkt' Inbox drie verschillende, snelle antwoorden.
In eerste instantie zal de functie alleen beschikbaar zijn in het Engels. Gebruikers die hun taal op Engels hebben ingesteld, kunnen de update 'later deze week' als update verwachten, schrijft het Gmail-team op zijn blog. Het systeem wordt 'slimmer' naarmate het meer gebruikt wordt. Als het goed is, zijn de antwoorden 'sfw' ofwel geschikt voor de werkvloer.
Om tot de antwoorden te komen, heeft Google een neuraal netwerk opgezet dat als basis voor de Smart Reply-functie dient. In een uitgebreide blogpost op Google Research beschrijft onderzoeker Greg Corrado hoe het onderzoek om tot de automatische antwoordfunctie te komen, uitgevoerd werd. Het slimme antwoordsysteem is gebouwd op twee recurrent neural networks om inkomende e-mail te coderen en een om mogelijke antwoorden te voorspellen. Het coderende netwerk 'leest' de woorden van de binnenkomende e-mail woord voor woord. Daaruit maakt het een vector of lijst met nummers. Die vector moet de essentie van wat er gezegd wordt pakken, zonder te blijven steken op taalgebruik of woordkeus. Als voorbeeld geeft Corrado dat 'Are you free tomorrow?' vergelijkbaar moet zijn voor de vector als 'Does tomorrow work for you?'. Het tweede netwerk begint vanaf die gedachtevector en maakt hiervan twee grammaticaal correcte antwoorden, ook weer woord voor woord. Het verbazingwekkende is volgens Corrado dat 'de hele handeling van het netwerk volledig geleerd is, alleen maar door het model te trainen om mogelijke antwoorden te voorspellen'.
Een van de grootste uitdagingen is dat een e-mail vaak honderden woorden lang is. Daar komt een speciaal type neurale netwerken om de hoek kijken, een zogenaamd 'long short-term-memory'-netwerk of lstm-netwerk. Dit soort netwerken onthoudt informatie voor een lange tijd, iets wat recurrent neural networks, of rnn's ook doen, maar in praktijk kunnen die slechter informatie goed koppelen die verder uit elkaar ligt. Omdat lstm's dat beter kunnen, weet dit soort netwerken een zinvol antwoord te verzinnen vanuit de relevante zinnen, zonder afgeleid te worden door tussenliggende informatie.
In het eerste prototype van het systeem zat een aantal wonderlijke reacties en andere rare grillen. Zoals het genereren van kandidaat-antwoorden leidde tot drie vergelijkbare antwoorden die heel dichtbij elkaar lagen, zoals 'zullen we morgen bij elkaar komen', 'zullen we morgen afspreken' en 'hoe zit je morgen?'. Daarna werd er een systeem om natuurlijke taal in kaart te brengen toegevoegd, waardoor antwoorden diverser werden. Maar het systeem deed meer gekke dingen, zoals standaard 'I love you' als antwoord voor te stellen, iets wat niet heel bruikbaar is als antwoord in de meeste gevallen.
Uiteraard wijst Corrado nog op de veiligheid van het systeem, dat de privacy wordt gewaarborgd en er geen echte mensen meelezen. Iets wat direct problemen oplevert voor onderzoekers, omdat ze met datasets werken die ze zelf niet kunnen lezen. Iets als 'een puzzel oplossen terwijl je geblinddoekt bent'.