De non-profit OpenAI heeft een taalmodel getraind dat bijvoorbeeld coherente teksten schrijft door telkens het volgende woord te voorspellen, op basis van alle voorgaande woorden in een tekst. De onderzoekers brengen het model niet uit, uit angst voor misbruik.
OpenAI noemt zijn model GPT-2. Het taalmodel heeft 1,5 miljard parameters en is getraind op een dataset van acht miljoen webpagina's. GPT-2 scoort volgens de onderzoekers beter op taken voor taalmodellen dan modellen die getraind zijn op specifieke domeinen. De onderzoekers kozen er niet voor om hun dataset te baseren op alleen nieuwsartikelen, Wikipedia-lemma's of boeken, om hun dataset zo groot en divers mogelijk te houden.
In plaats daarvan schraapten ze alle uitgaande links van Reddit die minstens drie karma hadden ontvangen. "Dit kan gezien worden als een heuristische indicator dat andere gebruikers de link interessant, leerzaam of gewoon grappig vonden", schrijven ze in hun white paper. Wikipedia-pagina's haalden ze eruit, omdat deze vaak voor andere datasets gebruikt worden. Het resultaat was een tekstbestand van 40GB dat ze Webtext noemen.
Door hun taalmodel hierop te trainen kwamen ze naar eigen zeggen op een model dat voor veel taken over verschillende domeinen in te zetten is. Ze geven als voorbeeld het beantwoorden van vragen, het maken van samenvattingen en het leveren van vertalingen, waarbij het voordeel is dat het model dit leert op basis van ruwe tekst in plaats van specifieke trainingsdata.
OpenAI demonstreert hun taalmodel met het schrijven van verschillende teksten waarbij als doel was meegegeven dat simpelweg het volgende woord voorspeld moet worden op basis van een gegeven tekst: de basis is steeds een korte door mensen geschreven tekst, die het model vervolgt. Daarbij neemt het model de stijl en de inhoud over. Dat gaat niet altijd goed, geven de onderzoekers toe en vooral bij technische onderwerpen presteert het model niet goed, maar in veel andere gevallen en soms na meerdere pogingen gaat het bij de synthetische teksten om realistische artikelen. Door GPT-2 op specifieke datasets te trainen is het model te finetunen. OpenAI geeft als voorbeeld het schrijven van reviews door te trainen op Amazon Reviews.
Tegen de Guardian zegt Jack Clark van de non-profitorganisatie dat het getrainde model niet vrijgegeven wordt om eerst duidelijk te krijgen wat het wel en niet kan doen. "Er zijn veel meer mensen dan wij die beter zijn bij het bedenken wat voor kwaadaardigs het kan doen." In plaats daarvan brengt OpenAI een kleiner model uit op GitHub waarmee onderzoekers kunnen experimenteren.
OpenAI is een organisatie die gericht is op onderzoek naar verantwoorde inzet van kunstmatige intelligentie en daarbij ondersteund wordt door onder andere Microsoft, Nvidia, GitHub en Elon Musk.