Een nieuwe Amerikaanse start-up genaamd Cognition heeft een AI-software-engineer ontwikkeld die volgens het bedrijf helemaal autonoom kan werken. De tool is nog niet breed beschikbaar; wie de engineer wil inhuren, komt op een wachtlijst.
De AI-engineer heet Devin en moet verdergaan dan chatbots gebaseerd op GPT-4, Llama of Claude 2. Deze bots werken op basis van prompts die afkomstig zijn van mensen en kunnen suggesties doen op basis van al geschreven code. Devin kan echter helemaal zelf aan de slag als software-engineer, zowel in samenwerking met andere ontwikkelaars als in zijn eentje, schrijft het bedrijf in een aankondiging. Devin is daarvoor voorzien van veelgebruikte ontwikkelaarstools, zoals shell, een code-editor en een browser in een sandboxed computeomgeving.
De tool zou zelfs complexe engineeringtaken die duizenden beslissingen vergen, kunnen plannen en uitvoeren. Daarbij kan Devin relevante context terughalen, mettertijd leren en fouten oplossen. De AI-engineer geeft in real time updates over de voortgang. Ook kan Devin volgens Cognition met feedback omgaan.
In een serie videodemo's toont Cognition de verschillende mogelijkheden van Devin. Zo wordt getoond hoe de tool zelf bugs in codebases kan vinden en oplossen, en hoe de AI-engineer op basis van een blogbericht leert hoe hij met een eerder nog onbekende technologie moet werken. Ook kan Devin zijn eigen AI-modellen trainen en verfijnen, en omgaan met featurerequests in opensource repository's.
Cognition vergelijkt Devin met andere bekende chatbots via de SWE-benchmark, een test die controleert hoe goed taalmodellen echte GitHub-problemen kunnen oplossen. Devin wist 13,85 procent van de problemen volledig op te lossen. Daarmee presteert de AI-engineer veel beter dan zijn concurrenten. Claude 2 wist 4,8 procent volledig op te lossen, Llama 13B kwam uit op 3,97 procent en GPT-4 op 1,74 procent.
Veel meer technische details over Devin zijn nog niet beschikbaar. Cognition belooft snel een gedetailleerder technisch rapport te publiceren. Ook is Devin nog niet breed beschikbaar. Vooralsnog is er alleen early access, omdat Cognition zijn capaciteit nog moet verhogen. Wie Devin wil inhuren, kan via een Google Form contact opnemen met Cognition.