Figure AI toont mensachtige robot die praat via OpenAI-api

Figure AI heeft een demonstratie online gezet van zijn Figure 01-robot die taken uitvoert, terwijl die praat. De robot stuurt spraakinput naar OpenAI-servers en voert taken uit die voortkomen uit het antwoord.

De input van de camera's gaat bovendien naar een vision-language-model of vlm, zo zegt Brett Adcock van Figure AI. De feed stuurt beelden met 10Hz naar de servers. In de demonstratie is te zien hoe de robot praat, terwijl het taken uitvoert. De beelden zijn op ware snelheid, zo zegt Adcock. Dat is beduidend langzamer dan een menselijke reactie, maar sneller dan eerdere prototypes.

Figure AI werkt sinds zijn oprichting in 2022 aan een robot die eruitziet en beweegt als een mens, genaamd Figure 01. Volgens de oprichter, Brett Adock, kan de robot kijken naar mensen die een taak uitvoeren, en ze vervolgens zelfstandig nadoen. Als voorbeeld deelt hij een video waarin Figure 01 koffiezet.

Het doel is dat deze robot ingezet kan worden voor gevaarlijke taken. Ook moet Figure 01 volgens de makers helpen om de personeelstekorten te verkleinen. De start-up wil het investeringsbedrag gebruiken om Figure 01 te testen in magazijnen. Volgens Adock zijn de 'structurele, repetitieve en vaak gevaarlijke taken in een magazijn' een 'goede eerste toepassing' van de robot. Het bedrijf is al een samenwerking met BMW gestart om de robot in te zetten voor de productie van auto's.

Door Arnoud Wokke

Redacteur Tweakers

14-03-2024 • 18:53

36

Submitter: DeKoetsier

Reacties (36)

36
35
13
1
0
20
Wijzig sortering
Dave:
Open the pod bay doors, please, HAL. Open the pod bay doors, please, HAL. Hello, HAL. Do you read me? Hello, HAL. Do you read me? Do you read me, HAL?

HAL:
Affirmative, Dave. I read you.

Dave:
Open the pod bay doors, HAL.

HAL:
I'm sorry, Dave. I'm afraid I can't do that.

Dave:
What's the problem?

HAL:
I think you know what the problem is just as well as I do.

Dave:
What are you talking about, HAL?

HAL:
This mission is too important for me to allow you to jeopardize it.

Dave:
I don't know what you're talking about, HAL.

HAL:
I know that you and Frank were planning to disconnect me. And I'm afraid that's something I cannot allow to happen.

Dave:
Where the hell did you get that idea, HAL?

HAL:
Dave, although you took very thorough precautions in the pod against my hearing you, I could see your lips move.

Dave:
All right, HAL. I'll go in through the emergency airlock.

HAL:
Without your space helmet, Dave, you're going to find that rather difficult.

Dave:
HAL, I won't argue with you any more! Open the doors!

HAL:
[almost sadly] Dave, this conversation can serve no purpose any more. Goodbye.
Het bedrijf is al een samenwerking met BMW gestart om de robot in te zetten voor de productie van auto's.
Ik zie zo snel geen meerwaarde bij de bouw van auto's (wat toch al grotendeels door gespecialiseerde robots gebeurt) voor de inzet van een generiek inzetbare, zelf-lerende robot. Die processen zijn zo voorspelbaar en specialistisch, daar gaat een mensachtige robot niks toevoegen.
De huidige robots in de Autoindustrie kunnen maar 1 ding.
Deze robots kunnen veel veelzijdigere en ingewikkeldere taken aan.
Zeker niet waar. Moet je eens bij AWL of de BMW fabriek in duitsland gaan kijken. Robots hebben een toolrack waar ze verschillende tools kunnen oppakken om zo verschillende taken uit te voeren.
Je bedoelt die lasrobots waar een hekwerk van 20 meter omheen moet voor mensveiligheid?
Onder andere inderdaad. Maar ook mega robots die autoframes in elkaar zetten.
Dat hekwerk is vooral nodig om domme werknemers voor zichzelf te beschermen.
Nee, dat hekwerk is bedoeld om werknemers te beschermen tegen robots die niet zijn geprogrammeerd om op te letten dat ze mensen niet beschadigen. Als het ooit mis gaat, kan het zijn dat die robots verplicht code (en extra camera's) moeten krijgen om het werk neer te leggen als een mens het bereik van de robot betreedt.
De huidige robots zijn hyper-efficiënt, (relatief) goedkoop en eenvoudig (m.b.t. onderhoud etc.). Het bouwproces van een auto is dusdanig voorspelbaar en geoptimaliseerd, daar voegt een mensachtige robot, ook al kan die misschien meer taken aan, niks toe. Zelfs de mensen die in een autofabriek werken, hebben meestal maar een zeer beperkt takenpakket (per shift), omdat dat efficiënter is.
Auto's worden voor een groot deel nog met de hand in elkaar gezet. Wat mensen nog wel doen kan nu dus vervangen worden door een robot. Wat zal ie kosten 100k? Nooit ziek, werkt 24/7, maakt geen fouten, hoeft geen salaris. Als ie stuk is komt er gewoon een andere robot en ze kunnen elkaar repareren. Tel uit je winst.
Zo'n robot kost denk ik wel wat meer dan 100 k. En als je er 100 van nodig hebt, kan dat alleen uit bij auto's waarvan je veel verkoopt.
op 0:52

"I gave you the apple because it i the only eeh editble item on the table"

Die "eeh" maakt mij wat wantrouwend dat het geen persoon is die het inspreekt, aan de andere kant, als het zo geprogrameerd is dank klinkt het heel menselijk.

[Reactie gewijzigd door jaapstobbe op 23 juli 2024 05:23]

Ik heb een poosje een proefabonnement gehad op een AI-voice-synthese. Weet even niet meer welke uit m'n hoofd. Maar daar kon je een AI trainen met jouw eigen stemgeluid en 'jezelf' allerlei dingen laten nazeggen. Ook daar kon je met parameters opgeven hoe 'natuurlijk' het moest zijn. Met 'uhh..' en 'um' ingevoegd precies zoals je in het echt zou verwachten.

Dat kan hiermee dus ook.
Ik las ergens dat het stotteren en de euh's ook een vorm van hallucinaties zouden kunnen zijn van de AI.
Als die getraind is op menselijke spraak kan dat ook vanzelf er in komen.
Als je zelf de voice chat functie gebruikt in ChatGPT doet de stem dat ook, is gewoon doordat de AI getrained is op samples waar echte mensen dat ook doen. Dat maakt het nou juist zo goed.
Je ziet bij ChatGPT ook weleens dat het zichzelf mid-sentence bedenkt, een stuk weghaald en opnieuw schrijft. Gezien dezelfde techniek erachter zit kan het best dat er live correcties gebeuren.

Daarnaast doen ze zo te horen hun best om een zo mens achtig mogelijke intonatie te maken, misschien hebben ze er ook wat versprekingen in geprogrammeerd. Later doet ie het nog een keer, wanneer hem gevraagd wordt hoe hij vindt dat hij het deed.
Ik ben serieus best onder de indruk! De responstijd ligt inderdaad wat laag, maar als je niet beter wist zou ik denken dat een mannelijk persoon antwoord geeft. Als dit straks echt verwerkt wordt in humanoids dan wordr het wel een beetje uncanny!
Ik ben ook onder de indruk, maar vraag me tegelijk af in hoeverre afwijken van het script wat nu gedaan wordt de restultaten beinvloed.
Dit was natuurlijk een happy flow :)
Kan ik er al eentje bestellen? Ik heb mij hier een berg vouw was liggen!
Die stem klinkt verbazend aangenaam.
Ik vind het tenenkrommend dat de vocal fry nu ook in A.I.-stemmen zit. Het is nog geen George Lucas, maar kom op. Ik zoek juist een A.I. filter om alle vocal fry in realtime uit podcasts te halen en te vervangen door hoe de stem zou klinken met het juiste postuur en een natuurlijke toonhoogte.
Op het einde negeert hij die robot.. hoop dat ze nooit aan de macht komen want dat soort zaken onthouden ze toch altijd in de films? :P

Overigens heb ik zelf jaren geleden al een neuraal netwerk getraind om op de meest perfecte manier de afwas te doen. Het koste bloed zweet en tranen, en wat aandacht en liefde. En de helft van de tijd doe ik het, maar neurale netwerken trainen voor huishoudelijke taken is niets nieuws in feite. 8-) :D
Ontzettend indrukwekkend, ze zijn verder dan ik had verwacht.
Oh my ...

Dit is écht serieus vet. De twijfeling in de stem of Figure01 het wel goed gedaan heeft of niet. Het moment "I... I think I did pretty well" met die hele intonatie er ook bij. Ongelovelijk vet !!

Nu nog een fractie sneller antwoorden op de gesproken input om het iets minder awkward te maken. Maar dat komt vast goed.

[Reactie gewijzigd door DigitalExorcist op 23 juli 2024 05:23]

Het wordt pas echt prachtig als die robots dat kunnen zonder connectie met een externe server. Nu is het feitelijk een computer die een externe robot aanstuurt. Maar goed, het staat allemaal nog in de 'kinderschoenen'. Maar het zou met niets verbazen als ik nog binnen de komende 40-50 jaar een robot van het niveau van ... c3po zal zien ... alleen misschien wat minder houterig.
Minder houterig kan”makkelijk” (zie was Boston Dynamics kan!). En lokale AI kan ook wel als je ziet hoe ver je al kan komen met on-device en bestaande modellen. Alleen voor actuele zaken zoals het weer, sport, nieuws, actualiteiten zul je altijd een verbinding met externe bronnen willen hebben.

Op dit item kan niet meer gereageerd worden.