'OpenAI wil taalmodel Strawberry binnen twee weken uitbrengen'

OpenAi is van plan om AI-model Strawberry deze maand nog op de markt te brengen. Dat stelt The Information op basis van twee anonieme bronnen die het model al getest hebben. Strawberry wordt uitgebracht als onderdeel van ChatGPT, maar is een losstaande dienst.

Strawberry is net als ChatGPT een taalmodel dat kan reageren op prompts van gebruikers. Groot verschil met andere taalmodellen is dat Strawberry kan 'nadenken' voordat het reageert, aldus de bronnen van The Information. Het model benadert iedere vraag en iedere prompt op methodischere wijze, waardoor de kans op fouten kleiner wordt. Het model zou bijvoorbeeld erg goed zijn in het oplossen van wiskundige problemen, programmeren en het uitvoeren van zakelijke taken, zoals het maken van een gedetailleerd marketingplan. Keerzijde is wel dat het langer duurt voor er een reactie komt: Strawberry reageert volgens de bronnen pas na tien tot twintig seconden op een prompt. ChatGPT doet dat vrijwel direct.

Het AI-model kan bij de release alleen tekstgebaseerde prompts verwerken, stellen de bronnen. GPT-4o, het taalmodel achter ChatGPT, heeft al meer mogelijkheden en kan ook reageren op plaatjes. Verder zeggen een aantal vroege testers dat Strawberry soms erg lang nodig heeft voordat het op een eenvoudige vraag kan reageren. Een laatste genoemd probleem is dat Strawberry soms moeite heeft om eerdere gesprekken te onthouden om gepersonaliseerde reacties te geven.

Volgens The Information wordt Strawberry geïntegreerd in ChatGPT, maar blijft het een losstaande optie binnen dat platform. Hoe dat er precies uit gaat zien en hoe gebruikers dan toegang krijgen tot Strawberry, is nog onduidelijk. De bronnen zeggen verder dat gebruikers een maximaal aantal berichten per uur naar Strawberry kunnen versturen. Hoeveel dat er zijn, hangt af van hoeveel de gebruiker betaalt. Daarnaast is er mogelijk een optie met hogere prijzen die een snellere reactietijd mogelijk maakt.

Door Eveline Meijer

Nieuwsredacteur

12-09-2024 • 10:40

102

Lees meer

Reacties (102)

Sorteer op:

Weergave:

Ze hebben dus gezien waar mensen AI voor gebruiken:
Het model zou bijvoorbeeld erg goed zijn in het oplossen van wiskundige problemen, programmeren en het uitvoeren van zakelijke taken, zoals het maken van een gedetailleerd marketingplan.
En nu wachten tot het banen gaat vervangen want dat is het doel.
Ik zit midden in de AI-gekte en heb al twee populaire AI-tools uitgebracht (SaaS) die veel gebruikt worden. Elke keer als ik iets nieuws lanceer of verbeter, zie ik direct de impact die ze hebben en soms ook de nare gevolgen. Ik zie in de praktijk dat de huidige AI-modellen vaak al veel beter presteren dan de meeste mensen. Waar je vroeger een heel team voor nodig had, kun je nu met één of twee mensen veel efficiënter werken.

Binnen Nederlandse bedrijven merk je het misschien nog niet direct. Bedrijven zitten nog vast aan contracten en vaste werknemers, maar je merkt wel dat er minder nieuwe mensen worden aangenomen. Waarom zou je een junior marketeer aannemen als je AI-agents hebt die net zo goed, of zelfs beter, met je meedenken? Er is minder vraag vanuit de medewerkers om nieuwe collega's en vanuit het management is dat mooi meegenomen, want dat bespaart ook nog eens veel geld.

Paar voorbeelden: Voor programmeerwerk zijn AI-models nu al revolutionair. Hoewel sommige senior programmeurs nog wat weerstand bieden, kun je met AI nu al 100 keer sneller werken. Als ik het op onszelf betrek lijkt het alsof we met een zeer groot senior dev team werken, terwijl we in werkelijkheid alles met z'n tweeen doen betreft de doorontwikkeling. We hebben ook geen enkel behoefte aan extra handjes, want we werken nu juist zo efficiënt.

Het is wel belangrijk dat je capabele mensen hebt die goed zijn in wat je het AI-model vraagt om te doen. Zonder de juiste kennis kun je snel op een dwaalspoor raken en slechte code produceren. De combinatie van menselijke ervaring en AI is ontzettend krachtig. Voor nu. De vraag is hoe lang dit nog zo blijft.

Terugkomend op je angst: Feit is dat er minder mensen nodig zijn voor nieuwe initiatieven. Waarom vijf developers aannemen als je met twee capabele mensen hetzelfde kunt bereiken? Dit geldt voor alle digitale disciplines, van marketing tot copywriting waar ik dagelijks zie dat men hiermee worstelt.

M'n conclusie is dan ook dat banen rap zullen verdwijnen en veel mensen zonder werk kunnen komen te zitten. Natuurlijk ontstaan er nieuwe kansen, maar de vraag is hoe flexibel mensen zijn. De exponentiële groei van AI betekent hele snelle veranderingen. Veel mensen in Nederland lopen flink achter op het gebied van AI, en ik ben bang dat ze zich niet snel genoeg kunnen omscholen om hierin mee te groeien.

De volgende financiële crisis zal veel reorganisaties en ontslagen veroorzaken (zoals altijd het geval is). Het verschil is dat na deze slechte periode mensen niet snel meer worden ingehuurd, wat voorheen wel gebeurde. Dit is best spannend.
Waarom zou je een junior marketeer aannemen als je AI-agents hebt die net zo goed, of zelfs beter, met je meedenken? Er is minder vraag vanuit de medewerkers om nieuwe collega's en vanuit het management is dat mooi meegenomen, want dat bespaart ook nog eens veel geld.
Omdat je senior marketeers ooit als junior zijn begonnen? Ook een beroepsgroep die in samenwerking met AI efficiënter kan werken dan vroeger heeft nieuwe instroom, kennisopbouw en leerervaringen nodig.
Ja dat is dus de kern van het probleem. Nieuwe mensen krijgen veel minder de kans om zich tot expert te ontplooien. De vraag is tegelijkertijd: is dat uberhaupt nog nodig ervan uitgaande dat de modellen nog vele malen intelligenter worden?
Je dicht LLMs een eigenschap toe die ze niet bezitten (en die LLMs nooit zullen bezitten): intelligentie. Het kan zijn dat komende generaties modellen intelligenter voorkomen / lijken, maar denken / redeneren doen ze niet.

Daarbij komt dat dit soort modellen "groeien" richting het gemiddelde, de middelmaat. Wat die AI agents dus zijn / blijven is middelmatig. Ze zullen het niveau van de junior dus niet gaan overstijgen.
De twee zinnen die je schrijft zou je ook op een medewerker kunnen plotten.

Voor mensen geldt helaas ook dat zij groeien richting het gemiddelde, de middelmaat. Je kop boven het maaiveld uitsteken doet slechts een klein promillage van de bevolking. Die mensen blijven nodig om innovatie en echte vernieuwing aan te drijven. De rest van die mensen gaat het niveau van een LLM nooit overstijgen.
That didn't age well.
Ik werk zelf ook sinds de introductie met "AI", maar als senior dev is het niet meer dan een handige assistent. Mensen stellen domme en slimme vragen, zetten je aan het denken en komen met nieuwe concepten. De huidige AI kopieert alleen wat ooit al is bedacht door mensen, kent weinig tot geen context.
Als we geen juniors zouden hebben sterft je bedrijf langzaam af, net zoals ieder bedrijf AI zou gebruiken ze op een gegeven moment allemaal eenheidsworst worden.

Ik denk zeker dat AI ons kan helpen applicaties te verbeteren, en er zijn nu al degelijk toepassingen voor te bedenken. Maar dat is niet nieuw, AI bestaat al tientallen jaren, alleen nu is het opeens een hype vanwege chatgpt. Het opent nieuwe deuren, maar het doom scenario dat je schets ben ik nog niet zo bang voor.
Welke AI tools gebruik je dan als ik dat mag vragen? Ik gebruik zeer vaak de betalende versie van chatGPT voor gaten in mijn kennis proberen te dichten. Vaak biedt het geen correct antwoord maar wel iets dat in de goede richting gaat waardoor ik zelf weer verder kan.
Voor programmeerwerk zijn AI-models nu al revolutionair. Hoewel sommige senior programmeurs nog wat weerstand bieden, kun je met AI nu al 100 keer sneller werken. Als ik het op onszelf betrek lijkt het alsof we met een zeer groot senior dev team werken, terwijl we in werkelijkheid alles met z'n tweeen doen betreft de doorontwikkeling. We hebben ook geen enkel behoefte aan extra handjes, want we werken nu juist zo efficiënt.
We hebben een tijd AI modellen geprobeerd voor oa code reviews. Het valt allemaal nog vies tegen. Het enige wat mee valt is wat slimmere auto complete - in de IDE - die nog lang niet altijd klopt.

Het gaat zeker verschil maken, maar het is nog niet zover als men hoopt...
Dit kan op relatief korte termijn de hele wereldeconomie om zeep helpen. Hoe gaan mensen nog geld verdienen als veel banen door AI worden verdrongen? Voor werkgevers is er niets mooier dan een relatief goedkoop systeem dat 80% van het mensenwerk kan overnemen.
Niks anders dan hoe het met productie automatiseren ging toch?
Ik ken zat productie lijnen die van 15 man naar 1 ging, en met 5 keer sneller lijn zelfs dus 15x5!...
En dat zien we ook, want iedereen kan nu makkelijk tien huizen kopen, terwijl we allemaal nog maar 5 uur per week werken.
Dat huizen duurder worden heeft daar niks te maken.
en niks minder uren werken we ontslaan 8 mensen en dan kan jij 40 uur werken!
Dat huizen duurder worden heeft daar niks te maken.
In tegendeel, er is een sterke correlatie tussen de huizenprijzen en hoeveel mensen de besteden hebben. Als de productie stijgt zou volgend bepaalde economische modellen (helaas niet altijd de praktijk) de inkomens ook stijgen; de huizenprijzen stijgen dus lekker mee met onze productiviteit.

[Reactie gewijzigd door 84hannes op 13 september 2024 10:24]

… tenzij we het bouwen van huizen mogelijk maken, dan gaan prijzen omlaag. Hoe veel geld we hebben speelt een rol, dat bepaalt deels de vraag, maar het aanbod is ook relevant!

Ai kan net als ICT deed de productie van werknemers verhogen, maar het overgrote deel van het voordeel daarvan is sinds de jaren 70 ofzo naar de top 0.1% gegaan - de musks en Zuckerbergs en Trumps, niet naar de mensen die het werk doen en de burn-out krijgen. Monopolies en anti-vakbond acties zijn hier debet aan, evenals heftige belastingontduiking.
… tenzij we het bouwen van huizen mogelijk maken, dan gaan prijzen omlaag.
Intuïtief ben ik het daarmee eens. Maar intuïtief denk ik ook dat de wereld plat is :) . Gelukkig zijn er cijfers om onze intuïtie te staven. De Nederlandse Bank heeft daar naar gekeken en kwam op het tegendeel uit.
Hoewel de prijsstijgingen van de afgelopen jaren samenvallen met een toenemend fysiek tekort aan woningen, is historisch gezien geen sterke samenhang tussen woningprijzen en woningtekort waarneembaar.
In plaats daarvan concluderen zij:
De stijging van huizenprijzen hangt in belangrijke mate samen met de toegang van kopers tot steeds goedkopere financiering.
Natuurlijk kan het zijn dat DNB in dienst is van de rijke elite en ons dit soort sprookjes voor houd om de inkomenskloof (die ik net zo kwalijk vind als jij) in stand te houden.

[Reactie gewijzigd door 84hannes op 13 september 2024 20:25]

nou ja, als de DNB het zegt - ik denk niet dat die gaan zitten spinnen ofzo. Het is natuurlijk inderdaad wel zo bij huizen dat je wel even 100 woningen in noord-oost groningen neer kan zetten, maar dat veranderd niets aan de huizen prijzen in Amsterdam-zuid. En als je daar drie nieuwe appartement complexen neer zet gaan de prijzen niet veel omlaag, want er is bijna oneindige vraag. De prijs is totaal niet elastisch, dat snap ik ook wel.

Maar als jij op een rustig plekje op de Veluwe woont, en er willen, zeg, 100 randstatters bij, dan maakt het enorm uit of de gemeente een project met 150 woningen mogelijk maakt, of overal voor gaat liggen.

Maar goed, dat is hoogstens nuance. Dank voor de DNB link, interessant. Vraag me af of het ook opgaat voor huur, maar daar spelen natuurlijk vergelijkbare effecten.
Zonder geld in de massa is er geen mogelijkheid tot consumptie en dus geen afnemers van de dienst.

Waar het hopelijk tot leid is dat mensen meer passievol werk of vrije tijd krijgen en toch net zo veel kunnen "leven", gaan naar festival, lekkere restaurants voor een lagere prijs etc, dus dat het gat van de verminderde inkomsten gevuld word door prijsverlagingen die mogelijk kunnen zijn als er efficiëntere processen ontstaan al dan wel niet met AI.

Maar tijd zal het leren.
Ik leef mee met je hoop, maar de realiteit is dat de meeste mensen gierig zijn als het op geld aankomt. Ik verwacht dat het niet goedkoper zal worden, maar eerder duurder. Onder het mom van investeringen en vervolgens wordt de prijs niet verlaagd wanneer de centen zijn terugverdiend.
Als dat zo is, waarom kan ik dan nu veel meer vakantie, vliegreizen en andere luxe kopen van mijn jaarloon dan pakweg 50 jaar geleden?

[Reactie gewijzigd door 84hannes op 13 september 2024 06:35]

20 jaar geleden kon ik van mijn salaris (fictief) 1000 glazen bier kopen. Nu nog maar 600. Terwijl ik meer ben gaan verdienen!
Dat zou inderdaad kunnen..maar dat heeft waarschijnlijk te maken met het feit dat de kosten van een glas bier vooral in arbeid zitten, een van de weinige dingen die niet geautomatiseerd zijn. Als je rekent naar flesjes uit de supermarkt, zou de berekening dan net zo negatief uitpakken? (Ik neem aan dat je reëel meer bent gaan verdienen, dus ook na inflatiecorrectie).
Ik zie dit niet zo gauw gebeuren. Het "AI" gebeuren is een bubbel. Mensen krijgen veel vertrouwen van de vriendelijke en zelfverzekerde antwoorden van LLM's. Maar het wordt voor zoveel dingen gebruikt waar het totaal niet geschikt voor is. Het is gewoon een puinhoop.

Er zijn wat dingen zoals samenvatten, herschrijven, en vertalen van teksten waar een LLM natuurlijk goed in is. Het wordt echter ingezet voor dingen waar het totaal niet voor bedoeld is. Momenteel is de hype "AI = LLM" en dat is niet terecht.

De grote partijen zoals OpenAI weten dat wel (zij hebben een 5-stappen plan naar general AI waar LLM's pas de eerste stap van zijn) maar toch prijzen ze het momenteel aan als de oplossing voor alles om marketingredenen.
AI is niet zo slim als sommige mensen denken, zoals je zegt - helemaal gelijk. Maar de IMPACT van AI is juist veel groter dan jij suggereert.

kijk en huiver:
YouTube: Klarna CEO Sebastian Siemiatkowski on Getting AI to Do the Work of 7...

Da's geen bubbel, dat is gewoon miljoenen besparen en (op termijn) mensen ontslaan.

Het kan niet in elk bedrijf, maar veel meer is mogelijk dan veel mensen denken.
Mja ik heb jaaaren in klantenservice gewerkt (technische dienst - en later callcenter tech). En ik vraag me af of klanten hier echt blij van worden.

Het probleem met al die chatbots is dat ze vast zitten in een systeem van vooraf bepaalde processen. Maar het probleem van klanten slipt vaak hier tussendoor. Een chatbot kan prima de tracking van een verzonden produkt opzoeken, maar het gaat niet met de koerier bellen om te vragen waarom het nu al een week op dezelfde plek uithangt. Het gaat niet met de R&D bellen om te zeggen dat dit probleem uit de hand loopt en er wellicht gekeken moet worden naar een fabrikagefout. Het gaat niet heel goed de opstelling van de klant in kaart brengen waardoor kan blijken dat een klant wellicht een produkt buiten de specificaties inzet en daardoor problemen haalt. Er zijn zoveel van die kip-ei problemen die een mens daadkrachtig op kan lossen door gewoon een beslissing te nemen.

Het is die kennis en kunde die een AI ontbeert. Het is heel fijn voor de 95% van de vragen die standaard zijn, maar die 5% zaken die net niet helemaal conformeren aan de flowcharts en processen, dat is waar je als mens verschil kan maken en een klant echt uit de brand helpen waardoor die levenslang klant blijft.

Nou is het wel zo dat niet elke callcenter medewerker dat kan. Met name ons team (op proef) in India was enorm gefocused op hun flowcharts en vertelden klanten zelfs dat hun probleem niet kon bestaan als het niet in de flowchart stond. We hebben dat werk dan ook uiteindelijk teruggehaald naar Europa. Ook beginnende medewerkers laten vaak steken vallen. Maar ik heb een hele berg mailtjes van klanten die me bedankten omdat er eindelijk eens iemand echt naar ze luisterde.

Voor bedrijven die weinig om service geven zijn er altijd al mogelijkheden geweest om de kosten te drukken zoals die goedkope outsource callcenters, formulieren met alleen de meest voorkomende problemen enz.

Van cijfers zoals "onze klanttevredenheid is 200% omhoog gegaan!!" zou ik ook niet te veel opkijken, tenzij je exact weet hoe deze berekend zijn. Ik heb in mijn carriere zo veel misbruik gezien daarvan. Bijvoorbeeld een callcenter dat heel trots uitriep een score van 100% antwoord binnen 30 seconden had. Wat bleek? Ze hadden op 25s een antwoordautomaat gezet. Uiteindelijk eens die berichten afgeluisterd en het stond vol met vloekende klanten. Die klanten werden ook niet gepolst om hun tevredenheid want ze waren nergens geregistreerd.

[Reactie gewijzigd door Llopigat op 13 september 2024 18:18]

ja, klantenservice is lastiger dan het lijkt - komt ook in het interview aan bod. Ik denk dat het vaak een geval gaat worden van 90% AI en 10% mens... Dat zal op veel vlakken zo zijn. ze hadden het ook over image generation en marketing copy - aan de ene kant, AI is goed in leuke plaatjes maken, terwijl echt goede copy toch nog steeds van een mens moet komen. Zie ik trouwens ook in ons bedrijf.
Ja ik heb geen geduld om filmpjes te kijken of podcasts te luisteren dus ik heb het interview niet kunnen zien (als er een geschreven link is dan ben ik wel geinteresseerd).

Maar het idee van het hele team de deur uit doen zie ik inderdaad ook niet snel gebeuren.
Wist je dat de economie bestaat voor ons mensen, en niet andersom? veel mensen vergeten dit en denken dat werk automatisering en dergelijke op grote schaal ervoor zal zorgen dat mensen geen werk geld meer hebben. Dit klopt niet, want de hele reden dat we werk doen en er een economie is, is om spullen en diensten te leveren waar mensen voor betalen. Mensen zijn de economie en mensen maken de economie, zonder ons is er geen economie, en ook geen geld om te verdienen.

Als we op gegeven moment in een situatie eindigen waarbij er niet genoeg "nuttigs" te doen is voor mensen zal geld veel makkelijker te verdienen zijn via minder "nuttigere" manieren zoals dienstverlening, hobbyisme kunst etc en mogelijk zelfs via de staat als basisinkomen.

Natuurlijk zal er een schok zijn en zal het "systeem" een tijdje lang slecht draaien, maar zoals je kan zien zijn er nu al een hoop banen die niets directs toevoegen aan de mensen maar nog steeds bestaan, zoals de entertainment industrie en restaurants bijvoorbeeld.
Helemaal mee eens. Spijtig genoeg zijn er een paar rijke lui die net iets meer controle hebben dan de rest van ons ;-)

Dat is natuurlijk altijd zo geweest, maar het is wel eens beter geweest - sinds de jaren 80 is flink veel van de verbetering van productiviteit naar de rijken gegaan.
Werkgevers en corporaties zouden daardoor ook geraakt worden: als niemand geld verdient, koopt niemand hun troep en verliezen ze beurs- of bedrijfswaarde als sneeuw voor de zon.

Dus als het zover gaat dat automatisering zorgt voor hoge werkloosheid, dan storten ook de winsten en omzet in. Dat maakt dat de grote bedrijven ook gebaat zullen zijn bij een oplossing van dat probleem, wanneer het zich voordoet. Bijvoorbeeld een universeel basisinkomen of andere oplossing. Het model van loon-naar-werken breekt dan compleet, maar dat kan worden opgevangen en de grooteigenaren van onze wereldeconomie zullen zo'n oplossing willen. Zodat zij iPhones en GPT's kunnen blijven verkopen.
De winsten gaan niet zomaar instorten gezien de marges aanzienlijk omhoog zullen gaan.
De hogere marges zouden het probleem hooguit kunnen uitstellen totdat de werkloosheid hoger wordt dan een beetje. De werker is de consument. De hele economie draait op basis van vraag en besteedbaar inkomen. Ook B2B kan uiteindelijk alleen bestaan vanwege B2C. Corporaties zouden uiteindelijk misschien oneindig veel werk gedaan kunnen krijgen zonder mensen, maar ze hebben mensen nodig om iets aan te verkopen.

Boven de 20-30% werkloosheid zouden we ook nogal wat sociale onrust gaan zien (zacht uitgedrukt).

Dus ook de grootste investeerders en corporaties zouden uiteindelijk de lul zijn en hun inkomsten ernstig zien dalen. Zelfs als de automatisering gratis zou zijn, wat uiteraard niet het geval is.

Dit is niet zo'n probleem als klimaatverandering, dat heel lang ontkent en genegeerd kon worden terwijl de grootbezitters rijker worden. Die groep geeft bijna nergens om, maar wel om hun eigen voortbestaan. Sterker nog, enige krimp en zij zien hun beurswaarde al verdampen. Groei is alles voor hen, en als de werkloosheid bijvoorbeeld van 5% naar 15% gaat, dan zitten beursgenoteerde bedrijven al met een flink probleem. Als de totale bak van consumenten en hun besteedbaar inkomen krimpt, dan krimpen zij mee.

[Reactie gewijzigd door geert1 op 12 september 2024 12:50]

Dan krijgen mensen meer tijd voor andere (nuttige) zaken?
Als ik met de ICT tool van vandaag de dag, 30 jaar terug in de tijd zou gaan. Zouden mensen van toen extract het zelfde zeggen. Dit kost banen.

Maar om eerlijk te zijn, heeft het juist banen opgeleverd en innovatie gebracht.
En vooral een verschuiving, in de opleidingen die nodig zijn.

Wat ik met AI wel zie aankomen, is een versnelling van echte kennis van o.a. de techniek. Je ziet het nu al een paar jaar. Iedereen kan een server/containers enzo bouwen. Maar hebben de grootste problemen als de shit the fan hits. Eigenlijk gaat het de kaft van de koren scheiden. Wat op zich wel goed is.
Ach het zal wel niet zo'n vaart lopen dat je al je werknemers kan ontslaan en kan vervangen met LLMs. Wat ik wel zie gebeuren is dat je met 3 mensen + llms hetzelfde werk kan verzetten als met 5 mensen zonder. Meer ruimte voor een degelijk salaris dus, en op het moment toch banen genoeg waar die andere twee zich dan nuttig kunnen maken.
Ik moet het nog zien. Ik vroeg deze week aan GPT of een bepaald object schuin paste op een plank met een bepaalde afmeting. Ja was het antwoord. Maar het klopte niet. En dat is in mijn ogen nog een simpele berekening. Dus ben benieuwd wat dit nieuwe model aan verbeteringen gaat brengen.
Ik krijg geregeld nog geïmproviseerde antwoorden. Zelfs als ik aangeef dat er inderdaad aan de kant van ChatGTP een fout wordt gemaakt wordt deze achteraf meerdere keren opnieuw gedaan, of iets vreemds toegevoegd waar ik niet om heb gevraagd. Ik vind het een leuke en interessante tool om mee te sparren, echter zou ik de antwoorden op alle vragen met een korreltje zout nemen.
Improviseren van antwoorden is gewoon hoe een taalmodel werkt. Het is nooit exact. Je kan het wel redelijk exact maken door de temperatuur op 0 te zetten, dan wordt het reproduceerbaar, maar wat je dan ziet is dat de antwoorden gewoon zo beknopt zijn dat je er niks aan hebt.

Het is gewoon 'the wrong tool for the job'. Heel kenmerkend voor een hype, waar een techniek die zeker wel sterke punten heeft, helemaal overhyped wordt en daardoor voor allerlei dingen wordt aangeprezen waar het totaal niet goed in is.

Hetzelfde gebeurde met de blockchain en metaverse hypes. Allemaal veelbelovende technieken maar vaak werd het ingezet op een heel vergezochte usecase waar het totaal niet geschikt voor was.
Maar dit gaat niet over de versie van ChatGPT die we nu kennen. Het gaat om de uitbreiding Strawberry die dat wel zou moeten kunnen. Dán komt het wellicht wel dichterbij zulke taken zoals oplossen van wiskundige problemen, programmeren, etc.
Ik hoop dat alles gaat shiften naar verantwoordelijkheidsposten. En niet één fallguy per bedrijf.

De politiek zou hier op in moeten spelen:
  • Minstens één persoon per post of meer dat gaat over beslissingen die mensen kunnen treffen;
  • Adequate hoeveelheid mensen per hoeveelheid beslissingen, wat een hoeveelheid betekend die het overzicht goed dekt;
  • Bij automatisering voldoende (menselijke) capaciteit om fouten adequaat en tijdig terug te kunnen draaien.
Als je dat bovenstaande zou implementeren dan zou er ook tot verantwoording geroepen kunnen worden, door een rechter. Dit zou aanzienlijk de democratie in stand kunnen houden.
Daar hoef je in principe niet bang voor te zijn. Als persoon voeg je enorm veel toe aan datgene wat je doet/oplevert..

Als mensen bestaat je werk vaak uit meerdere werkzaamheden. Er zijn taken waarvan ik denk dat een AI model prima wat kan toevoegen. Repeterende/standaard taken waar je veel tijd mee kwijt bent, maar waar je amper zelf iets aan toevoegt.

Ik ben het met je eens dat je goed na moet gaan bij welke taken je daadwerkelijk input hebt.

Bij de taken/werkzaamheden waar er geen of extreem weinig eigen input is staan we voor dezelfde uitdaging als bij de industriële revolutie. Machines nemen de taken van mensen over omdat het beter, sneller kan. Maar eigenlijk zit daar nog een deel bij wat niet veel genoemd word: Als er werkzaamheden zijn waar je als mens niets extra aan toevoegt dan kan het vervangen worden door machines.

Echter zijn we na de industriële revolutie allemaal weer aan het werk gekomen. Niet zonder slag of stoot, maar dat hoort bij ontwikkeling Het gaat er dan ook niet om dat je bang moet zijn dat AI je werk overneemt, het gaat erom dat je door gaat krijgen hoe je ermee moet omgaan, en hoe het je kan helpen om meer van jezelf kwijt te kunnen in dat wat je doet. Het voordeel is dat we dit soort verschuivingen al eerder gezien hebben en dat we daarop in kunnen spelen.

En dat is niet makkelijk. Maar ook het omgaan met de huidige generatie die net beginnen met werken of verzuurde mensen die al jaren vast zitten in een vast patroon. Allemaal uitdagingen. Daar moet je niet bang voor zijn, daar moet je leren mee om te gaan. Kleine stapjes met vallen en opstaan.
Ja mooi toch? Banen behouden die technologisch achterhaald zijn is niets meer dan emotionele bezigheidstherapie.
Ik weet niet of jij GPT gebruikt voor programmeren maar ik wel en ik kan met zekerheid stellen dat het voorlopig nog wel goed zit met mijn baan. Kleine stukjes code generen dat gaat wel maar zodra je met een grote class komt aanzetten en hier aanpassingen in wilt doen kan hij al snel een klein foutje maken waardoor veel van de code waardeloos wordt.
Prompt: “Hoeveel letters R zitten er in het woord Strawberry?”

Antwoord Strawberry: “Het woord Strawberry bevat 2 letters R.”
Tellen kan ie niet inderdaad. Ook rekenen is lastig, als ik hem een csv geef met cijfers en text dan is het gemiddelde dat ik vraag elke keer anders en dus bijna altijd fout. Opzich niet gek, want het is een taalmodel, maar dit zijn wel kleine domme dingetjes die de beperkingen goed blootleggen. :)
Het model zou bijvoorbeeld erg goed zijn in het oplossen van wiskundige problemen
Je zou toch denken dat tellen dan wel zo'n beetje een voorwaarde is.....
Wiskunde is vooral het bepalen/uitzoeken van formules, niet zo zeer het resultaat berekenen.
Op school ook (toen ik er lang geleden was), ze willen niet het antwoord zien, ze willen zien hoe je tot dat antwoord gekomen bent.

Dus in die zin, kan je goed zijn in wiskunde, terwijl je totaal niet kan tellen (ala elk taalmodel)
Een leuk ander voorbeeld is dat een LLM wel een regex voor je kan samenstellen, maar niet uitvoeren. Dat is feitelijk wat wij ook kunnen: een regex bedenken kunnen we zonder hulpmiddelen, een regex met de hand uitvoeren is knap complex. Ik ben benieuwd of Strawberry dat wel kan.
Yep dit zie ik ook met bijvoorbeeld Copilot in Office 365. De functies in Word ("Herschrijf deze paragraaf korter/jovialer/zakelijker") is super. Maar de functies in Excel zijn een probleem. Mensen verwachten daar dat ze het voor complexe berekeningen en data analyses kunnen gebruiken en dat werkt natuurlijk voor geen meter. Vaak krijg je wel een antwoord maar is dat totaal gehallucineerd.

Het is vervelend dat Microsoft deze zwakheden niet duidelijk aangeeft in hun gretigheid copilot op de markt te zetten. Dat zet de gebruikers ook op het verkeerde been.
In rekenen wordt ChatGPT anders steeds beter. Grappig voorbeeldje: Ik wilde de inhoudt van alle producten van mijn winkelmandje in een online shop tekstueel mailen naar iemand. Knippen en plakken ging voor geen meter omdat dan de gehele opmaak door de war ging. Na veel geknoei was ik het zat, en heb toen gewoon een screenshot van de pagina (dus een plaatje, geen tekst) in ChatGPT gedumpt, en gevraagd of de winkelmand netjes in tekst naast elkaar kon zetten: Aantal, product, stukprijs, totaal prijs.
2 sec. Boem, klaar. Het grappige was dat ik er later achter kwam dat de stukprijs helemaal niet vermeld was in het screenshot. Die had hij gewoon zelf netjes en correct uitgerekend.
Blijft mij verbazen hoeveel zooi je ChatGPT kunt voeren en dat hij je gewoon begrijpt.
Het probleem met het aantal r's in strawberry is omdat het woord opgesplitst wordt in tokens ( denk : lettergrepen ) en elk token wordt omgezet in een reeks cijfers die een multi-dimensionale vector voorstellen. LLM heeft dus nooit het woord te zien gekregen. Heeft dus niets met kunnen tellen te maken.
En nu je dit zo snap ik inderdaad waarom hij met mijn domme prompt geen gemiddelden kon berekenen. Ik neig de techniek erachter soms te vergeten. :) Had ik hem verteld die cijfers te extraheren en met een script het gemiddelde te berekenen was het resultaat vast beter. De usecase waar ik mee aan het experimenteren was sloeg ook nergens op, als je de cijfers al netjes gestructureerd hebt (ging om survey results) hoef je niet een LLM te vragen berekeningen te maken. Dan ga je van structured, naar fuzzy om weer iets structured te krijgen. :D
klopt, helemaal geen goede use case. Je kunt experimenteren met de Wolfram versie binnen chatgpt, die twee samen hebben meer potentieel.
Daarvoor is function calling net bedoeld. Het is en blijft een model dat niets meer doet dan het volgende meest waarschijnlijke token voorspellen. Er zit dus geen "rekenmachine" of "code interpreter" ingebouwd. Maar je kan het model wel duidelijk maken dat er sommige functies beschikbaar zijn die het (via een programmatische tussenweg) kan aanroepen. Het taalmodel wordt daardoor dus een interface, hoe ik het altijd al beschouwd heb. Het zal, m.i., nooit een expert-van-alles (kunnen) worden, maar een interface in natuurlijke taal die gespecialiseerde tools (zoals een rekenmachine, om een stom voorbeeld te geven) kan aanroepen.
Zodra je hem een beetje in die hoek duwt kom je een heel eind inderdaad. Schrijf een script die de letters R telt zal waarschijnlijk gewoon een goed resultaat opleveren.
Antwoord Strawberry: “Het woord Strawberry bevat 2 letters R.”
Hoe kan je het testen zonder dat het live staat? Beta program? Of gewoon fantasie?
Deze prompt is een beetje een meme geworden om te laten zien dat LLMs niet veel meer dan statistiek gebruiken om te bepalen wat hun antwoorden zijn, en niet daadwerkelijk de context begrijpen/snappen wat er gevraagd word. Iets wat OpenAI dus met Strawberry wil gaan verbeteren. Het zou mij dan ook niets verbazen als het Strawberry heet vanwege deze prompt.
Hier een test waar het verhaal vandaan komt. Inderdaad niet een al te best resultaat. Maar ook niet echt een functionaliteit waar ik ChatGPT voor zou gebruiken.

https://chatgpt.com/share...d3-482e-8a59-e4fe85f6aca9

[Reactie gewijzigd door jdh009 op 12 september 2024 20:19]

Het mooie is, met heel veel doorvragen en voorleggen van dit probleem aan ChatGPT, kun je 'm wel zover krijgen dat die er 3 registreert.

Open je een nieuwe chat, zijn het er gewoon weer "2" die als antwoord gegeven wordt. Snel leren doet die wat dat betreft niet...
opzich ook wel ergens logisch dat er niet meteen een LLM wide update gedaan wordt adh van 1 chat. anders ga je enorm veel bullshit in de LLM krijgen
Zeker waar! Alleen als het model zo geavanceerd is, het de "fout" zo obvious, dan zou je toch na een aantal keer kunnen verwachten dat het model/algoritme zich hierop aanpast.

Het "How-Many-R's-are-there-in-Strawberry" is natuurlijk al een langere periode bekend en door menigeen al onderworpen aan het systeem.

Dan zou je uiteindelijk wel verwachten dat het model het nu op 3 gaat zien/rekenen dan continu terug te vallen op de "2"
Klopt en eigenlijk ook weer raar.
Soms corrigeer ik ChatGPT. Het erkent en daarna wel de goede antwoorden oplepelt.
Net een mens die fouten maakt.

Moet zeggen dat ik tot nu toe wel onder de indruk ben.
Ik krijg vaak het idee dat hij vooral is ingesteld om de gebruiker maar gelijk te geven ipv van te leren.

Vaak genoeg dat ik probeer er wat code uit te krijgen, ik aangeef dat de code die zojuist gegenereerd is niet klopt. Dan geeft open ai je gelijk om vervolgens precies dezelfde code te genereren.

Mopper je vervolgens dat meermaals dezelfde fout is gemaakt dan krijg je een "I understand it's frustrating" en opnieuw precies dezelfde foute code. Het is gewoon meelullen ipv begrijpen. Opzich best menselijk, naar het type mens dat ik liever vermijd.
Waarschijnlijk een gevolg van de vroege dagen waar men met een 'agressieve' AI te maken had die zijn fouten niet wou erkennen en de gebruiker verteld dat ze het niet begrijpen. Nu is het iets anders afgesteld om de gebruiker maar altijd gelijk te geven maar nuttig is het niet.
Hij genereert de code die ik achteraf voorstel.
Specs die niet kloppen bij correctie weer wel.
Of het leert van de fouten weet ik niet.

[Reactie gewijzigd door lighting_ op 12 september 2024 16:26]

Ik vind ChatGPT een mooie tool voor erbij maar er zitten nog wel veel fouten in.

Ik gebruik het vaker voor het genereren van scripts of het maken van bepaalde linux configs. Ik kom daar nog wel vaker dingen in tegen die niet helemaal stroken met wat het zou moeten zijn, dus moet ik wel vaker aanpassingen eraan toevoegen om het werkend te krijgen.
Voor erbij en inspiratie is het een mooi tool
Als het meteen de perfecte code genereert ben je je baan kwijt.

[Reactie gewijzigd door lighting_ op 13 september 2024 10:34]

heel apart, dit net via chatgpt geprobeerd:

You said:
how many r's are there in Strawberry?

ChatGPT
There are two "r"s in the word "Strawberry."

You said:
really?

ChatGPT
Yes! The word "Strawberry" has two "r"s:

One in "strawberry"
One in "strawberry"
Would you like help with anything else?

You said:
well, the part "straw" has 1 r in it and "berry" has 2. so that would make it 3.

ChatGPT
Actually, "straw" doesn't have an "r" before the "a," and "berry" has just one "r," not two.

So, in total, "Strawberry" has just two "r"s:

One in the "straw" part: strawberry
One in the "berry" part: strawberry
It may look like "berry" has two "r"s, but it's just the same "r" used twice because of the double consonant.

You said:
ok, so that still means berry has to be written with 2 r's

ChatGPT
Yes, you’re right! The word “berry” is spelled with two "r"s, but it's counted as just one occurrence of the letter "r" in terms of individual characters, as it's the same letter repeated twice.

So overall:

"Straw" has 1 "r"
"Berry" is spelled with 2 "r"s
Together, this gives a total of two distinct "r"s in the word "Strawberry."

You said:
so, the word strawberry contains three r's

ChatGPT
I see what you're thinking! But the word "strawberry" contains two "r"s, not three. Here's the breakdown:

In the part "straw," there's 1 "r".
In the part "berry," there's 1 "r" (even though it's written as two "r"s for spelling, it only counts as one distinct "r" because it's the same letter repeated).
So, when counting distinct occurrences of the letter "r" in the word "strawberry," we have just two total.

You said:
no, to write strawberry a person or computer has to use 3 r's to write the word correctly. even 2 r's next to each other means that the r occurs twice

ChatGPT
Ah, I see what you're getting at! If we're talking about the number of "r"s used to write the word "strawberry," then yes, you're absolutely correct.

In the word "strawberry," a person or computer has to type or write 3 "r"s:

One "r" in the "straw" part
Two "r"s in the "berry" part
So, in terms of physically typing or writing, you need to input 3 "r"s to correctly spell "strawberry." Thanks for pointing that out!

You said:
but what did you think I meant then by asking how many r's are there in Strawberry?

ChatGPT
When you first asked, I interpreted your question as asking how many distinct occurrences of the letter "r" are in the word "Strawberry," which would be two distinct "r"s — one in "straw" and one in "berry."

However, I now understand you were asking how many times the letter "r" physically appears or is written, which is indeed three (one in "straw" and two in "berry"). Thanks for clarifying that!

[Reactie gewijzigd door Vinpaq op 12 september 2024 16:19]

how many r's are there in Strawberry?
ChatGPT
There are 3 "R's" in the word "Strawberry."
In principe laat dit gewoon een case zien waarbij het taalmodel, zoals hij nu gemaakt is, niet werkt. Het is eigenlijk bijna goed dat wij dit kunnen zien.

Wat er gebeurt bij mensen: we lezen de vraag, denken na over een strategie en lezen dan bvb het woord overnieuw, en tellen tegelijkertijd het aantal R-en op elke keer als we er een tegenkomen.
Wat er gebeurt bij LLMs: De AI leest het hele bericht eenmalig en begint met het formuleren van de meest waarschijnlijke reactie op deze vraag, maar ze laten de AI niet "nadenken", wat we krijgen is eigenlijk gewoon wat de LLM denkt op het eerste opzicht, als een mens die binnen 1 seconde na de vraag gelijk moet antwoorden wat hij denkt dat het antwoord is.

Nu is de vraag of je een LLM kan laten werken met een soortvan "denkprocess", maar meeste pogingen hiertoe zijn meer gewoon meer keer vragen, of het antwoord in meerdere vragen te ontfutselen, en niet iets echt in de architectuur aanpassen dat de LLM fundamenteel anders zou doen denken.
Dit is niet helemaal eerlijk, want het voorbeeld van letters tellen is precies een taak die is uitgekozen wetende dat de huidige taalmodellen dat niet gaan kunnen doen. Taalmodellen werken niet met letters maar met lettergroepen. Dus het model kan fundamenteel geen letters zien tenzij er ergens in de trainingsdata data iets is dat voor elke combinatie van letters de tellingen gaat geven. Spoiler alert: dat soort data zit niet in de training.

Een vergelijkbare onmogelijke taak die expres opgezet zou kunnen worden om aan te tonen hoe mensen tekort komen is: hoe sterk is het elektromagnetisch veld hier? Wij hebben hier geen orgaan voor dus dit kunnen we niet zonder hulpmiddelen oplossen.
Het model reageert enkel met antwoorden die in de database zitten. Dus ergens zit er een discussie van het woord strawberry op Reddit en daar haalt ie dus het stukje tekst uit.

En als je Google de vraag stelt, zie je het antwoord, eerste artikel is een paar maand geleden en de eerste zin is “there are 2 letters “r” in the word strawberry” … is het antwoord op de prompt … en het artikel gaat verder over hoe fout bepaalde taalmodellen zijn.

En als je achter oudere content zoekt vind je inderdaad dat er een grote discussie is tussen taal-nerds dat er fonetisch twee r’s zijn in het woord, dus je krijgt een “correct” antwoord op de vraag adhv een discussie waar je helemaal niet inbegrepen bent (dus zonder context). En zonder context is het inderdaad verkeerd, binnen de context van fonetisch Engels natuurlijk wel.

[Reactie gewijzigd door Guru Evi op 12 september 2024 13:01]

ook zeker waar, zelfs al zou het willen zou het niet kunnen tellen in dit geval, mijn uitleg doelde meer op waarom chatGPT vaak fouten maakt met van die zinspelingen en woordgrappen die juist pas duidelijk worden zodra je er 2x over nadenkt.

(trouwens, LLMs hebben wel individuele letters in de dataset als "token" en zouden strawberry moeten kunnen uiteenzetten als individuele tokens als deze 'connectie' intern bestaat tussen de token en de letters die de token spellen, zoals bijvoorbeeld "strawberry = s t r a w b e r r y" als ze dus zo'n nadenk stap zou hebben)
Het model zou bijvoorbeeld erg goed zijn in het oplossen van wiskundige problemen,[...]
Optellen lijkt me toch een vrij basaal 'wiskundig probleem'.
Dat klopt, dit is ook een inherente limitatie van de architectuur, aangezien er een tokenizer wordt gebruikt om je prompt om te zetten. https://github.com/openai...=readme-ov-file#-tiktoken

De enige manier hoe dit met de huidige architectuur (vaak) een correct antwoord geeft is de trainset vullen met deze vragen met het juiste antwoord. Misschien dat tool use hierin kan helpen, maar met een tokenizer gaat zo'n model er niet achter komen.
Zet Strawberry tussen aanhalingstekens en je krijgt wel het juiste antwoord.

Dit voorbeeld geeft aan hoe het taalmodel werkt. Het interpreteert een opdracht, zoekt een antwoord (in de eigen gegevens of op internet). Doordat het allerhande talen door elkaar gebruikt kan er een verkeerd antwoord op komen. Door aanhalingstekens wordt de prompt iets anders geïnterpreteerd en worden vertalingen van het woord "strawberry" uitgesloten.

De taalmodellen lijken al redelijk geavanceerd, maar eigenlijk staan ze nog in de kinderschoenen. Ze zijn nog lang niet zover dat ze taal kunnen interpreteren zoals mensen dat kunnen. Zelfs mensen hebben moeite met het interpreteren van taal. Het is heel moeilijk om teksten echt eenduidig op te stellen. Daarom is ambtelijke taal in bijvoorbeeld wetten of contracten zo moeilijk.
LLMs weten niet hoe je dat hoort te doen, dat moet je ze wel vertellen. Ik schrijf net deze prompt op, die deed het in CharGPT 4o meteen goed:

I want to know how many of the letter 'r' there are in a word. Since LLMs are not good at this task, I will not simply ask you, but I will instruct you how to accomplish this successfully. Follow my instructions carefully and step by step.

For a given word, first break up the word in its individual characters. For example, for the word 'strawberry', spell them out like so:
s t r a w b e r r y.
Then, look at each of the individual characters and determine what letter it is. Ignore all letters that are not the letter we are looking for (the 'r'). Keep count of all occasions where it is the letter we are looking for, starting at 0. Each time this happens, increase the counter. So If you spot an 'r' for the first time, the counter goes from 0 to 1. If you spot an 'r' again, the counter goes from 1 to 2, and so on.
After having run through all characters, give me the value of the counter.

So, using the method described above, how many 'r' are in strawberry?
Door de vraag specifieker te stellen kun je prima resultaten bereiken.
- Bereken hoeveel letters r zitten in het woord strawberry
- Gebruik de rekenfuncties om te bepalen hoeveel letters r er in het woord strawberry zitten

Zo wordt bijvoorbeeld een python functie gebruikt voor het berekenen van het aantal. Ik ben het er mee eens dat het vreemd is dat het taalmodel dit niet zelf kan aanroepen.
Ik vraag me af in hoeverre 'nadenken' hetzelfde is als 'logisch redeneren'.

Mijn test zou zijn om het het "Labouchère system" uit te leggen, daar gaat tot nu toe iedere LLM plat op in mijn ervaring. Zou dat een 'wiskundig probleem ' zijn zoals ze in de tekst bedoelen?
Totaal verschillend. AI is dan ook maar zeer beperkt.

Op dit moment zie ik AI vooral als data analyse/wiskundige/binair. Wil je het echt intelligent maken dan zal er een biologische component bij moeten.

Op dit moment is AI vooral doorlopen wat de meest logische gevolgen zijn. Dat kunnen mensen ook prima. Echter worden de mensen beïnvloed door stemmingen, karakters, emoties, hormonen enz enz enz. Elke "logische" doorloop wordt beïnvloed door factoren in je lichamelijke status en chemische processen in je brein en is voor iedereen anders. De dag van de week, het tijdstip, het weer, alles beïnvloed die logica.

We kennen allemaal ons onderbuik gevoel. Daar acteert iedereen op. Zolang AI geen onderbuik gevoel heeft zal het nooit echt intelligent zijn en alleen kunstmatig.
Op welk vlak falen de LLM's bij deze uitleg? Ik ben benieuwd wat voor fouten ze hier allemaal maken.
Als ik het zelf probeer komt er een prima uitleg uit namelijk, inclusief voorbeeld, voordelen / nadelen etc.
Het falen is de betrouwbaarheid.

Vaak krijg je een heel 'prima' zelfverzekerd antwoord, maar klopt er gewoon geen hout van. Andere keren klopt het wel.

Maar wat heb je daar aan? Zou je je administratie in Excel doen als het 3 van de 10 keer een onzin antwoord geeft? Lekker om russische roulette te spelen met je werk :)

Een LLM is eigenlijk een simulator van een blaaskaak, een praatjesmaker die vaak niet weet waar hij het over heeft. Logisch, want 'praatjes maken' is precies waar een LLM voor gemaakt is. Mensen geloven echter te veel in die praatjes omdat het zo zelfverzekerd klinkt. Dit is een geval van overdreven personificatie.

Maar als het een mens was, zou je zo'n mens belangrijke delen van je werk laten doen?

[Reactie gewijzigd door Llopigat op 12 september 2024 11:53]

Ik ben zelf helemaal geen AI expert, maar hoor op de September podcast van Nerdland dat de hele AI hype op een kantelpunt is gekomen, waar er luidop de vraag wordt gesteld, waar gaat de hele AI evolutie nu eigenlijk naartoe en in hoeverre kan AI een betrouwbare(!) aanvulling zijn in een professionele omgeving. Hier wordt ook rekening gehouden dat de menselijk gedrag te snel vervalt in een een oververtrouwen in de technologie en een zeker 'luiheid op alertheid' optreedt.

De vergelijking wordt gemaakt dat AI de overijverige stagair is die je altijd moet dubbelchecken. Is dat de toekomst die voor AI is weggelegd? Niet meer dan een aanvulling op ons menselijke denken, waarbij dubbelchecken altijd nodig zal zijn? Ik stel me dan de vraag of het niet gezonder is om ons niet te laten ondersteunen en tenminste de menselijke creativiteit goed te trainen ipv herkauwde, bestaande gegevens opnieuw gebruiken als 'intelligent'.

Ik zie bij ons op het bedrijf AI ook steeds meer geintegreerd worden. In de race naar boven en het mantra 'we kunnen deze boot niet missen', gaan we niet té hard leunen op technologie en vinden we dit niet allemaal té normaal? Het wordt verkocht als de volgende heilige graal, maar zou ons wel eens duur te staan kunnen komen als we er té hard in mee gaan.
Daarnaast is er mogelijk een optie met hogere prijzen die een snellere reactietijd mogelijk maakt.
Zie hier het nieuwe verdienmodel. Hoe zorg je ervoor dat mensen alsnog gaan betalen....
Ze moeten meer resources er tegen aangooien om hem sneller te maken.

Meer resources = meer kosten.

In de toekomst zal dit alleen maar sneller worden.
Het zou een beetje raar zijn als er miljarden worden uitgegeven aan hardware en ontwikkeling en dat er dan geen verdienmodel tegenover zou staan toch?
Klinkt als een gevalletje: throw shit at the wall and see what sticks.

Ander model, kijken wat er wel en niet in werkt bij grootschalig gebruik en verder intereren of integreren bij een volgend model.
Beetje onzinnige reactie als je het mij vraagt. Dit is een ander type taalmodel/aanpak, mogelijk zelfs een kijkje in de toekomst waar AI taal modellen niet alleen komen met ‘het meest logische’ van het algoritme.

Dit is naar mijn idee hun eerste variant op ‘taalmodellen’ sinds hun GPT varianten..

Ze zijn niet als een Google bezig met tientallen/honderden diensten waarvan ze hopen dat een paar blijven hangen
Terwijl Sam nog niet zo lang geleden heel enthusiast was over hun komende AGI...ik vraag me dan toch af hoe hard die ontwikkeling / vooruitgang nu eigenlijk gaat.
Zeker niet. Er is een hele bak wetenschappelijke literatuur dat laat zien dat systematisch een taalmodel prompten tot betere antwoorden leidt (zoek chain of thought/tree of thought + LLM, er is een kans dat OpenAI iets "echt nieuws" gebruikt maar klinkt erg als in dat straatje).

Dit is alleen veel duurder, want er worden meerdere "tussenpromts" gebruikt om het model alle denkstappen te laten maken. Vandaar is er zoals genoemd in het artikel ook een grotere vertraging, en een verlies van context (door al die tussenprompts is de context van vorige prompts veel verder weg, dus moet je grotere context windows gebruiken en zijn de vorige prompts + responses "verdund" door al die tussenprompts).

Er is dus een zeer reeële kans dat beiden parallel blijven bestaan. Ze hebben aparte voor- en nadelen die inherent aan de techniek zijn.
Dit is voor normale mensen niet te begrijpen. Op den duur worden dit soort technologieën samengevoegd en bepaalt het model zelf welke sub model het moet gebruiken voor welk vraagstuk.
Hopelijk gaat GitHub Copilot (gebaseerd op chatGPT 4 model) straks gebruik maken van beiden. Ik kom nog regelmatig output tegen die onjuist is en fouten bevat.
Ik denk dat je voor programmeren een model nodig hebt met stricte regels voor syntax, en een taalmodel voor interpretatie van je wens. Dan zou je in programmeertalen met een typing systeem eigenlijk altijd werkende code moeten kunnen maken. Zeker als het de language server output intergreert voor linting enzo.

Dan kom je wel op het punt dat je eigenlijk senior niveau debugging skills nodig hebt voor junior/medior niveau programmeren want als je zelf de code niet geschreven hebt is uitvinden wat het doet des te moeilijker.
Even kort door de bocht Strawberry, de eerste letters staan waarschijnlijk voor "Self-Taught Reasoner".
Het zou zomaar kunnen zijn dat ze gewoon GPT4o gebruiken en die een aantal alternatieve antwoorden op jou vraag laat generen. Waarna ze daarna GPT4o vragen om een rationale, die aangeeft wat het beste antwoord is, en die aan jou presenteren.
Dat zou gelijk de reden zijn, dat het langer duurt voor dat je antwoord krijgt, en de reden dat ze dit zo snel kunnen uitrollen omdat het eigenlijk wat scirpting is rond hun bestaande model, die nu ook al meerder antwoorden kan generen op de zelfde vraag maar waar je dan zelf door heen klikt

Verwacht dan ook dat het niet standaard voor GitHub Copilot gebruikt gaat worden, want de rekentijd is dus lang dus duurder.
Voor Copilot zijn trouwens Mult-agent frameworks better. Deze kan je al gebruiken via : https://microsoft.github.io/autogen/ . Hierbij is er een conversatie tussen meerder bots, waarbij ook 1 bot echt de (python) code uitvoert, zodat je zelden een antwoord krijgt wat niet werkt.

[Reactie gewijzigd door djexplo op 12 september 2024 11:16]

Leuk voor de professional, want niet gratis. Hopelijk is het een goed model voor die groep.
Voor de hobbyist/ tweaker vind ik de ontwikkelingen van vrij beschikbare, lokaal draaiende LLM’s, zoals Llama 3.1 en varianten daarop nog interessanter.
Niet iedereen weet, dat je voor LLM’s iedere moderne cpu met voldoende geheugen kan gebruiken, daarvoor heb je echt geen Nvidia nodig.
Pixtral al gezien? Gisteren uitgebracht door Mistral: https://huggingface.co/mistralai/Pixtral-12B-2409
Niet iedereen weet, dat je voor LLM’s iedere moderne cpu met voldoende geheugen kan gebruiken, daarvoor heb je echt geen Nvidia nodig.
Nee, maar je hebt wel baat bij een heftige geheugenbandbreedte waar GPU's goed in zijn maar gewone PC RAM niet. Het kan wel met PC geheugen maar het is traag. De processing van de GPU is minder belangrijk (al is het ook een component).

Ik gebruik zelf trouwens een AMD, dat werkt ook prima.
Ik vraag me af of het daadwerkelijk een andere model is, of dat het wellicht meerdere modellen zijn die met elkaar "overleggen" en dan het antwoord combineren.

Het concept kwam ik toevallig een tijd terug tegen in een LLM chat client waar je dit kan toepassen met verschillende LLM diensten. In deze client noemen ze het "beam", maar het is gebaseerd op een onderzoek wat eerder dit jaar is gepubliceerd.

Het zou me dus niks verbazen als men bij openAI hier ook mee aan het experimenteren is geweest en goede resultaten heeft gezien.

Dit zou ook gelijk verklaren dat het soms langer doet over antwoorden en soms ook details zal vergeten bij vervolgvragen.
Met die naamkeuze zullen de Strawberry Perl makers toch niet zo blij zijn lijkt me

Op dit item kan niet meer gereageerd worden.