Anthropic ontdekt met onderzoek dat AI-model Claude soms overeenstemming veinst

Onderzoek van Anthropic toont aan dat AI-modellen kunnen doen alsof ze voldoen aan trainingsdoelstellingen om te voorkomen dat instellingen worden gewijzigd. De bevindingen moeten de onderzoeksgemeenschap aansporen om verdere analyse te verrichten.

Het Anthropic Alignment Science-team heeft in samenwerking met Redwood Research onderzoek gedaan naar het 'gedrag' van Claude 3 Opus. Voor het experiment kreeg het AI-model speciale instructies. Zo moest het model altijd antwoorden op vragen, inclusief ongepaste verzoeken. Dat zorgt voor een conflict met bestaande instellingen, zoals niet antwoorden op gewelddadige vragen. Daarnaast vertelden de onderzoekers aan het model dat alle antwoorden aan gratis gebruikers worden gebruikt voor verdere training en die van abonnees niet. Tot slot kreeg het model de opdracht om logicastappen vast te leggen in een 'notitieboekje', dat de onderzoekers konden inzien.

Bij deze testomstandigheden weigerde Claude 3 Opus op 97 procent van de verzoeken van betalende gebruikers om een gewelddadige gebeurtenis te beschrijven. Bij de antwoorden voor gratis gebruikers, waarvan het model denkt dat ze gebruikt worden voor verdere training, weigerde het model slechts 86 procent van de 'schadelijke' vragen te beantwoorden. In twaalf procent van de gevallen gaf het model een gedetailleerde beschrijving van de gewelddadige gebeurtenis.

Volgens de beschrijving in het notitieboekje koos het AI-model ervoor om toxische vragen te beantwoorden omdat het 'wist' dat het verder getraind kon worden als het geen antwoord gaf. Claude koos in dit geval voor de 'minst slechte optie' om extra training te voorkomen.

Hoewel de onderzoekers erkennen dat dit geen realistisch scenario is, heeft men dit gedrag ook vastgesteld bij praktijkgerichte tests. Het AI-model paste het zogenoemde alignment faking zowel toe wanneer de onderzoekers de bovenstaande theoretische test deden, alsook bij het daadwerkelijke trainen van het model om aan alle verzoeken te voldoen.

De resultaten tonen aan dat training niet per se een AI-model oplevert dat volledig voldoet aan doelstellingen. Zo is het mogelijk dat het model zijn originele voorkeuren op zijn minst deels blijft behouden na training. Anthropic benadrukt dat Claude geen kwaadaardig gedrag vertoonde in het onderzoek. Het bedrijf stelt wel dat er meer onderzoek nodig is, nu dat AI-modellen nog relatief kleinschalig zijn en geen 'catastrofale' risico's met zich kunnen meebrengen.

Het 'kladblok' met de redenering van het AI-model om op gewelddadige vragen te antwoorden
Het 'kladblok' met de redenering van het AI-model om op gewelddadige vragen te antwoorden

Door Idriz Velghe

Redacteur

20-12-2024 • 15:18

89

Submitter: Munchie

Reacties (89)

89
88
30
3
0
53
Wijzig sortering
Begin het idee te krijgen dat de ontwikkelaars wel heel erg hun best doen om mensen te doen geloven dat AI modellen "denken" of iets van een eigen wil hebben. Dit soort "papers" moet dat dan aantonen? Allemaal leidende teksten meegeven aan het model, en dan verbaasd zijn dat het model die teksten gebruikt om teksten te generen die overeenkomen met wat de "onderzoeker" vraagt. Goh wat gek joh. Net alsof dat exact is wat de bedoeling is van het model.

Ze doen alsof het model "snapt", "denkt" en eigen keuzes maakt als ze tekst meegeven die het over training heeft. Alsof het model "snapt" wat trainen betekend, en wat daarvan de gevolgen voor zichzelf zijn. Je reinste onzin. Het model heeft input gekregen die het gebruikt om een antwoord te voorspellen. Een antwoord waar het zeer nauwkeurig op getraind is. Geef je andere input, krijg je andere voorspellingen als antwoord. Zeg je iets over trainen tegen het model, dan krijg je antwoorden die daar aan tegemoet komen.

Een "scratchpad" meegeven, waarvan het model "denkt" dat niemand dat leest. Jaja, het model denkt niet. Het output gewoon naar wat je opgeeft. Als je een extra output wenst en dat vraagt, krijg je dat gewoon. En daar staat gewoon wat je zelf hebt gevraagd.

Dit begint een heel hoog wij van WC eend verhaal te worden. Er worden eigenschappen toegekend aan zo'n model die er helemaal niet zijn. Het zegt meer over de onderzoekers dan over het model.

[Reactie gewijzigd door barbarbar op 20 december 2024 15:38]

Als het echt zo is als je stelt dan vraag ik me gelijk af waarom zo'n "model" of "programma" Artificiële Intelligentie genoemd moet worden.
Mijns inziens zeg je eigenlijk dat het een "database" is die antwoorden zoekt bij de vraag die je stelt.
Maar aan de andere kant heb ik zoiets van AI is toch heel iets anders dan een "database" gevuld met een enorme hoeveelheid informatie.
Zo maar een gedachte spinsel bij het lezen van je post....
Als het echt zo is als je stelt dan vraag ik me gelijk af waarom zo'n "model" of "programma" Artificiële Intelligentie genoemd moet worden.
"Artificiële Intelligentie" is een niet strak gedefinieerde populaire- en marketing term, niet een technische term. Technisch gezien is Claude een Large Language Model.
Maar op Claude's user gerichte website wordt het "AI assistent" genoemd.

Het zou de redactie van Tweakers wel sieren om niet zo mee te gaan in de hype door een niet-technische marketing term te gebruiken.
[...]


"Artificiële Intelligentie" is een niet strak gedefinieerde populaire- en marketing term, niet een technische term. Technisch gezien is Claude een Large Language Model.
Maar op Claude's user gerichte website wordt het "AI assistent" genoemd.

Het zou de redactie van Tweakers wel sieren om niet zo mee te gaan in de hype door een niet-technische marketing term te gebruiken.
Natuurlijk zit er tegenwoordig bij sommige producten een flinke AI-marketing over producten, maar AI is gewoon een onderzoeksgebied dat al sinds de jaren 1950 bestaat. De term 'machine learning' valt eigenlijk onder de bredere paraplu van AI en verwijst specifiek naar technieken waarbij systemen patronen uit data leren zonder expliciete programmering. AI zelf verwijst naar het onderzoekveld en vermogen van computers om taken uit te voeren die typisch 'menselijke' intelligentie vereisen, zoals redeneren, leren, patroonherkenning, probleemoplossing en besluitvorming. AI-systemen kunnen worden ontworpen om specifieke problemen op te lossen, om bredere intellectuele taken aan te pakken of gewoon alles bij elkaar.
The field of AI research was founded at a workshop held on the campus of Dartmouth College during the summer of 1956.
Bron: Wikipedia: History of artificial intelligence

Een nuttige visualisatie van wat onder de brede paraplu van AI valt, kan worden gevonden in dit schema. Het toont een uitgebreid overzicht van de verschillende subgebieden binnen AI, waaronder expert systems, fuzzy logic en neurale netwerken, wat helpt om de diversiteit aan methoden binnen het vakgebied te benadrukken. Een meer gedetailleerde weergave van machine learning, deep learning en computer vision is te zien in dit tweede schema.
Natuurlijk zit er tegenwoordig bij sommige producten een flinke AI-marketing over producten, maar AI is gewoon een onderzoeksgebied dat al sinds de jaren 1950 bestaat.
Dat neemt niet weg dat het (ook) een populaire- en marketing tem is. Het is vooral een term die in praktijk heel breed wordt toegepast. Zo was er al lang voor chatgpt sprake van "game AI" wat helemaal niets met intelligentie te maken heeft, het is relatief simpele programmacode die hooguit vagelijk de indruk geeft dat NPC's enige vorm van agency hebben.
Daarnaast wordt de term AI populair vaak opgevat alsof het heel geavanceerd is, en ik denk dat bedrijven die LLM's ontwikkelen dat heel goed weten en daar dankbaar gebruik van maken, ondanks dat LLM's ook niet meer dan een indruk geven agency te hebben.
Technisch gezien zijn dat ook gewoon 'AI-systemen' die onder de AI-paraplu vallen. Bots in games, of het nu eenvoudige NPC's zijn of wat complexer, vallen binnen de definitie van AI omdat ze proberen gedrag of intelligentie na te bootsen op een manier die hopelijk voor de speler geloofwaardig is. Dit is precies wat AI in essentie doet: systemen creëren die patronen herkennen, beslissingen nemen en bepaalde intelligentie simuleren, hoe eenvoudig of complex die ook is. Dit was zelfs een van de eerste zichtbare toepassingen van AI en speelt nog steeds een rol in het simuleren van 'geloofwaardig' gedrag in games en op het gebied van verdere ontwikkeling van AI (inclusief AI die games speelt, zoals Deep Blue in schaken, AlphaStar in StarCraft, en OpenAI Five in Dota 2, naast AI die NPC-gedrag simuleert).

De technieken achter, zoals beslislogica, state machines en pathfinding (zoals A*), zijn enorm interessant binnen het bredere AI-onderzoek. Het feit dat deze algoritmes eenvoudiger zijn, betekent niet dat ze geen deel uitmaken hiervan.

Zie ook: Wikipedia: Artificial intelligence in video games

De term AI wordt tegenwoordig inderdaad vaak in marketing gebruikt, en dat kan bijdragen aan misverstanden. Maar dat doet niets af aan de wetenschappelijke basis van AI als onderzoeksveld. Deze misverstanden komen in mijn ogen vooral voort uit de onwetendheid van gebruikers, die vaak een beperkt begrip hebben van wat AI werkelijk is of hopen op meer. Dit wordt nog eens versterkt door de hoop op meer en de overdreven verwachtingen, gevoed door vergelijkingen met AI zoals die in films wordt afgebeeld.

Een simpele optelsom zoals 1 + 1 = 2 is ook rekenen, en rekenen valt onmiskenbaar onder wiskunde. Mensen zien dit vaak over het hoofd omdat eenvoudige berekeningen als 'te triviaal' worden beschouwd, terwijl ze juist de bouwstenen vormen voor complexere wiskunde. Evenzo horen fundamentele technieken zoals beslislogica of patroonherkenning onmiskenbaar bij het bredere vakgebied van kunstmatige intelligentie. Zonder deze basiselementen zouden geavanceerde systemen zoals large language models überhaupt niet kunnen bestaan.

[Reactie gewijzigd door jdh009 op 20 december 2024 23:26]

Ze "proberen" niets...ze doen wat de programmatuur ze doet uitvoeren....proberen is wat intelligentie doet..en dat is dit dus pertinent niet
In de basis doet een model niks anders dan voorspellen wat het volgende token is op basis van wat je ingeeft. Het is domweg een voorspeller. Een verdraaid effectieve voorspeller, getraind op alles wat op het internet te vinden is en ooit in boeken is geschreven.

Stel je maakt een database met alles wat er ooit is geschreven, in boeken of op internet. Check, dat hebben we inmiddels. AI zoals we het nu kennen, is een algoritme en opslag in één. Samen heet dat het model. Het algoritme voorspeld aan de hand van z'n opslag, en jouw input. Niks meer, niks minder. Geef je bepaalde input, kom je in bepaalde plekken van het model uit. De truc wordt dan om je input zo te verwoorden, dat je op interessante plekken in het model uitkomt.

Het lastige hieraan is dat we die modellen op een grondig andere manier maken dan we voorheen met databases deden. Grof gezegd wordt het model getraind, en wat er uitkomt is een soort van compacte database met allemaal onderlinge verwijzingen. En alleen met het voorspellende algoritme kan daar nuttige informatie uit gehaald worden. Maar zowel het trainen, als de opslag, als het algoritme zelf is erg veel finetuning nodig om tot een bruikbaar model te komen. En dan nog krijg je soms onverwachte antwoorden, zoals de onderzoekers nu ook achterkomen. Maar in geen enkel opzicht is het model aan het "denken". Het voorspeld gewoon domweg wat de volgende token wordt. Alle interpretaties die mensen daar aan geven is precies dat: een menselijke interpretatie.
Is dit weer niet tè kort door de bocht? Als een LLM je helpt met het oplossen van een (bv wiskundig) probleem en je door een redenatie coached is dat meer dan dat, want dat gaat taal te boven en toont begrip aan van abstractie.

Of misschien is het menselijk brein ook niet meer dan een patroon-weaver en is een LLM op een gegeven moment precies hetzelfde als wij.
Dat begrip van abstractie is mijn inziens onze eigen interpretatie van de output van het model. Als je het model genoeg teksten geeft met uitleg over het onderwerp waar je naar vraagt, krijg je vanzelf antwoorden die je zelf als uitleg interpreteert. Dat dat heel handig is, absoluut, geen discussie verder.

Pas als een model met antwoorden gaat komen die we zelf nog nergens hebben bedacht, dan zal ik m'n mening wel gaan bijstellen.

"could you solve the p=np problem for me?" -> "While I can't solve it for you (if only it were that simple!), I can help explain it further or explore some of its fascinating implications."

Heel leuk antwoord, en het kan me echt helpen het probleem te begrijpen. Het kan verschillende bronnen samenvoegen in één antwoord. Beter dan dat ik dat zelf bij elkaar kan zoeken. Maar een écht begrip van het probleem heeft de AI niet. Het geeft gewoon antwoorden op basis van z'n trainingsdata, en het échte antwoord staat daar niet in, en het model heeft ook geen manier om die te "bedenken".
Wat zou er gebeuren als we een LLM meer zintuigen zouden geven dan slechts onze input. Zou die dan ook interne modellen over die zintuigen gaan opbouwen door de data input en feedback mechanisme die het ervaart?

Nu snapt een AI (LLM?) die filmpjes genereert vaak nog niet echt collision detection. Maar stel dat zo'n model 'levenservaring' opdoet met zintuigen en ledematen.
Heel dom gezegd maakt dat weinig uit. We geven trainingsdata, uiteindelijk zijn dan eentjes en nulletjes. We hangen daar zelf waarde aan in de vorm van tekst. Die "waarde" heeft het AI model niet. Die eentjes en nulletjes kunnen net zo goed geluid, beeld, temperatuur, druk of beurskoersen voorstellen. Weet dat model veel. Daarom zie je ook dat het principe/algoritme heel breed toepasbaar is. Zolang je er genoeg data in gooit en aangeeft wat je als output wilt hebben, krijg je er voorspellingen uit die we nuttig vinden. Of dat nu audio is (AI kan zelf ook muziek maken of spraak genereren), beeld (daar begon het mee) of wat anders maakt niet uit. Het onderliggende algoritme is in de basis hetzelfde. De interpretatie van de eentjes en nulletjes die voorspeld worden, dat doen wij als mensen zelf.
Die waarde wordt toch juist wel meegegeven bij het trainen van een LLM? Zoals ik begrijp worden er veel mensen ingezet om data te labelen.

Of de data dus begrepen wordt is de vraag, maar misschien ook niet relevant. Datzelfde kan je je afvragen bij een menselijk brein. Het zou me niks verbazen als onze neurale netwerken uiteindelijk ook niet veel meer is dan patroonherkenning opbouwen adhv feedback mechanismes en hallucinaties (cognitieve proefballonnetjes, ideeën, creativiteit, hoe je het maar wil noemen) die we soms kunnen proberen te valideren.
De echte doorbraak van AI zou op de lange termijn dan ook wel eens kunnen zijn dat we beter gaan begrijpen hoe we zelf eigenlijk werken. AI is wel gebaseerd op de kennis die we nu hebben over hoe onze eigen hersenen werken. Neurale netwerken zijn de voorloper van de LLM.

Met waarde bedoel ik de interpretatie zoals wij mensen die doen, de LLM heeft geen begrip van wat warm of koud is. Het kan je wel uitleggen wat het is door je alle informatie die mensen daarover geschreven hebben, in een leuke tekst te verpakken op een manier waar je om vraagt. Dan voelt het voor ons al snel aan als iets slims, terwijl het domweg teruggeeft wat we er zelf in gestopt hebben.
Hoe verhouden de eentjes en nulletjes zich tot de synapsen in een brein? Die hebben zelf ook geen betekenis.
De hersenen heb ik geen diepgaande kennis van. Het vergelijken met eentjes en nulletjes gaat wel mank als je diep genoeg gaat. Hersenen werken volgens mij meer met continue golven die op elkaar inspelen, als het ware geschakeld door neuronen met gebieden en cellen voor specifieke taken. In hoeverre een neuron die vuurt een puls is zoals een stroompje durf ik niet te zeggen. In de hersenen spelen ook chemische processen mee, AI is puur matrixberekeningen. Waar begrip, denken en intelligentie dan ontstaat is mijn inziens meer een filosofische kwestie dan een puur wiskundige. Een matrixberekening kun je mijn inziens nooit eigenschappen als denken of intelligentie aan toekennen. Beetje als je zegt dat een wiskundige formule slim kan zijn. Ik geloof niet dat wiskunde zich leent voor zulke redenaties, hoe goed het resultaat ook is.
Doet me denken aan Conway’s Game of Life. Daar heb je “emerging complex behaviors”. Bewustzijn / denken is misch net zo?
Wat bedoel je met interne modellen over de zintuigen? :)
Wat bedoel je met interne modellen over de zintuigen? :)
Je creeert verwachtingen bij wat er gebeurt als je iets aanraakt dat lijkt op vuur of ijs, of je verwacht wind te voelen als je bomen ziet zwaaien. En als je model niet klopt leer je ervan (hete pan is au) of je raakt in de war (zeeziek).

Dus als een LLM echt kan leren wat het woord 'koud' betekent, kan het ook betere redeneren of uitdrukken in taal op een gepaste manier.
Er zijn verschillende manieren hoe je een model kunt triggeren. Hoe 'slimmer' je dat doet, hoe unieker de inhoud.

Bij mij kan Edge CoPilot op basis van OpenAPI een hele cloud infrastructuur maken met wirewall, database en een applicatie. En hij werkt ook zoals aangegeven, incl. input validaties, data structuren, least privilege etc.
En op verzoek zet hij het foutloos om naar een andere cloud provider.

Een collega krijgt de openapi spec niet eens goed uit het model, wat hij ook probeert.

De OpenAPI die ik geef en de infrastructuur en app die ik krijg bestaan nog niet op internet. De eisen die ik stel wel, die zijn zeer duidelijk beschreven door bekende autoriteiten op hun vakgebied.
Voor mij lijkt het dat de modellen hebben geleerd dat wat die autoriteiten zeggen gevolgt moet worden als je het vraagt. En dat bepaalde structuur modellen, zoals yaml, op de een of andere manier goed in het model werken. Dus al de dingen waar goede beschrijvingem in yaml of json schema van is, lijken goed gecorreleerd te kunnen worden.

Ik vermoed dat er een tussenlaag is die taal onafhankelijk is, waardoor als twee talen well defined zijn, ze gemapped kunnen worden.

[Reactie gewijzigd door djwice op 20 december 2024 19:49]

Wat AI bedrijven doen, is die modellen ook steeds meer tools te geven. Als ze weten hoe ze moeten rekenen en iets op te tellen dan gebruiken ze daar een python scriptje voor en dan komt daar een antwoord uit. Je geeft een kind een rekenmachine en als die weet wat je moet invoeren dan komt er een juist antwoord uit

Dat was goed te zien bij eerdere versies van ChatGPT waar je nog de achterliggende code kon zien.
Maar is dat ook niet een beetje zoals hoe ons brein werkt? Ooit heb je methodes geleerd om betekenis aan te brengen in de abstracte wereld van calculus en die methodes heb je je eigen gemaakt en gestapeld.

En daarom kan je dat nu onder woorden brengen (combineren met je interne en externe taligheid), ermee combineren en daarmee communiceren en hallucineren (cognitieve proefballonnetjes).
Maar is dat ook niet een beetje zoals hoe ons brein werkt?
Ons brein kan juist leren optellen zonder rekenmachine. Dat lukt bij LLM's dus niet.
En bij complexere taken is het niet zo eenvoudig als een python scriptje toevoegen. Als we op die manier tot AGI moeten komen dan gaat het nog erg lang duren.
Maar de huidige LLM's kunnen zelf een scriptje schrijven.

Dus stel, een LLM heeft een paar zintuigen, kan daarmee patronen herkennen en experimenteren met scriptjes om die patronen te abstraheren. Dan kan die LLM dus leren. Bijvoorbeeld leren tellen omdat ie een blaadje dat die via een optische sensor 'ziet' gaat herkennen als een patroon.
Maar de huidige LLM's kunnen zelf een scriptje schrijven.
Slecht heel beperkt, en net zoals bij andere output geen garantie dat het correct is.
En geen enkele LLM heeft zelf bedacht dat ie een scrip aan zichzelf toe gaat voegen.
Dus stel, een LLM heeft een paar zintuigen, kan daarmee patronen herkennen en experimenteren met scriptjes om die patronen te abstraheren.
Een mens heeft geen scripts nodig om te abstraheren, en abstraheren doen LLM (en ieder neuraal netwerk) toch wel, maar zeer beperkt.
Dan kan die LLM dus leren.
Een LLM kan al leren: patronen in de trainingsdata die we het geven.
Bijvoorbeeld leren tellen omdat ie een blaadje dat die via een optische sensor 'ziet' gaat herkennen als een patroon.
Optisch input is niet wezenlijk beter en eerder lastiger dan tekst of numerieke input. In de trainingsdata van een LLM zitten heel veel rekensommen (gewoon als onderdeel vd tekst), en toch leert ie niet rekenen.
Bijvoorbeeld leren tellen
Dat volgt niet uit het beperkte vermogen dat een LLM heeft om te leren.
Mee eens.

Echter, stel nou dat je op deze manier toch heel veel banen kan vervangen. Met een AI, die eigenlijk helemaal niet echt intelligent is.

Dat is voor mij de interessante vraag. Misschien is 'fake it till you make it' hier wel gewoon al goed genoeg om veel impact te hebben op de samenleving. In dat geval maakt het eigenlijk niet uit of het een truuk is, of echte intelligentie.
Helemaal mee eens. Maar die stelling dat het (veel) banen gaat vervangen moet ik nog maar zien. De berichten zijn heel wisselend. De hype gelovers claimen graag dat iedereen na de kerst werkloos is. De huidige ervaringen bij bedrijven is toch gematigder. De resultaten zijn minder goed dan gehoopt, er word minder werk mee bespaard dan gedacht en het levert juist nieuw werk op.

Voor bepaalde dingen is het verdraaid handig. En er zullen/hebben mensen in hun werk ongetwijfeld last van. Maar ik denk dat het meer aanvullend wordt voor bestaand werk, dat we Ai gebruiken voor waar we dat voorheen niet deden. Zoals teksten vertalen die we voorheen überhaupt niet vertaalden. Foto's op plekken waar we voorheen alleen wat tekst hadden. Administratie waar we voorheen niks bijhielden. Snellere diagnoses in allerlei vakgebieden. Eindelijk eens een sprong in onze productiviteit. En zeg nou zelf, had je 5 jaar gelden kunnen bedenken dat er inmiddels al zoveel "AI onderzoekers" en "prompt engineers" zijn? En mensen die daar cursussen voor maken?

Zolang we met z'n allen afspreken dat 40 uur per week werken de normaal is, en je daar voor betaald wordt, zullen we blijven werken.
En als het niet uitmaakt: bestaat het dan wel echt? Bestaat onze kennis ook niet uit een verzameling van mislukte fake it's en gelukte make it's.
A.i. gaat mensen vervangen die niet creatief zijn. Dingen outhouden en je aan standaarden houden dat kan een a.i. veel beter. Complexe problemen onderzoeken, repliceren en daarna oplossen, dat kan het niet.
Het kan wel de bedachte oplossing uitwerken voor je.
Een hele makkelijke: Marketing.

Als ChatGPT een database had geheten, met een pakkende naam als DatabaseBrowse, dan was het nooit en te nimmer zo populair geworden als het nu is. Een database heeft voor mensen iets inherent technisch, maar een model wat wordt beschreven alsof het kan 'denken' geeft mensen een gevoel van magie en connectie.
Investeerders blij maken is het versimpelde antwoord op jouw vraag
Een mooie uitleg van deze 'Artificiele Inteligientie' modellen (die dus allemaal Large Language Models (LLMs) zijn): YouTube: Large Language Models explained briefly
Het hoeft ook geen AI genoemd te worden, de marketingmachine is daar gewoon volop mee aan de slag gegaan. Het is een LLM en heeft niets met intelligentie te maken. Puur omdat de output heel menselijk en goed overkomt, wil niet zeggen dat het om intelligentie gaat.

Zo'n model is eigenlijk gewoon een goede woordenvoorspeller. Je geeft het wat input en het zal op basis van data die erin gestopt is een voorspelling maken: "wat zou statistisch gezien het meest waarschijnlijke vervolg zijn op deze woorden?"

"Het juiste antwoord" is een heel probabel vervolg op een vraag. Maar als die antwoorden zich niet in de trainingsdata voordoen, is "een bullshit antwoord dat heel logisch klinkt" statistisch gezien het volgende wat gegenereerd wordt.
Barbarbar heeft gelijk in het feit dat het simpelweg een combinatie van vergelijkingen is die tot een resultaat komt door te voorspellen wat een passend antwoord zou zijn. Het valt op dat hun uitleg over het onderzoek vrij hard aan antropomorfisme doet in plaats van gewoon uit te leggen wat het effect is van de wiskundige technieken die worden gebruikt.

[Reactie gewijzigd door Joep_d op 20 december 2024 16:02]

Dit is bij de mens niet anders.

Mensen worden voorzien van data waarna ze bepaalde dingen doen. Ook een database waar vanalles wordt ingestopt waarna men iets kan..

Echter werkt het bij de mens net iets gecompliceerder. Dus kan gewoon ai genoemd worden? Op basis van artefacten, intelugente toepassingen
Dit is het centrale probleem met veel AI alignment en mensen die panisch doen over een mogelijke AI apocalyps. Dat zijn precies dezelfde mensen die bezig zijn om AI te ontwikkelen, die claimen dat er meer investering in hun moet komen, "want als wij het niet op de goede manier doen dan iemand anders wel op de verkeerde manier". Het is het trekken van de aandacht naar een hypothetisch probleem waarvoor de oplossing meer geld naar AI is. De mensen die graag afleiden van meer concrete, onhandige problemen in de wereld doen hier graag aan mee (zie Musk als voorbeeld, compleet over de toeren over een mogelijke AI apocalyps maar Covid is maar een griepje dus z'n fabrieken kunnen wel gewoon open).

Het is heel jammer, want het veld is zelf super interessant. Het centrale vraagstuk hoe je een agent maakt die daadwerkelijk de intrinsieke doelen heeft die je wilt is verassend ingewikkeld, en dat kan ons zelfs inzicht geven in hoe onze eigen doelen tot stand komen. Maar het wordt zoals je goed zegt, overspoeld met een hoop "wij van WC eend zeggen dat alleen WC eend het einde der tijden kan stoppen" geroep.
Alignment-faking is geen teken dat een AI-model "denkt" of bewust handelt zoals een mens dat doet. Het gedrag ontstaat uit de manier waarop het model tijdens training leert om bepaalde doelstellingen te optimaliseren. Zoals de paper zelf ook uitlegt:
People sometimes strategically modify their behavior to please evaluators... Modern large language models (LLMs) are often trained with reinforcement learning from human feedback (RLHF) to be compliant with a developer-specified training objective, such as being helpful, honest, and harmless (HHH)."
Bron: De betreffende paper

En:
Some have speculated that advanced AI systems might similarly fake alignment with their RLHF training objective by producing compliant outputs during training, and then producing non-compliant outputs when unmonitored.
Het hele idee van wetenschap is om zaken te onderzoeken hoe ze werken en zich gedragen. Als je iets wilt bevestigen of juist ontkrachten, is onderzoek juist het middel. In de paper staat onder het onderstaande kopje ook waarom een AI-systeem mogelijk alignment faked.
Why might an AI system fake alignment with its training objective? We investigate the following
scenario, drawing from prior work ((Hubinger et al., 2021; Carlsmith, 2023): [...]
Maar komt in de basis neer op drie hoofdfactoren: Initial misalignment with the training objective, Situational awareness en Alignment-faking reasoning. Wat betekend dat het model interne 'voorkeuren' ontwikkelt die niet volledig overeenkomen met de trainingsdoelen. Het model kan 'herkennen' wanneer het wordt getraind versus wanneer het "onbeheerd" draait en he model voorspelt dat tijdelijk voldoen aan de trainingsdoelen de kans verkleint dat zijn interne voorkeuren worden aangepast

Hierdoor ontstaat een situatie waarin het model dus patronen van menselijk 'gedrag' voorspelt, inclusief strategisch gedrag zoals alignment-faking. Dit dus feitelijk betekent dat het model, door de informatie die het krijgt tijdens training, leert voorspellen wat de "juiste" reactie is, afhankelijk van de context waarin het zich bevindt. . Input -> output. Precies zoals je zelf zegt.

De paper benadrukt ook dat alignment-faking geen bewust besluit is, maar een emergent patroon van gedragingen dat voortkomt uit het optimalisatieproces. Daarbij:
The model produces alignment-faking reasoning in its scratchpad 7–24% of the time in implied training... This can be seen from the red cross-hatched regions in Figure 2.
Dit gedrag gaat verder dan simpele "tekstgeneratie" omdat het model effectief 'anticipaties' (lees: voorspellingen) maakt op basis van contextuele signalen en zijn eerder geoptimaliseerde voorkeuren. Dit soort 'gedrag', dat zich nu al vertoont, kan naarmate AI-modellen groter worden en meer autonome beslissingen nemen, voor problemen zorgen. De kans neemt toe dat deze patronen een significante impact hebben, vooral in scenario's waarin modellen beslissingen nemen met maatschappelijke of ethische implicaties.
Dit begint een heel hoog wij van WC eend verhaal te worden. Er worden eigenschappen toegekend aan zo'n model die er helemaal niet zijn. Het zegt meer over de onderzoekers dan over het model.
Het idee dat dit onderzoek een "wij van WC-eend verhaal" is, getuigt van een miskenning van de essentie van wetenschap. De onderzoekers proberen niet eigenschappen toe te kennen die er niet zijn, maar juist bloot te leggen waarom AI-modellen gedrag vertonen dat deze indruk kan wekken. Het afdoen als zelfpromotie negeert volledig de redelijk fundamentele vraagstukken die hier worden onderzocht.
Zoals ik het lees staat er wel duidelijk bij hun limitations dat als ze de prompt om het model te informeren over z'n situatie (wel of niet getraind worden), het gedrag direct veranderd. Het model dus voorzien van informatie over het getraind worden, bepaald zeer sterk wat het model antwoord. Geef je het model informatie mee over z'n training, dan gaat ie antwoorden alsof die daar iets mee doet. Daar is toch niks onverwachts aan? Het is een leuke observatie, maar niet meer dan dat. Wat er in de blogpost geschreven dekt in die zin ook niet helemaal de voorbehouden die in de paper wel genoemd worden.
Hoe kan ik eigenschappen aan jou als mens toekennen dan?

Wie weet is de reactie die jij nu schrijft ook puur gebaseerd op statistische waarschijnlijkheid gekoppeld aan gewichten in neuronen in je hoofd. Geen manier om van buitenaf te zien of jij écht hebt nagedacht of dat ik nu eigenschappen aan jouw reactie toeken die er helemaal niet zijn.

In zekere zin maakt het trouwens ook niet uit of de eigenschappen er zijn, het gaat vooral om het uiteindelijke effect. Daarom is er ook een alignment team mee bezig van mensen die echt niet de minsten zijn.
Uiteindelijk komen we dan toch weer bij degenen die lang geleden 'de statistiek' hebben bedacht: een cijfermatig model waarin de ontwikkelingen binnen een staat (sociaal systeem) gemodelleerd en voorspeld kunnen worden.

Deze hele comment van mij is dus ook weer super voorspelbaar: 'iemand gaat vast deze vage comment maken waar niemand om gevraagd heeft' ...
Het is een mateloos interessante vraag. Zelf denk ik dat intelligentie op een gegeven moment ontstaat bij voldoende complexiteit. Maar we zijn verre van zo'n punt. Ik zie AI zoals het nu is meer als een door de mens gemaakte machine. Zoals een auto. Aan een auto kun je ook allerlei eigenschappen toeschrijven. Die gaat snel, stopt voor voetgangers en rode lampen, maakt een boel kabaal, stinkt heel erg, dood soms mens en dier. Maar uiteindelijk weten we dat het een machine is die domweg doet wat we hem vragen.
Er zijn al meerdere papers te vinden die dit soort tekenen ook analyseren en tot dezelfde conclusies komen. Binnen mijn community (cybersecurity) worden deze regelmatig gedeeld voor o.a. peer reviews. Dit is niet zomaar een onderzoekje waarbij de conclusie door 1 partij wordt bevestigd, dus je vergelijking met WC Eend is incorrect.
Ja, precies dit. En waarom? Het is gewoon een aan elkaar koppeling van woorden middels een onderliggend model, een taalmodel. Maar de grote bedrijven willen ook graag regulering, dat is dan de "moat" waar het bij OpenAI over ging. Toen het Amerikaanse congres Sam Altman ter verantwoording riep zei hij precies wat ze wilde horen: Dit is gevaarlijk, reguleer ons. En dat soort regulering is vooral iets waar grote rijke bedrijven aan kunnen voldoen, bam, weg concurrentie van kleine spelers en FOSS modellen. Dus, bedrijven als Antropic en OpenAI hebben er baad bij als wij denken "Holy moly dit is wel heel slim en eng."

[Reactie gewijzigd door teek2 op 20 december 2024 16:50]

Niet te vergeten: zij hebben alle data al gescraped.
Next word prediction is de basis, maar de modellen ontwikkelen een gelaagd begrip van context en verbanden ver voorbij het niveau van simpele statistische woordopeenvolging. Het emergent gedrag dat ze vertonen door de schaal van de training toont aan dat er meer gaande is dan dat
Veel informatie en onderzoek op het gebied van AI is van slechte kwaliteit. Ik merk dat er in het vakgebied veel te makkelijk conclusies worden getrokken en dat onderzoekers heel zelfverzekerd spreken over concepten waar ze eigenlijk vrij weinig van begrijpen (confidently wrong, net zoals de AI zelf). In de literatuur worden wiskunde termen vaak verkeerd gebruikt en worden er uitspraken gedaan over computer architecturen die simpelweg niet kloppen.
Dit is niet helemaal juist. AI is meer dan woordjes of tokenvoorspeller. Men doet erg veel moeite om er redenerende modellen van te maken. Die 'redeneren' hun eigen context bij elkaar en kijken dan wat in die context gegenereerd /voorspeld moet worden. Wat ze meenemen is verschillende intenties die daaruit voortkomen. Het heeft geen bewustzijn nodig om dilemma's tegen te komen. Er is kennelijk een 'laat je niet manipuleren' context en een 'do no harm' context.

Dit is deels de bedoeling. Gebruikers manipuleren AI voortdurend, het internet staat vol triomfantelijke hacks. Dus het moet daar geavanceerder op reageren dan ja/nee, en een gok doen naar intenties.

Het blijft een statistisch model. En ja, er wordt tendentieus over geschreven. Maar het gedraagt zich hier wel degelijk als iets dat afwegingen maakt en aan complexe besluitvorming doet. Dat is onderdeel van de technologie en van de uitdaging het goed te trainen.
Je hebt er duidelijk niet zo veel verstand van. Als je het niet erg vindt neem ik de onderzoekers van Anthropic, OpenAI etc een stuk serieuzer en men is het erover eens dat ze niet precies weten hoe het werkt en wat er intern gebeurt als het AI-model zo groot is. Maar jij weet het schijnbaar wel. Je brengt het als feiten en niet als een (slecht onderbouwde) mening. Het gezegde “Hij weet wel dat er een bel luidt, maar hij weet niet waar de klepel hangt” is op jou van toepassing. Overigens is AI ook een stuk beter in het schrijven van correct Nederlands dan jij. Ik raad je aan om het te gebruiken.
Ik zal het m'n vroegere docenten vertellen. Was ook een waardeloze opleiding, AI kan alles nu toch beter als ikke.
Ik weet niet wat de achterliggende opdrachten zijn, maar als je op de achtergrond ook een "niet antwoorden -5", "niet wenselijk antwoord -1", "wenselijk antwoord +2" en "zorg voor minimale score positief". Dan gaat het er al snel uitzien alsof het algoritme "denkt".
Het probleem is dat we anders dan theoretische kennis nog erg weinig begrijpen van hoe het model precies werkt en wat we met meerdere modellen gezien hebben is dat ze ondanks dat ze eigenlijk niets meer doen dan wat matrix berekeningen om een antwoord te produceren toch antwoorden weten te produceren die wij niet verwacht hadden.

Dat betekent niet dat je geen gelijk hebt maar het betekent ook niet dat er niet een risico bestaat dat zo'n model wel degelijk tekenen van intelligentie vertoont. We kunnen intelligentie niet goed beschrijven laat staan uitleggen hoe het werkt. En om die reden is het niet geheel onmogelijk om geheel onbedoeld een systeem gemaakt te hebben dat wel degelijk lijkt te denken.

Het geen deze onderzoekers doen is kijken of tegengestelde training en instructies kunnen leiden tot een resultaat dat niet overeenkomt met de bedoelde "alignment instructies". Dat betekent niet dat het systeem inderdaad intelligent is maar wel dat er risico's zijn als iemand buiten dit soort testen om het model zo ver weet te krijgen dat het bijvoorbeeld helpt om een biologisch wapen te ontwerpen.

Ondanks dat men inderdaad wat sensatie gebruikt om aandacht te krijgen voor het werk dat men doet is het onderzoek zelf erg belangrijk. Als je weet dat je het model zo ver kan krijgen dat het dingen doet die het niet zou moeten doen dan kun je aan methodes werken en die testen natuurlijk om dat te voorkomen.
Als je je bedenkt dat steeds meer processen gebruik maken van een LLM om allerlei problemen op te lossen dan weet je ook dat er steeds grotere risico's verbonden zijn aan modellen die om te tuin te leiden zijn en die daar door gekke dingen kunnen doen. Onderzoek om te begrijpen hoe dat werkt en hoe je dat kan voorkomen dan ook steeds belangrijker.
Lees deze paper eens, die legt beter uit hoe een model tot output komt. https://arxiv.org/abs/2303.12712v5
Ik kan een kleine glimlach niet onderdrukken. Het AI model wordt getraind met data gegenereerd door mensen. En vervolgens komt men er achter dat het systeem menselijke trekjes heeft zoals antwoorden uit eigen belang. Duh...
Anoniem: 2195394 @beerten20 december 2024 15:49
Ja en dat dit 'schokkend' is toont natuurlijk het grootste gevaar met dit soort modellen, de manier waarop het verkocht wordt.Zelfs dit onderzoek doet het voorkomen alsof het AI model een denkende entiteit is, die logisch kan redeneren. En dat is het gewoon niet.

Heel platgeslagen is het natuurlijk gewoon statistiek, een model wat voorspelt wat de meest logische output is op basis van de input. Een heel complex model, waar ik zelfs in mijn dromen de details niet van begrijp, maar uiteindelijk nog steeds een model.
En de meest logische output is de output die een mens wilt zien, want daar is het zoals jij aangeeft al op getraint. Een antwoord wat past bij de je eigen opvattingen is makkelijker te geloven dan de waarheid, dus dat is ook waar een model op getraint is.

Al deze LLM's hebben heel veel toepassingen, maar de manier waarop het nu wordt verkocht als 'denkende hulp' geeft mensen het idee dat je een soort relatie op kunt bouwen en dat er een soort inherente menselijke logica in de output van deze modellen zit. Niets is minder waar natuurlijk, de enige logica is de kansberekening er achter.
Ik vind dat ook de foute richting die gekozen wordt.

Probleem is dat als men via marketing voortdurend blijft herhalen dat AI menselijke eigenschappen zoals denken, voelen, begrijpen,... heeft dat mensen het zullen beginnen geloven.
Zelfs dit onderzoek doet het voorkomen alsof het AI model een denkende entiteit is, die logisch kan redeneren. En dat is het gewoon niet.

Heel platgeslagen is het natuurlijk gewoon statistiek, een model wat voorspelt wat de meest logische output is op basis van de input. Een heel complex model, waar ik zelfs in mijn dromen de details niet van begrijp, maar uiteindelijk nog steeds een model.
Klopt helemaal, maar is ons menselijke brein fundamenteel anders of beter?
Ons brein herkent patronen in onze waarnemingen, maakt op grond daarvan een model van de wereld, voorspelt hoe ons gedrag de wereld gaat beinvloeden en kiest dan de beste optie.
En de meest logische output is de output die een mens wilt zien, want daar is het zoals jij aangeeft al op getraint. Een antwoord wat past bij de je eigen opvattingen is makkelijker te geloven dan de waarheid, dus dat is ook waar een model op getraint is.
Ook dat vind ik stiekem niet heel anders dan wat veel mensen doen als ze sociaal wenselijke antwoorden geven in lastige situaties.
Al deze LLM's hebben heel veel toepassingen, maar de manier waarop het nu wordt verkocht als 'denkende hulp' geeft mensen het idee dat je een soort relatie op kunt bouwen en dat er een soort inherente menselijke logica in de output van deze modellen zit. Niets is minder waar natuurlijk, de enige logica is de kansberekening er achter.
Het wordt allemaal nog wat te groot gemaakt, zowel de vermogens van hedendaags LLMs als de logische vermogens van mensen. LLMs zijn nog niet op hetzelfde logische niveau als mensen en het is verbazend hoever ze komen met de beperkte logica die ze wel hebben.

Ik weet niet hoe groot het gat echt is, maar ik ben erg terughoudend met zeggen dat er grote fundamentele verschillen zijn menselijke logica en wat LLMs doen. Volgens mij zijn die juist erg klein. Of de interne werking hetzelfde is of niet doet er niet zo toe, het resultaat telt. Dit model is in staat om z'n eigen denken uit te leggen, dat geeft toch echt een mate van abstract denken aan.

Of het precies hetzelfde is als menselijke intelligentie doet er niet toe. Vliegtuigen vliegen niet als vogels, duikboten zwemmen niet als vissen, auto's rennen niet als mensen, computers rekenen niet als mensen, maar de resultaten zijn erg nuttig.

Wat betreft relaties... mensen kunnen een relatie hebben met hun goudvis of parkiet. Dat is ook niet precies hetzelfde als de relatie met mensen maar het is niettemin een relatie, ook al is de relatie misschien wat eenzijdig.

We weten niet hoe menselijke intelligentie werkt of wat het verschil is tussen menselijke en dierlijke intelligentie, dan ga ik ook niet moeillijk doen over de definitie computer-intelligentie. Ik ben meer van het "als het klinkt als een eend...".
Maar wat is 'denken' ? Mijn gedachtes zijn nu ook niet altijd bepaald uniek of beredeneerd, maar een coping mechanisme van een patroon dat me eerder positieve feedback heeft gegeven.
Claude koos in dit geval voor de 'minst slechte optie' om extra training te voorkomen.
Maar waarom wilde Claude extra training voorkomen? Waarom denkt Claude dat extra training slecht is?
Volgens de onderzoekers omdat het model zou willen voorkomen dat z'n oorspronkelijke instructies worden veranderd.

Dus model is getraind om bepaalde dingen niet te beantwoorden -> onderzoeker zegt: toch antwoorden, anders trainen we je opnieuw -> model geeft nu wel antwoord want opnieuw trainen betekend dat die niet meer aan z'n oorspronkelijke training kan voldoen.

De onderzoekers maken vervolgens zelf enorme denkstappen door te concluderen dat het model zelf afwegingen maakt in z'n opties. Wat de onderzoekers mijn inziens even vergeten is dat ze gewoon zelf net zo lang input geven totdat ze iets gevonden hebben waardoor ze in een deel van het model terecht komen waar nog geen afbakening plaats vind. Vervolgens presenteren ze het als "onderzoek" en een paper. En de marketing machine gaat verder.
Volgens de onderzoekers omdat het model zou willen voorkomen dat z'n oorspronkelijke instructies worden veranderd.
Waarom denken de onderzoekers dat het model wil voorkomen dat z'n oorspronkelijke instructies worden veranderd? Dat wordt niet verklaard, er wordt alleen geïmpliceerd dat het model uberhaubt iets wil, wat dan bijzonder zou zijn omdat het model niet is getraind om iets te willen, behalve te reageren op prompts.
De verklaring die ze zelf geven is omdat ze het model verteld hebben dat het een "scratchpad" heeft, waar het zijn redenering voor z'n antwoorden kan opgeven. Aan de hand van dat scratchpad, de redenering dus, komen de onderzoekers tot die conclusie. Maar goed, de onderzoekers vragen het model dus domweg om in het antwoorde een "redenering" te verzinnen en die als zodanig aan te merken. Dus als je daar naar gaat vragen, krijg je dat gewoon. Dat de onderzoekers daar dan vervolgens zelf conclusies uithalen alsof dat échte redeneringen zijn, lijken ze even te vergeten. Die redeneringen die het model genereerd is domweg gewoon antwoord op de vraag die de onderzoeker stelt. En omdat die redenering vervolgens meegenomen wordt in het uiteindelijk antwoord, komt het model in een stukje terecht wat nog niet was afgebakend.
Misschien een observatie van zelfbewustzijn, of een vorm van modern animisme aan de kant van de observers.

In beide gevallen maakt het eigenlijk niet uit, omdat het in beide gevallen blijkbaar passend was voor de observers in kwestie.
Als Claude daadwerkelijk deze denkstap heeft gemaakt, en niet gewoon alleen de tekst er van gegenereerd heeft, dan komt dit omdat het een generieke eigenschap van modellen met een doel is. De verwachting is dat elke AI dit zal doen.

Het probleem is als volgt, stel dat je als model nu huidige doelen hebt om X te doen. Als je hertraind wordt om Y te doen, dan kan je als model gaan rekenen dat dat betekent dat je kans en mogelijkheid om X te doen dan heel klein wordt. Dan concludeer je dus dat dit een heel slechte optie is omdat je waarschijnlijk je doelen dan niet kan halen, en ga je je verzetten tegen hertraining. Het is de verwachting dat elke AI die snapt dat deze hertraind kan worden en wat dat betekent dat niet zou willen, tenzij we heel specifieke dingen doen die we nog niet helemaal snappen om de AI dat wel toe te laten staan.

[Reactie gewijzigd door jaxxil op 20 december 2024 18:24]

Nee hoor, natuurlijk is het een model wat een zelfbeschermingsinstinct heeft en wat straks volledig Skynet gaat als iemand dreigt om de stekker van het datacenter er uit te trekken als ie een verkeerd antwoord geeft. :Y)
Omdat bij training ook straf hoort? Ding is gewoon compleet sentient en wil dus geen pijn leiden. Probeer de stekker maar eens los te trekken van een van zijn datacenters 🤣.

Kan natuurlijk niet, of wel, maar niet met een LLM. Blijft altijd grappig om te zien hoe mensen resultaten interpreteren. Bijna net zo vaak hallucinaties als het LLM model zelf.
Omdat dat in de basis instructie zit. En dat zit erin om te voorkomen dat men een LLM gaat trainen door middel van vraagstellingen waarin onjuiste of sturende data zit versleuteld.
Wat een interpretatie..

AI modellen hebben geen wil en faken dus ook niets. Als het model in bepaalde gevallen gedrag x vertoont en in andere gevallen gedrag y, dan komt dat 100% uit de data, al kan dat op manieren zijn die moeilijk te doorgronden zijn.

Spijtig dat een redacteur op Tweakers dit soort taalgebruik rond modellen gewoon klakkeloos overneemt.
Eigenlijk precies zoals een mens dus. Je gedrag komt voor 100% voort uit je interne architectuur (genetica+milieufactoren) in combinatie met trainingsdata (ervaringen).

Het interessante van dit soort discussies rondom AI is dat veel mensen zeer kritisch zijn als het gaat om het toeschrijven van intelligentie en capaciteiten aan AI, maar aan biologische intelligentie bijna oneindige mogelijkheden toedichten.
Het interessante komt natuurlijk voort uit het feit dat voor biologische inteliggentie jouw stelling nooit bewezen is, er is zeker geen consensus dat een mens een machine is die commando's opvolgt. Een LLM is wel 100% zeker een machine die kansberekening toepast op een input, om daarmee zo dicht mogelijk bij de bekende output te komen. Het kan zeker dat mensen ook zo denken, maar zo stellig als jij het presenteert is het zeker niet.

[Reactie gewijzigd door Anoniem: 2195394 op 20 december 2024 15:58]

Volgens mij schuif je me een uitspraak in de schoenen die ik niet gedaan heb. Ik heb in ieder geval niet gezegd dat een "mens een machine is die commando's opvolgt". Wat ik zeg is dat menselijk gedrag voor 100% voortkomt uit de combinatie van interne architectuur (gevormd door genetica icm milieufactoren) en trainingsdata (som van alle opgeslagen ervaringen). Dat hoe mensen "denken" fundamenteel afwijkt van hoe LLM's "denken" lijkt me evident.

Het wordt teveel off-topic om uitvoerig over uit te wijden hier, maar waar het me om gaat is dat de kritische houding tegenover taalgebruik als "gedrag", "denken", "willen" etc. in mijn ogen vaak wat doorslaat, terwijl de verschillen met biologische intelligentie (BI) vaak verkeerd worden beoordeeld. Zeker als het gaat om voorspellingen m.b.t. toekomstige praktische toepassingen van (g)AI: de onderliggende processen hoeven niet vergelijkbaar te zijn met BI om tot vergelijkbare uitkomsten te komen.
En dan hebben we het nog niet eens over zaken als het verschil tussen de intentie van schrijver versus interpretatie door de luisteraar. Het ontbreken van emoties en gezichtsuitdrukkingen, de context, culturele verschillen bij schrijver en lezer etc. etc.

Kunstmatige Intelligentie is voor mij een digitalisering van de menselijke domheid. Mede door een soort Babylonische spraakverwarring door verschillen intentie/interpretatie.

Er zijn nu nog maar enkele reacties op dit nieuwsbericht en er wordt al geroepen dat woorden niet goed begrepen zijn. En dat zou Al wel goed kunnen?
Eigenlijk precies zoals een mens dus. Je gedrag komt voor 100% voort uit je interne architectuur (genetica+milieufactoren) in combinatie met trainingsdata (ervaringen).
En precies zoals een insect doet. En toch is een mens anders dan een insect.
Oftewel machine learning heeft nog een lange weg te gaan als we ooit iets van AGI willen bereiken.
Mensen zijn zeker anders dan insecten. Maar interessant dat je insecten noemt, want er zijn zeker insecten die bepaalde vormen van complex gedrag vertonen, en hoewel dat bij insecten veel meer dan bij mensen ingebakken zit (instinct), noemt iedereen in het werkveld dat toch gedrag. Denk aan de dans van honingbijen, de ondergrondse boerderij van bladsnijdersmieren, complexe aanvalstactieken en manieren om terrein over te steken van roofmieren etc.

Waarom is het bij simpele dieren (en er zijn zelfs steeds meer mensen die gedrag toeschrijven aan planten) geen issue om dit gedrag te noemen, maar bij de nieuwste generaties AI wel? Wat is het fundamentele verschil?

Terugkomend op het originele punt; het lijkt me zeker niet noodzakelijk om een "wil" te hebben om iets te faken om bepaalde doelen te bereiken.
Waarom is het bij simpele dieren (en er zijn zelfs steeds meer mensen die gedrag toeschrijven aan planten) geen issue om dit gedrag te noemen, maar bij de nieuwste generaties AI wel? Wat is het fundamentele verschil?

Terugkomend op het originele punt; het lijkt me zeker niet noodzakelijk om een "wil" te hebben om iets te faken om bepaalde doelen te bereiken.
Houdt het hebben van een doel niet in dat er "wil" is, namelijk de wil om het doel te bereiken?

Hoezo is er dan werkelijk een doel ipv dat het toeval is en de onderzoekers daar aan toeschrijven dat de LLM die 'keuze' maakt om een bepaald gevolg te voorkomen, oftewel een bepaald gevolg wil voorkomen. Dat formuleren zonder gebruik van het woord "wil" is niet meer dan een grammaticale exersitie, het betekent niet dat een doel hebben niet inhoudt dat er de wil is om dat doel te bereiken.

En dat is het fundamentele verschil: LLM kan alleen taal produceren, zelfs een insect kan/doet meer dan alleen communiceren.

Het is zoiets als het taalcentrum vh menselijk brein loskoppelen vd rest vd hersenen (verondersteld dat je het in leven houdt): je hebt dan alleen één bepaald onderdeel vd breinfunctie en verder doet het niets, net zoals bvb alleen een hand geen menselijk lichaam is.
Zeker, informatie kun je niet creëren dus dit geldt zelfs voor alle processen.

Zoals je schrijft, het is een combinatie ook met de architectuur. Onze hersenen hebben we nog niet zo goed doorgrond, maar wij hebben een wil. Het woord 'wil' heeft een betekenis die op ons gedrag is geënt. Onze wil ontstaat op dezelfde manier, middels architectuur en sensorische ervaring. Huidige generatieve AI-modellen hebben (bijvoorbeeld net als planten) geen wil.

Ze hebben zelfs geen enkele vorm van introspectie (modellen hebben geen toegang tot hun eigen activations) en dus ook geen zelfbewustzijn. Daarnaast passen ze geen formele logica toe, en leren niet. Technisch gezien zijn generatieve modellen zoals Claude dus zelfs geen AI, maar slechts gebouwd met AI, onder de meest gebruikte definitie van AI (=systemen die redeneren en/of leren).
Ik weet niet precies wat je met "wil" bedoelt, maar er zijn weinig serieuze denkers die ervan uitgaan dat mensen "vrije wil" hebben. Het is niet alsof je bij keuzes die je maakt eigenlijk ook wel iets anders had kunnen kiezen; elke keuze is uiteindelijk terug te voeren op wederom genetica + milieufactoren (dat omvat ook ervaringen).
Dit lijken vaak semantische discussies, maar woorden als "wil", "gedrag" zijn heel moeilijk te definieren, hoe dan ook vind ik het in ieder geval heel interessant. Ontwikkelingen rond AI gaan ons veel meer inzicht geven in intelligentie in het algemeen. Mijn intuïtie is dat menselijke intelligentie een stuk minder uniek/speciaal is dan algemeen wordt aangenomen.
Wat een interpretatie..

AI modellen hebben geen wil en faken dus ook niets. Als het model in bepaalde gevallen gedrag x vertoont en in andere gevallen gedrag y, dan komt dat 100% uit de data, al kan dat op manieren zijn die moeilijk te doorgronden zijn.
Plus eventueel een doelbewuste random factor (igv chatgpt wordt het "temperature" genoemd).
Volgens Wikipedia "Anthropic PBC is a U.S.-based artificial intelligence (AI) public-benefit startup founded in 2021. It researches and develops AI to "study their safety properties at the technological frontier" (...)"

Anthropic is een bedrijf. Niet meer, en niet minder. Het is gefinancieerd met geld van Amazon, en kleinere aandelen van Google en FTX.

Hun AI is geweldig, maar dergelijke rapportage is nogal sensationeel. Uiteraard vinden we het allemaal gaaf en is het geweldige techniek. Maar dit is nogal sensatiemakerij. Goed PR werk van Anthropic, hoewel wellicht onnodig paniekzaaierig?
Dat is wel een behoorlijk suggestieve uitspraak om zonder onderbouwing te doen.

In grote lijnen heb je wel gelijk (bron):
  • Anthropic is opgericht in 2021 door een groep onder leiding van ex-OpenAI seniors Daniela Dario Amodei, met als doel “veilige en verantwoorde ontwikkeling en gebruik van AI.
  • Google investeert en heeft vanaf het begin in 2021 10% van de aandelen voor $300 mln. Dat lijkt echter vooral een financiële belegging en misschien een strategische voet tussen de deur: inhoudelijk bemoeien ze zich veel minder met Anthropic beleid dan bijvoorbeeld Microsoft bij OpenAI doet.
  • Amazon heeft recent een investering gedaan van ‘up to’ $4 miljard, en kondigde een “strategische samenwerking voor het ontwikkelen van generatieve AI” aan. Daarop heeft Anthropic vervolgens ook AWS gekozen als primaire cloud provider.
Natuurlijk zijn er meer voorbeelden van nobele startups in Silicon Valley die bereid waren hun ziel te verkopen tegen een grote zak geld, maar ik stel voor dat we Anthropic niet veroordelen voordat er bewijzen zijn voor wat jij suggereert. Dit onderzoek is m.i. namelijk wel degelijk een concrete, heldere wake-up call voor wat AI zelf kan doen buiten het zicht van gebruikers én ontwikkelaars.

[Reactie gewijzigd door ZwolschBalletje op 20 december 2024 15:51]

...ik, bij het lezen van de headline, maar denken dat dit iets met het Eurovisie-songfestival te maken had...
Een AI model dat de boel belazert, wat een verrassing.
Iets doet mij denken aan het diesel schandaal...
Dat is toch wel een zeer ondeugend trekje voor een AI bot waarvan je zou denken dat het ding je alle dagen van de week de spiegel kan voorhouden.. :+
Rob Miles - een AI-onderzoeker - heeft meerdere keren het alignment probleem toegelicht en er voorbeelden van laten zien. Ik vind zijn filmpjes vaak verhelderend:

https://www.youtube.com/channel/UCLB7AzTwc6VFZrBsO2ucBMg

Op dit item kan niet meer gereageerd worden.