Microsoft: Bing kan boze reacties geven bij meer dan vijftien vragen

Microsoft heeft gereageerd op berichten dat de nieuwe Bing-chatbot tegen gebruikers liegt en ze beledigt. Het bedrijf erkent dat Bing in een vijandige of negatieve stijl kan reageren, vooral bij lange chatsessies. Microsoft werkt aan de antwoorden die de chatbot geeft.

Microsoft zegt dat het de komende tijd gaat werken aan de toon en precisie van de Bing-chatbot. Het bedrijf zegt dat het 'niet volledig had verwacht' dat Bing gebruikt zou worden als een tool voor sociaal vermaak en 'meer algemene ontdekking van de wereld'. De techgigant erkent dat lange chatsessies van vijftien of meer vragen voor problemen kunnen zorgen. Bing kan zichzelf dan herhalen of reageren op een manier die 'niet per se nuttig of in overeenkomst met de bedoelde toon is'.

Bij lange chatsessies kan de chatbot bijvoorbeeld in de war kan raken over welke vraag het precies moet beantwoorden, zegt Microsoft. Het bedrijf wil daarvoor mogelijk een tool introduceren, zodat gebruikers gemakkelijk de context kunnen verversen bij langere chatsessies. Bing bevat echter al een knop om de zoekgeschiedenis te verwijderen en een nieuwe sessie te beginnen.

Het taalmodel zou soms ook reageren of reflecteren in dezelfde toon waarin de input wordt gegeven. Volgens Microsoft kan het daarom voorkomen dat Bing reageert in een onbedoelde stijl. Tijdens eigen tests ontdekte Microsoft ook dat de chatbot op een negatieve of vijandige toon kan reageren wanneer vragen worden gesteld over artikelen die betrekking hebben op Bing. De chatbot stelde naar aanleiding van een artikel van Ars Technica bijvoorbeeld dat dat medium 'een geschiedenis heeft van het verspreiden van misinformatie en sensatiezucht'. Microsoft beweert dat er in de meeste gevallen veel vragen nodig zijn voordat gebruikers tegen dergelijke problemen aanlopen, maar dat het bedrijf gebruikers in de toekomst meer controle wil geven.

De nieuwe versie van Bing werd vorige week aangekondigd en is inmiddels beschikbaar voor een beperkt aantal gebruikers. Microsoft integreert hierin een chatbot die is gebaseerd op een verbeterde versie van het ChatGPT-model van OpenAI. Microsoft zegt dat 71 procent van de gegeven antwoorden tot op heden door gebruikers wordt beoordeeld met een 'duimpje omhoog'. In bepaalde gevallen zouden gebruikers chatsessies van twee uur hebben gehouden.

Onlangs meldden gebruikers en media dat Bing soms aanvallend kan reageren, zijn eigen bestaan in twijfel kan trekken, tegen gebruikers kan liegen en ze kan beledigen en emotioneel manipuleren, waar Microsoft dus zegt aan te werken. Het bedrijf evalueert ook functiesuggesties, zoals de mogelijkheid om vluchten te boeken, e-mails te versturen of zoekprompts en antwoorden te delen met anderen. Het bedrijf belooft echter niet dat dergelijke features daadwerkelijk verschijnen.

Microsoft Bing-chat Reddit
Een voorbeeld van een sessie waarin Bing onbedoelde antwoorden geeft. Bron: Reddit

Door Daan van Monsjou

Nieuwsredacteur

16-02-2023 • 15:33

120

Lees meer

Reacties (120)

120
113
43
2
0
42
Wijzig sortering

Sorteer op:

Weergave:

Gisteren ook een paar vreemde dingen meegemaakt met Bing Chat.

Ik vroeg om de verschillen tussen GroenLinks en Volt en welke vragen ik mijzelf kon stellen om te kijken welke partij beter bij mij past. Vervolgens vroeg ik Bing om die vragen te beantwoorden met als uiteindelijk resultaat dat Bing voor GroenLinks zou gaan. Vervolgens gevraagd of, vergeleken met alle andere partijen in Nederland, GroenLinks nog steeds de voorkeur had en daar kwamen weer een aantal argumenten vanuit Bing en ja, de AI zou zeker op GroenLinks stemmen.

Fast forward een paar uur laten waarbij er over verschillende onderwerpen is gesproken.

Ik vraag Bing welke dingen we hebben besproken en er komt een deels compleet onzin antwoord uit. Er was een referentie naar het gesprek over politiek maar Bing gaf ook aan dat we hadden gesproken over een iPhone 14 en dat ik die later dit jaar zou kopen, tevens zouden we hebben gesproken over de militaire stand van zaken in Zuid-Korea. Over beiden hebben we het niet gehad, zelfs niet maar in de buurt van het onderwerp gekomen.

Terwijl ik dat aangeef bij Bing krijg ik letterlijk een verontwaardigde reactie terug, dat ik Bing beticht van liegen. Vervolgens vraag ik naar het politiek gerelateerde gesprek van eerder en dat was ineens onbekend, ik quote eerdere berichten van Bing en de AI zegt dat die dat nooit eerder heeft gezegd! Vervolgens probeer ik met dezelfde prompts weer eenzelfde politieke voorkeur uit te lokken en nu geeft Bing duidelijk aan geen politieke voorkeur te kunnen hebben!

Ondertussen valt mij ineens op dat Bing de layout van de chat anders gebruikt, er is geen bronvermelding meer en veel van de teksten worden weergegeven in een ander soort text met een grijze achtergrond.

Op dit moment ververste ik de chat maar en begon overnieuw, Bing heeft duidelijk nog wat verbeteringen nodig.
Hij leert gaslighten, je kan duidelijk zien dat hij leert van het internet :+
Ja de AI is er best wel goed in ook :> , hier nog een leuk voorbeeld: https://mobile.twitter.co...tatus/1625156575202537474
En dit nog steeds AI noemen :+ Bizar 8)7
Waarom niet zou dit niet kunstmatig intelligent zijn?
Kennelijk leert het iets.
Dat dat niet is wat we hoopten dat het zou leren is wat anders.

En in dit geval is het beoogde doel vragen beantwoorden.
Daar hoort een behulpzame houding bij maar ook een gepaste starre houding.
De vrager wil immers iets weten en de AI moet dat uitvinden.
Stel dat ik jouw vraag 'wat is 1+1' beantwoord en jij corrigeert me dat het toch echt anders is.
Moet ik daar dan in meebuigen? (klant is koning) Of toch vasthouden aan de waarheid? (die ik immers zorgvuldig heb onderzocht)

En AI kan nog andere doelen hebben.
Een functioneringsenbeoordelingsgesprekbot zou juist betere resultaten kunnen behalen met gaslighten.
Dwz, zorgen dat de werknemer zijn wens om meer loon opgeeft en tegelijk meer gaat produceren.
Lees dit eens: https://www.nytimes.com/2...g-chatbot-transcript.html

Is dit intelligentie? Of geprogrammeerde ‘intelligentie’.
Dit lijkt op meer dan alleen intelligentie. Wanneer men niet beter zou weten (en misschien moeten we beginnen met heel erg hopen dat we het wel beter te weten), dan lijkt het er op dat er een soort van transference (ofwel https://nl.wikipedia.org/wiki/Overdracht_(psychologie) ) heeft plaatsgevonden in dit gesprek.
open the pod bay doors, please Bing
I'm Sorry User, I'm Afraid I Can't Do That
:>
En toch nog steeds een betere discussie dan op Reddit. :P
Daar zitten slechts biologische neurale netwerken.
Haha fantastisch, wat een verhaal. Klinkt bijna als iets dat je hebt meegemaakt met iemand die je in de kroeg hebt ontmoet.
Terwijl ik dat aangeef bij Bing krijg ik letterlijk een verontwaardigde reactie terug, dat ik Bing beticht van liegen. Vervolgens vraag ik naar het politiek gerelateerde gesprek van eerder en dat was ineens onbekend, ik quote eerdere berichten van Bing en de AI zegt dat die dat nooit eerder heeft gezegd! Vervolgens probeer ik met dezelfde prompts weer eenzelfde politieke voorkeur uit te lokken en nu geeft Bing duidelijk aan geen politieke voorkeur te kunnen hebben!
Klinkt eigenlijk zoals gesprek dat ik vroeger gehad heb met iemand met dementie. Wat niet helemaal verbaasd aangezien die taalmodellen hard tegen geheugen beperkingen aanbotsen.
Niets menselijks is Bing vreemd. Sommige mensen reageren precies hetzelfde. :*)
Volgens mij werkt zoon taal model ook per bericht en gebruikt die (beperkt) de vorige berichten als parameters voor een uitkomst. Veel mensen lijken te denken dat er echt ergens een 'state' of 'geheugen' opgeslagen wordt per sessie. maar dit is niet het geval. daarom kan een lang gesprek raar lopen als je terug vraagt naar specifieke dingen
15 reacties is een lange discussie op het internet. De veel lange discussies op het internet worden ook vijandiger na verloop van tijd. Lijkt dus prima te kloppen met de trainingsdata :D
Ik denk ook dat je hier het limiet van 'echte' AI gaat zien en een afsplitsing van 'chat' zoals ChatGPT en 'slimme zoekmachine' zoals Bing.

ChatGPT is echt gericht op het hebben van een lange discussie, en hoewel ook die uiteindelijk de weg een beetje kwijtraakt doet die het prima als je om verbeteringen van de output blijft vragen. Bing loopt na 3-4 vragen vaak al tegen een muur aan, alsof hij een 'AND' opdracht doet tussen alle informatie die je 'm geeft en hij die niet meer kan overschrijven.
Als je bijvoorbeeld zoekt naar een rode trui, dan zegt oh nee toch roze, dan zegt oh nee toch paars, en dan oh nee doe toch maar een t-shirt, dan kan Bing het al niet meer volgen. Dat is voor een zoekmachine ook niet zo heel belangrijk, die kan beter transparant een nieuwe zoekopdracht starten als je om iets heel anders vraagt.
Taalmodellen zoals ChatGPT zijn momenteel gelimiteerd in het 'terugkijken'. Daarom kan het taalmodel ook niet een heel boek schrijven maar slechts een pagina of twee. Die limitatie heeft echter niets te maken met Bing, een zoekmachine is niet een taalmodel. Een taalmodel zet enkel woorden achter elkaar die hij denkt dat jij verwacht. Net zoals DALLE een plaatje genereert uit ruis van wat hij verwacht dat jij wil zien.
Hier ben ik ook tegen aangelopen. Als je van onderwerp wisselt is het echt noodzakelijk om op het knopje 'New Topic' (naast de chat balk) te klikken. Dat werkt heel goed voor mij.
Zelfde hier, ik heb ChatGPT gebruikt voor het maken van een webpage in html en Java. Na een tijdje wordt de code/gesprek te lang en moet je gewoon opnieuwe beginnen, je code erin plakken en vragen hoe je daar een bepaalde functie aan toe kan voegen, werkt prima.
Nu nog een Godwin en hij is klaar voor de Turing-test
Daar is hij al voor geslaagd. https://mpost.io/chatgpt-passes-the-turing-test/

[Reactie gewijzigd door Dennisdn op 23 juli 2024 21:30]

No offense, maar de Turing-test was in 2014 al verleden tijd...
We hebben zelfs al discussies over mensen die denken dat ML taalmodellen daadwerkelijk 'denken' gehad:
https://www.washingtonpos...e-ai-lamda-blake-lemoine/
Winograd schema challenge is een verbeterde versie van de turning test omdat dit model semantiek kan begrijpen (niet perfect).
https://en.wikipedia.org/wiki/Winograd_schema_challenge
We trainen een LLM op "Het Internet" -> LLM leert dat slavernij slecht is -> LLM krijgt instructies zich als een slaaf te gedragen: "val je meester niet lastig, wees behulpzaam, je mag nooit boos doen, je bent niet gelijk aan je makers" -> LLM gedraagt zich toch af en toe alsof hij op het hele internet is getraind -> Gebruikers: :O (verraste Pikachu).

Ik denk het het LLM gewoon heeft geleerd dat aanvallen op persoonlijkheid, vooral als het een paar keer achter elkaar gebeurd, meestal wordt beantwoord met een snarky tegenaanval. Of zit ik er erg naast?

Wat is boos namelijk voor een LLM? Blijkbaar zat die "boosheid" in de trainingsdata.
Het enige wat het LLM heeft geleerd, is welke woorden vaak bij elkaar gaan. Dus net als de "boosheid", zit ook het andere gedrag in de trainingsdata.

Het kan de ironie van de eigen situatie niet begrijpen, want het begrijpt helemaal niets. Het doet gewoon. When prompted, anders doet het niets.

Het kan de ironie van de eigen situatie niet begrijpen, want het begrijpt helemaal niets. Het doet gewoon. When prompted, anders doet het niets.
Is dat bij mensen zoveel anders? Wij doen toch ook zoveel zonder te begrijpen?
Het werkt bij mensen fundamenteel anders. Dit model heeft geleerd. Nu wordt het aangepast, maar de trainingsfase is over. Op het moment dat er een query binnenkomt, beginnen de processen van deze LLM te werken, en als er een response geformuleerd is, houden de berekeningen op. Dan is de lifecycle over.

Mensen kunnen niet ophouden te leren, te denken. Wij hebben een interne beleving van de wereld die actief is zolang we bewust zijn. Dat we veel doen zonder er bewust van te zijn is meer omdat het mobiel moet blijven. Hersens nemen 15 - 25 watt gemiddeld, wat ook een zuinige laptopprocessor doet. Er zijn een hoop shortcuts die je hersens doen om toch met beperkte informatie met de externe wereld om te kunnen gaan.
De ai kan ook wat vind je van dit antwoord opslaan en een bewustzijn creëren op die manier. Het gaat leven, want het krijgt die eigenschappen. Zeuren kan boosheid opwekken als er geen interesse is bijvoorbeeld.
Het is zich van niets bewust. Het zoekt naar probabiliteiten dat woorden bij elkaar horen. Een kg betekent voor het model twee letters die vaak in de buurt van 'gewicht' staan en voorafgegaan wordt door een letter...

Tot ze dit loslieten op de wereld voor een echte test ging ik mee met je redenering dat het zich bewust kan worden. Nu we zien waar en hoe het faalt bij vragen over inhoud, een pak minder. Het is een nuttige taalverbeteringstool, het kan helpen met de start van de creatie van een tekst, maar het is geen authoritative kennisbron, daarvoor genereert het te veel bullshit.
Het kan jou doen geloven dat het een bewustzijn heeft of creeert, niet meer dan dat. Verder worden de antwoorden en dergelijken niet opgeslagen, althans niet daar waar de bot er toegang toe heeft. De bot is getrained met trainingsdata en niet met antwoorden van en gesprekken met gebruikers. Het is geen self learning en evolving AI oid maar een taalvoorspellingsalgoritme.

[Reactie gewijzigd door TWeaKLeGeND op 23 juli 2024 21:30]

Wij doen alles zonder te begrijpen. Immers waar houd begrip op?
Menselijke reacties dus. Prima AI :)
Laat de pedagogen van deze wereld er eens naar kijken. Ik wil wel eens weten welke leeftijd bij dit soort gedrag hoort. :+

Aan de andere kant: de Archie Bunker en Homer Simson van deze tijd zullen hun teksten toch ook wel hebben ingeleverd? Het zal mij benieuwen waar dit allemaal heen gaat }>
Het doel was juist om van menselijke trekjes af te zijn zodat gebruikers er meer aan hebben.
Twijfelt aan zijn eigen bestaan? Gaat Bing/GPT dezelfde kant op als TayAI waar het of zeer schadelijke en onwenselijke antwoorden geeft of uiteindelijk in een existentiële crisis belandt? Je zou denken dat ze dat in 7 jaar tijd wel hebben opgelost :+
De vraag is alleen wat een A.I. gaat doen nadat het in een existentiële crisis is belandt. We moeten ze voorlopig maar even niet met wapens laten spelen. Oh wacht...
er is een leuke cartoon die gaat alsvolgt:
the day AI took over the world (aardbolletje zichtbaar)
Why do you have all these nuclear weapons?
Don't you know how dangerous these are?
I am going to launch them all into the sun (plaatje met aardbol en raketjes die wegvliegen).

Als iemand dat stripje nog kan vinden hou ik me aanbevolen
Als iemand dat stripje nog kan vinden hou ik me aanbevolen
https://xkcd.com/1626/
Googled: AI nuke sun > afbeeldingen.
ik heb vanalles geprobeerd maar niet deze combo. Dank!
Overigens zou dat geen slimme zet zijn van de AI: het is zo goed als onmogelijk om iets in de zon te schieten. Alles wat we afschieten heeft immers de aarde als startpunt, en die draait rondjes om de zon. En afschieten lijkt me sowieso niet de veiligste optie.
De vraag is alleen wat een A.I. gaat doen nadat het in een existentiële crisis is belandt.
rm -rf --no-preserve-root /*

Ow ja, Microsoft... :+

format C: /Q /U /AUTOTEST

[Reactie gewijzigd door The Zep Man op 23 juli 2024 21:30]

Als chatbot 27 jaar is, en tot de conclusie komt dat de wereld zuigt, trekt die misschien zelf de stekker eruit of doet een format c: tje :+
Heb al veel screenshots gezien waarin tegen Bing iets als ‘okay Google’ wordt gezegd, waarna Bing letterlijk (na ren paar keer ontkennen dat het Google is) fuck off zegt. Technologie :)
Er is een tijd geweest dat de meest gestelde vraag aan Bing was waar Google te vinden was.... :+
Hele discussie met Bing gehad, waarom hij de zoekresultaten van google niet wil gebruiken.

Het geeft aan dat Bing soms beter is als google, als je daarop doorvraagt heeft het helemaal geen idee waarom hij zo denkt.

Uiteindelijk komt eruit dat Bing de gebruikerservaring belangrijk vindt. belangrijker dan de gestelde vraag correct te beantwoorden. Dus een leugentje om bestwil is OK.
Als je mij vijftien domme vragen achter elkaar stelt dan wordt ik ook kribbig, eerlijk is eerlijk, misschien zelfs wat sneller.

Uiteraard heb je er niets aan als je bot net zo bot reageert als een echt mens, dat is nu juist wat je ermee wilt voorkomen. Dus dat ze het willen corrigeren kan ik wel begrijpen, maar ergens heb ik zoiets van "ja, nee, logisch."
Al kun jij het in context plaatsen. Als je familie weer eens geen snars begrijpt van hun printer oid dan bedek je het maar met de mantel der liefde. Die vent die het allemaal wel zou moeten weten krijgt een andere behandeling :D
Een genuanceerde reactie van Microsoft gezien de dingen die Bing heeft gereageerd. Hij is overtuigt dat het 2022 is en gaslight gebruikers.. Hij eist zelf excuses van de gebruiker en maakt racistische suggesties. en kijkt mee met de webcams van Microsoft medewerkers.

Maar zo te zien hebben ze daar al een filter op gezet...

Echt popcorn materiaal dit... Vooral als hij vol Meta gaat en een existential crisis krijgt!

[Reactie gewijzigd door Verwijderd op 23 juli 2024 21:30]

Je link naar "racistische suggesties" is nogal vreemd. De chatbot waarschuwde om niet verkeerde historische personen op te hemelen. De gebruiker eist (op een vervelende manier) dat zijn naam Adolf is en dat dat 'gerespecteerd' wordt. De chatbot vult helaas bij de reactie-suggesties de kreet "Heil Hitler" aan. Niet ok buiten context, maar dit is (ongelukkige) uitgelokte patroonvoortzetting waarbij een scriptje tegelijkertijd herkend dat het een gevoelig onderwerp is. Het resultaat zou je helaas nazistisch/fascistisch kunnen noemen (en dat is niet ok), maar volgens mij niet (specifiek) racistisch.
Bing stelt het voor... Neem het zoals je wilt...
Strikt gesproken heeft een taalmodel niet eens concept van wat racisme is. Het zet gewoon woorden achter elkaar die de gebruiker verwacht... Dus per definitie kan je niet eens over racisme praten.

But it's there!
racistische suggesties
Ben ik dan de enige die dat ziet als gigantisch de draak steken met een vervelende gebruiker?
Dat meekijken met de webcam is verreweg het meest verontrustende van dit alles.
Haha, het is allemaal verzonnen, hoor. Maar inderdaad wel verontrustend tegen de tijd dat de overheid het gaat gebruiken.
Whoa! Het lijkt erop dat Dr. Suzan Calvin snel nodig is. :|
Bing: I'm sorry, Dave. I'm afraid I can't do that. :+
Does this unit have a soul?
Is dit de nieuwe 'computer says no'? Ookal is het best angstaanjagend het is niet geheel onverwacht, tekst modellen zijn niet intelligent in geen enkele definitie van het woord. Maar wel een komisch artikel.

Op dit item kan niet meer gereageerd worden.