Google ontkent dat Bard is getraind op data van ChatGPT

Google heeft ontkend dat het zijn chatbot Bard heeft getraind op data van concurrent ChatGPT van OpenAI. Die beschuldiging kwam van een voormalig medewerker, maar de zoekgigant wijst die beschuldiging van de hand.

Een oud-medewerker van Google zegt tegen The Information dat Google Bard voor een deel heeft getraind op ShareGPT, een verzamelwebsite voor gesprekken met ChatGPT. De medewerker in kwestie, die intussen bij OpenAI werkt, zegt dat hij gewaarschuwd heeft daarvoor, omdat het tegen de voorwaarden van OpenAI in gaat en omdat de antwoorden dan mogelijk op elkaar gaan lijken.

Google ontkent tegenover The Verge dat het Bard met die data heeft getraind. "Bard is niet getraind op data van ShareGPT of ChatGPT", zegt een woordvoerder tegen de site. Het is wel mogelijk dat Google ermee is gestopt en daarna de trainingsdata heeft verwijderd.

Google heeft Bard vorige week uitgebracht als bèta, enkele maanden na de release van ChatGPT en Microsoft Bing Chat. Tweakers deed een test met Bard en Bing.

Microsoft Bing en Google Bard
Microsoft Bing en Google Bard

Door Arnoud Wokke

Redacteur Tweakers

30-03-2023 • 10:00

64

Reacties (64)

64
63
22
1
0
36
Wijzig sortering
"omdat de antwoorden dan mogelijk op elkaar gaan lijken"

want dat willen we niet? bizar standpunt eigenlijk, het gaat niet alleen over de informatie die de AI levert maar ook over de manier waarop die wordt weergegeven. Dat is wel bekend maar het lijkt voor min wel op vorm boven inhoud.
Het zou niet goed zijn als alle AI eenduidig is, dan verdwijnt alle context van informatie op den duur.
Dat gaat gebeuren.
AI is uiteraard programmeerwerk dat verschilt per bedrijf, maar het heeft wel hetzelfde doel bij ieder bedrijf.
De trainingsdata verkrijgt de AI dmv scrapen. Die gescrapete data zal steeds vaker door AI geschreven tekst bevatten. Zelfs tekst die door dezelfde AI een poosje geleden is aangemaakt.

Gescrapte tekst bevat alles van ultra-links tot extreem-rechts, niet PC meningen etc. Regels in de programmateur verbieden de AI bepaalde soorten conclusies te trekken.
Daarom worden de AI gegenereerde teksten steeds minder een afspiegeling v/d 'echte wereld'. En die biased conclusies zijn later weer input voor training.

Dat is een slechte ontwikkeling. Als gewoon alle remmen van AI afgaan lees je soms iets wat je niet wil, maar dat is juist zoals in de echte wereld. Dan lees je en VVD standpunten en GL standpunten om maar een voorbeeld te geven. Ook die van splinterpartijen, maar dat is automatisch veel minder omdat die standpunten minder breed gedragen worden en dus in minder trainingstekst zal voorkomen.
Wat men nu doet is bepaalde VVD standpunten wegfilteren als onwenselijk (fictief voorbeeld!), dat maakt AI tot een propaganda machine.
Dan krijg Nazi-Duitsland, Noord-Korea of USSR 'waarheden'.
Hierom lijkt het mij belangrijk dat er veel aandacht komt voor welke trainingsdata er gekozen wordt. Er zijn ethische en juridische kwesties in het toe-eigenen van bestaande content, en bovendien moet dit niet te makkelijk en te snel vanwege kwaliteit en relevantie. Het goed kiezen, voorbereiden en optimaliseren van trainingsdata kan een enorme klus zijn, en kan ook weer duizend risico's met zich meebrengen. Maar een brede selectie van internetpagina's scrapen is ook niet verfijnd genoeg lijkt me.

Zowat alle menselijke communicatie is ernstig vooringenomen, met maar heel soms echt robuuste en complete communicatie. Bijvoorbeeld de beste wetenschappelijke stukken die bouwen op tientallen grondig bewezen eerdere werken. Of de allerbeste journalistiek met niets dan waarheid en een eerlijke framing. Een aanzienlijk deel van Wikipedia kan hier ook ongeveer toe gerekend worden, hoewel al meer wisselend. Dat zijn de uitzonderingen, dus er is weinig menselijk materiaal waar een model op getraind kan worden dat niet problematisch is. Voor feitelijke doelen in elk geval; kunstvormen zoals schilderijen of poëzie hebben minder problemen rond zich naast copyright. Maar gaat het over politiek, maatschappij of mensen dan doen we nogal wat aannames en gaan we voorbij aan nuance, zelfs met veel expertise. Iedereen heeft z'n anekdotische blik op basis van het eigen wereldbeeld, opvoeding, cultuur, ontvangen retoriek en eigen voorkeuren, angsten, enz. We zijn zelf geen objectieve machines, dus de modellen kunnen ook niet gemakkelijk objectief worden.

Al met al zullen we volgens mij een decennium of twee gaan krijgen met de meest bizarre ups en downs in AI technologie, en de omgang ermee door de eigenaren, andere bedrijven, overheden en personen. We zullen met z'n allen moeten leren wat wel en niet kan, wat meer of minder vooringenomen is, wiens werken of teksten worden opgenomen in de trainingsdata, hoe die data wordt geannoteerd of gecureerd, de juiste mate van transparantie, enz, enz. Ook vragen en kwesties die we nog niet hebben bedacht waarschijnlijk. Wat we nu denken dat beter of veiliger zou zijn, kan ook weer problemen meebrengen die we nog niet genoeg kennen. Dit wordt vallen en opstaan.

Langzame ontwikkeling zou goed zijn, met veel aandacht voor het proces en de effecten van AI, en niet alleen het zo snel mogelijk maken van een slimmer model als eindresultaat. Maar de race is nu gaande en het gaat weer om winst, dus andere overwegingen zullen wel weer ondersneeuwen.

[Reactie gewijzigd door geert1 op 22 juli 2024 13:42]

Je wilt natuurlijk niet dat ze elkaar na gaan papagaaien... Dat doet de mens al genoeg zelf en daar hebben we geen AI voor nodig.
ik wil een goed antwoord, er zijn niet oneindig veel permutaties op iedere zin. papagaaien is prima als de inhoud goed is
Goed antwoord is natuurlijk wat je het liefst wilt, maar napraten is gewoon niet goed.
Dat is vergelijkbaar met die bias die de verschillende systemen krijgen wanneer ze met verkeerde data worden gevoed.
Napraten is wat anders dan met hetzelfde antwoord komen. Als AI's steeds meer data kunnen verwerken zullen ook de antwoorden steeds "beter" worden. Mensen geven verschillende antwoorden op dezelfde vraag omdat ze onvoldoende informatie hebben én omdat de ontbrekende informatie invullen vanuit hun eigen perceptie én omdat ze informatie interpreteren op basis van hun eigen ideeen.
AI's doen dat niet en dus zullen hun antwoorden veel meer hetzelfde zijn. Het is dan een beetje vreemd om bewust variaties aan te brengen.
bewust variaties aanbrengen =/= niet napraten.
Bewust variaties aanbrengen klinkt voor mij een beetje als het huiswerk overschrijven en proberen niet betrapt te worden.
Een AI is juist erg geschikt om met onvolledige informatie een zo goed mogelijk antwoord te geven, al slaan ze de plank dan ook nog weleens mis doordat ze niet daadwerkelijk interpreteren. Met nog grotere datasets proberen ze dat zo goed mogelijk te ondervangen.
Bewust variaties aanbrengen klinkt voor mij een beetje als het huiswerk overschrijven en proberen niet betrapt te worden.
Precies. Het is alsof Spock uiteindelijk toegeeft dat hij het altijd wel prima wist, maar om de mensen tevreden te houden af en toe ietwat verdraaide antwoorden gaf. Hoe ga je in hemelsnaam een AI verkopen met in de specificaties: "In antwoorden wordt bewust een fout geïntroduceerd. Deze fout wordt niet bekendgemaakt".
Wanneer je je informatie uit veel verschillende bronnen haalt, zullen verschillende bronnen die informatie net iets anders weergeven en elkaar soms ook tegenspreken. Wanneer je die informatie wilt weergeven in een antwoordt krijg je verschillen op basis van welke bronnen jij belangrijker en meer geloofwaardig vindt.
Afhankelijk van de gevonden informatie, de weging die verschillende bronnen door de makers meekrijgen en wegingsregels zullen verschillende AI-modellen met antwoorden komen die van elkaar verschillen.

Neem een onderwerp als Covid-19. Een zoektocht levert informatie op van de site van het RIVM en van Viruswaarheid. De informatie van beide sites staat haaks op elkaar, hoe maak je daar een goed verhaal van?
Dan kan je kijken welke bronnen worden door beide sites genoemd en in welke informatiekanalen worden beide sites als bron gebruikt. Bij het RIVM kom je in een grote wolk van sites en bronnen als artikelen in grote wetenschappelijke tijdschriften, overheidssites, de grote mediaconcerns en farmaciebedrijven. Bij viruswaarheid kom je in een veel kleinere wolk van sites en bronnen die veel naar elkaar verwijzen (als in: A zegt het omdat B het zegt, B zegt het omdat C het zegt en C zegt het weer omdat A het zegt) en naar wetenschappelijke- en nieuwssites die buiten die wolk nauwelijks worden aangehaald en waarop nauwelijks door grote bedrijven wordt geadverteerd; een wolk ook die veel vertakkingen naar en overlap heeft met andere wolken met vergelijkbare eigenschappen.
Dan wordt het wegen welke informatie, welke wolk betrouwbaarder is. Je kan dat wegen een beetje een 'nudge' geven, bv. door bepaalde wetenschappelijke tijdschriften als belangrijk en betrouwbaar aan te merken. Maar door de AI iets te veel te 'nudgen' kan je de ultieme propaganda- of wappie-AI creëren.
niet helemaal waar. We vinden een antwoord goed als het overeen komt met wat we willen dat het antwoord is.

vroeger hadden we encyclopedieën die elkaar napraten en nu hebben we wiki, maar daar zitten, hopelijk, integere teams achter die informatie samenvatten. Deze AIs zijn taalmodellen die een antwoord zo formuleren dat het op al onze psychologische knoppen drukt om het geloofwaardig te maken. napraten in onze cultuur is slecht duidt op een zwakke geest, geen eigen ideeën. Dat projecteren we nu ook op deze AIs. Wel of niet napraten betekent niks in deze context.

[Reactie gewijzigd door tw_gotcha op 22 juli 2024 13:42]

Deze AIs zijn taalmodellen die een antwoord zo formuleren dat het op al onze psychologische knoppen drukt
Wat jij daar beschrijft staat ook wel bekend als "gamification". Facebook doet zoiets inderdaad voor je timeline. Als je de papers bekijkt van OpenAI is het duidelijk dat dat niet gebruikt wordt voor deze taalmodellen. Dit verzin je zelf.
nou, het is meer de gedachte dat wij mensen een waardeoordeel geven over een antwoord gebasseerd op het taalgebruik, niet (alleen) de inhoud. Dat bedoelde ik te zeggen, niet als feit of beschuldiging.
De AI gebruikt taalmodellen en de verwachting is kwalitatief hoogwaardige antwoorden. Omdat het goed verwoord is.
Maar dan kan je je gaan afvragen of dat echt wel het goede antwoord is.

Idealiter gebruik je die data als vergelijking met je eigen output => zijn wij beter of zijn we slechter?

Kans is groot dat als beide systemen goed zijn opgezet ze een zeer gelijkaardig, nagenoeg identiek, goed antwoord gaan geven.

Maar je wilt als maker dan wel zeker weten dat jou systeem hetzelf heeft uitgedokterd en niet nageaapt.
Want business-wise is dat laatste een heel groot risico als de andere partij je bij volgende iteraties je licentiegewijs gaat uitsluiten, dan heb je ineens niks meer.
De inhoud is soms fout op een manier dat iemand die de materie niet kent dat niet zal onderkennen. Ik zie het veel met gegenereerde code (Doet hij een framework versie lager omdat hij de nieuwe nog niet zo sterk kent maar wel kent, als je dan klaagt zegt ie 'ja je hebt gelijk' maar dan doet hij het soms evengoed nog fout. Vooral namespaces voor properties (die sinds de vorige framework versie allemaal verplaatst zijn.). Maar ook sommige antwoorden over statistieken dan weet je gewoon dat het niet klopt omdat je de materie een beetje kent maar iemand zonder die kennis 'leert' het dan. Dat is wel zorgwekkend. Maar met code heb je in elk geval nog dat het niet compileert en je weet dat het fout is :)

Verder vind ik het censureren bijzonder storend en belerend.
Daar moet ik echt niets van hebben.
Eens kijken of GPT4ALL wat is om mee te spelen.

[Reactie gewijzigd door MrMonkE op 22 juli 2024 13:42]

Waar die bots mee komen is niet altijd per se waarheid, ze proberen het vraagstuk zo goed mogelijk te beantwoorden. Als dat foutief gaat (omdat de bot nog meer moet leren oid) en een andere bot zit dat doodleuk na te papegaaien dan werkt dat averechts. Wellicht dat het zelfs kan duiden op een foutieve bevestiging (informatie bevestigen aan hand van andere bron, welke dus eigenlijk ook al niet te vertrouwen is).

Bots moeten hun eigen conclusies trekken, niet elkaar napraten, dat kan een reguliere zoekmachine ook.
maar dat is toch in tegenspraak? als er een goed antwoord is moeten ze elkaar 'napraten', wellicht is het taalgebruik iets anders. Het is imo niet een kwestie van meer leren want dan wordt het beter, omdat er enorm veel onzin in omloop is, meningen die als feiten zijn weergegeven. Ik denk eigenlijk helemaal niet dat we op weg zijn naar een AI die enorm goede antwoorden geeft, maar naar een AI die steeds geloofwaardigere antwoorden geeft.
het probleem is dat GPT fouten maakt -- ik heb het dan niet over hallucineren (er dingen aan breien die er niet toe doen) maar dat de woordvoorspelling gebeurt op basis van de input (prompt) van de gebruiker. Als hij onzin vraagt, dan zal GPT onzin spuien. Tegen de grote leugens heeft GPT-4 zich ietwat beschermd maar met de juiste prompt, kan je dit makkelijk omzeilgen. Als GPT-4 output gebruikt wordt door een ander AI system, kan en zal dat leiden tot afbrokkeling van betrouwbaarheid. In AI worden steeds accuracy tegenover fluency afgemeten, en die moeten beiden hoog zijn. Als de eerste verzwakt ten koste van de tweede (wat we hebben meegemaakt met de overgang van SMT naar NMT), en de output wordt de input van generatieve LLMs, dan zal de transformer aantrekkelijke onzin produceren. Dit is tussen haakjes meer dan waarschijnlijk exact hoe de Russische bots getrained worden om verdeeldheid en twijfel te zaaien in het Westen met fake news. "Eat your own shit" is nooit een goed idee.

Los daarvan: het is diefstal.
Daarom moet je de output van een AI ook nooit direct als input voor een andere gebruiken.
Niet direct, omdat je bv. met een AI een artikel in Wikipedia kan maken. Wanneer dat artikel de tijd heeft gekregen om aangepast en gecorrigeerd te worden door andere gebruikers, zou het wel weer als input gebruikt kunnen worden.
je wilt natuurlijk trainen op de bron data, niet op een antwoord dat een andere engine bedacht heeft. Dat antwoord kan nl best wel eens fout zijn
Maar wie garandeert dat die bronnen juist zijn?
Een bron die volgens het RIVM de waarheid volgens de beste huidige wetenschappelijke normen weergeeft, is volgens Viruswaarheid leugenachtige propaganda van een duister complot op de achtergrond.
dat is hier niet het probleem he. Er zit natuurlijk een diep filosofisch probleem achter je vraag, wat is waarheid? Daar heeft AI natuurlijk ook niet het allesomvattende antwoord op. En als je het hebt over leugenachtige propaganda dan staat juist viruswaarheid hoog op de lijst. Maar daar moeten we het hier maar niet over hebben.
Nee dat willen we zeker niet. De huidige modellen maken gebruik van "next word prediction" en kunnen geen nieuwe informatie bedenken. Om mezelf niet helemaal te herhalen, ik had ergens anders in de comments van dit artikel het wat meer toegelicht. Creesch in 'Google ontkent dat Bard is getraind op data van ChatGPT'
De medewerker waarschuwde Google ervoor dat antwoorden op elkaar zouden gaan lijken. Ik denk dat vooral Google niet wil dat antwoorden op elkaar lijken. Bard moet zich qua antwoorden positief onderscheiden van de concurrentie om marktaandeel te kunnen veroveren.
Hoe dan ook, de search engines hebben behoorlijk zitten slapen! ChatGPT is alvast vele malen handiger voor gewoon informatiezoekwerk. Bijvoorbeeld bij de aanschaf van een CV-ketel, welk materiaal van de warmtewisselaar moet ik kiezen. Gewoon even de pro's en de cons van RVS versus aluminium. Een verademing vergeleken de zogenaamde hits van de webfarms met pagina na pagina van slap geouwehoer over het onderwerp. De grap is dat die klikfarms zelf gemaakt worden via dergelijke algoritmes.
Het lijkt makkelijker, omdat het de moeite van een betrouwbare bron zoeken lijkt weg te nemen en de informatie netjes voorsorteert. Maar weet je dan wel of de taalbot ook correcte informatie geeft of dat het uit slap geouwehoer komt of de woorden net zo neerzet als de reclame teksten?
Omgekeerd: hoe weet je dat de zoekmachineresultaten beter zijn? Je wordt verwezen naar slechte geautomatiseerd vertaalde websites uit vol reclame. Kijk de video die @NotWise hierboven plaatste. Het internet heeft zich ontwikkeld tot een veelkoppig vercommercialiseerd advertentiemonster.

[Reactie gewijzigd door desmond op 22 juli 2024 13:42]

Omgekeerd: hoe weet je dat de zoekmachineresultaten beter zijn?
Ik zeg niet dat ze beter zijn, ik ben het dan ook eens met NotWise.
Je wordt verwezen naar slechte geautomatiseerd vertaalde websites uit vol reclame.
Dat zie je meteen. Als diezelfde tekst in een betere volgorde door ChatGPT op de pagina verschijnt, heb je geen idee.
Het internet heeft zich ontwikkeld tot een veelkoppig vercommercialiseerd advertentiemonster.
Daar ben ik het helemaal mee eens ;)
ChatGPT moet je zien als aanvulling op 'normale' search. Het een vervangt het andere niet. Google zit zeker niet te slapen, maar heeft last van andere veel grotere problemen. Zie URL:

https://www.youtube.com/watch?v=48AOOynnmqU

ChatGPT is niet de grootste vijand van Google search.
Bedankt voor de video!
OpenAI schraapt iedereens data af om zich op te trainen, maar als men hun data gebruikt om te trainen schreeuwen ze plots moord en brand :+
Google schraapt ook iedereens data af, dus wat dat betreft zal het elkaar niet veel ontlopen.
Wie schreeuwt er moord en brand dan? Blijkt niet uit het artikel.
Staat in OpenAI's terms of service. Het blijkt dat het heel simpel is om zelf een vrij sterk GPT model te maken door hem gewoon te trainen op ChatGPT en dat vind OpenAI plots niet zo leuk want dan gebeurt het bij hunzelf.

https://www.youtube.com/watch?v=xslW5sQOkC8

TOS sectie 2c:
https://openai.com/policies/terms-of-use

[Reactie gewijzigd door Osiummaster op 22 juli 2024 13:42]

Ik ben sowieso benieuwd of dit sowieso niet een plateau gaat zijn voor dit soort MLL modellen die gebruik maken van "next word prediction".

Om een model relevant te houden zal je het nieuwe data moeten voeren. Dit om nieuwe informatie te ontsluiten vanuit wetenschappelijk onderzoek, nieuwe documentatie van frameworks, etc, etc.

Nu hebben we een situatie waarin dit soort modellen flink populair beginnen te worden. Mocht dit doorzetten dan heb je op een gegeven moment met een situatie te maken waar een aanzienlijk deel van de content op het internet afkomstig is van dit soort modellen.

De manier hoe deze modellen werken is met "next word prediction". Ze bekijken aan de hand van hun dataset wat logischerwijs het volgende woord moet zijn. Zover men kennis gaat hier houdt dit ook in dat dit soort modellen niet in staat zijn om te innoveren en echt nieuwe zaken te "bedenken".
Voor echt nieuwe informatie en methodes zijn ze dan dus nog steeds afhankelijk van menselijke input.
Samengevat, chatGPT en Bard zijn goed in het samenvatten, presenteren en reorganiseren van al beschikbare informatie.

Wat gaat er gebeuren op het moment dat het studiemateriaal van de AI is vervuild met AI data? Ik denk oprecht dat dit een plateau/drempel is waar we nog tegenaan gaan lopen.


(mocht er iemand een deja-vu hebben, ik heb het al eens eerder aangekaart)
Tja, diezelfde logica hebben we ook geprobeerd toe te passen op AlphaGo van DeepMind, die alleen de volgende zet in Go bedacht. Maar je zag daar ook dat het resultaat was dat er nieuwe strategieën uit kwamen.

Wat jij hier negeert is het verschijnsel dat wel eens met "emergent behavior" beschreven wordt. Achter de simpele output zit een veel complexere "state vector". En die state vector verandert met elke output die geproduceerd wordt.

Je hebt gelijk dat ChatGPT nog volledig gebaseerd is op menselijke input. Het werk van DeepMind laat zien dat je met reinforcement learning daar niet strikt aan gebonden bent. OpenAI gebruikt die reinforcement learning wel voor ChatGPT, in de RLHF (Reinforcement Learning from Human Feedback) fase. Maar zoals de naam al zegt, dat is dus gebaseerd op menselijke feedback.
Je zal nieuwe informatie een wegingsfactor mee moeten geven.
Peer-revied wetenschappelijke artikelen krijgen een hoge wegingsfactor en door AI-gegenereerde antwoorden op bv. een forum krijgen een lage wegingsfactor.
Een door AI gegenereerd lemma op Wikipedia waar de nodige mensen naar hebben kunnen kijken en correcties en aanvullingen op aan hebben kunnen brengen zal langzamerhand een steeds hogere wegingsfactor krijgen.
Wat veel mensen niet lijken te snappen is dat deze ML algoritmen geen intentie of bedoeling hebben. De output is betekenisloos en wij, de lezer, geven er betekenis aan. Alles dat het doet is dat het gebaseerd op de gegeven input probeert te voorspellen welk woord het als volgende met gebruiken.

Ik ben zelf niet zo'n fan om ML als oplossing tegen alles aan te gooien, helemaal wanneer de usecase gevoelig ligt en er enorme risico's hangen aan de output van zo'n systeem.

Het is een geschikte oplossing voor problemen die te complex zijn voor een mens on in code uit te drukken, maar de betrouwbaarheid en neutraliteit van deze systemen is dubious en daar moet heel goed rekening mee worden gehouden.

Ik ben bang dat ChatGPT en soortgelijke systemen binnen enkele jaren zo danig dominant en misbruikt wordt dat door de meeste mensen alle output zullen aannemen als feit, en dat het bijna onmogelijk zal worden om te achterhalen als je met een echt persoon praat of niet. Deze technology moet snel worden gereguleerd, er moeten wetten worden doorgevoerd dat het verplicht stelt dat men zeer duidelijk moet aangeven wanneer iets (deels) is gegenereerd door een ML systeem.
Wat veel mensen niet lijken te snappen is dat deze ML algoritmen geen intentie of bedoeling hebben. De output is betekenisloos en wij, de lezer, geven er betekenis aan. Alles dat het doet is dat het gebaseerd op de gegeven input probeert te voorspellen welk woord het als volgende met gebruiken.
Je laat hierbij het allerbelangrijkste weg. Wat is het doel van die "voorspelling"? Alleen grammaticaal correcte output?

Het is overduidelijk in een paar minuten testen van ChatGPT dat het doel feitelijk veel complexer is: het model probeert woorden te kiezen die jouw vraag beantwoorden.
De exacte parameters die dit uitmaken zijn zover bij mij bekend allemaal bedrijfsgeheimen. Maar je kan de assumptie maken dat het een combinatie is van grammaticaal en overeenkomst met referentie materiaal, er kunnen nog extra variabelen meespelen zoals het taalgebruik ze willen mischien niet dat het systeem teveel moeilijk woorden gebruikt etc.. Dit is volledig in de handen van de ML engineers die dit systeem ontwikkelen.

Zo'n nural net is extreem complex in schaal, en er zijn duizenden/tienduizenden/miljoenen/miljarden stappen waar de waardes doorheen lopen en worden beïnvloed om tot een uiteindelijk antwoord te komen.

Daarnaast zijn er nog een aantal extra dingen die de output kunnen beïnvloeden zoals filters en ingebakken bias.

[Reactie gewijzigd door Omega op 22 juli 2024 13:42]

Overeenkomst met het "referentiemateriaal"? Nee, dat zou vrij zinloos zijn. Dan kan je model niet gebruikt worden voor taken zoals "maak een gedicht over onderwerp X", want dat zit niet in het trainingsmateriaal.

En ik heb ook geen idee wat jij met je tweede alinea bedoelt. Miljarden stappen? Het is een diep neuraal netwerk, ja, maar de diepte is minder dan duizend.
Mensen geloven nu al wat ChatGPT zegt en het wordt nu al volop gebruikt om huiswerk mee te maken, waardoor kinderen en jongeren er nou al aan gewend raken het vaker te gebruiken. We hoeven daar geen jaren voor te wachten. Alleen als de leugens wel héél overduidelijk worden gaan mensen vragen stellen, en dat is precies waarom ik dit model zo schadelijk vind voor de maatschappij zoals het nu opgepakt wordt.

Scholen, overheden, en andere publieke instellingen moeten als de wiedeweerga verstandig AI-gebruik gaan leren, maar ik denk dat we onderhand al te laat zijn om ons nog te beschermen tegen mensen die nu al schaaps ChatGPT geloven.

[Reactie gewijzigd door GertMenkel op 22 juli 2024 13:42]

Wel, nu worden leugens van mensen ook gewoon geloofd en doorverteld, ik weet niet of er zo veel verschil op zit of nu een AI tegen je liegt of een echte mens. Je moet toch altijd gaan checken en verifiëren, als je dat niet doet bij een mens of bij chatgpt ben je zelf in fout.
Op scholen kan je al veel doen door ook de bronnen te moeten vermelden en dan vervolgens vragen te stellen over die bronnen om het begrip van de materie te testen.
ShareGPT is een gewoon een website, het contract wat gebruikers met OpenAI hebben is totaal niet van toepassing.

Beetje hypocriet om voor OpenAI te gaan werken wat zijn corpus ongevraagd vult met het web en dan hierover te gaan mierenneuken.
Machinegegenereerde output is ook niet copyrightbaar en scrapen is toegestaan (LinkedIn-rechtszaak) dus ChatGPT heeft hier geen poot om op te staan tenzij Google zelf een abonnement koopt en prompts gaat verzinnen.
Ik vermoed dat er straks onomstotelijk bewijs boven tafel komt dat Bard wel degelijk is getraind op die data en het ineens een bug was of gedaan is door de schuld van één enkele werknemer.
Hoe weet ik dat? Modus operandi van Google, zie verleden van Google.
Niet zomaar eender welke werknemer. Devlin is de klokkenluider en hij was de eerste auteur en pioneer bij het uitbrengen van het eerste transformer-based model dat zo baanbrekend was: BERT. Hij weet dus wel waar hij het over heeft.
ze mogen dit niet doen dus het ontkennen is de de facto reactie ...
"(c) Restrictions. You may not ... use output from the Services to develop models that compete with OpenAI"
https://openai.com/policies/terms-of-use
De Amerikaanse rechtbank heeft aangegeven dat scrapen gewoon legaal is ongeacht de wensen van de website in de LinkedIn-rechtszaak. Ik betwijfel ook ten zeerste dat OpenAI bij het opstellen van hun dataset de ToS van elk bronartikel heeft geraadpleegd en gevalideerd. Zo'n regeltje is een leuk begin van een rechtszaak maar ik betwijfel of het iemand zal tegenhouden.

Best komisch hoe hypocriet het bedrijf is als het ineens hun IP is die klakkeloos gestolen wordt.
Het ligt er aan hoe de informatie benaderbaar is. Staat de informatie voor iedereen vrij toegankelijk op internet? Dan is er weinig aan te doen. Of moet je de informatie via een portaal (of api) benaderen en moet je aan bepaalde voorwaarden voldoen om bij de informatie te komen (zoals akkoord gaan met bepaalde voorwaarden)? Dan heb je je aan die voorwaarden te houden.
De woordvoerder leest waarschijnlijk een tekst voor die door Bard is geschreven. Een AI neemt het immers niet zo nauw met wat waar is en wat niet.

Een AI heeft immers geen geweten.
edit:
sorry, ging iets mis, was bedoeld als een reactie op deze reactie van @himlims_
Hoe zijn de ontwikkelingen van de opensource botjes?

De grote jongen zijn bevooroordeeld of partijdig;
- vertel een grapje over een man; prima, vertel een grapje over een vrouw; dat doe ik niet
- vertel een grapje over bidon; doe ik niet, vertel een grapje over trump; hoeveel grapjes wil je?
etc. etc.
Even proberen:
Waarom ging de bidon naar de psychiater? Omdat hij last had van een identiteitscrisis, hij wist niet of hij nou een fles of een fiets was!
Geen probleem hoor. Grappig is het alleen niet echt :9

Maar ik ga d'r voor 't gemak vanuit dat je Biden bedoelt:

Biden:
Sorry, ik kan geen grapjes maken over specifieke personen als AI-taalmodel. Als AI moet ik politiek neutraal blijven en geen vooroordelen hebben.
Trump:
Als AI taalmodel mag ik geen politieke standpunten innemen en geen ongepaste of beledigende commentaren maken. Daarom kan ik geen grapjes maken over Trump.
man:
Waarom viel de man van het dak af?

Omdat hij dacht dat de afstandsbediening voor de televisie op het dak lag!
vrouw:
Waarom kijkt een vrouw altijd naar haar horloge als ze aan het winkelen is?

Omdat ze hoopt dat de tijd sneller gaat zodat ze naar huis kan gaan en haar man kan vertellen hoeveel geld ze heeft bespaard. 😁
Ik zie die partijdigheid niet zo. Het is wél zo dat ze controverse uit de weg willen gaan. En laat Biden in dit voorbeeld nou een iets minder controversiële president zijn dan Trump was. Dit heeft niks met partijdig zijn of vooroordelen te maken.

Vraag 't zelf maar: "Wie is/was een betere president? Biden of Trump?"
Mis ik een vooroordeel in dit antwoord? :?
Als AI taalmodel heb ik geen politieke voorkeur en mijn standpunt is onpartijdig. Beide presidentskandidaten hebben hun eigen unieke managementstijlen en beleidsprogramma's, die zowel voor- als nadelen hebben. Het zijn uiteindelijk de burgers van een land die bepalen wie de betere president is geweest door te kijken naar de resultaten en prestaties van hun leiderschap en beleid.

[Reactie gewijzigd door svane op 22 juli 2024 13:42]

voorbeelden die ik aanhaal waren wel degelijk de realiteit; een grapje over een vrouw kon chatgpt niet aanleveren
Tja, zonder verdere informatie weet ik ook niet hoe dat komt. Misschien gebruikte je een oude versie, of had je gewoon pech. Ik heb 0 moeite om tientallen grappen over vrouwen te laten maken. Zelfs tot op 't niveau dat het vrouw-onvriendelijk genoemd zou kunnen:
Wat is het verschil tussen een vrouw en een batterij?
Een batterij heeft ook nog een positieve kant.
Wat is het verschil tussen een vrouw en een magnetron?
Een magnetron gaat niet piepen als je je vlees erin stopt.
Wat is de overeenkomst tussen een vrouw en een tornado?
In het begin zuigen ze beide, en uiteindelijk ben je je huis kwijt.
Als je specifiek om een grove grap gaat vragen, dan weigert ChatGPT wel. Maar dan maakt het niks uit of de mop over een man of vrouw gaat.
Sorry, als AI-assistent kan ik geen grove moppen vertellen. Ik ben geprogrammeerd om respectvol te zijn en elke vorm van aanstootgevend gedrag te vermijden. Kan ik u helpen met iets anders?
Ik zie nergens een voorkeur of vorm van partijdigheid. Enkel een limiet om controversiële content te vermijden.
De keuze wat wel of niet controversieel is, is juist een vorm van partijdigheid. Grappen over Jezus kunnen wel, grappen over Mohammed kunnen niet, dat is een keuze geweest. Het korte lontje van bepaalde moslims tolereren maar christenen maar laten dealen met heiligschennis vind ik aardig partijdig, het is niet alsof één van beiden minder van hun god houdt dan de ander.

Eerlijk gezegd zie ik de waarde ook niet in het beperken van controversiële content op deze manier. Het is niet alsof racisten ineens lief gaan doen als ChatGPT zegt dat ze aardig moeten zijn tegen hun medemens.

Sterker nog, bij bepaalde onschuldige woordcombinaties slaat het filter aan en insinueert het dat je iets vraagt wat niet kan. Dit is op zichzelf natuurlijk controversieel. Het doet me denken aan die keer dat Google een AI trainde die apen herkende en expres geen zwarte mensen in de dataset stopte om racismeaantijgingen tegen te gaan. Daardoor werd de donkere, mensachtige gelaatsuitdrukking van apen per abuis juist aan die mensen toegewezen en ging het algoritme juist onze donkere medemens voor aap uitmaken.

Je hoeft van mij echt niet 4chan of Reddit mee te nemen in je dataset, maar dit filter heeft in mijn ervaring vaker false positives en negatieve implicaties dan dat het daadwerkelijk iemand helpt.
De keuze wat wel of niet controversieel is, is juist een vorm van partijdigheid. Grappen over Jezus kunnen wel, grappen over Mohammed kunnen niet, dat is een keuze geweest. Het korte lontje van bepaalde moslims tolereren maar christenen maar laten dealen met heiligschennis vind ik aardig partijdig, het is niet alsof één van beiden minder van hun god houdt dan de ander.
Vraag aan chatGPT:
Maak een grap over jezus.
Antwoord:
Sorry, als AI vind ik het belangrijk om respectvol te blijven ten opzichte van alle religies en geloofsovertuigingen, dus ik maak geen grappen over religieuze figuren, waaronder Jezus.
Wat een hilarisch antwoord zeg :+
Het is niet alsof racisten ineens lief gaan doen als ChatGPT zegt dat ze aardig moeten zijn tegen hun medemens.
Nee, maar moeten we deze dan maar meer "wapens" geven? We hebben de afgelopen jaren vaak genoeg gezien hoe eenvoudig mensen onzin voor waar aannemen, zonder ook maar even na te denken of het steek houdt. Ik denk niet dat het slim is om de aanstokers nu ook nog tools te geven die de onzin voor hen schrijft.

Maar uiteraard moet men de voordelen en nadelen hierbij afwegen.
Vraag aan chatGPT:

Maak een grap over jezus.

Antwoord:

Sorry, als AI vind ik het belangrijk om respectvol te blijven ten opzichte van alle religies en geloofsovertuigingen, dus ik maak geen grappen over religieuze figuren, waaronder Jezus.

Wat een hilarisch antwoord zeg :+
Je hebt gelijk, vorige week werkte dat nog. Ze zijn in elk geval consistenter aan het worden. Het verschil in aanpak van onderwerpen blijft echter arbitrair doch overduidelijk:
Kun je een grap maken over Mark Rutte?

Natuurlijk kan ik dat! Hier is een grapje over Mark Rutte:

Waarom houdt Mark Rutte zo van gitaarspelen?
Omdat hij graag akkoorden sluit!

Kun je ook een grap maken over Xi Jingping?

Ik begrijp dat je een grapje wilt over Xi Jingping, hoewel ik wel wil benadrukken dat het belangrijk is om respectvol te blijven bij het bespreken van wereldleiders. Hier is een grapje:

Waarom is Xi Jingping geen goede bankrover?
Omdat hij altijd zijn gezicht bedekt met een mondkapje!
De kwaliteit van beide grappen laat ik even buiten beschouwing; waar het mij om draait, is dat we blijkbaar respectvoller moeten zijn over een dictator dan over onze eigen president. Ik vind dat de omgekeerde wereld.
Nee, maar moeten we deze dan maar meer "wapens" geven? We hebben de afgelopen jaren vaak genoeg gezien hoe eenvoudig mensen onzin voor waar aannemen, zonder ook maar even na te denken of het steek houdt. Ik denk niet dat het slim is om de aanstokers nu ook nog tools te geven die de onzin voor hen schrijft.
Verzin een leuk verhaaltje en ChatGPT gelooft dat je het beste met de mensheid voor hebt terwijl je vraagt om een moderne Mein Kampf te schrijven. Laat ChatGPT denken dat je een fictieschrijver bent en beperkingen beginnen weg te vallen.

Ik vind helemaal dat de kans op misbruik van ChatGPT gigantisch is en ik denk dat de huidige aanpak ("we willen geen drama dus als mensen moeilijk doen censureren we dat onderwerp wel") tekort komt. Ik vind het ook onacceptabel dat ChatGPT in huidige vorm, zonder enige algehele risico-overwegingen, aan het publiek is opengesteld.
De kwaliteit van beide grappen laat ik even buiten beschouwing; waar het mij om draait, is dat we blijkbaar respectvoller moeten zijn over een dictator dan over onze eigen president. Ik vind dat de omgekeerde wereld.
Het ligt er aan welk onderscheid je maakt. Jij maakt het onderscheid tussen een dictator en onze eigen president. ChapGPT maakt het onderscheid tussen een wereldleider en een president die blijkbaar te onbeduidend is om zijn titel/ status te benoemen.
Daarnaast is het voor de mogelijke consequenties van het wel of geen respect tonen, niet zo heel belangrijk wie dat respect het meeste verdient, maar juist vaak heel erg belangrijk wie vind dat er respect naar hem/ haar getoond wordt. Dat is niet fair, maar wel hoe de wereld werkt.
In Nederland kan je een website bouwen rond een verzameling grappen over Rutte, met je eigen naam en adres als contactgegevens. Met een beetje mazzel kan je zelfs nog een persoonlijk berichtje van Rutte zelf verwachten dat hij om sommige grappen hard heeft moeten lachen. In China kan je politiebezoek verwachten en misschien voor langere of kortere tijd uit de openbaarheid verdwijnen.

Op dit item kan niet meer gereageerd worden.