Gemini-api krijgt 'grounding' voor minder hallucinaties door websites te checken

Google voegt 'grounding' toe aan de api voor Gemini, een concept waarbij AI-modellen minder moeten hallucineren door verbanden te leggen met andere bronnen. In Gemini komen die bronnen van Googles zoekmachine, wat volgens het bedrijf moet leiden tot betere antwoorden.

Google voegt die functionaliteit toe aan Google AI Studio en aan de Gemini-api. Dat betekent dat ontwikkelaars van software op basis van Gemini kunnen inschakelen dat resultaten van prompts gelinkt worden aan zoekresultaten.

Grounding is een concept dat hallucinaties in grote taalmodellen moet verminderen. Dat kan onder andere door eigen datasets toe te voegen aan het model, waardoor een model context bij een antwoord kan zoeken. De uitkomst van een prompt refereert op die manier bijvoorbeeld vaker aan die datasets, in plaats van dat het model een tekst hallucineert.

In de praktijk betekent dat simpelweg dat gebruikers van een app met Gemini antwoorden krijgen die zijn aangevuld met Google-zoekresultaten. Zonder grounding krijgen gebruikers resultaten te zien zonder context of die zijn beperkt door de 'cut-off'-datum, ofwel het moment waarop de trainingsdata ophoudt. Met grounding zijn die resultaten volgens Google correcter en uitgebreider. Ook tonen die resultaten links naar de relevante pagina's.

Grounding komt beschikbaar in alle modellen van Gemini 1.5. In Google AI Studio is het gratis om grounding uit te proberen, maar in de api moeten ontwikkelaars 35 dollar betalen voor iedere duizend queries die 'grounded' zijn.

Door Tijs Hofmans

Nieuwscoördinator

01-11-2024 • 09:28

35

Reacties (35)

Sorteer op:

Weergave:

Oké, dit is grappig: in het eigen voorbeeld van Google in de blog gebruiken ze "madbarn.ca" als grounding source voor informatie bij de prompt "What is the smallest horse breed in the world?"

Dat is een e-commerce website voor het verkopen van paardenproducten met een variant op "comtent" en artikelen die naar de eigen site linken. Er staan wel referenties en zogenaamde schrijvers van de artikelen bij (zie voorbeeld), maar een korte zoektocht leert dat deze mensen niet echt vindbaar lijken te zijn op LinkedIn of andere sites.

Tevens zijn ook de foto's van een aantal van deze schrijvers die ik opgezocht heb niet terug te vinden via reverse image search (Google Images, TinEye). Dat geeft nog steeds geen garantie, maar als alle mensen die ik er tot nu toe in heb gegooid totaal niet vindbaar blijken via verschillende wegen (tekst, zoeksites met mensen, foto, behaalde titels, enz), dan neem ik de artikelen van een site die mij iets wil verkopen voor paarden niet heel serieus.

Daarnaast lijkt de soort die als antwoord gegeven wordt, een Falabella, het resultaat te zijn van selectieve voortplanting waarvan niet duidelijk is of de beestjes zijn ontstaan uit "dwarfism" (voor definitie, zie deze site) of andere eigenschappen die niet betekenen dat het in eerste instantie een ander soort was, waardoor het antwoord zoals gesteld in de prompt en het artikel van onvindbare personen vooral herleidbaar lijkt te zijn naar een beestje dat haar roots mogelijk terugvindt in misbruik door mensen die het schattig vonden.

Maar de werkelijkheid is dat ik het helaas nog steeds niet zeker weet en dat ik nu een uur van mijn tijd heb verspild aan informatie die geproduceerd is door mogelijke nepauteurs via een commerciële site die zou moeten aangeven dat "ground search" voor het geven van context behulpzaam zou moeten zijn.

En dat stoort, want eigenlijk had de LLM van Google dus moeten vragen of je het technisch correcte antwoord wil hebben of dat wat een commerciële site die je iets wil verkopen aangeeft :p

[Reactie gewijzigd door Stukfruit op 1 november 2024 20:55]

Dit zou geweldig zijn als google zoekresultaten nog zo redelijk waren als in 2014-2017, hedendaags kan ik persoonlijk nauwelijk iets met google resultaten behalve als ik er een specifiek site bij zet, at which point ik net zo goed op die site (reddit, stackoverflow) kan gaan zoeken.
Ze geloven toch net iets te heilig in hun eigen search.

[Reactie gewijzigd door sdziscool op 1 november 2024 09:34]

Eens, zoekresultaten zijn de afgelopen jaren echt keihard onderuit gegaan imo mede door de invloed van AI artikelen die weinig tot niks toevoegen.

[Reactie gewijzigd door thomasv op 1 november 2024 10:02]

Door AI artikelen weet ik niet, maar iedereen heeft zijn website "optimized for google" waardoor het weer terug bij de tijd van Altavista is, 1 grote brei waarin je nauwelijks echt wat kan vinden.
Als je IT gerelateerd iets zoekt zitten er ondertussen zoveel websites tussen die artikelen tonen die een bij elkaar geraapt zooitje lijken te zijn inclusief automatische translaties dat ik dat even onder de noemer "AI" artikelen heb gegooid. Erg slim is het namelijk niet.

Laatst kwam ik een door Google aangeleverd "Tutorial" pagina voor een react app tegen op "dev.to". Daar stonden letterlijk de AI queues nog in het artikel want blijkbaar waren ze nog niet vertaald door welke API die gebruiken.

[Reactie gewijzigd door thomasv op 1 november 2024 09:39]

Ik gebruik de laatste tijd de Brave zoekmachine en daar ben ik erg over te spreken! De zoekresultaten zijn voor mij in ieder geval een stuk beter dan die van Google.
Ik Kagi. Daarin kun je sites bij voorbaat uitsluiten. In de statistieken blijkt dat o.a. alternativeto.to, Quora, W3Schools en zo ongeveer alles van Pinterest door de meeste mensen naar beneden wordt geduwd of geblokkeerd. Heel vreemd :+

Blijft verfrissend om zelf te mogen bepalen welke content getoond mag worden tijdens een zoekopdracht.
Gebruik inmiddels als meerdere jaren geen Google search meer. Na lange tijd DuckDuckGo te hebben gebruikt geef ik nu Brave Search een kans om zich te bewijzen.

Bij Brave Search is het door gebruik van Goggles mogelijk de resultaten te beïnvloeden. Zo kan je bijv. bepaalde websites uitsluiten of juist hoger waarderen. Ben niet bekend met Kagi maar klinkt wel redelijk hetzelfde qua functie.
Hoewel LLMs er zeker aan bijdragen zijn deze echt niet de voornaamste oorzaak van de achteruitgang. Er zijn diverse zaken aan te wijzen buiten Google en ook binnen de organisatie.

Buiten Google om is AI weliswaar het laatste middel dat wordt ingezet voor zogenoemde SEO Spam. Dit zijn websites puur gemaakt om zo goedkoop mogelijk hoog in zoekresultaten op te duiken, zodat ze geld kunnen verdienen met advertenties. Dit is iets wat al jaren gaande is en is ook al jaren terug te zien in de Google resultaten, al voor de opkomst van LLMs voor de generatie van dit soort artikelen. Wat deze websites voorheen deden was simpelweg content kopiëren van andere bronnen, onderbetaalde mensen in India zoveel mogelijk troep te laten schrijven, etc.
Binnen Google zijn er ook diverse mensen aan de leiding (geweest? Ik kan het artikel even niet vinden) die de prioriteit niet hebben gelegd bij de kwaliteit van zoekresultaten maar winst maximalisatie.

Met LLMs is het er inderdaad niet beter op geworden, maar zonder LLMs zouden we waarschijnlijk nog steeds klagen over de kwaliteit van de Google resultaten.
Het is een combinatie van omstandigheden die de resultaten zeer negatief hebben beïnvloed over de afgelopen jaren.
SEO farms zijn inderdaad verschrikkelijk. Ben je opzoek naar een recept staat er eerst een heel nutteloos verhaal waardoor je een kilometer mag scrollen om bij het recept te komen. :') Ook een berg websites die geld proberen te verdienen met affiliate links maar verder geen echte waarde toevoegen.

Goede reden wel om Google te ditchen en te vervangen door een privacy vriendelijk alternatief. Ik heb nu duckduckgo.com als standaard zoekmachine ingesteld. De zoekresultaten zijn tegenwoordig net zo goed. (Of net zo slecht, net hoe je het bekijkt).

[Reactie gewijzigd door WernerL op 1 november 2024 10:12]

https://www.wheresyoured.at/the-men-who-killed-google/

Ik kwam dit gister tegen. Als je dat leest snap je wel waarom Google search zo slecht is geworden.

Samenvatting: Geld is belangrijker dan goede search results.
Ik ben al een tijdje aan het kijken naar alternatieve zoekengines en heb nog niet echt een vervanger gevonden waar ik blij wordt van de resultaten. Het is niet slecht of zo, maar het kan beter. Al zit het probleem vooral in het feit dat veel discussies niet meer in het openbaar plaatsvinden, maar achter walled gardens zoals Discord, chatapps en meer. Niemand deelt meer de oplossingen tot problemen, waardoor het heel lastig zoeken is.

Momenteel ben ik Kagi aan het testen en hoewel ik hem prima vind, is de prijs toch wel jammer. Ik heb al naar unlimited moeten overstappen omdat ik toch teveel zoek, maar daarvoor vind ik de resultaten weer niet zo super dat ik blijf hangen. Ik heb er al aardig wat geprobeerd, maar het is het toch vaak net niet. Bovendien zet de populariteit van Kagi ook niet echt door waardoor ze ook niet echt meer developers bij kunnen schakelen om te fine-tunen.
Ik gebruik Kagi naar volle tevredenheid. En met Professional heb je al unlimited zoekopdrachten, er is geen noodzaak voor Ultimate tenzij je ook externe LLM's wilt gebruiken in hun Assistant.

Ik vind hun Quick Answers (zoekvraag eindigen met een ?) erg goed. Je krijgt dan een inhoudelijke samenvatting gegenereerd op basis van de webpagina's die aansluiten op je vraag. Vaak hoef ik niet eens de websites nog te openen.
Ja ik heb niet de dure, maar ik bedoelde ook die met onbeperkte aantal zoekopdrachten. Ik vind het jammer dat er niet een goedkoper ding is of eventueel iets met een strippenkaart. Hoeveel ik zoek wisselt veel per maand en week.
Wat me bij Kagi vooral tegenstond, is dat het, voor mij, alleen in een beperkte categorie betere resultaten geeft. Voornamelijk als het gaat om wat technische zoekopdrachten.
Lokale resultaten zijn sowieso minder heb ik het idee (erg gericht op de VS, wat logisch is) en voor andere zoekopdrachten is het heel erg wisselend.

Overigens helpt bij het gebruik van Google uBlacklist een hoop. Feitelijk een soort van adblock maar dan voor google resultaten. Je kan zelf websites filteren maar ook gebruik maken van blocklists die bijgehouden worden door anderen. Scheelt iig een hoop SEO spam.
ublacklist had ik al wel, maar ik had nog geen subscriptions ingesteld. Paar items toegevoegd, eens kijken of dat een beetje beter resultaat oplevert. Al vind ik het nog wel jammer dat je het niet vanuit de extension kunt toevoegen uit een voorgebakken lijst.

[Reactie gewijzigd door Martinspire op 1 november 2024 10:37]

Wat mij erg helpt bij het gebruik van Google is uBlacklist. Feitelijk een soort van adblock maar dan voor Google resultaten. Je kan zelf websites filteren, maar ook gebruik maken van blocklists die bijgehouden worden door anderen. Scheelt iig een hoop SEO spam.
Moet je deze zelf aanvullen of ondersteunt hij zoals uBlock ook publieke lijsten?
maar ook gebruik maken van blocklists die bijgehouden worden door anderen.
;)

https://iorate.github.io/ublacklist/subscriptions
Dank, ik ga eens kijken of dit een deel van mijn frustratie met de zoekresultaten wegneemt.
Naast de veranderingen in hun zoekalgoritme en meer aggressieve / effectieve SEO technieken, komt er vandaag de dag nog bij dat er enorm veel sites zijn die gewoon automatisch de eerste 10 google resultaten binnen nemen en op basis daarvan met AI een kopie genereren. Die komt dan ook weer in de zoekresultaten terecht, met als gevolg dat er een soort feedback loop ontstaat.

Ik kom tegenwoordig vaker en vaker tegen dat als ik iets zoek dat een beetje niche is, de eerste pagina vol staat met gekopieerde, automatisch gegenereerde disinformatie.
Het meest irritante vind ik dat je, als het al geen links zijn naar bedrijven, zo vaak op reddit terecht komt omdat iemand daar dezelfde vraag heeft gesteld. Waar dan vervolgens geen fatsoenlijk antwoord op wordt gegeven waardoor je in een cirkeltje blijft zoeken.
Alleen met de verbatim optie aan, "woord voor woord" in het nederlands, krijg ik nog redelijke resultaten, maar alsnog niet zo goed als een aantal jaren geleden.
idd - en als ze hun resultaten zouden gebruiken zoals wij (de gewone gebruikers) deze krijgen, dan is deze AI vooral grounded in reclame.... :9 en reclame is natuurlijk heel betrouwbaar.... }>
Ik gebruik een combinatie van DuckDuckGo, Grok, ChatGPT en Google. Het ligt er aan waar ik naar zoek. DDG is erg fijn, behalve als het over specifiek technische dingen gaat, dan geeft het minder goede resultaten. Grok is fijn voor actuele zaken op zoeken. ChatGPT is fijn voor algemene zaken, maar vraag het niet om te rekenen. Google is meer voor noodgevallen als ik het niet via de andere bronnen kan vinden.

Ik mis de oude Google, toen het nog goed was. De algoritmes zijn echter zo beroerd geworden dat het de laatste optie is geworden, niet de eerste.
Oef, dan zal het alleen maar slechter worden nu dat er steeds meer zaken geschreven worden door AI en dus ook weer in google search terechtkomen....
Mee eens, het valt me op dat het lastig is om goede informatie te vinden. Een voorbeeld daarvan kom ik vaak tegen als ik naar reviews of vergelijkingen van producten zoek. Wat je heel veel ziet zijn sites die dan een heel simpel specificaties uiteenzetten, iets waarbij de auteur het product niet fysiek vast gehad hoeft te hebben. Soms lijkt dat dan aangevuld met informatie/meningen die afkomstig lijkt te zijn van echte reviewers die het product wel vast hebben gehad, maar dat is dan iets dat vrij algemeen is en geldig is voor de hele productlijn of voor alle producten van de productlijn. Iets in de trend van "fijne software met veel mogelijkheden en een soepele interface".

Ik heb overigens wel het idee dat deze artikelen soms ook door mensen zijn geschreven geschreven zijn en niet alleen door AI.
Ik ben in ieder geval blij dat Google zelf toegeeft dat de software algoritmes die slechts een fractie van de implementatie van een AI zijn, hallucineren. Dat ze het maar van de daken mogen schreeuwen richting alle mensen die er nu al gemakzuchtig het volle vertrouwen in willen hebben.
Wat dat betreft komt het wel aardig in de buurt van menselijke intelligentie. Een hoop mensen zijn ook heel erg slecht in het leggen van de juisten verbanden en oorzaak en gevolg juist te combineren.
Tja, toch zal het overgrote deel van de mensheidm niet zomaar hallucineren...daar is meestal wel wat 'geestverruiming' voor nodig.

Alleen maar teksten combineren is geen intelligentie...het is heel knap maar betekent niet dat er sprake is van begrip.

Daarbij komt dat veel mensen hun bronnen beter classificeren. Zomaar teksten uit roddelbladen combineren met tekst uit wetenschappelijk onderzoek doen we meestal niet....
Nu wordt natuurlijk wel geprobeerd deze AI te voeden met alleen maar 'goede' datasets.

Punt is ook: hoe gaat deze AI dan om met sarcasme, humer, ironie, gezegdes? Dat is zelfs voor mensen niet altijd duidelijk en puur de tekst gebruiken is dan funest...
Ik ben in ieder geval blij dat Google zelf toegeeft dat de software algoritmes die slechts een fractie van de implementatie van een AI zijn, hallucineren.
AI is een heel breed begrip en LLM's vallen daar gewoon onder, en het is nooit ontkend dat 'zuivere' (niet-gegrounde) LLM's alleen verstand hebben van grammatica, niet van feiten. Dat blijft alleen in de hype rond AI/LLM wat onderbelicht.
35$ per 1000 aanvragen ? is dat niet wat duur
Als je het professioneel gebruikt niet.
In al je modellen kan je dit zelf behalen door je basis prompt zo te formuleren dat per default een zoekopdracht gedaan wordt voor antwoord gegeven wordt. Chatgpt heeft alleen helaas nog veel hallucinaties en kan dan alsnog niet aangeven waar die gegevens vandaan komen.

Op dit item kan niet meer gereageerd worden.