OpenAI gaat zoekmachine inbouwen in ChatGPT

OpenAI heeft SearchGPT aangekondigd, een zoekmachine op basis van GPT-4-modellen. In plaats van links komt de zoekmachine terug met door de AI-modellen samengevatte content van het web, voorzien van bronlinks. Die functie gaat in ChatGPT komen.

Het gaat om een bèta met vooralsnog tienduizend gebruikers en er is een wachtlijst voor wie ook toegang wil, meldt OpenAI. De zoekmachine heeft toegang tot het web en GPT-4-modellen vatten de gevonden content samen in antwoorden.

Aan de linkerkant zijn drie interface-elementen te vinden. De algemene pagina, een pagina met links en een pagina met afbeeldingen en video's. De bedoeling is niet dat het een aparte dienst gaat worden. OpenAI wil het gaan inbouwen in ChatGPT. De geruchten over een zoekmachine op basis van GPT-modellen gaan al enige tijd. Microsoft en Google hebben beide ook AI-gegenereerde samenvattingen van zoekresultaten in hun zoekmachines. Het zou wel de eerste zoekmachine zijn in een AI-chatbot.

OpenAI SearchGPTOpenAI SearchGPT

Door Arnoud Wokke

Redacteur Tweakers

25-07-2024 • 20:34

48

Reacties (48)

48
47
25
1
0
16
Wijzig sortering
Wat maakt dit echt anders dan gewoon een vraag stellen en antwoord krijgen?
Ik gebruik al een tijdje Perplexity.ai en die kan dit al. Ik vind zoeken met een LLM vooral makkelijk als je niet helemaal precies weet wat je aan het zoeken bent. Als ik wil weten hoe oud <insert bekend persoon> is, dan is google prima, maar voor wat vagere zoekacties is een LLM prima. Zo ben ik al heel wat te weten gekomen over bv warmtepompen, waar ik me op aan het orienteren ben. Maar ze zijn ook handig als je specifieke zoekacties hebt. Bovendien kun je ook gemakkelijk doorvragen waarbij de context bewaard wordt. Als bonus krijg je ook altijd de links naar de bron erbij zodat je zelf dingen kan checken

Paar voorbeelden:

[Reactie gewijzigd door P_Tingen op 26 juli 2024 08:26]

Ik heb je query aangevuld met een maximum hoogte en kreeg meteen een tabel met modellen die groter zijn. De overschreden maat stond ook gewoon in de tabel 🤷🏼‍♂️
Ook bij extra prompt bleef de overschrijding.

Mooi speeltje, maar het valt ook meteen weer door de mand.
Ik heb het ook geprobeerd met "Laat alleen telefoons zien die kleiner zijn dan 160mm"
En krijg dan een correct resultaat ...
Correct, ja?

Perplexity:
Samsung Galaxy A15 159,9 x 76,8 x 8,4 mm
Motorola Moto G14 158,4 x 73,8 x 7,6 mm
Nokia G22 156,7 x 74,9 x 8,5 mm

Ik zoek de specs op:
A15: 160.1 x 76.8 x 8.4 mm
G14: 161.5 x 73.8 x 8 mm
G22: 165 x 76.2 x 8.5 mm

Echt, werkt als een trein.
Ik heb Perplexity sinds kort ook ontdekt. En ik wordt er echt blij van, want Google vind ik helaas de laatste tijd niet meer zo prima. Los van mijn werkelijke vraag dringt Google me tegenwoordig naar 'je zult wel dit bedoelen' zoekresultaten.

Zo zocht ik bijvoorbeeld recent iets van een Zweedse bedrijfje, terwijl kennelijk in Nederland een online super nu dezelfde naam voert. Hoewel er geen product aan mijn vraag te koppelen viel, domineerde die super toch volkomen de resultaten :|. Een halve tot hele bladzijde doorscrollen naar wat diversere resultaten was er niet meer bij, helaas.

Perplexity is - uiteraard - wel gevoelig voor de context die je termen gezamenlijk geven en je kunt doorvragen.
De normale GPT4 heeft een 'knowledge cutoff' in april 2023. Informatie die daarna is gepubliceerd is niet bekend bij ChatGPT. Door te combineren met een zoekmachine heb je die recente resultaten wel.

Deze vorm maakt het ook makkelijker om de antwoorden te checken omdat er bronlinks worden gegeven. Dat laatste kan je nu overigens ook al om vragen of opnemen in je 'system prompt' die bij iedere vraag wordt meegestuurd.

[Reactie gewijzigd door bartvb op 25 juli 2024 20:50]

Hoe doe je dan de bronlinks opvragen in de huidige chatgpt? dat kan toch helemaal niet?
Weer iets nieuws geleerd. Bedankt voor het delen.
Geen probleem! Nu vroeg ik specifiek om op het internet te zoeken, maar soms doet ChatGPT het ook uit zich zelf.

Bijvoorbeeld als ik vraag: "What happened 25 July 2024?"

https://chatgpt.com/share...16-4e7b-9b4e-0b090e6ad5a5
Dat is dan nieuw, want eerder kreeg je iets te lezen dat de data een paar jaar oud was dacht ik en dat chatgpt daarom ook geen tekst kon genereren uit het nieuws van gisteren bijvoorbeeld. Dat verklaard ook de stap die ze nu maken denk ik, het was deels al aanwezig zo te zien.
Enigszins nieuw maar wel al een tijd, september 2023!
https://x.com/OpenAI/status/1707077710047216095

Inderdaad, de mogelijkheid is er eigenlijk al, en wordt volgens mij in een mooi jasje gebracht. Zoals de screenshot in het artikel.
Wel als er een echte zoekactie achter zit die hij vervolgens samenvat.

Het is een combinatie van zeg maar google en AI. Hij doet een zoekactie op een gewone zoekmachine, leest zegmaar de eerste 10 resultaten (het aantal hangt af van je instellingen), vat daaruit de relevante antwoorden op je vraag samen. De zoekresultaten die relevant waren zijn dan je bronmateriaal.

Ik heb het zelf ook zo lokaal draaien hier met OpenWebUI met zoekmachine integratie. Het is allang geen magie meer :) OpenWebUI kan dit samen met ChatGPT als AI of gewoon met een lokale ollama instantie (wat ik meestal doe want llama3 is prima in samenvatten)

Diensten als https://perplexity.ai doen het ook al een tijdje zo.

[Reactie gewijzigd door Llopigat op 25 juli 2024 21:06]

In mijn system prompt staat:
- Cite sources whenever possible, include URLs if possible
- List URLs at the end of your response
GPT3.5 deed daar weinig mee, 4o noemt netjes een lijstje met relevante links bij de meeste vragen. Natuurlijk zijn dat geen echte 'bron links', in het model zit geen harde link tussen het gegeven antwoord en de site waar de data vandaan komt. Maar het zijn wel links naar pagina's waar ik het antwoord van OpenAI kan checken en de kans is ook behoorlijk groot dat de pagina's zijn gebruikt voor het maken van het antwoord. Snel voorbeeldje na: "what sport causes most visits to the ER in the US?"

krijg ik:
National Center for Catastrophic Sport Injury Research: http://nccsir.unc.edu/
American Academy of Pediatrics report: https://pediatrics.aappub...01/23/peds.2016-1458.full
CPSC reports on sports-related injuries: https://www.cpsc.gov/
Suf is wel dat in het antwoord staat "Data from the National Electronic Injury Surveillance System (NEISS) indicates [...]", maar ik krijg geen link naar die NEISS club.

Overigens doet die vraag het beter in Google. Sneller antwoord, meteen een relevante link bovenaan en een stuk minder energiegebruik.

[Reactie gewijzigd door bartvb op 25 juli 2024 21:09]

Ik snap het niet helemaal. Ik kan ChatGPT bepaalde specifieke websites laten raadplegen, dan zie je ook écht in het "laadbalkje" dat 'ie alleen die specifieke websites/bronnen raadpleegt?

Edit: bepaalde > specifieke

[Reactie gewijzigd door royzegthoi op 25 juli 2024 23:08]

Hoe recent is de informatie waaruit je nu put?
ChatGPT
De informatie waaruit ik nu put, is bijgewerkt tot oktober 2023. Voor actuele gebeurtenissen of de meest recente ontwikkelingen kan ik, indien nodig, via een browsertool zoeken naar de laatste informatie. Laat me weten als je specifieke of actuele informatie nodig hebt!
dat je een bron hebt die je kan raadplegen. Dus als je naar een bepaald onderwerp zoekt, bijvoorbeeld "wat zijn de bijwerkingen van paracetamol" dan krijg je AI gegenereerde samenvattingen van websites die gevonden zijn over het onderwerp. Bij elke AI samenvatting krijg je een bron vermelding zodat je alsnog naar de bron van de AI gegenereerde samenvatting kan gaan.

Als je dit opzoekt via google dan krijg je van google bovenaan een "deel" antwoord die niet gegenereerd is maar direct overgenomen van de bron. Als je naar de bron gaat dan zie je in een ander kleurtje waar google dat stukje tekst vandaan heeft
Ik zou toch eerder thuisarts.nl of lareb.nl raadplegen, mbt 'bijwerkingen van paracetamol' dan welk willekeurig LLM.
Laten er nou net instituties en specialisten zijn, op dat gebied.

[Reactie gewijzigd door Baserk op 25 juli 2024 21:52]

Met de huidige chatgpt zou dit een slecht voorbeeld zijn inderdaad.

Echter, wat hier in het artikel staat is dat de AI de thuisarts.nl website gaat raadplegen. De inhoud van de website door de AI laat samenvatten specifiek om wat je gevraagd hebt en als laatste krijg je deze AI samenvatting te zien met een link naar de bron. Niet alleen van thuisarts.nl maar van 10 andere websites waar de bijwerkingen van paracetamol worden besproken.

Je kan dan zelf bepalen welke samenvatting je wilt lezen afhankelijk van de bron. En als je meer data wilt kan je naar de bron klikken.

Google doet niet anders, behalve dat het een stukje gekopieerde text laat zien uit de meest relevante bron volgens Google, dus zonder AI samenvatting

[Reactie gewijzigd door david-v op 25 juli 2024 22:08]

De LLM maakt die site met zeer hoge kwaliteit inhoud beschikbaar in heel veel andere talen.
En die vertaling is voor veel talen vele malen beter dan Google Translate.

De LLM kan ook goed beperkt worden tot de inhoud van een specifieke pagina of set van pagina's:
https://notebooklm.google.com/ is daar een voorbeeld van.

Er zijn mensen met een taal-bepeeking. Het kan zijn dat zij wel een vraag kunnen stellen maar het veel tijd of inspanning kost om het antwoord te lezen als dat wat langer is.
Een LLM kan dan dienen als hulpmiddel om het antwoord op de specifieke vraag toe te spitsen of aan te geven dat het antwoord te specialistisch is en daarom contact maakt met je huisarts.

Bedenk echter dat in heel veel landen de huisarts en andere medische zorg niet zo toegankelijk is als in Nederland en dat de kennis op de Nederlandse websites niet altijd goed beschikbaar is in de moedertaal van een persoon.

We zijn wat dat betreft heel erg bevoorrecht in Nederland.

Gelukkig is de meeste informatie op huisarts.nl niet alleen beschikbaar in het Nederlands, maar ook beschikbaar voor mensen in het Frans, Engels, Duits, Pools, Russisch en Turks.
Maar er zijn ook eel mensen die die talen niet begrijpen of huisarts.nl niet vinden.

Maar even los van huisarts.nl is voor mij een samenvatting van een lang Tweakers.net artikel op basis van mijn vraag, simpelweg gewoon super fijn.
Nou leuk dat ie alles samenvat maar krijgen die websites wel inkomen als hun info door AI wordt weergegeven? Want straks gaan alle websites weg door geen inkomen omdat Ai alles overal plukt
Omdat alle websites weg zijn omdat Google je ook een stukje uit de website laat zien in hun resultaten?

Er worden al stappen gezet door websites met bijvoorbeeld nieuwsartikelen om een vergoeding te krijgen als een chatbot die informatie wil gebruiken. Reddit is daar een voorbeeld van en ze zullen vast niet de enige zijn.

Als websites weg gaan dan kan de AI niet een samenvatting maken van de website, dus de website heb je dan alsnog nodig. Bovendien heb je ook een bron vermelding waardoor mensen je ook vinden, net zoals op google.
Je kunt via Skype met "Bing" chatten en je zult merken dat Bing toegang heeft tot het web en links als bronvermelding van zijn antwoorden gebruikt. Dat is denk ik wat je hier kunt verwachten, alleen dan de ChatGPT-variant ervan.
Die van Bing werkt prima. Niet dat die in Bing een goede chatbot is want de LLM heeft een veel kleiner model. Maar de linkjes zijn goed en ik vermoed dat ChatGPT hier niet onder van gaat doen.
Normaal antwoord ChatGPT vanuit de ‘kennis’ aanwezig in het model. Hierbij wordt er naar content op het web gezocht en die wordt vervolgens samengevat.

Ik ben benieuwd naar de kwaliteit van de antwoorden, voorlopig zijn andere AI tools voor Search (bijv Microsoft Bing, Google Gemini) echt dramatisch slecht. Het zou me verbazen als OpenAI het search deel om de goede informatie voor een vraag te selecteren wel opgelost krijgen, terwijl Google en Microsoft die al decennia search aanbieden dat niet is gelukt.
Truc om alle date te blijven vergaren?
De echte core-business borrelt naar boven. Het is gewoon op grote schaal zoveel mogelijk data harvesten. De "AI" is alleen maar creatief filteren. Daarbij AI-hardware gebruiken zorgt ervoor dat je niet volledig kan laten zien hoe je aan informatie bent gekomen. Dat is de bedoeling.

[Reactie gewijzigd door blorf op 26 juli 2024 08:02]

Dat data krachtig is (en winstgevend kan zijn) hoeven we het niet over te hebben denk ik. Maar ik zou niet het woord 'filter' gebruiken. Afgezien van directe quotes maakt het algoritme van X stukken tekst 1 stuk tekst door zelf nieuwe zinnen te maken. Dat is niet heel anders dan wat een mens doet op basis van bijvoorbeeld school boeken (en andere context).
Het gaat om het bezitten van informatie.. De manier van presenteren na een query is bijzaak. Bij ChatGPT en Grok is ook zeer zeker merkbaar dat die wat dat betreft een heel eind onder Google zitten. Ze kunnen een mooi verhaal maken van weinig maar ze weten niet zo veel.
heb je wel het artikel gelezen? iets met bronvermelding? De echte core business is het verkopen van toegang tot API's zodat je dit soort zaken ook op je intranet kan loslaten bijvoorbeeld, een chatbot ontwikkelen voor je klanten, of abonnementen vragen voor mensen die het allemaal sneller willen hebben en met meer features.
https://www.theatlantic.c...hgpt-openai-error/679248/

En de eerste fouten zijn al gevonden. De resultaten uit de demo van OpenAI kloppen niet :Y
Mja, maar de resultaten die ik van Google tegenwoordig krijg doen daar vaak niet voor onder en moet ik ook vaak resultaten proberen te bevestigen met extra info. Voor dit soort dingen zal ik dan ook nooit een LLM gebruiken; ik zou misschien de LLM vragen waar ik de info kan vinden als ik het via Google niet snel kan vinden.
Interessante feature. Nu krijg je de kans dat je het equivalent van "citeren zonder de paper zelf te hebben gelezen" krijgt in LLM output.

De samenvatting van een pagina hoeft geen getrouwe samenvatting van een pagina te zijn. Precies wat je krijgt als een door mensen geschregen tekst A een andere tekst B beschrijft.
Handig. Het is namelijk echt wel zoeken naar de waarheid in ChatGPT reacties.
Ik gebruik zo'n search AI al via Perplexity, enorm handig en Google zelf nooit meer iets. Blijft wel lastig bepalen in hoeverre ze echt het hele web (kunnen) afstruinen als ze moeten gehoorzamen aan robot.txt

[Reactie gewijzigd door SirSQ op 25 juli 2024 21:01]

die zelfde robots.txt geldt voor search engines
Volgens mij is dit ook hetgeen perplexity.ai reeds doet? Of zijn er bepaalde verschillen? Ik merk dat Perplexity Google voor mij in ieder geval heeft vervangen.
Zou nice zijn als dit aan populariteit wint. Dan hebben we mogelijk een goede kandidaat naast Google.

Moet zeggen dat ik nu al veel ChatGTP gebruik in plaats van Google

[Reactie gewijzigd door Ghostery op 25 juli 2024 21:19]

Zeker. Heel vaak zoek ik simpele informatie, en ben ik niet op zoek naar pagina's met diepgaande tekst (ha) zeker niet als die info ergens in het midden van 20 reclames, cookie boxen etc. staat. Ik heb ook een GPT gemaakt die simpelweg en beknopt een term uitlegt.
Momenteel vind ik google echt steeds minder interessant, met resultaten die meer lijken op 1 grote reclamefolder. zelfs technische vragen resulteren vaak in van die artikelen die enkel en alleen bestaan om zo hoog mogelijk in google te eindigen. Zou erg blij zijn met een echt goede concurrent. Aan de andere kant, het zou me niks verbazen als je zometeen kan betalen om in de antwoorden te belanden, en zijn we weer terug bij af...
Maar wat is de reden om nog content te blijven maken als LLM search alles samen kan vatten en gebruikers niet meer op de bron site hoeven te kijken?
Geen gebruikers op je site betekent geen inkomsten en dus ook geen reden / mogelijkheid om content te maken.
Dit kan op de middellange termijn een zeer negatieve impact hebben.
Ik heb liever dat ze het beheer van chats uitbreiden met bijvoorbeeld labels of categoriseren. Zoeken kan ik prima doen door vragen te stellen. Het managen van mijn chats is af en toe drama.
Bewaar je ze dan echt allemaal? Ik gooi hier er zeker 95% van weg. Het is maar zelden dat er echt iets interessants in staat dat bewaard moet worden. Maar misschien hangt het van je type gebruik af.

Wat ik wel doe is chats open laten staan die ingesteld zijn op een bepaald gedrag, zo heb ik er eentje die synoniemen geeft als ik een woord invoer, of eentje die een vertaling vanuit het spaans geeft.

[Reactie gewijzigd door Llopigat op 25 juli 2024 21:03]

ik merk dat als ik soms in een project, lange of handige powershell / php scripts/commando's samen met ChatGPT had gemaakt dat ik bijna niet meer terug kan vinden.

uit gemak verwijder ik ze niet. soms druk ik wel op een knop van alles verwijderen of alles archiveren..
een knop > dan 30 dagen verwijderen zou handiger zijn.

Op dit item kan niet meer gereageerd worden.