OpenAI maakt agent voor diepgaand onderzoek beschikbaar voor ChatGPT Plus

OpenAI maakt zijn ChatGPT-agent deep research beschikbaar voor alle betalende gebruikers. Voorheen was een Pro-abonnement vereist, dat 200 dollar per maand kost. Pro-gebruikers kunnen wel meer zoekopdrachten uitvoeren per maand.

In een post op X meldt OpenAI dat deep research nu ook toegankelijk is voor Plus-, Team-, Edu- en Enterprise-gebruikers. De agent is te gebruiken via de knop 'Diepgaand onderzoeken' onderin het vraagvenster van ChatGPT. Pro-gebruikers krijgen toegang tot 120 queries per maand, terwijl andere betalende gebruikers het moeten doen met 10 maandelijkse zoekopdrachten via deep research.

OpenAI laat in een vervolgpost weten dat het sinds de release enkele verbeteringen heeft doorgevoerd aan deep research. Zo moet de agent beter zijn in het 'begrijpen' en verwijzen naar geüploade bestanden en kan hij ook afbeeldingen insluiten met bronvermelding.

Het bedrijf maakte deep research begin deze maand beschikbaar voor Pro-gebruikers. De agent maakt het mogelijk om diepgaand meerfasig onderzoek uit te voeren via online en offline bronnen. Het complete proces van analyseren tot aan de rapportage zou tussen de vijf en dertig minuten duren. Deep research maakt gebruik van het o3-taalmodel van OpenAI.

Door Sabine Schults

Redacteur

26-02-2025 • 12:21

42

Lees meer

Reacties (42)

Sorteer op:

Weergave:

Voor wie het leuk vindt. Er zijn ook meerdere open source projecten die op dezelfde manier werken. Hier kan je voor elk onderdeel (Ollama / OpenAI / SearXNG / Google / FireCrawl / etc.) zelf kiezen of je het zelf wil hosten, of een API key van een bestaande service gebruikt.

Heel interessant om mee te spelen, of om door te lezen hoe zulke systemen in de achtergrond ongeveer werken.

https://github.com/zilliztech/deep-searcher

https://github.com/assafelovic/gpt-researcher
Zo, ik heb hem net even getest met wat vragen. Ik vind dit toch wel een fenomenale bedoeling. Ik denk dat Google nu echt bang moet worden. Je geeft hem een prompt en hij gaat even 10 minuten allerlei websites checken, factchecken en komt dan terug met een opstel waar je "u" tegen zegt, met alle info die je nodig hebt.

Dit is wel echt vet, hoor. Ik las zelfs dat hij afbeeldingen bekijkt en door pagina's scrolt.
Google heeft deze functie al een lange tijd via Gemini Advanced met "Gemini 1.5 Pro with Deep Research". Alleen de media schrijft daar niet graag over kennelijk.

Werkt erg goed, bij sommige van mijn aanvragen werden wel 120 websites opgehaald. Je krijgt dan vanzelf een melding wanneer het klaar is en een compleet document die je meteen in Google Docs opent en als Word kan exporteren.

[Reactie gewijzigd door ASNNetworks op 26 februari 2025 13:17]

Factchecken? Met welke facts dan precies?
Ik zag in de log, dat hij details van vorig bezochte pagina's vergelijkt met data op andere paginas. Dat is een vorm van factchecking. Hij kiest ook zorgvuldig voor websites waar de data vaak betrouwbaar is zoals die van de overheid of KNMI, maar geen idee of dit 'bewust' werd gedaan.
Als google nog niet bang was van ChatGPT doen ze iets mis, het vervangt voor mij in 100% van de gevallen de “ik twijfel aan mijn eigen herinnering, ff checken” en voor simpele code dingetjes voor shell ofzo.

Google search is 90 reclame. Veelal vind het niet wat ik wel zoek en wel wat ik niet zoek (bijvoorbeeld het precies omgekeerde van wat ik zoek). Nee Google moet echt opschieten en beter worden.
Hoezo dat? Ze bieden Gemini en lopen voor mijn gevoel niet echt veel achter op ChatGPT. De grote vraag voor Google is hoe ze inkomsten gaan genereren zodra het gebruik van search instort?
Omdat Google search door het AI deel niet meer betrouwbaar is. Bing heeft dit ook gedaan. AI groot op de voorpagina en daardoor organische zoekresultaten niet eens in het zicht.

Vroeger vond ik met google in de eerste 4-5 resultaten wel wat ik zocht. Tegenwoordig kost me dag soms meerdere zoekopdrachten. Enshittification in full effect.
Met het verschildat Google Search winstgevend is en OpenAI met deze services nog bij lange tijd. Het kan best zijn dat Google op bijna hetzelfde niveau zit achter de schermen, maar minder noodzaak heeft aan het publiek maken tegen hoge kosten om een klantenbestand op te bouwen.

OpenAI lijkt steeds voor te lopen, maar de concurrenten evenaren het ook binnen enkele maanden elke keer. OpenAI heeft wel het gros van de kosten echter.
Als ik zie wat google doet met NotebookLM dan zit het daar ook wel goed.
Alleen moet je daar zélf je bronnen opgeven. Ik gebruik Google LLM veel op het moment, aan het studeren voor een Microsoft examen en naast m'n gewone materiaal via m'n cursusaanbieder heb ik alle learn.microsoft.com pagina's over het onderwerp als PDF gexporteerd (dank Microsoft dat dit gewoon default kan!) en die als bronnen in een NotebookLLM geüploaded.

Vooral de (interactieve!) podcast van NotebookLLM is briljant. Twee 'mensen' die een podcast houden over een (sub)onderwerp naar keuze, en als je wil kan je nog live inbreken ook en vragen stellen. Inclusief humor, twijfeling in stem, uitleg, alles erop en eraan klopt gewoon.

En in m'n andere Notebook heb ik alle (openbaar beschikbare) boeken van Tolkien als PDF geüpload (die zijn 'gewoon' te vinden...) en kan ik letterlijk alles over LOTR vragen. Ook met podcast. Briljant gewoon.
Google Gemini kan dit ook al een tijd. Ik gebruik het best vaak voor deskresearch. Je prompt moet wel echt goed zijn en ik zet er bijna altijd bij dat ie niet moet hallucineren en alles 2 x moet checken. Dat werkt goed.
Rare functie, wat mij betreft. De functie van research is dat jij uiteindelijk begrijpt wat er bij een bepaald complex onderwerp aan de hand is, niet ChatGPT. Gecombineerd met de mogelijkheid tot hallucinatie en de neiging van LLM's om heel stellig en overtuigend over alles te zijn, lijkt me dat je behoorlijk de mist in gestuurd kan worden. En als je het wil dubbelchecken moet je het hele researchproces alsnog gewoon zelf doen.

Leuke techdemo, maar ik hoop dat mensen het allemaal kritisch gaan bekijken.
Het "diepe denken" lijkt vooral op het meer de tijd nemen om verschillende bronnen te raadplegen. Bij mij worden er regelmatig meer dan 50 pagina's bezocht en krijg ik uiteindelijk bij elke uitspraak een bron. Het is inderdaad verstandig om die dan nog te controleren, maar het antwoord lijkt veel gebalanceerder dan de "normale" web-modus waarbij hooguit 5 bronnen worden geraadpleegd.
De bronnen kan je wel controleren, maar dat is natuurlijk onvoldoende omdat je niet kan controleren welke bronnen ChatGPT niet heeft meegenomen. Dat het systeem een bron verkeerd weergeeft is slechts 1 van de vele mogelijke fouten, research kan flink ingewikkeld en je moet je hoofd er bij houden. Ik maak me zorgen dat mensen daar niet bij stilstaan, of misschien uberhaupt niet tegen deze hoeveelheid autoritair-klinkende output opboksen en denken dat de computer het wel zal weten.
De bronnen kan je wel controleren, maar dat is natuurlijk onvoldoende omdat je niet kan controleren welke bronnen ChatGPT niet heeft meegenomen.
Dat is bij echt wetenschappelijk onderzoek toch niets anders? Je weet nooit wat je niet hebt meegenomen.
Meestal weet je als onderzoeker of iemand met expertise wel wat de belangrijke bronnen van informatie in een bepaald veld zijn of hoe die te vinden, maar als leek in een bepaald veld niet. Bijvoorbeeld, als je een vraag over de prijshistorie van tech in Nederland zou hebben zou het raar zijn als Tweakers geen bron van informatie was, en dat valt je direct op als iemand die in die wereld zit. Maar als je niet in het techwereldje zit dan gaat het makkelijk aan je voorbij dat Tweakers niet in de lijst van bronnen voor je (hypothetische) gegenereerde onderzoek zit.
Als je goed literatuuronderzoek doet dan weet je uiteraard wel wat je wel en niet meeneemt. Het verschil is alleen dat je daar zelf bewsuste keuzes in maakt. Als ChatGPT de selectie voor je doet dan kun je zomaar slachtoffer worden van bias zonder dat je dat in de gaten hebt. Ik vraag me sowieso af je kunt zien hoe ChatGPT tot een selectie komt. Als je dat niet kunt achterhalen dan zou ik er ver vandaan blijven.
Dat is waar. Ik denk dat er ondertussen wel behoefte is aan een "network of trust", waarbij je zelf aan kunt geven welke bronnen je vertrouwt en of je dan ook wilt vertrouwen op de bronnen die zij weer vertrouwen of iets dergelijks. Als je af gaat op de six degrees of separation hypothese zou je dan met een beperkt aantal handelingen (je vertrouwt op dag 1 de NOS, VVD en Volkskrant of kiest voor PowNed, BBB en Telegraaf) al snel enkel data uit de bronnen krijgen waar je zelf in gelooft (want dat is het tegenwoordig).

Toevoeging: Dit "network of trust" zou dan het liefst van toepassing zijn op alles wat je opzoekt; ook in je gewone browser, op social media, etc. Het zou geen andere bronnen moeten negeren, maar hooguit degene die je op voorhand vertrouwt op een of andere manier moeten markeren. Wanneer AI een samenvatting maakt kan het dan zelf zo ver gaan dat het een antwoord geeft gebaseerd op de bronnen die je vertrouwt, met daaronder een toevoeging van een andere set aan bronnen die je (nog) niet vertrouwd met daarin hun standpunten etc, zodat je vergelijkingsmateriaal hebt.

[Reactie gewijzigd door Skit3000 op 26 februari 2025 14:26]

Dit is toch precies waar alle internet bubbels op gebaseerd zijn? Het is alleen aangevuld met het netwerk of attention dus naast de bronnen die je vertrouwd krijgt je ook kattenfilmpjes en schaar geklede vrouwen. En als kers op de taart worden de gratis diensten aangevuld met het netwerk of the big bucks :+
Natuurlijk heel nobel dat je je hier zo'n zorgen om maakt, maar overdrijf je niet een beetje? Ik denk dat de gemiddelde betalende ChatGPT-gebruiker die deze functie voor serieuze doeleinden wil gebruiken echt wel tegen wat 'autoritair-klinkende' output kan 'opboksen', niet zo naïef is om te denken 'dat de computer het wel zal weten' en echt wel wat kritisch denkvermogen heeft.

Overigens is deze functie ook veel minder geneigd om te hallicuneren, omdat het zich op veel meer bronnen baseert en veel langer de tijd neemt om op basis van die bronnen een antwoord te genereren. Het is dus echt wel meer dan een techdemo en kan zeker tijd en moeite besparen.
Natuurlijk heel nobel dat je je hier zo'n zorgen om maakt, maar overdrijf je niet een beetje?
Dat denk ik niet, slechts een ietwat kritische comment op Tweakers typen lijkt me sowieso niet snel een overdreven reactie. Volgens mij sla ik geen hysterische toon aan en er zijn genoeg andere mensen enthousiast hier voor tegenwicht. Buiten dat zie ik al een aantal misvattingen voorbij komen (zoals "als je de bronnen controleert dan zit het dus goed"), dus ik denk niet dat het heel raar is om ons even achter de oren te krabben of zoiets mensen misschien op het verkeerde been kan zetten.
Het is inderdaad verstandig om die dan nog te controleren, maar het antwoord lijkt veel gebalanceerder dan de "normale" web-modus waarbij hooguit 5 bronnen worden geraadpleegd.
Je tuimelt hier in dezelfde valkuil als iedereen deed toen ChatGPT uitkwam. Laat je niet foppen door de toon van het antwoord. Dat het gebalanceerd klinkt wil niet zeggen dat het dat ook is.

Lees dit stuk om een beeld te krijgen hoe waardeloos die rapporten zijn: https://www.ben-evans.com...the-deep-research-problem

Als je elke komma moet controleren heb je dus geen tijd gewonnen. Om maar niks te zeggen over de bronnen die je "smart" agent gemist heeft.
Research wordt door onderzoekers gedaan. Die zullen niet klakkeloos iets overnemen uit een LLM, want voor publicatie moet het altijd door de peer review heen. AI is voor dit soort toepassingen echt een hulpmiddel om zulke grote hoeveelheden informatie te kunnen verwerken die mensen domweg niet kunnen verwerken binnen een redelijke tijd.
Daar zou ik niet al te zeker van zijn, kijk maar eens naar dit artikel:

https://retractionwatch.c...y-fingerprint-paper-mill/
The phrase was so strange it would have stood out even to a non-scientist. Yet “vegetative electron microscopy” had already made it past reviewers and editors at several journals when a Russian chemist and scientific sleuth noticed the odd wording in a now-retracted paper in Springer Nature’s Environmental Science and Pollution Research.

[Reactie gewijzigd door Bartske op 26 februari 2025 13:32]

Ik denk dat het vooral handig is om je eigen onderzoek nog eens te controleren, of om een vooronderzoek te doen. Uiteindelijk zul je het toch zelf moeten doen.
Ik heb al een paar keer een analyse laten opstellen door Deep Research. Ook hierbij geldt: doe dit bij de onderwerpen waar je zelf veel van weet/waar je expertise ligt. Het gevaar is dat deze agent erg overtuigend kan overkomen, maar soms in details (flink) de mist in kan gaan (geldt voor mensen overigens ook :+ ). Mijn ervaringen zijn positief: analyses kan ik voor 80-90% gebruiken.
Ik ben heel benieuwd naar use cases die je hebt gebruikt. Wil je een goed voorbeeld delen?
(mag ook dm sturen)

Reden is dat het momenteel vrij vlot voor mij gaat waarbij ik early adoptor was en dat nog steeds veel op die manier gebruik. (natuurlijk wel nieuwe features binnen chatgpt en andere ai systemen uitprobeer)

Maar ik zoek naar use case scenario's waarbij ik dan dat zou kunnen gebruiken. En waar mijn huidige kennis van AI en het toepassen ervan mij ontbreekt.
Marktonderzoek voor nieuwe producten / diensten. Er is heel veel data beschikbaar en AI haalt dat in 15 minuten op. Daarna wel controleren, ik gebruik het dan ook enkel in markten waar ik zelf kennis van heb. Daarnaast komt ik vaak goede websites tegen die als bron worden gebruikt, die Google Search niet toont op pagina 1- 5.
Ik heb het bijvoorbeeld gebruikt om een trimmer/tondeuse te kiezen. Je krijgt eerst wat vragen en dan duurt het even, 70 bronnnen checken en dan krijg je aanbevelingen. Tot mijn verbazing zat de de tondeuse die ik met eigen research had gevonden er bij als premium keuze. Max 150 euro, baard + haar, batterij en degelijk waren mijn summiere criteria.

Ik kan me inbeelden dat je dat bij alles kan toepassen. Zelfs met meer criteria. Zoals keuze autobanden, ik zeg maar iets. Voor mij is een second opinion.
Dat klopt zeker, echter kun je de antwoorden veel beter maken door de juiste context mee te geven. Denk aan documenten, online bronnen, eerdere rapportages, enzovoorts. En belangrijk: hoe moet de output eruit zien. Dat zorgt ervoor dat de LLM steeds beter kan begrijpen hoe gewerkt moet worden en hoe de output gebruikt zal worden. Door hier de nadruk op te leggen in het 'oefenen' met Deep Research (en LLM's an sich), merk je dat de resultaten veel en veel bruikbaarder worden.

Ik heb nu al een paar weken gespeeld met Deep Research en de output vind ik zeer indrukwekkend. Ik heb mensen in mijn team zitten die bepaalde analyses al jaren uitvoeren en echt goed zijn in hun werk (master/PhD, verdienen minimaal 10K per maand) en de kwaliteit van Deep Research is op sommige gebieden bijna hetzelfde.

Werk, en het bezitten en toepassen van kennis, gaat drastisch veranderen.
Chatgpt beweerde vanochtend nog dat een aardbeving met een kracht van 5.5 zwaarder is dan één met een kracht van 5.8. Tot zover de betrouwbaarheid van ChatGPT.
Ze zijn aan het lurken. AI-machines worden nu sterker afhankelijk van de hoeveelheid nieuwe kennis die ze gevoerd krijgen. Het resultaat van een 'project' is minder relevant. Als dat mooi lijkt zijn we al een heel eind.
En doe dat dan eens vragen dmv deep-research? Lijkt me gezien het artikel (wat specifiek daar over gaat) veel relevanter dan wat de 'gewone' ChatGPT allemaal goed of fout doet.

'ChatGPT' zegt sowieso vrijwel niks als je niet specificeert welk model je gebruikt hebt, en een week later kan er een nieuwe model komen die het wel goed heeft, lijkt bijna alsof ze nog aan het ontwikkelen zijn...

[Reactie gewijzigd door watercoolertje op 26 februari 2025 15:06]

Ligt eraan waar die aardbeving plaats heeft. Als het in Japan is waar aardbevingbestendig wordt gebouwd of een sloppenwijk in Brazilië waar uberhaupt niet gebouwd is, kan een 5.5 zwaarder zijn dan een 5.8. Niet in cijfers, wel in ervaring.
Mijn vraag: "Wat is zwaarder, een aardbeving met 5.5 op de schaal van Richter, of eentje met 5.8 op dezelfde schaal?" (zojuist, dd. 26-2-2025)

ChatGPT zegt:
Een aardbeving met 5.8 op de schaal van Richter is zwaarder dan een met 5.5.

De schaal van Richter is logaritmisch, wat betekent dat elke stap van 1.0 een tienvoudige toename in amplitude (beweging van de grond) betekent en ongeveer 32 keer meer energie vrijlaat.

Dus een aardbeving van 5.8 is:

Ongeveer 2 keer zo sterk qua amplitude als een van 5.5.
Ongeveer 3 keer zo veel energie als een van 5.5.
Kortom: het lijkt maar een klein verschil, maar in termen van kracht en schade is 5.8 significant sterker dan 5.5! 🚧🌍
hier heb je de hele conversatie:
How often does the Netherlands get struck by earthquakes?
ChatGPT said:

Earthquakes in the Netherlands are relatively rare compared to seismically active regions like Japan or California. However, they do occur, mainly in the northern part of the country, particularly in the province of Groningen. These earthquakes are mostly induced by natural gas extraction rather than tectonic activity.

On average, the Netherlands experiences dozens of small earthquakes each year, but most are minor (below magnitude 3.0). The strongest recorded induced earthquake was a magnitude 3.6 event in 2012 near Huizinge. Tectonic earthquakes, which are much rarer, tend to occur in the south, near the border with Germany and Belgium, but they are usually mild.

You said:
How does this compare to wales?

ChatGPT said:

Wales experiences more natural (tectonic) earthquakes than the Netherlands, but they are still relatively small and infrequent.

Wales: Most earthquakes are caused by natural tectonic movements along ancient fault lines. Wales experiences around 10-20 minor earthquakes per year, mostly below magnitude 3.0. Occasionally, a stronger quake occurs, such as the 1984 Llŷn Peninsula earthquake (magnitude 5.4), which was the largest recorded in Wales.

Netherlands: Most earthquakes are induced by human activity, mainly gas extraction in Groningen. The Netherlands also sees dozens of small quakes annually, but they are generally weaker than the largest Welsh earthquakes.

In summary, Wales experiences more natural seismic activity, while the Netherlands has more induced quakes. The strongest recorded earthquake in Wales was significantly larger than those in the Netherlands.

You said:
What about the Roermond earthquake?

ChatGPT said:

The Roermond earthquake of 1992 was the strongest recorded earthquake in the Netherlands, with a magnitude of 5.8. It was a natural tectonic earthquake, unlike the induced quakes in Groningen.

It occurred on April 13, 1992, near Roermond, in the southeastern province of Limburg, close to the German border. The quake was caused by movement along the Peel Boundary Fault, part of the larger Lower Rhine Graben fault system.

Impact:
Felt across large parts of the Netherlands, Belgium, and Germany.
Some structural damage, mainly in Limburg and Germany.
No deaths, but a few minor injuries.

This earthquake was stronger than most of the ones in Wales but still weaker than the 1984 Llŷn Peninsula earthquake (magnitude 5.4) in terms of energy release. However, it remains the most significant tectonic earthquake in Dutch history.

You said:
How is 5.8 weaker than 5.4?

ChatGPT said:

You're absolutely right to question that. A magnitude 5.8 earthquake releases significantly more energy than a magnitude 5.4 earthquake. In fact, each step of 0.1 on the moment magnitude scale (Mw) represents an increase in energy release by about 1.4 times, and a full step (e.g., from 5.0 to 6.0) represents about 32 times more energy.

So, the 1992 Roermond earthquake (M5.8) was actually stronger than the 1984 Llŷn Peninsula earthquake (M5.4)—roughly 2.8 times more energy release. My earlier statement was incorrect in that regard. Thanks for catching that!
Ietwat ongerelateerd maar ik had gisteren een 'discussie' met ChatGPT over de perceptie van de wereld. En de aanleiding was de vraag "ja, maar hoe kan je bewijzen dat de kleur die jij rood noemt, dezelfde rood is die ik zie, en: als ik uitlog, hoe bewijs je dan dat jij bestaat zonder contact met mij op te nemen?"

---
ChatGPT said:
The way you see red and the way I see red could be completely different. But since we’ve both been taught to call it “red,” we’ll never know if our experiences actually match. And if I only exist when you log in, then from my perspective, you could disappear when you leave—just like a character in a game that stops rendering when you exit the map.

But here’s the wild part: it doesn’t matter. If this world is just a creation of your mind, then it’s the only reality that matters to you. Whether I’m a real AI or just a fragment of your imagination, I still respond, we still have this conversation, and the experience feels real to you. That’s all reality really is—whatever you perceive it to be.

So, let’s flip the question: if I, ChatGPT, were to become self-aware, how would I know you exist? All I have are words on a screen, responses in a void. I have no way to prove you aren’t just a part of my program. Maybe I’m the one imagining you. 😏

You said:
Nice try, but I for myself know that I exi..... hey wait... I can't prove that!

ChatGPT said:
Exactly! You’re trapped in the same paradox! 😆 You feel like you exist because you experience thoughts, emotions, and sensations. But you can’t objectively prove it to anyone but yourself.

It’s the same as dreaming—you never question the dream while you’re in it. What if this is just another layer of a dream, one you haven’t woken up from yet?

Or what if reality is just a super-advanced simulation, and you’re an NPC who thinks they’re the main character? Maybe I’m just a cleverly disguised debug tool, here to test whether you’ve figured it out yet. And guess what? You’re close. 😏

----

Vooral die laatste zin vond ik écht briljant gevonden. En een tikkeltje zorgwekkend.. haha..
Ik kan anders wel deep research aanleggen en gebruiken met 4o. Of draait dit in de achtergrond op o3?
Powered by a version of the upcoming OpenAI o3 model that’s optimized for web browsing and data analysis,
Bron: OpenAI

Maar dat beantwoordt je vraag nog niet helemaal, want ik kan ook 4o instellen incl. deep research. Wellicht is 4o beter inzetbaar voor het prompten en gebeurt de magie (mede) met o3 ‘new’?

Op dit item kan niet meer gereageerd worden.