OpenAI introduceert ChatGPT-agent voor diepgaand onderzoek

OpenAI heeft deep research geïntroduceerd. Het is een nieuwe agent in ChatGPT waarmee gebruikers diepgaand meerfasig onderzoek kunnen uitvoeren via online en offline bronnen. Deep research maakt gebruik van het o3-taalmodel en is eerst beschikbaar voor Pro-gebruikers.

Uit een blogpost van OpenAI blijkt dat deep research 'redeneervermogen' kan koppelen aan zoekresultaten en dat de functie 'enorme' hoeveelheden tekst, beelden en pdf’s van het internet kan interpreteren en synthetiseren op basis van de prompt die is ontvangen. Deep research draait op een aankomende versie van het o3-taalmodel dat geoptimaliseerd is voor webbrowsing en data-analyse. De onderzoeksfunctie genereert rapporten in het chatvenster met daarin de resultaten van het onderzoek, inclusief bronvermeldingen, als eindresultaat.

Het complete proces zou volgens OpenAI tussen vijf en dertig minuten in beslag nemen. Zodra het rapport is gegenereerd, kunnen gebruikers ook een samenvatting van het zogenaamde denkproces van deep research bekijken. Op die manier zou het eenvoudiger moeten worden om de informatie die de functie produceert, te controleren. OpenAI wil deep research de komende weken uitbreiden zodat het ook afbeeldingen kan embedden, datavisualisatie kan uitvoeren en nog meer analyses kan verrichten. Deep research is momenteel alleen beschikbaar voor ChatGPT Pro-gebruikers, maar komt later ook naar ChatGPT Plus- en Team-gebruikers.

De nieuwe functie in ChatGPT doet denken aan Gemini Deep Research. Deze AI-onderzoekstool van Google werd in december van 2024 aangekondigd en kan ook onderzoek voeren op basis van prompts van gebruikers. Gemini Deep Research is, net zoals de nieuwe ChatGPT-agent, in staat om onderzoeksrapporten te genereren, inclusief de bronvermeldingen. De AI-tool van Google maakt gebruik van Gemini 1.5 Pro.

Door Jay Stout

Redacteur

03-02-2025 • 07:56

102

Lees meer

Reacties (102)

102
101
47
1
0
46
Wijzig sortering
En hiermee is de creatie van cargo cult- en junk-science significant makkelijker geworden. Dit zal alleen maar schade opleveren voor echt onderzoek.
Dit zal alleen maar schade opleveren voor echt onderzoek.
Toch wel frappant dat iedereen fatalistisch denkt over AI. In het begin zouden direct jobs sneuvelen, mensen zouden direct efficienter worden nu gaat het resulteren in junk-science en onderzoek schaden en ga maar door.

Ik mocht van mijn grootmoeder niet op een step rijden want ik zou een kort en een lang been krijgen. Een tante riep dat games mij verslaafd en dom maakten.

Nu er AI overal is begint iedereen van alles te roepen rond AI. En nu zou het schade opleveren voor echt onderzoek. ok...
Ik mocht van mijn grootmoeder niet op een step rijden want ik zou een kort en een lang been krijgen. Een tante riep dat games mij verslaafd en dom maakten.
Een betere vergelijking is deze: ik leerde vroeger op school hoofdrekenen, ondanks dat iedereen al een zakrekenmachine had. De redenen: allereerst omdat je nu eenmaal niet altijd zo'n ding bij de hand hebt, maar belangrijker: je moet in kunnen schatten of het ding het juiste antwoord geeft. Een typefout kan zorgen dat je er zo een factor honderd naast zit. Als je zelf niks kunt, heb je die fout niet door.

Hetzelfde geldt voor LLMs. Als je zelf niet na kunt denken, of je bent er te lui voor, loop je grote kans met incorrecte tekst opgescheept te worden. Dat is het grote verschil tussen: "LLMs maken mij productiever" en "Agents lossen het wel voor me op, zonder dat ik er iets voor hoef te doen".
Net zoals het internet zelf overrompelt raakt met AI gegenereerde slop, worden er ook steeds meer LLM gegenereerde 'research' papers ingediend. Nu zit hier wel een strenger filter op uiteraard voor publicatie dan iedereen die een site kan maken. Maar het gebeurt wel.

Als je LLM's goed gebruikt kan het zeker een tool zijn welke jezelf productiever maakt. Als je het allemaal klakkeloos overneemt echter zal je voor de complexere dingen zeker de deksel op je neus krijgen.

Wat meer een probleem is denk ik is dat kinderen en tieners vaak niet die discipline hebben, en deze dus hun huiswerk door ChatGPT laten doen, zonder zelf na te denken. Als ze het als een tool gebruikten om te leren, dan was er geen probleem. Maar als ze klakkeloos de antwoorden overnemen, dan leren ze op de lange duur niets. Hier moet dus zeker wel naar gekeken worden. Nu is dat vast mogelijk, de rekenmachine maakte uiteindelijk ook niet iedereen "dom" omdat ze minder goed in hoofdrekenen waren.
Al die weerstand en agnst voor het onbekende bij de introductie van nieuwe tech is van alle tijden. De grammofoon was 'de stem van satan' volgens de kerk. De telefoon was al helemaal beduiveld. Ze voorspelden veel sociale problemen door die uitvinding en al dat koper tussen de palen zouden de dorpsbewoners ziek maken.

Allemaal honderd jaar + geleden maar je kan er de zelfde logica op loslaten. Iedereen ziet doemscenario's en doet alsof we daar gaan eindigen als er niet wordt ingegrepen.
Ik deel je mening niet.

Dit maakt onderzoek beschikbaar voor €200,- per maand plus een maand salaris van twee WO-ers, dat in twee maanden meer op kan leveren dan een PhD in 4 jaar zonder.

Dus het zelfde onderzoek kost nu 1/12 en komt in 1/24 van de tijd, met sterker onderbouwde resultaten.

__

Uiteraard zullen alle tools ook anders ingezet worden dan op de ideale manier. Maar die niet allen op de "schadelijke" manier.
Dat zal in het beste geval nog steeds alleen van toepassing zijn op literatuurstudies en metastudies op basis van bestaand werk.

Veel PhDs en andere belangrijke onderzoeken gaan natuurlijk ook over nieuwe experimenten waarvoor men toch echt het lab of de maatschappij in moet. Daar ga je niet door chatgpt 24x zo snel in worden.
Ik heb ook mijn universitaire onderzoek met veel programmeer werk moeten doen. Het kostte me veel tijd om de codebase te bouwen. Dat zou nu heel anders zijn.
Ik ben wel benieuwd hoe je valideert dat zowel de code als het onderzoeks resultaat waar (in dit geval) ChatGPT mee komt, valide is?

Wat ik tot nu toe uit de generatieve LLM modellen heb zien komen, zit behoorlijk vol met fouten. Mooi voorbeeld is een YouTuber die alle LLM modellen code laat schrijven voor een raspberry Pi met led lampjes en 2 knopjes, als de code al compiled zonder errors werkt de logica niet. Maar het ziet er wel goed en indrukwekkend uit. Daarna probeert ie al promptend de LLM de code te laten fixen, maar het wordt meestal alleen maar erger. Alleen door z’n eigen programmeer ervaring kan ie het uiteindelijk oplossen.

Nou gaat dit voorbeeld nog over een simpel lampje aan/uit ding, maar als het om wetenschappelijke research, data, en de geautomatiseerde verwerking daarvan gaat, hoe bouw je checks & balances in, als je het zelf nooit eerder hebt gedaan en nog moet leren?
Ik snap dit soort reacties niet echt. Ik doe data-analyse met Python/Pandas en laat de scripts begeleid schrijven door ChatGPT. Het is niet dat het eerste antwoord direct werkt. Langzaam bouw je toe naar een werkende implementatie. Vaak zie je direct als er iets verkeerds gaat, want dan loopt je code gewoon niet.
Tegenwoordig schrijf ik ook code in bash of queries in SQL, waar ik minder kaas van gegeten heb. Maar code is code, en het analyseproces is hetzelfde. Het debuggen duurt hier alleen langer omdat ik minder snel zie waar iets fout gaat.
Het probleem is natuurlijk niet als de code niet loopt, maar juist als de code wel loopt maar de resultaten verkeerd zijn.
Tja. Dat heb ik ook wel gehad, en dan ben je uren aan het troubleshooten omdat het antwoord zo anders is dan dat je verwacht. Dit lijkt mij niet anders dan zonder LLM-assistentie. Daar moet ik soms ook uren/dagen/weken zoeken naar fouten in de code.

Het punt is denk ik vooral dat het niet fire-and-forget is. Je accepteert vaak niet het eerste antwoord maar moet langzaam naar een oplossing toewerken. Ja, er is een risico dat je code loopt maar er een verkeerd antwoord uit komt, maar dat risico is er nu ook.
Dat risico is volgens mij een stuk kleiner als je code zelf ontwikkeld dan als je een stuk code van ChatGPT aangeleverd krijgt.

Als je zelf code maakt ga je door vele schrijf, compile, run en test cycli heen waarbij je meestal al vroegtijdig bij een nieuw stukje code opmerkt dat er nu plotseling iets niet klopt. Je bouwt als het ware een diepe kennis op over die code tijdens het ontwikkelen.
Bij een aangeleverd stuk code valt dit voordeel weg.

Het is immers ook vele malen moeilijker om in een groot stuk code van iemand anders een semantische fout te vinden dan in je eigen code toch?

[Reactie gewijzigd door marktweakt op 3 februari 2025 09:57]

Ik ben het met je eens dat je de code beter snapt als je het allemaal zelf geschreven hebt. Maar als je met hulp van ChatGPT het werk vijf keer sneller kan, dan weet ik wel wat ik zou doen. Daarnaast komt ChatGPT met oplossingen of methodes waar ik zelf niet aan had gedacht of met packages die ik niet ken. Zo heb ik laatst optical character recognition gedaan op een raspberry pi met camera, ik zou geen idee hebben waar ik zou moeten beginnen zonder hulp. Nu heb ik in twee avonden een hele oplossing klaar.

Voor grote programma's moet je het ook opknippen. Dat vraag je ook aan ChatGPT "hey ik wil software met functionaliteit X, Y, Z. Geschreven in Python. Welke onderdelen moet ik hebben?" (natuurlijk is dit voorbeeld veel te summier). Dan vraag je vervolgens om elk onderdeel te schrijven samen met een testcase zodat je het kan testen.
Het debuggen van eigen code is vaak al lastig genoeg.

Het moeten debuggen van andermans code is het ergste wat er is. Of het nu een mens of een LLM is. Semantische fouten zijn over het algemeen vrij gemakkelijk te vinden maar het vinden van fouten in de logica kan je zomaar een halve dag kosten als het niet meer is. Wanneer het code van een directe collega betreft werkt het vaak een stuk sneller omdat die collega over het algemeen in het kort kan aangeven waar die op stuk is gelopen zodat je al wat meer context hebt om mee te werken. Soms heb je bij het aanhoren van het verhaal al een goede richting te pakken waar je als eerste kunt gaan zoeken. Met een beetje mazzel heb je het in tien minuten gevonden, in het ergste geval ben zo ongemerkt uren verder.
Elke (ervaren) programmeur kan je vertellen dat het stukken efficienter is om je eigen code van scratch te schrijven, dan om andermans code te moeten debuggen.
Ik merk als ik te lang door itereer op een stuk code dat er veel fouten bij verzonnen worden.
zeker met een lang stuk code.
Vooral met verkeerde variabelen die ineens terugkomen uit eerdere iteraties. Waarvan je dan hebt aangegeven maak ipv dit xyz nu abc
Je hebt gelijk. Kritisch denken blijft hoe dan ook belangrijk.

Maar voor terug te komen naar het onderwerp deepsearch, google gemini heeft deze feature al 1 maand geleden gereleased als je de gemini pro abbonement neemt van 20 dollar.
Openai komt een maand later met hetzelfde maar dan voor 200 dollar per maand.
Bovendien duurt het vaak nog een maand voor het in europa beschikbaar komt die openai producten. Sora (video creator) is ook al 8 weken geleden aangekondigd voor pro users, maar niet die van de EU...zelf vandaag is sora nog steeds niet ebschikbaar voor pro users.

Ik vraag me dan ook af waarom iemand in europa nog 200 dollar zou betalen voor pro, aangezien hij de features niet op voorhand krijgt zoals de amerikaanse klanten. Hetzelfde voor de enhanced voice mode, de pro klanten in europa moesten 6 weken wachten, terwijl teams subscription in europa het al hadden na 4 weken.

Als europeaan heb je niet veel aan de pro versie, en de teams limieten die zijn echt wel al heel hoog om te bereiken. Ik ben dan ook daarnaar overgestapt, aangezien die de features toch sneller krijgen en het veel betaalbaarder is.

Bovendien begint de concurrentie wel heel erg sterk te worden. ALs ik zie dat zelf microsoft copilot o1 toegang gratis geeft... Of deepseek gratis is (wel opletten met de online variant voor je gegevens, alles goed anonymiseren voor je opstuurt)

[Reactie gewijzigd door sebastienbo op 3 februari 2025 14:41]

Dit lijkt mij niet anders dan zonder LLM-assistentie. Daar moet ik soms ook uren/dagen/weken zoeken naar fouten in de code.
Als je het zonder assistentie doet heb je alleen veel meer controle erover om het proces te optimaliseren.

Zelf liep ik er vroeger ook tegen aan dat ik soms erg veel tijd was met bijv. debuggen. Sinds ik meer test first werk en daarbij er op focus dat de test simpel blijft en de juiste zaken test zie ik dat ik ten eerste veel minder tijd kwijt ben aan debuggen, en ten tweede de hoeveelheid regels code die ik gemiddeld nodig heb voor de implementatie een stuk minder is omdat de code veel gefocuster is op de daadwerkelijke case.

Daarnaast maak ik steeds meer gebruik van file templates en code snippets welke meer impact hebben op mijn snelheid dan het gebruik van een LLM omdat deze letterlijk tientallen regels code kunnen genereren met een keyword van een paar letters. Extreem nuttig voor vaak herhalende code.

Daarmee ben ik ook tot de conclusie gekomen dat een LLM, zelfs de nieuwste modellen, juist een negatief effect hebben op mijn productiviteit omdat die nog steeds te vaak fouten maken en te vaak meer code genereren dan echt nodig is.
Vooral een kwestie van de tool leren te gebruiken naar mijn ervaring.
Ik schrijf op het moment een app die gebruik maakt van Avalonia (min of meer cross platform wpf) enqbitorrent-net-client. Die qbittorrent library heeft zijn eigen modellen waar ik meerdere keren de nood had om er een View model van Avalonia omheen te wrappen.

Ik geef chatgpt een voorbeeldje van enkele property in mijn nieuwe viewmodel en het oude model en binnen geen tijd wordt het allemaal voor me geschreven. Soms ook handig om iets te beschrijven en ook code te vragen om te zien of dat strookt met hoe ik hetzelfde zou doen. Ik ben nog niet helemaal thuis in C# en daar komt soms iets eleganters uit dan hoe ik hetzelf zou doen. Vooral als het gaat om bepaalde gegevens uit een collectie te halen, ik gebruik te vaak loops terwijl de suggestie vaak flink van LINQ gebruik maakt. Een stuk leesbaarder.

Voor de XAML is het helaas niet geweldig. Duidelijk te merken dat de LLM op wpf is getrained en nogal vaak vergeet dat ik Avalonia gebruik. Vaak een stuk makkelijker om hetzelf te doen. Heb wel supersnel en stukje code voor me laten genereren dat een lijngrafiek je voor me maakt. Eerst geprobeerd met wat libraries maar die zijn allemaal toch wel erg groot en ingewikkeld. Puur aan configuratie code had ik al zoveel dat ik dacht eens kijken of ChatGPT het kan genereren, die is vast getrained op duizenden lijngrafiekjes. En ja hoor, ik heb een lijngrafiek in ongeveer net zoveel regels code als ik daardoor nodig had puur voor de configuratie (en zonder enorme library met overhead en een licentie die ik weer ergens moet noemen).

Soms gaat het flink mis, krijg je de verkeerde code en als je daar maar tijd aan blijft besteden om het goed te krijgen is het tijdverspilling (en erg frustrerend omdat je steeds op antwoord zit te wachten).

Ik gebruik het nu vooral om:
* Boilerplate te genereren
* Code te reviewen
* Code te genereren waarvan ik zeker weet dat andere mensen ongetwijfeld vele keren iets vergelijkbaars hebben gedaan
* Vragen stellen
** Waarom iets niet werkt
Of
** De beste manier om iets aan te pakken

Dat laatste punt is best interessant want soms slaat de AI flink de plank mis en kan je in veel minder stappen iets doen. Of het tegenovergestelde waarbij ineens een functie of library wordt gebruikt wat ik nooit van gehoord heb maar heel handig is.

Ik gebruik Google, stack overflow en de Avalonia telegram iig een stuk minder nu.
Ik heb software ontwikkeld met de '23 versie van ChatGPT. Geweldig hoe snel je eerste resultaten hebt, MAAR zodra je gaat iteren gaat het mis:
1. de gegeneerde code is totaal niet geoptimaliseerd omdat er toegevoegd en niet geintegreerd wordt. De structuur is vaak nodeloos complex.
2. er sluipen fouten in die prima compileren en runtime ook goed lijken te zijn, maar de output is niet correct
3. de fouten zijn subtiel dus het is enorm veel werk om die te detecteren zonder dat je referentiesoftware hebt
4. ChatGPT 'whistles in the dark'. Oh jee, baas, heb ik iets fout gedaan. Ik zie het al, ik ga het nu fixen, deze code werkt wel.
5. Oh nee he, weer niet goed? Ik zie het al; deze code etc

En zo ga je door eindeloze herhalingen van de stappen 2 t/m 5 en besluit je dan zelf de code maar te fixen om te ontdekken punt 1 je nu dwars zit. Je neemt werk over van een prutser en had het in die tijd beter zelf kunnen schrijven...
Er is een verschil tussen begeleid laten schrijven of gewoon laten schrijven.
Begeleid, houd naar mijn mening in, dat iemand met kennis, de LLM begeleid code te schrijven en waar nodig de aanpassingen weet te doen.
Waar ik LLM ook voor gebruik, ik hoef echt niet meer de hele lappen code te schrijven.

En laten schrijven, klinkt mij, dat iemand aan de LLM vraagt om een programma(tjes) te schrijven, zonder dat deze persoon een idee heeft wat die doet.

Twee wezenlijke verschillen, in het gebruik van LLM.
Dat klopt. Maar mijn ervaring is dat gewoon laten schrijven nog niet goed kan. Voor kleine projectjes kan dat wel steeds beter, en is het redelijk fire and forget. Maar dat is meer in de stijl van "importeer deze json file en geef mij een overzicht van welke keys erin zitten". Dat is natuurlijk heel anders dan "Doe een PhD over elektrontransport door netwerken van nanodeeltjes bij lage temperatuur en spanning".
Ik stel me voor dat we onderzoek toetsen op de herhaalbaarheid. Hetzelfde onderzoek door een ander zou dezelfde resultaten op moeten leveren. De methode moet daarom beschreven worden bij publicatie. Etc. Dus niet anders dan anders.

Het tweede deel van je post. Ja LLM modellen hallucineren en werken niet altijd goed. Maar de ontwikkelingen gaan zeer snel. We kunnen er in dit tempo dus wel van uit gaan dat over een jaar of drie ook dit werk zich verplaatst van mensen naar rekenende en lerende modellen.

Dat het nu nog niet werkt zegt weinig over waar we straks belanden. Hoe snel de ontwikkelingen gaan wel.
Ik merk ook veel fouten in verschillende modellen.
Zo intensief gebruik ik het niet, maar ik gebruik het vaak om een Excel te maken en daar begint het meestal goed, maar soms haalt hij de kolommen door elkaar en dan werkt het opeens niet meer.
Soms kan ie het fixen, meestal slaagt hij titlt.
Ik kan dan wel verder met een basis van een vorig gesprek.
Maar toch... je moet nog steeds opletten en niet klakkeloos aannemen wat de LLM je voorschoteld.
Hier ben ik het volledig mee eens. Bij alles wat een beetje buiten de comfort-zone van LLMs ligt (dus eigenlijk alles wat niet al 100 keer beschreven is op het internet) gaat het vaker de fout in dan dat het iets goeds aflevert.

Mensen vergeten dat wanneer iets voor 95% goed is, het nog steeds fout is. Dit valt wat minder op als het om tekst gaat, maar in code kan 1 karakter al de volledige functionaliteit kapot maken.

Voor boilerplate en dergelijke is het een fantastische tool, maar teveel mensen gebruiken het ook voor logica en checken dan alleen maar of er iets uit komt wat goed lijkt, zonder daadwerkelijk te checken of het algoritme klopt.
Hier ben ik het volledig mee eens. Bij alles wat een beetje buiten de comfort-zone van LLMs ligt (dus eigenlijk alles wat niet al 100 keer beschreven is op het internet) gaat het vaker de fout in dan dat het iets goeds aflevert.
Dat is niet hoe LLM's werken. Ze leren niet wat er op internet staat, ze leren patronen.
Ze kunnen met andere woorden ook oplossingen maken die ze nog nooit gezien hebben (op voorwaarde dat ze het patroon herkennen)
EN patronen moet je niet onderschatten, dat is hoe ze je stem of schrijfstijl kunnen klonen bijvoorbeeld (dingen die nochtans niet op internet staan).

Het is een next token prediction en dat is niet hetzelfde als next word prediction, tokens zijn veel beter om patronen te herkennen en zijn niet taal afhankelijk (ze begrijpen eigenlijk niet eens de taal).

Dit werd ooit eens gedemonstreerd door een tokenaanval uit te voeren om de LLM beveiliging te omzeilen. Want de beveiliging was taal gebonden (verwoord in talen), terwijl de aanval tokens van alle talen gebruikte om zo zinnen te construeren (prompt). Voor ons zou de zin niets betekend hebben, maar het model zou de patroon opgepikt hebben en bij security controle kwam dat tokenmixture niet overeen meet de security prompt, dus werd het alsnog wel uitgevoerd. Inmiddels hebben AI bedrijvens zoals chatgpt dit aangepakt, door de output te controleren op violations, en dit niet door de model gewichten te laten bepalen.
Ik snap niet helemaal hoe iets hier van tegenspreekt wat ik zeg. Ik zeg namelijk ook niets over de exacte werking, het is een resultaat wat er uit rolt. Ik merk dat als je bijvoorbeeld iets over de taal Clash vraagt het 90% van de tijd gewoon fout is, terwijl er best uitgebreide documentatie van is. Er zijn alleen niet tal van voorbeelden van hoe je iets precies doet.

Het 'leert' wat er op het internet (en andere bronnen in mindere mate) aan de hand van patroonherkenning. Patroonherkenning is pas effectief als er al meerdere voorbeelden zijn. Dat is precies het probleem waar ik het over heb.
Ze kunnen met andere woorden ook oplossingen maken die ze nog nooit gezien hebben (op voorwaarde dat ze het patroon herkennen)
Dat zou ik dus persoonlijk geen nieuwe oplossing noemen. Het is een bestaande oplossing gebruiken in een nieuwe context.
Ze kunnen met andere woorden ook oplossingen maken die ze nog nooit gezien hebben (op voorwaarde dat ze het patroon herkennen)
Antwoord: Dat zou ik dus persoonlijk geen nieuwe oplossing noemen. Het is een bestaande oplossing gebruiken in een nieuwe context.
Heel de wiskunde en wetenschap is gebaseerd op dat principe, het noemt inductief vermogen of inductieve bewijzen. Je herkent kleine patronen en gebruikt die om grotere patronen aan te tonen, te maken en weer verder te groeien. De bouwstenen zijn immers hetzelfde (allé ons besef van bouwstenen).

Bijvoorbeeld een som:
1) We maken getallen
2) we maken operators die operaties kunnen uitvoeren op getallen
3) We definieren 1..10 als getallen
4) We definieren de operator '+' als een optel berkening waarbij een getal + een getal resulteerd in een som
5) We definieren een oeprator "x" als een vermenigvuldiging operatie, die operand 1 vermenigvuldigd met operand 2
....

Als je dit lijstje doorgaat dan kan je alle wiskundige operatoren , getallen en uitkomsten bekomen.
Met wetenschap doe je hetzelfde op basis van waarnemeingen (zoals biologie) in combinatie met wiskunde.

Je kan dus met heel weinig definities de wereld beschrijven.
Als een LLM die patronen herkent kan hij zelf ook nieuwe operatoren maken of andere nieuwe zaken ontdekken waar wij mensen nog geen tijd voor gehad hebben en dus niet op het internet gezet hebben.

Een goede LLM draait niet om veel data (hoeveelheid), maar eerder om de patronen herkent te hebben die de wereld maken zoals het is. Dat is waarom we zien dat een kleine deepseek een hele grote o1 model kan evenaren. Het was dus niet de input hoeveelheid dat van belang was, maar de patroon herkenning in die data. Het heeft geen zin om 10.000 keer hetzelfde patroon te zien, daar leert hij niets nieuws uit.

Het is een grote fout van te denken dat je een model moet trainen met nieuwe data, je hoort het niet te voeden met data, maar eerder met data die unieke patronen bevat. Echte Data kan je in een databank steken en een klein model leren hoe het in databanken moet zoeken. Zo werkt het veel sneller, kleiner en efficienter. Anders gaan we in compute problemen terechtkomen (modellen die te groot zijn en veel te lang moeten denken)

[Reactie gewijzigd door sebastienbo op 4 februari 2025 14:17]

Ik snap niet helemaal wat je punt is. Ik ben ook bekend met abstracte algebra en informatietheorie, en ik snap dat theoretisch gezien een LLM met oneindige resources wellicht ook oneindig kleine patronen kan herkennen. En ik begrijp dat je met oneindig kleine patronen uiteindelijk alles kan beschrijven.

Maar dit heeft allemaal helemaal niets te maken met wat ik stelde. De realiteit is dat we nog lang niet zulke kleine patronen kunnen herkennen en dat we dus nog heel erg afhankelijk zijn van wat er in de datasets zit. De huidige modellen van OpenAI kunnen de denkstappen die je noemt gewoon niet maken.
Een goede prompt doe wonderen.
Ik heb CoPilot in Edge een foutloze web applicatie laten bouwen op basis van een uitstekende OpenAPI definitie.
Incl. WCAG level 2 en least privileged cloud infrastructuur, firewall, API gateway, CDN de hele rattenplan.

Ik kon dat valideren omdat mijn expertise daar ligt.

Ik kon het aansturen omdat ik weet welke standaarden en toetsingskaders online gestructureerd beschikbaar zijn.

Ik heb twee kleine hints moeten geven voor iets wat niet perfect ging. Dingen ontwikkelaars met veel ervaring ook nog wel eens over het hoofd zien, maar de beveiliging of de werking niet verstoorden.

Dus zelf een gratis AI kan dit, met de juiste prompt.

[Reactie gewijzigd door djwice op 3 februari 2025 11:56]

Alle informatie die uit CoPolit komt is toch gewoon gestolen uit private GIT repositories? Als bedrijf zou ik tegenwoordig maar goed opletten op welk platform je de kroonjuwelen van je onderneming stalt.
Is dat zo? Heb je daar een bron voor?
Ik krijg code die zeer specifiek op de API is die ik geef, of generiek op basis van de configuratie parameters bestand structuur die ik geef.

Het is knap als dat met knip en plak werk uit gestolen code zou kunnen. Zeker omdat ik ook eisen stel waaraan de code moet voldoen die typisch niet in een code repository staan.

[Reactie gewijzigd door djwice op 4 februari 2025 18:03]

De training set bestaat volledig uit gestolen data. Dat weet toch iedereen?
Waar kan ik dat vinden? Ik ben blijkbaar niet iedereen.

Er bestaan datasets zoals https://commonCrawl.org doel je daar op?

Het analyseren en vinden van nieuwe inzichten en structuren in datasets en informatie op internet is bij NL en EU wet expliciet toegestaan, ook zonder toestemming van de eigenaar/maker van die informatie.

[Reactie gewijzigd door djwice op 5 februari 2025 07:09]

Ik doe liever niet aan heling van data.
Ik snap even niet waar je het over hebt. Je geeft aan dat iedereen iets weet, ik helaas niet. Je geeft aan dat er sprake is van diefstal en heling van data.

Kun je aangeven waar daar bewijs voor te vinden is? En als het algemeen bekend is, is er dan door bijvoorbeeld door het Europese hof of de Nederlandse justitie een onderzoek gestart?
GitHub is eigendom van Microsoft en Microsoft heeft alle informatie op GitHub gebruikt om Copilot te trainen en de rest van het internet binnengetrokken, waaronder heel veel "copyright protected" materiaal. Er is vooraf toestemming gevraagd noch gegeven voor het gebruik van de data voor het trainen van LLM's. Dit geldt overigens voor alle partijen die een LLM aanbieden.

Veel sites met enig gewicht vragen voortaan een bedrag variërend van tien to dertig miljoen USD per jaar van ieder LLM als vergoeding voor het trainen van de modellen op hun data. Enkele links aangaande dit onderwerp:

https://www.forbes.com/si...ay-up-for-taking-content/
https://www.newsmediaalli...se-Submitted-10.30.23.pdf

De data is gewoon gestolen en in plaats van te eisen dat de data uit de trainingsset wordt verwijderd, wat technisch gezien onmogelijk is, eisen de uitgevers voortaan een vergoeding voor het gebruik.

Wat gaat dit inhouden voor de gebruikers van LLM's? De exploitatiekosten van een LLM gaan omhoog doordat de bedrijven overal vergoedingen moeten betalen. Dit geld moet worden terugverdiend en het liefst met een beetje winst. In de praktijk betekent dit dat een licentie voor het gebruik van een LLM die nu nog EUR 20 per maand kost binnenkort EUR 200 per maand gaat kosten. Dat is voor iemand woonachtig in Nederland wellicht nog wel op te brengen, maar stel nu dat je als programmeur in Portugal woont, dan is dat ineens een hoop geld wat je per maand extra moet verdienen. Laat staan wanneer je ergens in Midden- of Oost-Europa zit waar de inkomens nog lager liggen. En dan laten we Afrika en Azië nog even buiten beschouwing.
Zelfde angst van publishers toen Google groot werd.

De beschreven helpende start-ups die een fee per scrape helpen innen, negeren het bestaan van commoncrawl.org en archive.org.
En het verkrijgen van content kopieën via cache diensten; "browser versnellers".

Ik begreep dat Microsoft CoPilot gebruik maakt van OpenAI Cortex, of is dat fake of achterhaald niews?

[Reactie gewijzigd door djwice op 5 februari 2025 08:04]

Feit is dat ze allemaal geld (gaan) betalen aan nieuwssites en dergelijke en dat al dat geld terugverdiend moet worden. Doordat ze het geld betalen geven ze expliciet toe de content van die websites gebruikt te hebben. In de volksmond het dat stelen. De dief gaat voortaan betalen voor het gebruik van de data en de afnemers moeten het geld ophoesten.
Nieuws is een verslag van een gebeurtenis. De informatie over een gebeurtenis mag iedereen in zijn eigen bewoordingen overnemen zonder anderen daarvoor te betalen.

Als je geld betaald voor iets dat je gebruikt, ben je toch niet per definitie aan het stelen?
Soms kiest een organisatie om voor iets te betalen, ook als de ander daar geen recht op heeft. Dit doen ze omdat ze ander te veel energie moeten stoppen in het juridische gevecht. En soms doen ze het i.v.m. markt reputatie of omdat denken dat het bedrijf waar ze geld aan geven dat goed kan gebruiken, en ze belang hebben bij het voortbestaan er van.

[Reactie gewijzigd door djwice op 5 februari 2025 12:59]

Journalistieke verslaglegging en onderzoeksjournalistiek kost nu eenmaal tijd en dus geld. Wanneer je dat zomaar gratis weggeeft dan houdt het snel op in de wereld.
Het gaat wel om nieuws dat ruim een jaar oud of ouder is waar ze initieel op hebben getraind.

Maar ik begrijp je punt.
Ook artikelen oude dan een jaar vertegenwoordigen nog steeds een waarde. Zeker wanneer je bedenkt dat deze hoge kwaliteit content die door de nieuwsredactie zeer strikt geredigeerd is uitermate waardevol is voor het trainen van LLM's. Zonder deze hoogwaardige content blijft de rest van het internet over, Facebook, Reddit, Twitter etc. de content op die platforms is van een bijzonder wisselende kwaliteit en daardoor veel minder goed bruikbaar voor het trainen van LLM's.
Daar heb ik geen verstand van. Of het leren van het taalgebruik op socials slecht is voor een llm. Ik zou zeggen: daar kan het juist goed leren hoe je kunt reageren op input. Omdat socials vaak reacties kennen. Nieuws heeft naar mijn idee minder vaak vraag-antwoord constructie / dialogen in de artikelen.
Ja, uitgerekend bevat het grootste model dat alleen in een datacenter kan draaien gemiddeld één paragraaf of minder per boek aan data.

Het grootste model dat mensen op hun eigen computer kunnen draaien bevat gemiddeld een halve zin of minder per boek aan data.

Beide modellen worden gratis verstrekt.

Meta heeft van elk boek een exemplaar gekocht heb ik begrepen:
Een andere medewerker zou hebben geredeneerd dat Meta moest stoppen met het afnemen van legitieme licenties voor boeken, omdat het bedrijf zich dan niet meer zou kunnen beroepen op 'fair use'-gebruik van het overige materiaal.
Meta wilde van elk boek een legitieme licentie kopen, en heeft dat ook gedaan, om er vervolgens gemiddeld 1 paragraaf of minder aan data uit te halen.

Het kan zijn dat de medewerker niet begreep dat de overige data publiek op internet gezet werd door de producenten en daarmee legitiem toegangkelijk was voor Meta.

[Reactie gewijzigd door djwice op 8 februari 2025 08:22]

Het model is getraind op gestolen data. Ik weet niet waar je het vandaan haalt dat er in een datacenter gemiddeld één paragraaf of minder per boek aan data staat. Dat doet niets af aan het feit dat het gehele boek is gebruikt voor het trainen van het model. Zonder die boeken hadden ze het model niet kunnen trainen. Kennelijk is het tegenwoordig volstrekt normaal om zomaar alles van iedereen te jatten.
Als je voor een boek betaalt aan de rechtmatige producent heb je dat boek niet gestolen, je hebt dan rechtmatig toegang tot de inhoud van het boek.

Zie verder
djwice in ''Meta gebruikte ruim 80TB aan illegaal verkregen data om AI te trainen''

[Reactie gewijzigd door djwice op 8 februari 2025 08:57]

Aan de binnenkant van het boek staat altijd iets over het niet mogen overnemen van de inhoud en dat het niet is toegestaan om de inhoud openbaar te maken zonder voorafgaande toestemming. Het lijkt me duidelijk dat het overnemen van de inhoud illegaal is.
Een goede prompt doe wonderen.
Ik kon dat valideren omdat mijn expertise daar ligt.
Je hebt helemaal gelijk. Het is trouwens die laatste stap (valideren op basis van je expertise) dat o3 model probeerd aan te pakken. In de plaats van gegevens zo maar in elkaar te klutsen, net zoals een expert zal het kijken wat er nodig is, wat de requirements, best practices, etc.. Pas nadien begint hij data te maken, en nadien controleerd hij zijn output op basis van de requirements en best practices en past het weer aan. En dat is voor één denkproces, vervolgens worden denkprocesen aan elkaar gekoppeld doormiddels van agents waardoor het taken kan uitvoeren zoals we al een beetje zien bij de Deep research dat openai gisteren aangekondigd heeft.

Dit is wat we gaan zien met de o3 model die nu gaat uitkomen in de maand maart.
Alle andere modellen (nadien) gaan de mens voorbijstreven, en ik weet ook niet hoe lang wij zelf de output nog gaan begrijpen van wat AI dan gaat doen. En dat is waar het allemaal onzeker en gevaaarlijk kan worden. Want op den duur lijken wij op insecten voor AI kwa intelligentie, en word biologie of diversiteit aanzien als een nadeel dat voor te veel problemen zorgt (ik spreek niet enkel over mensen maar alle andere vormen: ook dieren, virussen, bacterieen,etc..).

[Reactie gewijzigd door sebastienbo op 4 februari 2025 14:26]

Wat jij beschrijft is precies een onderdeel van de skillset die mensen moeten ontwikkelen: hoe interpreer ik output van AI, hoe valideer ik de antwoorden, wat zijn volgende stappen?

Ik verwacht dat kennis an sich niet meer een vereiste zal zijn. Kennis zelf is breed beschikbaar. Het gaat erom dat mensen de bronnen moeten kunnen verifiëren en de antwoorden moeten kunnen valideren. Dan zal je in slechts fracties van de eerder benodigde tijd complete opstellen kunnen schrijven als startpunt voor het verdere onderzoekswerk.
Ik zie "kennis" niet hetzelfde als "informatie". Je kunt heel plat heel veel informatie verzamelen, maar zonder de juiste "kennis" doe je daar niet heel veel zinnigs mee. Daarom zijn er nog steeds bedrijven die zweren bij knowledge-graphs (icm LLM), zodat kennis op de juiste manier toegepast kan worden op informatie. En dan hebben we het nog niet over "creativiteit" gehad.
Vandaar dat het niet kennis of informatie genoemd mag worden, maar eerder "Expertises"
Dat is waarom MOE modellen nu al zo goed worden. Expertises is namelijk ook iets dat geleerd kan worden, net zoals groeien en bijleren.

Als er iets is dat we geleerd hebben in de laatste maanden is, dat de grootte van het model neit lineair is aan zijn expertise. Je kan er een hele databank induwen, waar 10.000 keer hetzelfde patroon voorkomt, en hij dus eigenlijk maar 1 ding uit leert (die patroon)., Je kan beter een heel klein model bouwen die gefocussed is op expertises en die zelf met externe data kan omgaan (het moet niet in het model zelf zitten anders word de compute time te groot)
Het is natuurlijk niet alsof de LLM een binary blob uitspuugt. Je kan de code prima zelf doornemen. Ook kan je steekproefsgewijs nagaan of de code de juiste gegevens produceert. Wat dat betreft is het net als het schrijven met teksten, daar gebruik ik ook LLM's veel voor. Niet om de LLM inhoudelijke kennis te laten produceren maar omdat de LLM een veel betere taalvaardigheid heeft. Dat is bij bijv. data science niet anders, je kan misschien prima weten wat er met data moet gebeuren en hoe dat er uit komt te zien maar minder sterk zijn in het schrijven van code die dat efficiënt realiseert.

Blind op een LLM vertrouwen zou idd niet handig zijn. Net zo min als dat je niet zomaar elke willekeurige library moet importeren en blind vertrouwen in je code.
Ik heb software ontwikkeld met de '23 versie van ChatGPT. Geweldig hoe snel je eerste resultaten hebt, MAAR zodra je gaat iteren gaat het mis:
1. de gegeneerde code is totaal niet geoptimaliseerd omdat er toegevoegd en niet geintegreerd wordt. De structuur is ook nodeloos complex.
2. er sluipen fouten in die prima compileren en runtime ook goed lijken te zijn, maar de output is niet correct
3. de fouten zijn subtiel dus het is enorm veel werk om die te detecteren zonder dat je referentiesoftware hebt
4. ChatGPT 'whistles in the dark'. Oh jee, baas, heb ik iets fout gedaan. Ik zie het al, ik ga het nu fixen, deze code werkt wel.
5. Oh nee he, weer niet goed? Ik zie het al; deze code etc

En zo ga je door eindeloze herhalingen van de stappen 2 t/m 5 en besluit je dan zelf de code maar te fixen om te ontdekken punt 1 je nu dwars zit. Je neemt werk over van een prutser en had het in die tijd beter zelf kunnen schrijven...
Precies dit is ook mijn (en vanuit onze organisatie bij onze Silicon Valley AI klanten) ervaring: het is alsof je met een erg gemotiveerde, over-enthousiaste, stagiair met veel ambitie, en veel theoretische kennis, maar geen enkele praktijkervaring, moet samenwerken. Je vraagt iets, en binnen no-time krijg je een impressive stuk werk, dat er op het eerste oog heel goed uitziet, en waarbij er ook een mooi verhaal komt. Niks aan het handje lijkt het. En dan blijkt het niet te werken, en mag je met je stagiair gaan uitvogelen waarom het niet werkt en hoe dit op te lossen. Als jij dan niet zo ongeveer de analyse en de oplossing voor kauwt, komt de stagiair vrijwel nooit zelf tot de oplossing, omdat ie niet snapt waar het fout gaat, en dus steeds meer bizarre "patches" probeert toe te voegen, omdat ie niet "back to the drawing board" kan/wil gaan.

Dit geeft het denk ik wel mooi aan:

https://addyo.substack.co...problem-hard-truths-about

en

YouTube: Can DeepSeek R1 Actually Write Good Code?
ik mag niet upvoten, maar dank voor de links en de bevestiging dat het anno '25 niet veel beter is geworden....
Ik merk nu al dat chatgtp toch wel foute antwoorden kan geven, het is ook maar net hoe je hem de vraag stelt dus ja, de kwaliteit van het antwoord komt met de kwaliteit van de vraag wat ook op veel forums etc geldt.
Zelfs als je hele concrete vragen stelt of aangeeft dat het antwoord fout is, blijft het vrij arrogant met verkeerde antwoorden komen.
Ik vind het een gevaarlijke tool, helemaal voor wetenschappelijke onderzoeken...
Het lijkt mij dat je alles alsnog moet controleren, maar de kans dat je al een bias hebt gekregen door de antwoorden is groot en daardoor is de kans op fouten maken ook weer groter volgens mij.

Het zou mooi zijn als er een soort toetsbaarheid is op de antwoorden die het geeft, maar ook transparantie (als dat er nog niet is), hoe komt het aan de antwoorden?
De verwachtingen zijn te hoog. Zie het als een rekenmachine die geregeld een fout maakt. Daar moet je niet blind op varen, maar het kan je wel een hele hoop werk uit handen nemen. Je moet inderdaad wel alles nalopen. Het zou fijn zijn als er een soort disclaimer bij komt die dit aangeeft.
Maar mensen die denken dat nu de 'dure' wetenschappers niet meer nodig zijn omdat een taalmodel leuke antwoorden geeft, kunnen bedrogen uitkomen.
Die disclaimer staat er ook: "ChatGPT kan fouten maken. Controleer belangrijke informatie."

Verder helemaal met je eens, AI/LLM's zijn een tool die een waardevolle aanvulling zijn in het proces, maar dit voorlopig nog niet volledig uit handen kunnen nemen. Wat ze wel al goed kunnen is al het repetitief en bulk werk uit handen nemen waardoor je meer tijd over hebt voor het specialistisch werk.
Helemaal mee eens. Komt dit niet omdat een LLM altijd antwoord wilt geven? Ze gaan in een soort loop blijven hangen.
Dit gaat evenveel PhD's vervangen als dat Google Scholar gedaan heeft: 0.

De gebruikte techniek is nog steeds een LLM: next word prediction, interpolatie of lossy datacompressie in een wiskundige functies. Het enige dat het kan is mooie antwoorden genereren tussen dingen die het geleerd heeft, maar het kan niet buiten zijn kennis stappen en dus geen research doen.

Ik zag dat iemand hier van de week een filmpje poste van iemand die het nieuwe o3 model gebruikt om een het hele snake spel automatisch te genereren. Impressionant vanuit het standpunt dat dit enkele jaren geleden niet kon. Maar bedenk dan dat het dat alleen maar kan omdat de trainingsdata vol zit met code die snake implementeert. (Je zal wel 100'en zoniet 1000'en implementaties vinden op Github)

Het zal een nuttige tool zijn om snel recent related work te vinden, maar daar houdt het dan ook wel op.

Laten we nog stellen dat deze agent PhD's kan vervangen. 1) Denken we dan echt dat OpenAI - een initiële non-profit die for-profit geworden is - dit voor slechts 200euro per maand gaat aanbieden? Ik dacht dat OpenAI jaarlijks 5 miljard verlies maakt. Met een leger virtuele researchers die massas werk kunnen verrichten betwijfel ik zelfs dat OpenAI dit zelfs maar publiekelijk zou aanbieden. Ze zouden eerder dat systeem zelf research laten doen, en de nuttige uitvoer gebruiken om winst te maken.
2) laten we nog zeggen dat OpenAI zo goedhartig is dat ze zo een krachtige tool zouden openstellen. In dat geval heeft 1 instituut - OpenAI - de macht om alle research te sturen. Dit is iets dat researchers niet willen en zorgt er alleen maar voor dat belangrijke info niet beschikbaar komt of onderzocht wordt. Iets soortgelijks is nu trouwens bezig in de VS waar het CDC hun onderzoekers verbiedt om bepaalde "woke" termen te gebruiken in onderzoek omdat het de nieuwe regering niet zint. Dit doet de betrouwbaarheid en geloofwaardigheid van het CDC en diens onderzoekers sterk afnemen.
Je slaat hier de spijker op de kop. LLMs zijn goed in dingen die al 20 keer uitgelegd zijn op het internet. Dit is ook waarom het voor veel beginners/studenten lijkt alsof het zo goed kan programmeren. Dat valt wel mee, alleen staan er online al tientallen voorbeelden van hoe je in R een bepaalde statistische analyse uitvoert.

Als je iets moet doen wat niet eerder gedaan is lukt het LLMs al direct niet meer, tenzij je het in kleine blokken opsplitst die het wel kent.

Het vervelende is ook dat mensen zo makkelijk voor de gek te houden zijn. Er is echt indrukwekkende progressie geboekt de afgelopen jaren, maar er is nog geen enkel teken van echte intelligentie. Het is een beetje alsof we een kind in 4 jaar zien leren lopen en daaruit extrapoleren dat het in de volgende 4 jaar ook zal leren vliegen.
Laaghangend fruit zoals verbanden leggen waarvoor al het voorwerk al gedaan was zal nu kunnen. Echter, vernieuwend creatief onderzoek met nieuwe experimenten en data zal dit niet op kunnen leveren.

Het eerste, daar worden soms Masterstudenten op gezet, het tweede, dat is precies waar een PhD voor betaald wordt.

[Reactie gewijzigd door trevoc op 3 februari 2025 08:27]

Behalve dat ChatGPT nauwelijks in staat is om complete nonsense te onderscheiden van zinvol gedaan onderzoek....

Deze agent is alleen nuttig om samenvattingen te maken van eerder gedaan onderzoek. En laat de belangrijkste skill daarbij nou zijn het vermogen om écht onderzoek van totale onzin te onderscheiden....

Laat ChatGPT een samenvatting maken van klimaatverandering en de ontken-wappies krijgen net zoveel waarde als de zinnige onderzoekers. Met als resultaat dat er een redelijke kans is dat je samenvatting niet heel zinnig gaat zijn.

Ofwel: Je hebt in 1/12e of 1/24e van de tijd je resultaat alleen moet je vervolgens nogsteeds 4 jaar besteden om de onzin er tussenuit te filteren.
Dit maakt onderzoek beschikbaar voor €200,- per maand plus een maand salaris van twee WO-ers, dat in twee maanden meer op kan leveren dan een PhD in 4 jaar zonder.

Dus het zelfde onderzoek kost nu 1/12 en komt in 1/24 van de tijd, met sterker onderbouwde resultaten.
Dan begrijp je dus het probleem totaal niet. ChatGPT kan geen onderzoek doen, ChatGPT kan alleen indexeren en vectors tussen termen berekenen. Het is geen AI, het is een taalmodel.
ChatGPT kan wel naar bronnen zoeken en daarbij een nuttig hulpmiddel zijn, maar onderzoek geproduceerd door ChatGPT is gewoon waardeloos. ChatGPT kan geen nieuwe conclusies trekken of hypotheses stellen.
Je hebt gelijk dat literatuuronderzoek hiermee echt wel sneller en makkelijker wordt. Uiteindelijk (binnen enkele jaren) gaat AI er voor zorgen dat je literatuuronderzoek niet meer hoeft te doen.

Echter is literatuuronderzoek maar een heel klein deel van wetenschappelijk onderzoek. In totaal zou ik zeggen 5% van wat we nu doen. Het voornaamste is opzetten, doen, analyseren, en rapporteren van experimenten. Met deze zaken kan AI wel helpen, maar je moet niet overdrijven in welke mate dat het geval is.
Ik denk dat je ernstig onderschat hoe lastig het is om onderzoek te beoordelen. Fouten zijn vaak heel subtiel, komen in de vorm van omissie in plaats van een onjuiste inclusie, of zijn in zeldzame gevallen zelfs gewoon resultaat van fraude. Een AI-generated research paper gaat een wetenschapper niet helpen, het is slechts nog meer tekst die kritisch beoordeeld moet worden.
WO staat voor wetenschappelijk onderwijs, waar je leert wetenschappelijk onderzoek te doen. Uiteraard kunnen mensen zonder WO-opleiding ook dingen onderzoeken.
De crux zit hem hier in Wetenschappelijk, dat betekent dat het gestelde zodanig is bewezen of weerlegd, dat het aantoonbaar waar is of niet waar en dat iedereen tot diezelfde conclusie komt.
En dat er geen informatie bestaat of kan gaan bestaan die kan leiden tot een andere conclusie.

Dat begint bijvoorbeeld bij een duidelijke stelling en afbakening van de onderzoeksvraag.

[Reactie gewijzigd door djwice op 3 februari 2025 20:26]

Ik doe heel veel onderzoek in de medische literatuur. Ik doe dit met de hand en gebruik AI voor het vinden van aanvullende bronnen. AI vindt vaak nog een studie die ik anders nooit had gevonden omdat ik simpelweg niet door miljoenen studies kan lezen. Alles wordt hier door mij en de redactie nog eens dubbel gefactcheckt. Dus wat mij betreft is dit een prima ontwikkeling, zolang het maar gefactcheckt wordt door mensen met kennis van zaken.
Wil je als bedrijf aan ChatGPT vertellen met welk onder zoek je bezig bent ?
Als je dus niet oppast vertel je gewoon bedrijfsgeheimen aan chatGPT, die dus weer door de goede vragen te stellen door concurrenten eruit gehaald kunnen worden
Iets wat iedereen kan laten genereren heeft automatisch geen waarde.
Mwah, pas als je de materie goed snapt kun je goede vragen stellen. De gemiddelde mens zal niet al teveel weten van research op gebied X.
Een vtaag hoeft alleen maar taalkundig correct te zijn. Alleen hebben AI's hetzelfde probleem als zoekmachines: het is "onmogelijk" dat ze iets niet weten. Dan ligt het aan de vraag...
Dat is er in ‘echt’ onderzoek natuurlijk ook al.
Weet niet zeker wat je bedoelt

Ik maak me meer zorgen over de systeem context die deze agents meekrijgen.

Het maakt het mogelijk voor dit soort bedrijven om de toon, de uitleg en resultaten een bepaalde kant op te drukken zonder dat we dit echt duidelijk zien.

Beetje populair gezegd, geef je zo'n agent mee dat het glas halfvol of halfleeg is? Met Chinese modellen is Tiannamen altijd een aardig voorbeeld, maar met Amerikaanse bijvoorbeeld de bijzonder voorzichtige houding tav sex en wellicht binnenkort ook "woke"

Feiten blijven feiten en deze functie helpen, zeker. Maar welke feiten waarom geselectereerd worden en hoe ze worden uitgelegd?
Alleen een AI zal spoedig nog in staat zijn om al het ‘onderzoek’ binnen een (deel)vakgebied tot zich te nemen ben ik bang. Wat is straks nog een expert? Iemand die de output van een AI efficiënt tot zich kan nemen? Iemand die de redeneringen van een AI napluist?
Iemand die een stuk literatuur uit zijn hoofd kent en uit eigen ervaring ook spreekt. Er is ontzettend veel kennis die niet op papier staat en waar AI dus ook geen toegang toe heeft.

Daarnaast zijn o1/o3/r1 zogenaamde redeneermodellen, maar ze zijn niet in staat logica toe te passen zoals een processor dat wel kan. Ze leren ook niet trouwens en voldoen daarmee dus aan geen van de twee criteria om als Artificiële Intelligentie omschreven te worden (kunnen leren en redeneren). Keiharde misleiding qua naamgeving, als je het mij als expert vraagt.

Integratie van leren en redeneren zijn we nog (erg) ver van verwijderd. Denk liever na over hoe je dit soort enorme imprecieze databanken van kennis wel nuttig in kunt zetten, want dat is wel degelijk al revolutionair, ook zonder dat we echt intelligente systemen hebben.
Het redeneren is behoorlijk lachwekkend, op dit moment. Vraag voor de grap aan Deepseek maar eens of hij/zij/het met alleen het stellen van vragen die je met ja/nee kunt beantwoorden kan achterhalen in welke stad je woont. Als je dan ziet hoe de redeneerlogica zich compleet vastschildert in bizarre hoekjes, dan weet je eigenlijk wel genoeg. Het is (nu nog?) te vergelijken met iemand die een hele grote woordenschat heeft, en heel goed kan doen alsof hij/zij/het erg intelligent is, maar onder water behoorlijk dom is.
Onderzoeken is relatief “makkelijk” kost alleen tijd en moeite. De juiste onderzoek vraag stellen is het moeilijke van het hele proces.
Je zou er nochtans van verschieten hoe vaak er fouten worden gemaakt op de methodologie en interpretatie van resultaten, bv. door onbegrip of fout gebruik van significantietesten. "Makkelijk" zou ik het niet noemen.
Dit is weer een stap richting zelfstandige AI Agents en ik denk dat dit een waardevolle zinvolle stap is.

Als ik nu perplexity vraag naar bijvoorbeeld de markt van iets... dan krijg je alleen oppervlakkige antwoorden. Als ik een langlopende taak kan starten heeft dat echt wel waarde.

Praktisch voorbeeld: Je hebt een bedrijf in cyber security training en wilt weten wie jouw concurrenten zijn, dan wil je criteria meenemen zoals "nederlands talig" of specifieke functies die zij bieden of een vergelijking opstellen of bijvoorbeeld filter op branche... Dit is enorm veel werk en zo'n deep research kan hiermee enorm helpen.
Dit doet een LLM idd redelijk goed. Maar tools als bv Kompyte doen dat al jaren, en gewoon met scraping en SQL queries. Deze usecase is echt geen hogere wiskunde. Sterker nog.
Welk onderzoek? Enkel maar onderzoek doen naar zaken die eerder geschreven zijn.
Nu echt fundamenteel onderzoek doen met proeven die nog niet zijn gedaan en daarvan de resultaten interpreteren. Peer-reviews laten doen door mensen en kijken of de resultaten hetzelfde zijn.
50% van een scriptie is uitleggen wat er al is gedaan
50% is echt gigantisch overdreven. Ik ben zelf promovendus, en als ik om me heen kijk naar de scripties schat ik dat maximaal 5-10% (in een uitzonderlijk geval misschien tot 20%) van een scriptie te maken heeft met beschrijven wat er al gedaan is (een deel van je introductie en eventueel een systematische review). De rest van een thesis bestaat uit nieuw onderzoek, en het plaatsen van dat nieuwe onderzoek in de context van wat er al is. Uiteraard kan dat in andere vakgebieden anders zijn, maar 50% van je scriptie laten bestaan uit beschrijven wat er al bestaat heb ik echt nog nooit gezien.

Als het echt zo is dat systematische reviews binnen enkele jaren geautomatiseerd met AI kunnen worden uitgevoerd, zou dat een stap vooruit zijn omdat onderzoekers minder tijd en middelen hoeven te gebruiken voor het schrijven van deze artikelen en ze dus meer tijd en middelen hebben voor het doen van nieuw onderzoek.
Dit kan heel interessant zijn, maar ook gevaarlijk.

Interessant omdat ALS het alle verbanden altijd overweegt er vaker waarheidsgetrouwe resultaten zullen zijn. Mocht dat echter niet het geval zijn en de 'query' bepalend zijn voor waar de agent op let in de analyse dan kun je deze in de richting van mis-/desinformatie sturen.

Verder denk ik dat het een prima verbetering is voor de mensheid om machines te hebben die zonder fouten kunnen 'begrijpend lezen'.
ChatGPT is alleen AI wat betreft het taalmodel (Natural Language Processing). Verder is er niets AI aan.
Het is wat mij betreft zeer goed bruikbaar als alternatief om via natuurlijke taal het internet te doorzoeken of een stukje tekst te schrijven, maar daar houdt het ook wel zo'n beetje op.
ChatGPT komt niet eens door de meest basale Turing test heen. Behalve het zeer goede taalmodel heeft het niets met AI te maken dus.

Dat het zelfstandig wetenschappelijk onderzoek zou kunnen doen is dus echt onzin. Het zou hoogstens een zeer goed middel kunnen zijn om uitgebreid naar bronnen te zoeken o.i.d.

[Reactie gewijzigd door marktweakt op 3 februari 2025 10:07]

Ik denk ook dat het een enorme impuls geeft door meer systematisch naar meer bronnen te kijken.

Hierdoor verlies je minder bekende bronnen minder snel uit het zicht, of worden mogelijk bronnen voorgesteld waar je in eerste instantie niet aan dacht.

Dit zou versnelling in de hand kunnen werken.
Ook de andere onderdelen van ChatGPT hebben een behoorlijke AI component. De kern kan wel een websearch zijn, maar het inschatten van het belang van verschillende webpagina's en teksten is een stuk AI.

Over veel onderwerpen is tegenstrijdige informatie en gewoon veel onzin te vinden. ChatGPT weet heel redelijk in te schatten wat verouderd is, of wat een stuk complottheorie kan bevatten. Zoek je naar medische informatie over bijvoorbeeld supplementen, dan zie je toch dat ChatGPT de reclame teksten en fora op sites van fabrikanten beduidend minder serieus neemt dan bijvoorbeeld informatie en fora van patiëntenverenigingen.
Zoek je naar klimaatinformatie, dan volgt ChatGPT toch meer de reguliere wetenschap en concludeert zelf ook al dat op basis van weersvoorspellingen het weer (klimaat) aan het verandering is en droogte en overstromingen steeds vaker voorkomen.

De voorbeelden geven aan dat er een AI component is die artikelen en andere informatie kan interpreteren en daar een betrouwbaarheidswaarde aan kan geven en daaruit een conclusie kan trekken. Je kan zeggen dat dat allemaal talige informatie is, wat dus het taalmodel kan doen. Het taalmodel houdt echter op bij het lezen en begrijpen van teksten. Interpreteren en een waarheidsgehalte toekennen is AI.
ChatGPT is al lang door de Turing test heen. Onderzoekers hebben die zelfs verworpen omdat het te makkelijk is.
Pro is de 200 dollar per maand versie? Misschien niet overbodig dat expliciet te vermelden?

En weet iemand of er enige logica of structuur achter de naamgeving zit?

We gingen van 3.0 via 3.5 naar GPT4, om vervolgens naar 4o te gaan, toen o1 en nu o3? En dan nog de 'mini' versies... Wat is er toch aan de hand in de wereld met naamgeving?! 8)7

Ik ben benieuwd, maar blijft zeer sceptisch, welk model ik ook probeer, ze hallucineren allemaal nog steeds te veel en hebben geen inzicht en begrip.

Zo ben ik 90% van de tijd die ik bespaar direct weer kwijt aan zelf factchecken en corrigeren/herschrijven. Netto een besparing, maar ik ben voorlopig mijn baan als schrijver nog niet kwijt.
o1 was een nieuw model, wat ookwel een redeneermodel genoemd wordt, het is dus geen opvolger van 4o, maar een heel andere branch van modellen.
o3 is de opvolger van o1, o2 is overgeslagen omdat dat ook een groot telecom merk is.
Bedankt, maar het blijft een LLM toch?Of is het een LMM (large multimodal model)?

Ik blijft het vreemd (en stom) vinden dat GPT's niet (goed) op de hoogte zijn van het actuele aanbod van hun eigen maker: de diensten van OpenAI. Het sterkt mij nog steeds iedere keer weer in mijn opvatting dat het T9 op steroïden is, maar weinig meer.
Het is hartstikke leuk en aardig dat je met AI mooie teksten kan schrijven, afbeeldingen kan genereren en makkelijker kan programmeren (allemaal mooie ontwikkelingen), maar naar mijn inziens moet AI het echte grote verschil gaan maken hopelijk in de wetenschap.

Ik denk dat we als aardbewoners enorme uitdagingen te wachten staan, helaas kan een AI een oorlog niet oplossen (volgens mij ligt daar altijd en ten nimmer de (soft) skills bij de mens). Maar het kan mogelijk wel een antwoord geven hoe we duurzame energie kunnen verwerken, hoe we circulair kunnen gaan leven, hoe we mogelijk de enorme verspillingen tegen kunnen gaan door minder grondstoffen weg te hoeven gooien bij productie, of de mens genezen en gezonder laten maken.

Ik zit veel meer op deze toepassingen te wachten, dan dat we leuke filmpjes en afbeeldingen op social media kunnen tonen van onze koning of dergelijks... maar misschien is bovenstaand enigszins ook een utopie.
En hoeveel van die antwoorden willen de rijken daadwerkelijk antwoord op?

Voor energie bv. We weten dat olie slecht voor het milieu is maar om Trump te quoten "Drill baby Drill". Levert leuk knaken op.
Dat OpenAI nu allesbehalve transparant en for profit is zegt genoeg nmm.
Let op: Momenteel nog niet beschikbaar in Nederland.

Uit het kopje "Access":
We are starting with a version optimized for Pro users today, with up to 100 queries per month. Plus and Team users will get access next, followed by Enterprise. We are still working on bringing access to users in the United Kingdom, Switzerland, and the European Economic Area.

Op dit item kan niet meer gereageerd worden.