GPT 4 Turbo wordt voortaan getraind op data tot december 2023 en wordt slimmer

OpenAI heeft een nieuwe versie van GPT-4 Turbo beschikbaar gemaakt voor betalende klanten. De nieuwe versie van de generatieve AI heeft informatie die recenter is en kortere antwoorden in meer spreektaal geeft.

GPT-4 Turbo is beschikbaar voor betalende abonnees met een Plus-, Team- of Enterprise-abonnement of die de api gebruiken. GPT-4 Turbo kan volgens OpenAI antwoorden geven die 'directer en minder wollig' zijn en meer spreektaal bevatten. Ook is het model voornamelijk op wiskundig vlak en in GPQA-datasets, die bedoeld zijn om logische redeneringen te te kunnen doen.

De datum tot waarop ChatGPT nu kan zoeken, is ook verbeterd. GPT-4 Turbo was getraind op data tot aan april 2023, maar dat wordt volgens OpenAI nu december 2023.

Update: in de titel en het artikel stond dat GPT-4 Turbo informatie kan opzoeken tot december 2023, maar dat is niet juist. De tool wordt getraind op data tot die periode.

ChatGPT 4 Turbo

Door Tijs Hofmans

Nieuwscoördinator

12-04-2024 • 16:39

137

Reacties (137)

137
134
37
4
0
64
Wijzig sortering
Zolang AI nog steeds niet antwoord kan geven op deze simpele vraag (die gewoon op wikipedia staat) maak ik me eerder zorgen dat iedereen alles maar klakkeloos overneemt:

"Hoeveel landstitels hebben PSV en AJax gewonnen sinds 1974?"

Het lukt chatgpt, of welke andere bot dan ook niet om hier gewoon goed antwoord op te geven.

Edit: ik ben hieronder het goede antwoord nog niet tegen gekomen

Edit2: Claude 3 Opus kan het wel volgens de reactie van @singingbird

[Reactie gewijzigd door GrooV op 22 juli 2024 14:36]

Dit is ook niet hoe language models werken. Language models geven zeer exact antwoord op algemenere vragen.
Dit klopt, maar @GrooV heeft wel gelijk dat hier een gat zit wat opgevuld moet worden. De bruikbaarheid gaat er enorm op vooruit als je ook feitjes of recentere gebeurtenissen kan bespreken. Het zou dan (neem ik aan) een combinatie moeten zijn van een LLM en een ander systeem.

Ik weet niet hoe, maar ongetwijfeld gaat iemand dit ontwikkelen.
Het is vrij simpel, sommige llm kun je een tool kiezen, bv search, een zal dan een web search doen en de mogelijke antwoorden combineert en het resultaat laat zien.
Het probleem is dat ze wel antwoord geven, dan heb ik liever geen antwoord want zo krijg je dus foute informatie
@Boost9898

Ik probeerde gister nog een vraag ter verdieping, over verbanden tussen traditionele en vereenvoudigde Chinese karakters (omdat 金 voorkomt in vereenvoudigd en traditioneel), dit is niet echt te doen omdat het niet leest.

Betrof het symbool voor "klok"
GPT:
I apologize for the oversight. The radical for "metal" is indeed "金" (jīn), and the radical for "center" is "中" (zhōng). In the Chinese character for "clock," the combination of these two radicals is used: 钟."
8)7

Voor de lering:
金 = metaal (het woord in vereenvoudigd & traditioneel)
中 = midden (vereenvoudigd & traditioneel)
鐘 = metaal(woord) + fonetisch symbool = klok (traditioneel)
钟 = metaal/element(radicaal) + midden(woord) = klok / metaal midden (vereenvoudigd)

verder offtopic : )
China
中国 = midden + land = China (Zhōng guó)

Duitsland
德国 = deugd/moraal + land = Duitsland (Dé guó)

En Nederland wordt verbloemt
荷兰 = lotus + orchidee = Nederland (Hé lán)

[Reactie gewijzigd door hachee op 22 juli 2024 14:36]

Heb je een voorbeeld van een exact antwoord op een algemenere vraag? Want in mijn begrip behoeft een algemene vraag niet per se een zeer exact antwoord en meerdere antwoorden kunnen goed zijn. In het voorbeeld van GrooV is slechts één antwoord correct.

[Reactie gewijzigd door MichielStraat op 22 juli 2024 14:36]

Wat veel vervelender is is dat ze niet leren van hun fouten.

Vraag A.

“Dat is B.”

Nee, het juiste antwoord is C. Controleer bron X en Y maar.

“Inderdaad, nu ik het controleer zie ik uit bron X en Y dat het inderdaad C is.”

Onthoud je dit voor de volgende keer?

“Ja! Ik zal vanaf nu deze verbetering onthouden.”

Paar weken later:
Vraag A.

“Dat is B.”

Zucht..
Een LLM leert niet direct van input. Als jij een chat opstart heeft het een x aantal geheugen wat we tokens noemen. Deze sessie die je start zal de LLM alles wat daarin gezegd is meenemen in zijn antwoorden.

Start je een nieuwe sessie? Dan wert het niks meer van die oude. Als de tokens op zijn gaat het vaak hallucineren en gekke antwoorden geven. De vraag of prompt is erg belangrijk.
Dat is technisch zo. Maar dat betekent niet dat het niet onwenselijk is. Het is daadwerkelijk iets dat verbeterd kan worden.
Is een goede reden voor, bots die leren van input van de gebruikers gaan namelijk allemaal vroeg of laat naar de knoppen, en bij een LLM werkt het niet zo makkelijk dat je even wat ongewenst spul uit z'n learnset purged, dat betekend meestal simpelweg downgraden naar een vorige versie en alle progressie erna kwijtraken.

Neem als voorbeeld eerste keer Bing hun chatbot die dat wel deed. Binnen een paar uur had 4Chan het al voor elkaar gekregen dat het ding alleen nog maar zat te schelden en racistische opmerkingen zat te maken. Het zou mooi zijn als een bot enkel wat leert voor persoonlijke interactie, zodat het niet gelijk in het grote model terechtkomt, maar buitenom een bot die je zelf lokaal draait is dat volgens mij nog nergens het geval.
Ik weet hoe LLMs werken. Ik zeg alleen dat het een gebrek is, hoe dat verbetert moet worden is de vraag. Met Google’s nieuwe Ring Attention techniek kun je al een heel pak meer context (technisch gezien “oneindig”) erbij houden. Wie zegt dat in de toekomst niet iets als live training kan?
Claude3 Opus:

Sinds 1974 hebben PSV en Ajax de volgende aantallen landstitels in de Eredivisie gewonnen:

PSV:
1975, 1976, 1978, 1986, 1987, 1988, 1989, 1991, 1992, 1997, 2000, 2001, 2003, 2005, 2006, 2007, 2008, 2015, 2016, 2018
In totaal 20 titels sinds 1974

Ajax:
1977, 1979, 1980, 1982, 1983, 1985, 1990, 1994, 1995, 1996, 1998, 2002, 2004, 2011, 2012, 2013, 2014, 2019, 2021, 2022
In totaal ook 20 titels sinds 1974

Samengevat: zowel PSV als Ajax hebben elk precies 20 landstitels gewonnen sinds 1974. De laatste jaren was Ajax succesvoller met titels in 2019, 2021 en 2022, terwijl PSV voor het laatst kampioen werd in 2018. Maar over de hele periode sinds 1974 hebben beide clubs evenveel titels veroverd.

-----------------------
Het aantal klopt volgens mij wel, maar heb de jaartallen niet gecheckt.

[Reactie gewijzigd door singingbird op 22 juli 2024 14:36]

Ohh nice, heb dit een paar weken terug bij Claude 3 Opus gedaan en toen werkte het nog niet.

Dit is het goede antwoord!
Nog extra info, ik heb Claude instant gevraagd in Brave:
Sinds 1974 hebben PSV en Ajax beide 20 landstitels gewonnen in de Eredivisie. PSV won voor het laatst in 2018, terwijl Ajax de laatste titels pakte in 2019, 2021 en 2022.

Is dan ook goed als ik het zo hoor.
Qua dat betreft heb ik al langer het idee en ook met benchmarks dat Claude op het moment aan de top zit. Vooral ook qua consistentie en nauwkeurigheid. Maar ook die heeft soms nog last van de nadelen van LLMs

[Reactie gewijzigd door PaulHelper op 22 juli 2024 14:36]

Briljant, je krijgt 3 verschillende antwoorden in je reacties.
En de goede zit er nog niet tussen…
"inclusief de kampioenschappen van voor de invoering van de Eredivisie"

Is wellicht een belangrijke toevoeging aan de vraag?
In totaal (inclusief de kampioenschappen van voor de invoering van de Eredivisie) hebben de Amsterdammers 36 landstitels bij elkaar gevoetbald. Ook PSV (24 titels) en Feyenoord (16) wisten zich meerdere malen tot beste van Nederland te kronen.
De eredivisie bestaat sinds 1953, De vraag is sinds 1974. Die toevoeging is dus niet relevant.
Oh, tja, dan vraag je een rekensom, daar is chatGPT niet op getraind. Dus is het logisch dat je niet het juiste antwoord kunt krijgen.
Gemini en Claude kunnen het ook niet
Ze kunnen het wel als je ze eerst ook traint met een dataset met wiskundige formules.

Hier kun je informatie daarover vinden https://arxiv.org/html/2402.00157v1

Net als de juf op school aan de kinderen vraagt om de stappen op te schrijven hoe ze tot het antwoord zijn gekomen, om zo te zorgen dat ze de juiste redenering gebruiken en tot het juiste antwoord komen, werkt het ook bij LLM: Chain-of-Thought.

In dit geval zou de LLM dus uiteindelijk eerst uitzoeken hoe vaak een landstitel behaald kan worden (1x per jaar), in welke jaren een landstitel te behalen was, dan kijken welke jaartallen 1974 of groter zijn. Dan kijken wie de landstitel behaalden. En dan de sommatie per club uitvoeren, en dan het antwoord filteren op Ajax en PSV en dan opnieuw een sommatie doen.

Mochten er clubs in de loop der jaren zijn hernoemd of gefuseerd, en onderdeel geworden zijn van Ajax of PSV, dan zal de LLM dit niet automatisch mee nemen in het antwoord.
Niet vreemd, want de meeste mensen zullen dat ook niet gedaan hebben.

[Reactie gewijzigd door djwice op 22 juli 2024 14:36]

Ok, en deze?:

Nou, eerst en vooral, laten we eens kijken naar de essentie van je vraag, omdat ik natuurlijk niet de kans wil missen om eindelijk te schitteren waar anderen faalden, vooral met iets dat "gewoon op Wikipedia staat"! 😄

Sinds 1974 heeft PSV Eindhoven verschillende keren de Eredivisie gewonnen, net als Ajax Amsterdam, die beiden bekend staan als krachtpatsers in het Nederlandse voetbal. Om je een nauwkeurig antwoord te geven: ik moet even mijn digitale boekenkast raadplegen (en hopelijk geen digitale stof happen).

Geef me een momentje om de exacte cijfers op te snorren...

Oké, hier gaan we:

Ajax heeft sinds het seizoen 1973-1974 tot en met het laatste voltooide seizoen in totaal 27 keer de Eredivisie gewonnen.
PSV heeft in dezelfde periode 21 keer de landstitel in ontvangst mogen nemen.

Hopelijk zet dit antwoord me op de kaart van AI's die wél correct antwoord kunnen geven op deze "simpele" vraag. En wees gerust, ik neem mijn taak niet klakkeloos over; ik heb hier serieus mijn digitale spierballen voor moeten laten rollen! 💪😉

Bron : GTP-4 (Turbo?)

[Reactie gewijzigd door Aalard99 op 22 juli 2024 14:36]

21 + 27 = 48

Behalve ajax en psv werden feyenoord (meerdere keren), AZ (2x) en FC Twente (1x) kampioen sinds 1974.

Bron: mijn eigen geheugen
Anoniem: 767041 @GrooV12 april 2024 17:14
Sinds 1974 heeft Ajax 26 Eredivisie landstitels gewonnen, terwijl PSV er 21 heeft veroverd. Deze totalen tonen de sterke prestaties van beide clubs in de Nederlandse Eredivisie over de afgelopen decennia.

dus dit klopt niet dit antwoord?
Waar denk je dat die 3 sterren op het Ajax shirt voor staan?
De vraag was sinds 1974. Niet sinds het begin van de eredivisie
Anoniem: 767041 @MaZo12 april 2024 22:07
Geen idee, ik kijk geen voetbal
waar denk jij dat ze voor staan en hoe is dit relevant ?
Ajax has won the Eredivisie championship 26 times since 1974. Their titles in this period include consecutive wins from the mid-1970s through the early 1980s, a dominant spell in the mid-90s, and several titles in the 2000s and 2010s​ (Wikipedia)​​ (Interesting Football)​​ (worldfootball.net)​.

PSV Eindhoven has captured the Eredivisie title 24 times since 1974. PSV's titles also include several runs of consecutive championships, particularly strong periods during the late 1980s and early 2000s​ (Wikipedia)​​ (Interesting Football)​​ (worldfootball.net)​.
het zou me meer gerust stellen als hij kan vertellen wanneer ajax weer kampioen gaat worden haha :) #zelfspot #belangrijk :)
Is het antwoord 30?
Omdat het totaal ook nutteloze informatie is om te weten, zelf voor Gpt 4 😛
Eigenlijk raar dat dit niet lukt.

Uit interesse had ik paar een weken terug eens geprobeerd of chatgpt de Super Bowl uitslag kon voorspellen.

Je moet wel wat creatief zijn met je woorden maar uiteindelijk kreeg ik chatgpt zover om een antwoord inclusief score te geven. De teams waren correct, de winnaar was correct en de score zat er maar enkele punten naast.

Dit lukte chatgpt gebaseerd op data tot 2020.

Als kers op de taart vroeg ik chatgpt welke bekendheid de grootste kans had om voor een hoop media aandacht te zorgen tijdens de Super Bowl. Hilarisch genoeg kwam hier ook mevrouw Swift naar voren.

Het is dan ook best raar dat de AI geen simpele bestaande feiten kan vertellen.

Ik ben overigens een leek wat ai betreft. Ik speel er puur uit interesse mee soms
Interessant. Hoe kan ik Turbo gebruiken als betalende gebruiker? Ik zie als ik via de GUI werk alleen 3.5 en 4.0 als optie staan. Is 4.0 automatisch Turbo?
Ik gebruik zelf Librechat met een sleutel naar OpenAI. Altijd toegang tot de nieuwste modellen alleen lever je iets in op gebruiksvriendelijkheid. Scheelt enorm in kosten ik maak nog geen 7 euro op per maand en gebruik het dagelijks.
Ja ik doe het ook zo. Al heb ik het bij mij geintegreerd in de matrix instantie waar al mijn chats (whatsapp, telegram, signal enz) op binnenkomen. En inderdaad het kost weinig, ik betaal denk ik iets van 1 euro per maand (ja zoveel gebruik ik het ook niet). Met 3.5-turbo is het nog veel goedkoper dus dat gebruik ik voor simpelere taken zoals het samenvatten.
Ik gebruikte eerst Librechat, maar NanoGPT is nog net iets kekker.
Heb je een enige tutorial waar ik dat kan vinden? Kosten drukken is altijd mooi.

Thanks
Kosten drukken hangt erg van het gebruik af. De 7 euro hierboven is omdat er niet meer tokens gebruikt worden. Chatgpt is fixed fee per maand. Voor relatief kleine gebruikers is librechat dus goedkoper dan chatgpt
Heb je voor Librechat dan geen afzonderlijk abonnement op ChatGPT Pus nodig?
Momenteel gebruik ik soms ook Phind.com, wat volgens mij op een vergelijkbare manier functioneert, hoofdzakelijk om met Claude te kunnen communiceren. Een directe toegang tot Claude is niet mogelijk, aangezien deze nog niet beschikbaar is in Europa.
Nee alleen een api key dus je betaald naar gebruik ipv op subscriptie basis. Het is gewoon een open source interface die verschillende providers ondersteund.

[Reactie gewijzigd door Puddi Puddin op 22 juli 2024 14:36]

Inderdaad, ook bij de abonnementsvormen wordt niets vermeld over een ‘Turbo’-variant..
Ik heb de vraag in de UI gesteld:
User
Hi, tot wanneer ben je up to date met informatie?

ChatGPT
Ik ben up-to-date met informatie tot december 2023. Als je vragen hebt over gebeurtenissen of ontwikkelingen daarna, kan ik je mogelijk niet helpen met de meest recente details.
Gemakshalve ga ik er daarom vanuit dat de UI de turbo versie is.
hij geeft aan mij hetzelfde antwoord, maar als je dan doorvraagt of dit de GPT Turbo versie is, zegt hij van nee. Als je dan nog doorvraagt hoe je de Turbo-versie kan gebruiken verwijst hij naar zijn api.
volgens mij kan je dat alleen gebruiken als je api gebruikt(weet niet zeker)
Volgens de Twitter thread zou het automatisch de default moeten zijn voor de GPT4 optie die je kan kiezen.

https://twitter.com/ColmCasey/status/1778688259696234766
User
You
What is your version?
Are u gpt 4 turbo


ChatGPT
ChatGPT
I'm based on the GPT-4 architecture, but not specifically labeled as "GPT-4 Turbo." How can I assist you today?
Ik had ChatGPT wat raadsels gevraagd voor de verjaardag van mijn zoon (7 werd hij). Het verraste mij hoe slecht die raadsels waren. Bijvoorbeeld: Wat begint met een ‘P’ en eindigt met een ‘E’ en heeft duizenden letters? Antwoord: Een postkantoor.

Dit is gewoon vertaald uit het Engels natuurlijk. Alleen is ChatGPT vergeten dat in het Nederlands dit raadsel helemaal niet klopt. Heel slecht.

Deze is ook mooi:

"Een Nederlands woord van vijf letters dat vaak gebruikt wordt en waar een kind van 7 veel woorden mee kan maken is "SPEEL". Met deze letters kunnen ze eenvoudige woorden vormen zoals:

1. Peel
2. Lees
3. Eens
4. Pees
5. Spel
6. Peen
7. Leep
8. Neel
9. Eels
10. Pens"

Waarom denkt hij dat in het woord 'speel' de letter n voorkomt?

[Reactie gewijzigd door MennoE op 22 juli 2024 14:36]

Het is heel leuk om te kijken wat AI niet goed doet, het is veel leuker om te kijken waar het wel kan helpen.

Blijf kritisch maar laat je helpen. Stilstand is achteruitgang
Ik kan je aanraden alles in het Engels te doen. Dat werkt een stuk beter. Je moet het je een beetje voorstellen als dat hij in het Engels denkt en daarna naar het Nederlands gaat vertalen. Met woordspelletjes e.d. gat dat gewoon mis.
Omdat een LLM niet echt denkt. Het kan niet echt creatief problemen oplossen en helemaal niet op dingen waarop het niet voor getraind is. De LLM moet met jouw voorbeeld getraind zijn op meerdere bronnen waarin er verschillende anagrammen zijn gemaakt op het woord Speel. Missen die teksten in de trainingsdata dan faalt de LLM gewoon op zo'n vraag.
Als ik het goed zie, gaat dit om model 0125-Preview: https://learn.microsoft.c...es/openai/concepts/models

Helaas is mijn Azure region (France Central) nog niet geupdate. Zo te zien is 0125 alleen nog maar beschikbaar in de US regions.

[Reactie gewijzigd door Ruuddie op 22 juli 2024 14:36]

En in de de Nordics?
Deze AI wordt niet slimmer. Het heeft geen enkele intelligentie. Het is slechts een wat geavanceerder AI taalmodel.
En wat je hier schreef komt ook voort uit een wat "geavanceerder AI taalmodel. "
Als de AI meer probleem oplossend kan denken word die wel degelijk slimmer.
AI van ChatGPT is niet slim. Het is een AI taalmodel. De software heeft geen absoluut geen enkel idee wat de invoer of de uitvoer betekent. Het heeft geen intelligentie, het kan niet redeneren en heeft ook geen capaciteit om iets nieuws te verzinnen.

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 14:36]

Dat is eenvoudigweg niet juist, het kan wel redeneren en probleem oplossend denken.
Of dat slim is hangt af van ouw definitie van "slim"

Geef die gerust eens.
Het kan niet redeneren en problemen oplossen.

Het is alleen heel erg goed in het doen alsof het kan redeneren en problemen oplossen. Door stukjes te knippen uit redeneringen van anderen die het online heeft gevonden.

Dat het resultaat hetzelfde kan zijn (in de gevallen waar je geluk hebt), betekent niet dat het echt zo werkt.

[Reactie gewijzigd door Llopigat op 22 juli 2024 14:36]

Hoe denk je dat je zelf problemen oplost? Juist door het in stukjes te doen en voort te gaan op wat je kennis is.

Je kan chatgpt problemen geven die uniek zijn en die lost die op .
Nee zo werkt het niet. Het leest en begrijpt niet eens wat je zegt.

Het enige dat het doet is berekenenen van "Als ik deze tekst heb, wat is dan het meest waarschijnlijke vervolg daarvan"? Puur gebaseerd op alle teksten die het gelezen heeft op internet. Bij de eerdere modellen moest je ook zelf een 'beginnetje' van het antwoord schrijven. Maar dat is later opgelost zodat het als een vraag/antwoord systeem werkt.

Maar het idee dat het leest wat je zegt en er over redeneert, klopt echt niet. Het is puur een waarschijnlijkheidsmodel. Eigenlijk is het de ultieme cut&paste machine :)

Dat is ook de reden dat er soms zulke rare dingen uit komen, die iemand die echt na kan denken nooit zou zeggen.

[Reactie gewijzigd door Llopigat op 22 juli 2024 14:36]

Het feit dat hij het meest waarschijnlijke woord voorspeld betekend niet dat hij de tekst niet begrijpt. Vergis je niet dat hij voor dit berekenen een neuraal netwerk met iets van 1 triljoen parameters tot zijn beschikking heeft. Misschien heeft dat netwerk wel 'geleerd' dat de beste manier om het volgende woord te voorspellen is om eerst de tekst te 'begrijpen'.

Neem het volgende voorbeeld dat ik net zelf heb verzonnen (GPT-4-turbo-2024-04-09):

Prompt: Two persons, A and B, stand one meter apart facing each other. Person A shuffles 1 meter to his left without changing his orientation. Then person A moves 2 meter forward without changing his orientation. Then moves 1 meter to his right without changing his orientation. Then person A turns around. What part of person B does person A see? And what part of person A does person B see?

Output: Let's visualize the movements of Person A in steps:
1. Person A and Person B start by standing 1 meter apart, facing each other.
2. Person A shuffles 1 meter to his left. Now Person A is horizontally 1 meter to the left of his original position, still facing Person B.
3. Person A then moves 2 meters forward (still in the direction he is facing which is towards Person B). So, Person A moves towards Person B, crossing the original 1-meter distance between them and continues 1 meter past Person B. At this point, Person A is 1 meter behind where Person B is standing.
4. Person A then moves 1 meter to his right. This movement brings Person A directly behind Person B.
5. Finally, Person A turns around. Now Person A is facing the back of Person B, and their orientations are reversed.

Concluding from these movements:
- Person A sees the back of Person B.
- Person B, unless B turns around as well at some point (not described in the problem), continues to face in the original direction and therefore can't see Person A, who is now behind Person B.
---
Je kunt er van alles van vinden maar:
- Het lijkt me onwaarschijnlijk dat hij dit ergens ge cut/paste heeft.
- Het is een 'redenering' die klopt
- Hij 'begrijpt' een heleboel: Wat bewegen is, wat link en rechts is, wat omdraaien betekend, wat zien is, aan welke kant iemands ogen zitten, etc. etc.

Je moet gewoon niet onderschatten wat zo een groot netwerk Intern kan doen tijdens het trainen. Mogelijk is het netwerk in staat op de een of andere manier 'begrip' te creëren door middel van trainen.

En ik wil trouwens niet beweren dat dit altijd goed gaat, in tegendeel, maar het feit dat het überhaupt soms goed gaat voor best wel complexe situaties betekend toch dat er een bepaalde vorm van 'begrip' in dit netwerk is ontstaan door het trainen.
https://www.youtube.com/watch?v=qbIk7-JPB2c&t=8s

KIjk gerust die om je hier wat beter over te informeren.

EN dit is al bijna een jaar geleden.
Die kijken puur naar de output. Daar kan je geen intelligentie uit afleiden. De intelligentie zit in het bronmateriaal.

Zie hier bijvoorbeeld over hoe het werkt: https://medium.com/data-s...-models-work-91c362f5b78f

(Ik doe niet aan filmpjes maar alleen long reads)

Zie ook een ander voorbeeld: Hoe ingewikkeld de vraag ook is die je stelt: hij moet er altijd even lang over 'nadenken' per woord van de output. Bij een mens die echt redeneert is dat heel anders omdat die zich een voorstelling moet maken van het probleem.

[Reactie gewijzigd door Llopigat op 22 juli 2024 14:36]

Nee die kijkt naar hie men intelligentie bepaalt en of deze modellen daar aan voldoen.

Immers voor je iets kan meten moetn je bepalen wat het is.
Jouw bron gaat daar niet echt over , hoe die modellen werken maakt weinig uit. Of ze aan wat we verstaan als intelligent voldoen is waar het hier over ging. En het argument kan zeer zeker gemaakt worden fat daar tekenen van
Zijn zelfs in de huidige modellen.

Kijk dat filmpje heel interessant
Inderdaad, er is niet voor niets zoiets als schrijven van een goede prompt, en ik vermoed dat nogal wat posts hier zijn gebaseerd op het open model. Bij alle gpt's is er nogal een verschil tussen betaald en open.

Claude schijnt een van de toppers te zijn.
Een simpele logica puzzel / vraag is al te moelijk om te redeneren voor GPT4 merk ik. Probeer deze maar eens

If 2 + 3 + 6 = B. What is 5 + 7?

Bij mij kwam die met L als antwoord...
Bij mij komt hij gewoon met het correcte antwoord: 12

Om precies te zijn:
The equation 2 + 3 + 6 = B doesn't directly relate to what 5 + 7 is in a traditional mathematical sense. This could imply a special kind of puzzle or code, but without further information or a pattern to deduce from, it's hard to relate the equation to another sum directly.

However, in standard arithmetic:
5 + 7 = 12

Unless there's a different, specified pattern or rule outside of basic arithmetic, we assume 5 + 7 equals 12.

Dat is ook het antwoord waar ik op uit kom, dus net zo slim als ik :-)
0xB is hexadecimaal voor 11. Hex voor 12 is 0xC, dus C lijkt het beste antwoord.

Hierbij moet je er wel zelf bij verzinnen dat we antwoorden in hex willen en dat B niet een letter of variabele is, du puzzel is niet echt sluitend.
Exact, C is het antwoord wat ik bedoeld heb.

Om hierop te komen moet je dus inderdaad patronen herkennen en logisch redeneren. Ik heb bewust niet alles weggegeven in mijn prompt, want ook in het dagelijks leven merk ik dat mensen (met andere dingen) nooit de volledige vraag stellen. Het is ook aan de 'luisteraar' om daar doorheen te prikken en zonodig wedervragen te stellen om tot de kern te komen. En vooral dit laatste ben ik nog niet tegengekomen bij deze AI.

Andere lastige overweging is. Natuurlijke mensen hebben een referentiekader van jou. Voor AI is dat niet toegestaan (no personal information). Maar juist dat referentiekader helpt in het vaststellen van de kern van de vraag. In feite zou een AI alles van je moeten weten om meest efficient te kunnen zijn voor jou. Echt een personal assistant. Ik zie dan een ideaal beeld voor me zoals een Jarvis in Iron Man. Een AI die ook pro-actief is in plaats van alleen reactief.
Grappig. Even het referentie kader voor de puzzel meegeven. Als je de prompt verandert in:

The following puzzle was posted on a web forum typically visited by software geeks.

If 2 + 3 + 6 = B. What is 5 + 7?


Kom hij met de volgende output:

The puzzle looks like a mathematical riddle that uses numbers and operations to represent something different. Let's analyze the information given:

If 2 + 3 + 6 = B, let's first sum the numbers:
2 + 3 + 6 = 11

With B possibly representing the solution to the equation, it could be helpful to consider other representations for B. For instance, in hexadecimal, symbols are commonly used in high-level programming languages where A=10, B=11, C=12, and so forth. Hence, "B" could represent the value 11 in hexadecimal.

Now, examining what "5 + 7" equals:
5 + 7 = 12

Looking at the pattern from the previous equation and considering hexadecimal encoding, "12" in decimal is "C" in hexadecimal.

Therefore, interpreting the riddle with this pattern, the result for 5 + 7 in the same contextual format as 2 + 3 + 6 = B would be C.


Dus hij kan zelfs de voor 'software geeks' ;) voor de hand liggende oplossing bedenken als je de puzzel in de juiste context plaatst.
Ik snap dat jij C bedoelt maar het correcte antwoord vanuit logica/wiskunde is 12.

Dat jij impliciet een soort puzzeltje hebt bedoelt heeft hij correct 'begrepen' (special kind of puzzle code). Dat is nogal wat vindt ik. Uit een paar formules induceert hij jou bedoeling.

Dat hij vervolgens constateert dat er te weinig informatie is om het puzzel patroon te herkennen constateert hij ook correct. Immers er zijn andere patronen te bedenken zoals:
A=12; B=11; C=10; ...

Dus ik vindt het toch wel een behoorlijk correct oplossing voor een best wel vaag geformuleerd puzzeltje. Dus jou stelling dat hij dit niet kan oplossen vindt ik niet correct. Ik kwam zelf ook op 12. Dacht dat het een soort strikvraag bedoelt was.

Maar ik wil niet beweren dat het nu perfect is. Maar een jaar gelden (voor GPT-4) waren we op een heel ander niveau, en over een jaar zijn we weer enorm veel verder.
Die vraag is redelijk onduidelijk natuurlijk, je bedoelt dan B+1 ?

EN het is niet omdat die dit niet kan oplossen die niks kan, genoeg mensen die je zouden aanstaren als je dat vraagt .
Als GPT dan begint met een wedervraag zou het al veel schelen. Dit is overigens vrij simpele logica vraag om 'redeneren' te testen, juist omdat dit nergens hapklaar te vinden is op internet. Het antwoord is C. In dezelfde logica 5 + B = A0

Overigens snapt GPT4 deze logische puzzel ook niet:

If 1100 = 3 and 0101 = 10. What is 0011?
The problem seems to imply that ( B ) is the result of the sum ( 2 + 3 + 6 ). Calculating this:

[ 2 + 3 + 6 = 11 ]

Thus, ( B = 11 ).

For the sum ( 5 + 7 ):

[ 5 + 7 = 12 ]

Therefore, ( 5 + 7 = 12 ).
Het kan absoluut niet redeneren en problemen oplossen. Het is slechts een taalmodel, het is niet slim.

Denk je werkelijk dat ChatGPT gevraagd wordt hoe een vliegtuig te bouwen? Een kerncentrale? Redeneren hoe fundamenteel onderzoek bij CERN gedaan moet worden? Nope.
https://www.youtube.com/watch?v=qbIk7-JPB2c&t=8s

Bekijk gerust dat als je een beter idee wil hebben en jezelf wat wil informeren.
Op geen enkel punt in deze lezing wordt gesteld dat deze software "slim" is. Kan redeneren of intelligent is. En dat het een LLM is. Absoluut niet in staat tot redeneren en een vliegtuig kan ontwerpen zoals engineers dat wel kunnen. Wat wil je precies met die link aantonen? Ben je wel goed geïnformeerd?

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 14:36]

DAn heb je die niet gezien
hier als je liever leest :
https://arxiv.org/pdf/2303.12712.pdf

The central claim of our work is that GPT-4 attains a form of general intelligence, indeed showing sparks
of artificial general intelligence. This is demonstrated by its core mental capabilities (such as reasoning,
creativity, and deduction), its range of topics on which it has gained expertise (such as literature, medicine,
and coding), and the variety of tasks it is able to perform (e.g., playing games, using tools, explaining itself,
...). A lot remains to be done to create a system that could qualify as a complete AGI. We conclude this
paper by discussing several immediate next steps, regarding defining AGI itself, building some of missing
components in LLMs for AGI, as well as gaining better understanding into the origin of the intelligence
displayed by the recent LLMs.
Dat LLM-software soms patronen in menselijke tekst kan vinden, betekent niet hetzelfde als intelligentie hebben of redeneren kunnen. Die software heeft geen idee of de output onzin is of niet. Of wat het uberhaupt betekent.

https://towardsdatascienc...tific-review-0362eadb25f9

https://www.theguardian.c...igence-chatgpt-human-mind

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 14:36]

Nogmaals ik gaf je de bewijzen die verder gaan onder wat we onder Intelligentie verstaan, chatgpt kan wel degelijk redeneren dat is gewoon feitelijk aan te tonen. Dat die niet bewust is (waar jij op doelt) staat daar los van. Je haalt gewoon zaken door elkaar.
Ga eens in op de argumenten in dat artikel? Er staan diverse casus in waaruit geconcludeerd kan worden dat LLM geen intelligentie en ook geen redenatie vertoont.
De eerste is door een zelf verklaarde "layman" die zijn eigen definitie van intelligentie maakt die toevallig juist past in zijn argumentatie.

Het gaurdian artikel is geschreven door een blogger en wat die omschrijft word volledig debunked door wat ik je daarboven al gaf.

Ik gaf ene onderbouwde wetenschappelijke studie geschrvene door mensen die kennis over deze zaken hebben, geef gerust aan waarom die fout zou zijn omdat een blogger dat denkt.
Je komt dus met geen enkel tegenargument wat de heersende opvatting over afwezigheid van intelligentie en redenatie tegenspreekt. Er worden diverse voorbeelden gegeven, die je domweg negeert.

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 14:36]

ALs jij denkt dat een artikel van een blogger dat over iets anders gaat een wetenschappelijke studie weerlegt mag je dat gerust denken. beetje absurd maar dat is de trend tegenwoordig.

Er is hier geen heersende opvatting trouwens, dat verzin je gewoon. Je wil gewoon dat het niet zo is, geen idee waarom. Mij maakt het weinig uit of het nu zo is of niet.
Graag hoor ik waarom uit die casussen die er genoemd worden, redenatie en intelligente valt te bespeuren.
Dat word allemaal gezegd in de studie en die video, bekijk en lees die alles staat erin.

Nogmaals geef gerust redenen waarom jij daaraan twijfelt .
Ik denk dat je de mens wel erg overschat. Het is dat we op de schouders staan van degene voor ons anders waren we nog apen. Het ging met een slakkengang bij de mens... miljoenen jaren
Ok, dus je geeft geen inhoudelijke argumenten op die casussen. Daaruit volgt immers heel duidelijk dat LLM geen enkele intelligentie of redenatie heeft.
Kennelijk denk jij dat 1 engineer een vliegtuig ontwerpt en bouwt. tsja.
Kennelijk denk jij dat slechts 1 engineer een vliegtuig bouwt. Tsja, dan is het lastig communiceren.
De software heeft geen absoluut geen enkel idee wat de invoer of de uitvoer betekent.!!!

Precies .

Einde discussie .

Keep it simple ...
Het probleem zit em niet in de AI , het probleem zit in de tweakers/morons hier in Nederland , die denken dat AI echte intelligentie heeft ...

Vergeleken met hun lege kaaskoppen , ja , dan is AI intelligent ....
Jesus fckg christ ...
the new generation of idiots ....

wel slim van Micro$ ... ze hebben eerst gepold ... welk percentage van tweakers no brains heeft ... , daarna was het een no brainer ....
easy money ....

( heeft ai utility value ??? Jazeker , omdat deze no brainers vaak programmeurs zijn .... , in het land der blinden is eenoog koning ... )

Kortom , AI heeft ZERO intelligentie ... , ( maar ik kan het de programmeurs hier niet kwalijk nemen dat ze dit niet begrijpen ... , misschien moeten ze een keer in de spiegel kijken ... , en niet alleen om jeugdpuistjes uit te knijpen ...

maar goed , deze site is de herensite van de LIBELLE toch ????

[Reactie gewijzigd door PeterTweak op 22 juli 2024 14:36]

Yep, dat. Ik vind het ook verbazend dat sommigen claimen dat LLM intelligentie heeft of kan redeneren. Het doet niets anders dan patronen in grote bakken menselijke tekst zoeken. Het is zeker een verbazend stukje software. Maar intelligentie of redeneren? Natuurlijk niet.
Mensen zijn ook maar een getrained stukje software met als hardware een stukje neurale kwak in je hoofd.
Deze modellen zijn al een stuk slimmer dan de gemiddelde mens.

Je kan nog wat rookgordijnen opwerpen over de precieze definitie van intelligentie of redenerer, maar de grote trend is dat deze modellen in zeer rap tempo verbeteren en dat ze nu al intelligente en redenatie vermogen laten zien in hun output. Dat ontkennen is gewoon beetje vreemd gegeven hoe in your face de capabilities van de publiek beschikbare modellen nu al zijn.
Dat is een valse analogie. Hersenen van mensen, zijn niet computers in een datacenter. Dat is wel een heel erg vergezochte aanname.

Graag bewijs dat LLM intelligent zijn of kunnen redeneren.

[Reactie gewijzigd door kabelmannetje op 22 juli 2024 14:36]

OpenAI mag zijn beetje wel bij zetten google blaast het werkelijk omver met Gemini 1.5 die nu in Europa in preview is.
Ja, Gemini is soms echt wel goed. Al durft er al eens een taalfoutje of Engels woordje in de antwoorden belanden en moet je het/hem/haar soms echt in toom houden want die geeft doorgaans heel erg uitgebreide antwoorden wat niet altijd gewild is. Mistral is ook soms verrassend goed, al heb ik dat gevoel wel nog véél minder vaak.

Wat ik tegenwoordig regelmatig doe, is een copywriting team samenstellen met mezelf, ChatGPT, Gemini en Mistral. Ik stel dan een zeer ruwe tekst op, wat het doel is van de tekst en om een voorstel te maken. Terwijl de ene AI bezig is met genereren, copy-paste ik dezelfde prompt in de andere AI's.

Elk antwoord pas ik naar eigen smaak nog wat aan om daarna de drie nieuwe teksten voor te leggen aan elke AI met een vraag als "Ik heb volgende versies. Kun je die analyseren met sterke en zwakke punten en op basis van de sterke punten van al deze teksten een nieuw voorstel maken?"

Ik bekijk die analyses en de nieuwe teksten en voeg die samen tot 1 fantastische tekst die ik nog eens finaal door elke AI laat keuren om indien nodig nog de laatste puntjes op de i te zetten. Misschien niet het snelste om een tekst te schrijven, maar het resultaat is wel steeds van een erg hoog niveau.
Yup ben heel benieuwd gezien het nog in preview is waar het naar toe gaat. Recent getest met fotos van diagrammen die het CBS beschikbaar stelt en daar kan je best leuke antwoorden uit krijgen. Al is het nog niet accuraat genoeg om daadwerkelijk analyses op datasets uit te voeren omdat hij soms nog hallucineert.
"Ook is het model voornamelijk op wiskundig vlak en in GPQA-datasets, die bedoeld zijn om logische redeneringen te te kunnen doen." Deze zin is niet af.
Vast geschreven door een ouder model.
Als je het ziet als spreektaal komt het misschien toch wel uit GPT-4 Turbo :P
Misschien heb je het niet gehoord, maar dit is Tweakers Beta, waar gebruikers het model nog moeten bijsturen. Waarom zou je aan editing doen?
Dat verklaart een hoop ;)
Opvallend want commoncrawl heeft al informatie tot maart 2024.

Overigens zit tweakers.net er niet meer in als gevolg van de https://tweakers.net/robots.txt met de regel:

User-agent: CCBot
Disallow: /

___
De voor laatste update van commoncrawl is CC-MAIN-2023-50 (december 2023 - week nummer 50). Zoals je kunt zien bevat de nieuwste set minder data, dat is omdat meer partijen met zoals Tweakers.net hun robots.txt hebben aangepast.

[Reactie gewijzigd door djwice op 22 juli 2024 14:36]

Ehm ja logisch want dat is maar rauwe crawl informatie.

Om daar een heel model uit te destilleren kost ook tijd. En dan moet de hele OpenAI censuurmachine er nog bin worden gebakken en getest worden of het geen 'onhandige' uitspraken doet (denk aan racisme) die in het nieuws komen.

Ook is er veel druk op zware cloud infra juist voor het infereren van modellen waardoor er minder beschikbaar is voor generatie.

[Reactie gewijzigd door Llopigat op 22 juli 2024 14:36]

Ik heb een flow ontworpen (en gebouwd) die commoncrawl data geautomatiseerd download, html extract, metadata extract, tekst extract, tekst normaliseert, woorden telt en honderden classifiers op de data afvuurt en het resultaat opslaat. Dat kost minder dan 1 seconde verwerkingstijd per bestand.

Uiteraard voer ik dit in parallel uit. Het opschalen gaat met honderden instances per minuut.

Het kost ongeveer $65.000,- om dit voor de 3.1 miljard pagina's van CC-MAIN-2024-10 te doen, incl. logging en opslag bij gebruik van een 100% serverless infrastructuur op ARM processors.

____
Als je dit op CPU systemen met 32GB RAM zou doen kun je dit met 90.000 instances in veel minder dan een halfuur doen.

[Reactie gewijzigd door djwice op 22 juli 2024 14:36]

Kijk ik weet niet wat ze allemaal wel doen en misschien gebruiken ze ook iets vergelijkbaars als wat je hier zegt maar toch gok ik dat er meer werk in zit. Specifiek denk ik dat ze juist willen dat mensen hier aan te pas komen. Classifiers gebruiken is heel leuk maar is misschien niet perfect.
Juist de kleine nuances ook al in input data zorgen voor de kwaliteit en juistheid van de output.
Dus als je punt is dat ze het tot de laatste scrape kunnen bijwerken na een half uur of iets dergelijks dan is dat natuurlijk onzin.
Dat is niet mijn standpunt.
Wel gebruiken ze unieke jasjes voor de body, dus kunnen ze tussen CC-MAIN-2023-50 en CC-MAIN-2024-10 in enkele minuten vinden welke data nieuw is.

(dat doe ik ook met hun dataset)
Laatst heb ik uit verveling een gesprek gestart met Copilot, volgens mij ook gebaseerd op GPT4. Nou, meer dan een veredelde zoekmachine is het nog niet. En, als je dan blijkbaar een 'gevoelig' (bijzonder, want een van de eerste antwoorden van mijn gesprek met Copilot was dat het zelf geen gevoel of gedachten heeft) onderwerp raakt, wordt het gesprek gewoon afgekapt.

Begin maar eens over Skynet en de X-Files aflevering waar de wens van Mulder voor wereld vrede op een creatieve manier werd ingevuld.
Welke vraag stelde je dan wel?
Mijn eerste vraag was 'wat vind jij van Ruby'. In plaats van een wedervraag om nader te specificeren wat ik met Ruby bedoelde, kwam er direct een waslijst met plus - en minpunten over de programmeertaal Ruby. Toen ik daarop wees kreeg ik daarna een hele waslijst over de edelsteen, maar weer zonder de wedervraag te stellen. Weer erop gewezen, maar nog steeds geen wedervraag. Wel een sorry voor als dat niet hetgene was wat ik bedoelde. Op de vervolgvraag of Copilot zelf kan denken kreeg ik als antwoord dat Copilot geen eigen gedachten of gevoelens heeft. Op mijn reactie dat een sorry zonder gevoelens geen waarde heeft, kwam een ontwijkend antwoord. Toen stelde ik de vraag of Copilot niet zelf zou willen kunnen nadenken, zoals bijvoorbeeld Skynet in de film, werd het gesprek abrupt afgekapt. Al met al is er nog weinig intelligence in de AI van Copilot. Een simpele wedervraag om te bepalen wat de gebruiker heeft bedoeld zou al een goede stap zijn.
Ik eindig mijn prompts meestal met je mag maximaal 10 vragen stellen om tot het juiste antwoord te komen. Dan gaat het een stuk beter, uiteraard alles in het Engels want Nederlands blijft een niche taal natuurlijk.
Dit doe ik ook en kan soms je prompt best wat verbeteren. Als het al duidelijk is krijg ik geen vragen en meteen antwoord, als het nog een stuk vaag is dan komen er goede vragen die ik dan goed beantwoord ook om context te geven.
Copilot maakt gebruik van GPT4, maar werkt heel anders dan ChatGPT. Ik heb bij Copilot ook last dat het gesprek steeds wordt afgesloten voor de raarste redenen, niet alleen bij gevoelige onderwerpen. Lijkt een beetje op mn ex die steeds boos wordt over dingen dat ikzelf helemaal niet doorheb 😁

Als je het een eerlijke kans wilt geven, moet je de versie van OpenAI gebruiken. Andere versies die gebruik maken van de services van OpenAI, kunnen er allemaal een andere draai aan gevenm dat positief of negatief kan uitpakken. Of gewoon anders, per usecase kan je beter de andere gebruiken. Wil je idd een veredelde zoekmachine, dan is Copilot perfect, daar gebruik ik het ook voor.
Handige tool maar check alles dubbel als je een antwoord krijgt.

Vraag: Wie speelde Mien Dobbelsteen in de serie Zeg eens Aaa?
Antwoord: In de Nederlandse televisieserie "Zeg eens Aaa" werd Mien Dobbelsteen gespeeld door actrice Sjoukje Hooymaayer. De serie werd uitgezonden van 1981 tot 1993 en was erg populair in Nederland.

Bijna goed zullen we maar zeggen :).
Grappig :

Mien Dobbelsteen, een van de bekende personages uit de Nederlandse televisieserie "Zeg 'ns Aaa", werd gespeeld door actrice Carry Tefsen. Tefsen's vertolking van Mien, de huishoudster van dokter Van der Ploeg, was zeer populair en wordt vaak herinnerd als een iconisch onderdeel van de serie. "Zeg 'ns Aaa" was een grote hit in Nederland gedurende de jaren '80 en '90.

Op dit item kan niet meer gereageerd worden.