Nvidia Chat with RTX-demo laat gebruikers customchatbot maken met eigen data

Nvidia toont een 'Chat with RTX'-techdemo. Gebruikers met een RTX-gpu kunnen daarmee later deze maand lokaal een AI-chatbot maken. Ze kunnen bijvoorbeeld hun eigen documenten invoeren in de software, waarna de chatbot vragen over die data kan beantwoorden.

Chat with RTX wordt gebaseerd op een groot taalmodel van Nvidia, dat gebruikers lokaal kunnen draaien. Ze kunnen het taalmodel 'verbinden' met hun eigen data, zoals lokaal opgeslagen tekstdocumenten, pdf's en XML-bestanden. Gebruikers kunnen ook de URL's van YouTube-video's en -afspeellijsten invoeren, waarna de software transcripten van die video's downloadt om die te gebruiken in de chatbot. De bot kan die data analyseren en daar vervolgens vragen over beantwoorden.

De demo maakt gebruik van de Retrieval-Augmented Generation-techniek voor generatieve AI en de opensource-Tensor-LLM-software. Chat with RTX gebruikt de Tensor-cores van RTX-gpu's. De software kan dan ook lokaal draaien op 'Windows-pc's met RTX'. Of de demo beschikbaar komt voor alle RTX-gpu's of alleen voor de RTX 40-serie, is niet bekend. Tweakers heeft daarover vragen uitstaan bij Nvidia.

Nvidia zegt dat de Chat with RTX-demo later deze maand beschikbaar zal zijn. Wanneer precies is niet duidelijk. Gebruikers kunnen zich inschrijven op de website van Nvidia, zodat ze een notificatie krijgen als de demo beschikbaar is.

Nvidia Chat with RTX - CES 2024

Door Daan van Monsjou

Nieuwsredacteur

11-01-2024 • 13:32

49

Lees meer

Reacties (49)

49
49
34
0
0
3
Wijzig sortering
Mooi, nu nog GPUs uitbrengen met meer vram.

edit: dit is bedoeld als serieuze opmerking, nvidia houd gpu's terug met de hoeveelheid vram.
Ze zouden versies kunnen maken met meer vram voor mensen die meer doen dan alleen gamen.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 16:33]

Nog meer? :? Ik zie niet helemaal hoe bijvoorbeeld 12GB, 16GB of 24GB nog niet genoeg is. ;)

[Reactie gewijzigd door CH4OS op 23 juli 2024 16:33]

Ik heb nu een 24GB versie en kan net de kleine 7B LLM models runnen via Ollama. Of 13B met quantization maar die zijn vaak niet GPU optimized
Probeer eens text generation webui met modellen in gguf formaat. 13b gaat dan prima op rx6800xt met maar 16 gig.
Tot recent was de goedkoopste NVidia Geforce kaart met 16GB de 4080 a 1200 euro. Nu komt daar de 4070Ti Super bij.

Ik snap @Verwijderd's punt wel, maar dat is (nog) niet waar de kaarten over de toonbank gaan. Met de opkomst van AI in games zal de behoefte aan VRAM vast snel omhoog gaan.
Nee hoor, de RTX 4060 Ti 16G kan je al krijgen voor onder de EUR 500.
Deze heeft 16GB VRAM.
Met het oog op A.I. toepassingen waarbij het VRAM het belangrijkste is wellicht niet de beste keuze aangezien de geheugen bandbreedte gelimiteerd is op de 4060TI 16GB. 288 GB/s tegenover 504 GB/s in vergelijking met een 4070
En een Intel Arc A770 met 16GB voor EUR 400?
Is dat niet een goede optie?
12GB is niet altijd meer voldoende voor hoge resolutie games.

In Cyberpunk 2077 met hoge instellingen (high/ultra, maar niet "Psycho" level), op 1440p, loopt mijn RTX4070 met 12GB gewoon helemaal vol hoor. Als ik dan in de achtergrond een YouTube filmpje heb draaien loop ik precies tegen limieten aan en kakt de performance in.
Tja, ik kan alleen maar rapporteren wat ik zelf heb ervaren.

Plus, om een beetje pedantic te zijn: De eerste video komt uit 2021, en de tweede ook nog in de eerste helft van 23. Er zijn nogal wat updates geweest voor het spel sinds dien, naast een hele expansion. Wellicht heeft dat ook een impact gehad.
Dan is er iets anders aan de hand, cyberpunk heeft ook issues met memory leaks dat je vram doet vollopen. Neen normaal zal die 1440P in cyberpunk op high/ultra geen 12+GB vram innemen.
Klopt, die memory leaks in Cyberpunk 2077 waren mij ook al opgevallen.. Na verloop van tijd loopt je VRAM buffer langzaam vol.. Maar toch blijft de game goed draaien, dus een echt probleem is het niet.. Pas als ik grafische settings ga lopen veranderen wordt het een probleem en moet ik vaak de game weer opnieuw opstarten om alles weer soepel te laten draaien.. Ik heb trouwens een RTX 3080 10GB.. Die 10GB is nog genoeg voor mijn settings, 3840x1600 (hardware unboxed) optimized met raytracing reflecties en DLSS op balanced, maar het houdt niet heel erg meer over.. 12GB zou nu toch wel het minimum zijn wat ik zou kopen en met 16GB zit je sowieso wel goed de komende jaren denk ik.. Alles ook afhankelijk natuurlijk van welke resolutie en settings je op speelt..

[Reactie gewijzigd door Inflatable op 23 juli 2024 16:33]

Bijna elk spel kan prima op 1440p met 10GB (en vaak zelfs 8GB) VRAM hoor. Als dev moet men ook wel want anders krijg je een blik woedende 3070 en 3080 bezitters over je heen.
Ik snap de downvotes niet, voor LLM's haal je echt veel winst uit 32GB of 48GB modellen ten opzichte van de kleine modellen. Binnen deze context is kaarten met meer geheugen een grote wens. Tegelijkertijd verdient NVidia natuurlijk absurdistische hoeveelheden geld met die kaarten met veel geheugen. Kan me zo voorstellen dat ze er niet echt op zitten te wachten goedkopere kaarten met veel geheugen op de markt te zetten.
Er zijn al heel wat (RTX) videokaarten van Nvidia met 48GB+, maar dat zijn geen consumentenkaarten. Ik denk niet echt dat er een grote consumenten markt is voor 32GB/48GB videokaarten.

Je kan al een Nvidia A16 met 64GB krijgen voor €3285
Een 4090 (24GB) is al €1870+, maar naar wat ik lees zou je meerdere 4090 kaarten kunnen gebruiken in een machine en het geheugen zo goed als bij elkaar optellen. 2x 48GB, 3x 72GB, ik verwacht alleen wat issues met powerdraw... ;)

Edit: Als het combineren van kaarten kan, dan zou je voor 3x 4060Ti kunnen pakken voor 48GB = ~€1395, not bad!

[Reactie gewijzigd door Cergorach op 23 juli 2024 16:33]

Anders dan bijv. een A100 en H100 heeft een 4060 geen NVLink (ook een RTX 4090 niet). Echt combineren gaat dan niet makkelijk, tenminste ... niet tegelijk werken aan één taak met één groot geheugen. Wel kun je natuurlijk 2 AI taken tegegelijk draaien, één op iedere GPU.

Die enterprise kaarten (A100, H100, H200 etc.) kun je allemaal samenvoegen in enorme nodes, en die ook weer aan elkaar knopen etc. Dan heb je gewoon een enorme supercomputer.
Eigenlijk zou je gezien de snelheid van PCI-E 5.0 x16 de nvlink theoretisch ook via het pci-e slot kunnen laten lopen, heb je denk ik wel minimaal 32 lanes nodig dus geen consumenten cpu.
Zo ver ik heb begrepen is dat optellen van geheugen niet zo simpel, je kan dan taken parallel naast elkaar uitvoeren (maar volgens mij ben je dan performance technisch beter af met meerdere computers), maar elke thread is dan nog steeds gelimiteerd aan het vram, als je dit voor diffusion wilt gebruiken zou je je te genereren plaat in stukken moeten hakken, dat aan elk van de videokaarten geven en dan terug aan elkaar stitchen, en dat terwijl de bot moet snappen dat die verschillende platen bij elkaar horen. Zo ver ik weet zijn de bots niet echt ingericht om dat te doen.

SLi heb je ook niks aan, want dat gebruikt vram redundant, elke kaart krijgt dan dezelfde data in de vram.

Zoals @Ventieldopje zegt, de techniek die ze hebben voor die a100 kaarten enzo die aan elkaar te hangen zijn, zoiets zou je op de goedkope consumenten kaarten willen, dan zou je lekkere goedkope 4060's aan elkaar kunnen knopen. Maar ik vermoed zo maar dat het expres is gedaan dat dit niet kan, want dat maakt het bestaansrecht van die dure kaarten een stuk minder (voor consumenten in ieder geval).
Als je er op zoekt zijn er oplossingen die out of the box de LLM modellen opsplitsen en zo voor 1 prompt het over twee kaarten verdeeld en je zo goed als het geheugen kan optellen. Dat zag ik getest met twee 3090 kaarten, welke 2e hands ook sub €1500 (voor beide) zijn. Ik zag ook wat voorbijkomen dat het potentieel met meerdere (consumenten) GPUs zou kunnen, maar daar was niet heel veel info over te krijgen...
Wow, das wel vet, dus je zou een zeer specifieke chatbot kunnen maken voor een spel door hand van hun wiki eigenlijk lokaal op te slaan, tenminste dat is wat ik me voorstel bij zoiets. Kan je heel simpel vragen miss hoe krijg ik x of y item. Denk alleen niet dat het zo simpel zal zijn om in te richten.
Ik heb dit in oktober zelf gemaakt zonder enige ervaring met hulp van gpt. Misschien zien we straks dan wel een nieuwe soort game guides die je door het spel heen coachen voor wie dat wil. Net als de oude magazines die ik vroeger had voor Zelda etc
Walk-through's are back!

Was wel lekker makkelijk voor pokemon heb de walk-through nog ergens liggen :+
Er is een (uitgebreide) 'The Matrix' demo, waarin de NPC's een conversatie met je kunnen voeren aangedragen door AI; https://www.youtube.com/watch?v=_sx0PkMIJ1w
Vroeger waren techdemos van nVidia of AMD om de grafische mogelijkheden (met name de nieuwste snufjes) te tonen. Maar tegenwoordig is dat zelfs al met een (AI-based) chatbot dus voldoende. :+

Zie bijvoorbeeld de ATi pipedream techdemo. (wat de techdemo was voor de Radeon 9700 serie. Voor de Radeon 9800 serie was het een chimpansee, die vond ik destijds minder interessant. :) Of de ATi Radeon 9800 chimpansee demo.

[Reactie gewijzigd door CH4OS op 23 juli 2024 16:33]

Een GPU kan tegenwoordig een stuk meer dan alleen grafische pracht en praal op je beeldscherm tonen. De laatste generaties zijn zo snel dat je lokaal je SD kunt draaien en meerdere outputs per seconde kunt genereren zonder enkel probleem. Verbaast me niks dat dit nu ontwikkeld wordt voor de consumenten kaarten. Vind het ook wat meer indrukwekkend dat de Pipedream techdemo van toen, maar het is allemaal relatief. Over 20 jaar lach je om deze techdemo met de techdemo die dan voorbij komt..
Ik snap het op zich wel... Waar ik vroeger altijd GPU's kocht voor gaming (altijd tweedehands voor de prijs en het milieu) overweeg ik nu een upgrade van mijn RTX 4070 naar een RTX 4070 Ti Super omdat ik daarmee aanzienlijk betere prestaties verwacht als ik met SDXL en SVD speel... :o
Ik ben zeer benieuwd hoe goed dit gaat werken, wat voor kaart je er precies voor nodig hebt, performance, etc. Dit naast, nog wat andere lokale image (AI) generation zaken, maakt opeens een RTX kaart wel weer interessant, niet zozeer om te gamen, maar juist voor dit soort zaken.
Waarschijnlijk sowieso een kaart met meer geheugen dan 8gb.
Een paar weken terug heb ik met wat opties gespeeld op mijn 3060TI en de limitatie waar ik tegenaan liep was voornamelijk dus het geheugen. Je kan e.a. offloaden naar de CPU en kleinere versies van modellen gebruiken maar daar wordt het wel extreem traag van.
Er zit natuurlijk een enorm verschil tussen de 8GB van een standaard 3060Ti, de 24GB van een 4090 of de 48GB van een meer professionele kaart. Je heb bv. ook een 3060 met 12GB, een 4060Ti zou 16GB aan boord hebben. Waar zit de sweetspot?

Wat is extreem traag? 5min wachten op een antwoord?
Wat is extreem traag? 5min wachten op een antwoord?
Het zat inderdaad op het niveau van koffie halen voor antwoorden :) En ja, er zal een omslag punt zijn ergens en de andere capaciteiten van de kaart zullen ook meespelen.

Waar het omslag punt precies zit weet ik ook niet, overigens wordt dat specifieker op ingegaan in andere delen van de reacties onder dit artikel.
Ik ben toch wel benieuwd waarom dit zo lang op zich laat wachten, als het later deze maand per inschrijving beschikbaar komt. Op basis van de screenshot is dit gewoon de Gradio chat-interface [1]. Bibliotheken voor RAG bestaan ook al [2] en tijdens het kerstverlof heb ik in een half dagje een gelijkaardige app in elkaar gedraaid [3], met dezelfde Gradio interface en lokaal draaien...

[1] https://www.gradio.app/docs/chatinterface
[2] https://api.python.langch...dule-langchain.retrievers
[3] https://github.com/iPieter/dutch-chat-toolkit
Gaat vast niet on de technische kant (waar NVIDIA uiteraard enorm veel expertise in heeft) maar om zaken zoals ethische of legale doorlichting, red-teaming tests, copyright en licensing, enzovoort.
Ze gebruiken volgens mij een bestaande llm?!? Maar misschien is het hun eigen llm, dat is me niet helemaal duidelijk.
Ik zou hopen dat je zelf kan kiezen welke modellen je kan gebruiken, maar ik vermoed dat ze zelf ook wel iets zouden uitbrengen. Anders zou het inderdaad wel gek zijn of zal er een of andere marketing-reden aan hangen.

The wheels often move slowly in BigCorp releases.
Op die screenshot zie ik een dropdown waar Mistral geselecteerd is, ik denk dus eigenlijk dat dit echt gewoon met off-the-hub models gaat werken. Ik kan me dan ook niet voorstellen dat ze red-teaming en ethische doorlichting zouden doen, ze hebben die modellen toch niet in de hand.
Als het inderdaad slechts dat is, is dat best teleurstellend! Ik had gehoopt dat ze eindelijk zelf nog eens een LLM zouden uitbrengen en deze tool eerder als demo gebruikten, een verderzetting van bv. Megatron-Turing.

Ik vind wel deze repo: https://github.com/NVIDIA/trt-llm-rag-windows Ze zullen met behulp van tensor-rt LLM (https://github.com/NVIDIA/TensorRT-LLM/) dus waarschijnlijk inzetten op efficiency. Leuk maar niet baanbrekend.
Op naar de personal assistant! Een PA die alles van je weet, en dus niet in de cloud draait (privacy ed).

ChatGPT weet, als ik nu zou inloggen, niets meer. ChatGPT weet alleen wat jij hem in de huidige conversatie verteld hebt. Dat kan nooit de way forward zijn.
ChatGPT weet, als ik nu zou inloggen, niets meer. ChatGPT weet alleen wat jij hem in de huidige conversatie verteld hebt. Dat kan nooit de way forward zijn.
Dat is omdat dat het design ervan was, ze kunnen die net zo goed laten leren van elke sessie maar dat is momenteel niet de bedoeling.
Met RAG maak train je niet echt nieuw model, je zet een losse vector store naar de LLM, waar dan extra informatie uitgehaald kan worden (je eigen files).
Lijkt me echt vet om een hele chat-gpt-like applicatie door je hele OS te draaien die alles weet, maar ook kan scopen tot een bepaalde map.

Druk een hotkey in, schrijf "Vrijdag kattenbak schoonmaken om 3 uur" en hij zet het in de agenda.
Druk dezelfde hotkey in en vraag "Waar heb ik mijn salaris administratie bewaard?" en hij geeft je de map of mappen waar je deze gegevens hebt opgeslagen.

Wellicht wel erg privacy gevoelig, maar het zal wel gaaf zijn als je dit lokaal kunt draaien op je GPU of een nieuw type A.I. expansion card (of wat AMD nu in de nieuwe CPU's heeft zitten)
Zo krijgt iedere kleine ondernemer uiteindelijk een eigen klantenservice.
Interessant! Het kon al met llama.cpp dus ik ben benieuwd hoe dit naar verhouding gaat werken.

Op dit item kan niet meer gereageerd worden.