Nederlandse zorgstart-up komt met eigen taalmodel voor 'klinisch redeneren'

De Nederlandse zorgstart-up Juvoly ontwikkelt een eigen taalmodel om uiteindelijk zorgmedewerkers te assisteren in hun werk. Het model, J1, is gebaseerd op Llama 3.1-8B-Instruct en is getraind op biomedische opensourceliteratuur uit PubMed.

J1 is een taalmodel met 8 miljard parameters dat getraind is op 100 miljard tokens gebaseerd op data uit PubMed. Die gegevens zijn onder een Creative Commons BY-licentie beschikbaar. Het taalmodel is vooralsnog niet opensource omdat het op Meta's Llama 3.1 gebaseerd is en onderhevig aan de bijbehorende licentie. Juvoly-medeoprichter Thomas Kluiters legt aan Tweakers uit: "Op dit moment is Llama het beste model om experimenten op te draaien vanwege de brede ondersteuning." Voor toekomstige releases wil het bedrijf gebruikmaken van modellen met een MIT-opensourcelicentie.

Het model werkt volgens de makers het beste in het Engels, vermoedelijk omdat de trainingsdata en het basismodel ook voornamelijk Engelstalig zijn. J1 moet meehelpen bij klinisch redeneren, ofwel het beantwoorden van medische vragen. Juvoly zegt het model verder te willen ontwikkelen om ook administratieve taken zoals het schrijven van consultnotities en dataverwerking te kunnen ondersteunen.

Het taalmodel beschikt over evaluatietools en 'datacuratiepipelines' om te zorgen dat J1 nauwkeurig medisch inhoudelijke antwoorden kan geven. Het trainen van het model duurde volgens de start-up in totaal 2688 gpu-uren. Onlangs kondigde Juvoly aan dat het twee Nvidia DGX B200-supercomputers in gebruik nam, voor zover bekend als eerste bedrijf in Nederland.

Door Yannick Spinner

Redacteur

13-05-2025 • 14:11

73

Reacties (73)

Sorteer op:

Weergave:

Als praktiserend arts die dagelijks 20-30 patienten ziet, kan ik vertellen dat dit een techniek is die veel wordt besproken onder collega's. Zelfs collega's die weinig weten van ICT/techniek, hebben vaak wel van Juvoly gehoord.

Normaal gesproken kies je uit het dilemma: óf tijdens het consult typen ipv helemaal in het gesprek zitten óf na het consult nog even alles snel typen, naast het schrijven van een aanvraag voor aanvullend onderzoek, verslag of verwijsbrief voor een collega. Uitlopen dus.

De belofte: je voert het gesprek met je patiënt zoals je het normaal zou doen, en "de AI" vat het gesprek samen op een manier die volgens het vaste medische format werkt: reden van komst, anamnese, lichamelijk onderzoek, conclusie en beleid.

Dit werkt zowaar best heel redelijk! Op dit moment is het nog afhankelijk hoe enthousiast je lokale softwarepakket is in het inbouwen van deze functionaliteit, maar ik ga er vanuit dat het een kwestie van tijd is, totdat dit draait. Vanuit een privacyperspectief: de medische geheimhoudingsplicht wordt zeer serieus genomen. Het is hierop zo goed voor de adaptatiedrempel dat de gegevens niet naar de cloud hoeven.
Nu nog goedkoper, maar wellicht draagt de stap uit het artikel daar ook aan bij.

Ik denk dat er met mij vele collega's zijn die het liever vandaag dan morgen willen gebruiken! Meer tijd voor de patiënt 💪
Bron
Ik zou daar persoonlijk alleen ook wel altijd een volledige transcriptie bij willen hebben zodat de samenvatting ook nog (onafhankelijk) kan worden beoordeeld, zeker als een LLM de samenvatting maakt. Maar iets is beter dan niets en dat laatste gebeurd momenteel te vaak.
Dus jij wilt na een gesprek met de huisarts altijd (dat schrijf je) een transcript hebben en inzage hebben in de LLM samenvatting en als je het daar niet mee eens bent (?) die onafhankelijk laten checken? Wellicht ben ik wat simpel maar persoonlijk vertel ik mijn huisarts wat het probleem is en luister naar zijn advies.

Hoe dat advies tot stand komt lijkt me niet erg belangrijk. Ik vraag ook niet naar welke congressen de arts is geweest en hoe goed de beoordeling van zijn studie was. PubMed is ONGELOFELIJK belangrijk als databron, maar er goed mee omgaan is een vak (echt waar). Maar een vak wat een LLM vrij makkelijk kan leren. Lijkt me dus een geweldig idee en een verrijking van de hulpmiddelen van een arts.
[quote]Dus jij wilt na een gesprek met de huisarts altijd (dat schrijf je) een transcript hebben en inzage hebben in de LLM samenvatting en als je het daar niet mee eens bent (?) die onafhankelijk laten checken?[/quote]

Nee, (voor nu) denk ik dat een arts zelf altijd dat transcript of in ieder geval de LLM samenvatting door [b]moet[/b] nemen. Niet alleen om mogelijke fouten te verbeteren, maar ook omdat de wijzigingen die artsen maken gebruikt kunnen worden om het model te verbeteren.

Als een patiënt een verslag van een gesprek met een arts wil hebben, dan staat het deze nu al vrij om dit op te nemen of te notuleren en daar mee te doen wat men wil.
Dat zou wel eens een zeer goed idee kunnen zijn. Hoe vaak interpreteren artsen iets niet verkeerd of doen aannames die nergens op slaan? Ik heb vandaag nog bij zo'n gesprek gezeten waar aanname na aanname werd gedaan zonder fatsoenlijk door te vragen.

Ook heb ik al eens rapportages teruggelezen waar zaken in stonden die simpelweg onjuist waren. Dat soort dingen is een behoorlijk risico (en kostenpost) in de gezondheidszorg.

Indien mensen standaard een transcript of beter, samenvatting / interpretatie van de arts zouden krijgen, kunnen er een hoop fouten / problemen voorkomen worden.
Dus jij wilt na een gesprek met de huisarts altijd (dat schrijf je) een transcript hebben en inzage hebben in de LLM samenvatting en als je het daar niet mee eens bent (?) die onafhankelijk laten checken? Wellicht ben ik wat simpel maar persoonlijk vertel ik mijn huisarts wat het probleem is en luister naar zijn advies.
Het probleem is dat als er iets verkeerds in je dossier komt, je daar alle volgende bezoeken aan een zorgverlener last van kan hebben. Simpel voorbeeld: als een arts een opmerking maakt dat je hypochondrische neigingen hebt, zullen je klachten elke volgende keer minder serieus genomen worden, ook door andere artsen.

Iedereen in die beroepsgroep heeft te weinig tijd en het frame volgen wat er al staat is natuurlijk veel makkelijker. Kijken of je niet eigenlijk in een ander hokje hoort, gebeurt dus eigenlijk nooit.
Het lijkt mij ook dat artsen de samenvatting in dit vaste medische format zelf nog doornemen. Maar als dat kan terwijl de ene patiënt de deur uit loopt en de volgende naar binnen, is dat beter dan dat die deur 5 minuten gesloten moet blijven omdat de arts even na moet denken en misschien nog dingen op moet zoeken (terwijl de LLM bij die samenvatting al een link met bronverwijzing kan geven).
Client / patient van een huisarts die Juvoly gebruikt:

Mijn huisarts heeft een consult gedaan met offline versie van Juvoly, samenvatting en conclusie van gesprek, helemaal prima!

Daarna hadden we het over de ontwikkelingen van ai en de huisarts liet de online versie zien met mogelijkheden automatisch doorverwijzingsbrieven te genereren.

Wij hebben mijn consult/gesprek opnieuw uitgevoerd alsof een toneelstukje met verzonnen aandoeningen. Alles wat ik en de huisarts in het gesprek zeiden werd netjes samengevat en doorverwijzingen klaargezet.

Mijn huisarts vertelde dat sinds de invoering van Juvoly bij alle gezamelijke huisartsen en assistenten clienten feedback gaven dat ze het gevoel hadden dat de huisartsen beter luisteren. Daarnaast was een collega tegen een burnout weer helemaal herstelt en voelt niet meer die werkdruk van voorheen!!

Doen dus!
Dat is best een verbetering. Ik ben wel een beetje verrast. Als ik "taalmodel" en "redeneren" in één zin zie, zit ik toch van "kies één". Maar als de resultaten zo zijn, zit er toch wel wat in.

Ik hoop wel dat huisartsen niet lui gaan worden en gewoon de AI gaan oplezen. Zullen vast niet alle zijn, maar liever zelfs niet enkelen. Ik wil wel een huisarts, geet AI arts.
Heel goed, maar voor het typen tijdens een consult kan je nu ook AI voor gebruiken zoals autoscriber. Dat scheelt nog meer tijd. Alternatief Amberscript heeft nog veel moeite met medische termen.
Vakjargon transcriberen een uitdaging, niet alleen in de medische wereld. Teams vat meetings ook redelijk samen, maar soms moet er toch echt de bezem door.
betekent dit dat het volledige gesprek tussen arts en patiënt opgenomen wordt? Dan moet de speech-to-text wel 100% accuraat werken, incl. ondersteuning voor alle dialecten die we hebben in Nederland. Ben benieuwd hoe goed dat werkt.
Dat is natuurlijk de toekomst helemaal als het ook uit het gesprek de aanvragen kan destilleren waardoor je die alleen nog maar hoeft te controleren. Wat helemaal mooi is als Ai (voor een deel)l de poli secretaresses weg automatisereerd en vooral al die zinloze belletjes op de dag naar verschillende planners/afdelingen kan allemaal een ai agent doen. Kan ik me weer richten op patient contact in plaats van data invoerder/secretaresse en telefoniste zijn...
Ook een automagische vertaling van je brief naar het engels voor je patiënt die op reis gaat. Dat zou met de simpelste LLM al makkelijk kunnen. Moet alleen wel lokaal draaien zodat je patient gegevens niet bij openAI/google/meta belanden.
Dus er moet een lokaal medel in Epic/Hix komen of bij een Europese vertrouwde derde partij.
Ik ben ook arts in België en heb het ook al geprobeerd.
Heb ook al een ander geprobeerd (Cavell.ai), zelfde principe..

Laat ons zeggen dat als je een medicus die het consult bijwoont en alles met oneindig veel tijd laat opschrijven en samenvatten in zijn dossier en je dat dan 100% laat scoren, dat dit systeem gemiddeld 65% procent scoort.
Meer bij simpelen consulten, minder bij complexe problemen.
Het zal misschien nog wat hoger kunnen scoren met betere trainingsdata (maar die zal er niet komen, wegens beroepsgeheim), maar zal nooit de 100% benaderen, omdat het een statistisch predictiemodel blijft dat niet echt snapt wat er gezegd wordt.

Bij sommige artsen, is de kwaliteit van noteren al heel hoog en zit de meerwaarde van dit systeem hem evt in tijdwinst. Anderen noteren niets, of quasi niets en zal dit al kwaliteitswinst van 65% zijn.
Je moet waanzinnig goed opletten met zulke belangrijke beslissingen. Neem alleen al sessie-beheer / context. Ik heb Ai systemen in de zorg de meest fantastische analyses en adviezen zien geven. Maar als de informatie van een vorige client nog ergens is blijven hangen, mixt hij de casuïstiek gewoon door elkaar. Zonder besef. Het blijft toch een blind systeem.

Zolang het heel duidelijk is dat het om een tool gaat, en je het op waarde kan schatten, gaat het goed. De realiteit is er een van compromissen, keuzes, tijdsgebrek, en een onvoldoende besef bij gebruikers van de beperkingen van de tool. Niet overschatten is het devies denk ik, en dat is lastig als een nieuw gehyped instrument zulke ongelooflijke dingen kan neerzetten.
Bij mijn kenniscentrum is een AI getest door middel van het schijven van een monografie. Nou, het zag er naar verluid briljant uit, maar alle referenties (en dus ook alle waarden) waren verzonnen.

Uiteindelijk komt het er op neer dat een taalmodel AI (een LLM, dus), zeker in zijn eerste stapjes in het leerproces, met name bezig is met produceren van 'correcte taal' en niet met het onderling verband leggen of causaal redeneren.

Het gaat allemaal ongetwijfeld komen, maar voor ons was duidelijk dat als er een normaliter een bepaalde parameter naar voren komt op een specifieke plek in een document, maar die parameter simpelweg niet bekend is in de literatuur (zeg een pH, of een kookpunt, of een wateroplosbaarheid, of een therapeutische/toxische plasmaconcentratie), een AI op dit moment gewoon een waarde verzint en die er met volle overtuiging in plempt.
Sorry, maar het blijft toch een taalmodel = T9 op steroids?

De redenatie van alle modellen is in mijn ervaring compleet zinloos/onbruikbaar door de hoeveelheid hallucinates. Om nu medische vragen te laten beantwoorden door een algoritme wat, heel lomp gezegd, het volgende woord raadt zonder ook maar iets echt te begrijpen of logisch te kunnen redeneren...

Ik bedoel, het werkt fundamenteel anders dan bv Wolfram Alpha dat echte logica toepast, of zie ik het nu helemaal verkeerd? "Evaluatietools en 'datacuratiepipelines'" klinkt leuk, maar tegelijkertijd als pure marketing beloftes (leugens)

[Reactie gewijzigd door Alxndr op 13 mei 2025 14:17]

In deze context wordt vaak gezegd dat de vraag niet is of je geholpen wil worden door een arts of door AI, maar of je geholpen wil worden door een arts zonder AI of door een arts met AI.
Ik gebruik vaak ai in mijn spreekkamer. En ik kan je verklappen dat mijn patiënten tevreden zijn met mijn gebruik van ai. Ik lees hier een hoop onzin over zogenaamde feiten, hallucinaties en stellen van diagnoses. Maar dat doet AI in de praktijk helemaal niet. Zij vat het gesprek samen en alle feiten die ik hem geef en maakt daar een mooi verslag van wat de patiënt herkent en begrijpt.

alles netjes nalezen met de patiënt en het is een hele waardevolle aanvulling die mij tijd scheelt en de kwaliteit verhoogt.

Analogie: Er wordt hier vaak gedaan of rijbaan assistent je hele auto bestuurt terwijl je zelf ligt te slapen. Maar zo werken professionals niet.

Ik ga ervan uit dat de gemiddelde tweaker ook niet is gestopt met achteruit te kijken op het moment dat ze een achteruitrijcamera kregen. Het zijn hulpmiddelen

[Reactie gewijzigd door gaskabouter op 13 mei 2025 17:44]

Het verbeterd met de dag. Sterker nog; in volume zit de winst. Juvoly functionaliteit is nu al verkrijgbaar volledig geïntegreerd in een telefonieplatform: Bellen met Lotte. Als enigste begreep ik.

Dat betekent dat de (enorme hoeveelheden) telefonische triagegesprekken van assistenten ook ondersteund kunnen worden met deze functionaliteit, net als met het consult aan het bureau. >transcript en (SOEP) samenvatting.

Daarbij vernam ik dat het instelbaar is binnen dit telefoniesysteem of een arts of assistente de gebruiker is.
(ander vocabulaire) Deze uitbreiding zorgt ook voor verbeterde transcripten.
Er zijn wel meer partijen die dit ondersteunen en ook integratie met bestaande epd's is al door meerdere partijen gerealiseerd.
De kern blijft voor mij of een product zich kan doorontwikkelen. Het staat nog in de kinderschoenen en early adapters zijn, als altijd, lovend. Maar de beroepsgroep is conservatief en als ik merk nog niet twintig procent van het epd benut wordt hebben ze nog een lange weg te gaan.

Niet alleen in wat ze kunnen maar ook zorgen dat het gebruikt wordt
Ik ben het hier mee eens. AI is enorm over-hyped. LLMs zijn niets meer dan fancy chatbots die niets begrijpen of kunnen beredeneren zoals mensen dat kunnen.

Machine-learning ansich kan best nuttig zijn, mits het ter ondersteuning van een mens is, maar dit soort technieken moet je niet blind op vertrouwen of mensen mee vervangen. Daar is de techniek helemaal niet goed genoeg voor.
Artsen maken ook fouten. Ergens vertrouw ik bij een diagnose liever op een computer dan op een arts, want als een computer een fout maakt kan hier actie op ondernemen worden en zal het diezelfde fout (waarschijnlijk) niet nog een keer maken. Als een arts een fout maakt, zal zij/hij dit zelf waarschijnlijk later wel inzien en niet nogmaals doen, maar dan zijn er nog duizenden artsen die van niks weten (en weer allemaal andere dingen per ongeluk niet goed doen).

Dat de huidige generatie LLMs misschien nog te veel fouten maakt wanneer je het in een medische context probeert te gebruiken; daar kan ik niks over zeggen. Het lijkt mij dat Juvoly een stap in de goede richting is om daar in ieder geval verbetering in aan te brengen.
Mijn punt is dat LLM's een specifieke vorm van AI zijn en fundamentele zwakheden hebben. Andere AI modellen zijn zeker wel de moeite waard (presteren beter dan mensen), maar dat zijn geen taalmodellen.

"het diezelfde fout (waarschijnlijk) niet nog een keer maken." dit is dus precies wat LLM's wel doen, een frustratie waar ik met (betaalde) services dagelijks mee geconfronteerd word.

Geef ChatGPT of Gemini maar eens de instructie om geen bold te gebruiken, of alleen hoofdletters te gebruiken waar dat grammaticaal correct is. Compleet kansloos.
Oh ik doe dat vrij regelmatig. Als het gesprek te lang door gaat dan doet ie het uiteindelijk weer (en gaat dan dus weer de fout in), maar dat is logisch omdat ie vanwege de context window dingen moet gaan samenvatten.
Vertel een motorrijder maar eens om niet over putdeksels heen te rijden. Of geef jezelf als je naar bed gaat de opdracht om niet aan Tweakers te denken.

Een deel van wat je schetst is ook te herleiden naar foutief gebruik. Een LLM probeert resultaten terug te geven zoals het verwacht dat een mens ze zou schrijven. Ik vertel eigenlijk nooit iemand om geen bold of rare hoofdletters te gebruiken. En ja, het gaat inderdaad ook wel op andere dingen mis, maar over het algemeen zijn dat uitzonderingen. Als je dezelfde instructie 10 keer uit laat voeren en je krijgt 9 keer hetzelfde antwoord, dan kan je die techniek dus toepassen wanneer je een hogere zekerheid nodig hebt dat het antwoord juist is.
"zoals het verwacht dat een mens ze zou schrijven" en dat is dus precies mijn probleem/waar het mis gaat. Dat is volgens mij geen 'foutief gebruik' maar een fundamentele zwakheid van dit stukje gereedschap.

LLM's zijn leuk voor geklets en geouwehoer, maar niet voor professioneel gebruik. In mijn geval (als schrijver/editor) loop ik daar dagelijks tegenaan. 80% van wat een LLM uitspuwt moet ik herschrijven. Zowel vanwege het taalgebruik, het gebrek aan begrip/logisch redeneren en omdat het grofweg 30% van de feiten verzint. Daarnaast plaatst het zijn eigen verwachtingen/instructies structureel boven de input van de gebruiker, hoe expliciet en uitgebreid je instructies ook zijn.

In de branche waar ik voor schrijf kom je veel 'fout' taalgebruik tegen: "Maak Vandaag Nog Gebruik Van Onze Actie" logisch dat het model daarop/mee getraind is, maar onmogelijk om het vervolgens af te leren.

Het ergste is nog dat ik merk dat het steeds erger wordt. Tegenwoordig bespaar ik misschien nog maar een (half)uurtje werk per dag door AI te gebruiken - het blijft winst en de abokosten voor een maand heb ik binnen een dag terugverdient, maar ik vraag me iedere dag af of het de frustraties die het oplevert wel waard is.
Dat is niet hoe ik het ervaar, maar ik ben dan wellicht iets minder kritisch op het exacte taalgebruik. Verder denk ik ook dat LLMs in jouw vakgebied nu hot en happening zijn omdat het een op het eerste gezicht "makkelijke" toepassing van AI is. Wie niet goed kan schrijven, heeft nu opeens een hulpmiddel die dat wél kan.

Op termijn zie ik het omgekeerde; het maakt dan niet meer uit hoe je iets schrijft; de lezers gebruikt AI om het te herschrijven naar het eigen taal- en kennisniveau. Iemand die het nieuws over een bepaald onderwerp op de voet volgt heeft genoeg aan drie regels tekst met wat er is veranderd in de situatie sinds het vorige bericht dat is gelezen. Wie twee weken offline is geweest, wil daarentegen wel de achtergrondinformatie er bij hebben.

LLMs gaan pas echt invloed hebben als ze ingezet worden in onderwerpen waar ze niet het werk van één persoon overnemen, maar dat van honderden of duizenden.
Misschien moet je dan een model trainen op wat kritischer geselecteerde data, net als ze bijv. met dit model gedaan hebben. Anders trek je m.i. toch iets te voorbarig al conclusies.
Het probleem met consulting in de zorg en LLM’s is het volgende:

LLM komt met diagnose A
Arts komt met diagnose B

Arts moet een definitieve diagnose stellen. De arts denkt. Als ik kies voor A en het is fout dan heb ik minder uit te leggen, we zijn beiden fout. Als ik kies voor B en het blijkt A te zijn dan heb ik dubbel zoveel uit te leggen dus zal men meer naar A neigen. Onder de streep is het game theorie.
Ik denk dat jij artsen onderschat. Als ze alleen maar hokjes af zouden willen vinken waren ze wel procesoperator geworden ofzo.
Mensen maken ook fouten, niks is perfect. Je moet ze daarom altijd samen laten werken en inderdaad niet vervangen. Laat ze kritisch tegenover elkaar zijn.

een GPT model wat alleen maar ja knikt heb je helemaal niks aan, anders dan een secretaresse functie om de taalfouten eruit te laten halen en die ene zin wat beter te verwoorden.
LLM modellen maken niet alleen best veel fouten, ze zijn ook zeer overtuigd van de waarheid van hun conclusie of diagnose. Bovendien hallucineren nieuwere modellen meer dan de oude, dus ze worden er ook niet beter op.
Een GPT model dat ja knikt, aanvult maar de originele invoer niet aanpast (zoals een diagnose, nog steeds gedaan door de medisch professional), en dit automatisch in het juiste format invult zodat een arts de formulieren niet meer hoeft recht te trekken, daar heb je juist heel veel aan.
Dit model moet gaan helpen bij 'klinisch redeneren' dwz. antwoord geven op daadwerkelijke medische vragen en als klankbord fungeren voor medische professionals die met een diagnose bezig zijn en toe zijn aan een rubber-duckie moment, zoals software-developers dat wel eens noemen.

Dat door een zeer zelf-overtuigd klinkende maar, essentieel, nog steeds gevaarlijk vaak foutieve informatie gevende LLM laten verrichten is op z'n zachtst gezegd niet wijs. Harder gesteld: daar gaan gegarandeerd grote medische missers van komen. Maar misschien is dat dan ook wel net het duwtje dat de samenleving nodig heeft om eindelijk door de AI-bel heen te prikken en deze een mooie, dik aangezette ::plop!:: te laten doen.

Spoiler: 'tuurlijk niet! AI-kwakzalvers genoeg die klaar zullen staan om te prediken dat de oplossing niet is om te stoppen, maar om nog twee keer zo hard er mee door te gaan - want dan lukt het ineens vast wel. Double your bets, double your fun. /s

[Reactie gewijzigd door R4gnax op 13 mei 2025 22:53]

Ik lees volgens mij veel aannames. Het moet klinisch redeneren, maar doet het dat zelfstandig? Een junior in mijn bedrijf moet ook technisch redeneren, maar die bepaalt echt niet zonder supervisie welke kant het bedrijf opgaat, of specifieke implementatiedetails in een proces. Laten we nou een beetje in het midden blijven en de nuance bewaren, in plaats van dit hele alles of niets-geroep.
Ik ben het hier mee eens. AI is enorm over-hyped. LLMs zijn niets meer dan fancy chatbots die niets begrijpen of kunnen beredeneren zoals mensen dat kunnen.
Kom aan, je zou echt beter moeten weten tegenwoordig. Er zijn LLMs die slagen voor de examens die basis artsen moeten doen. Dat is geen fancy chatbot maar een bijzonder complex software waar jij in het dagelijkse leven veelvuldig mee in aanraking komt. Koreaans onderzoek liet zien dat de gemiddelde inwoner van dat land meer dan 250 keer per dag interactie heeft met iets dat AI gebruikt. Van stoplichten tot de metro, van klanten ondersteuning tot Hi Google.

De firma's die tientallen miljarden in AI pompen zijn niet gek, die hebben de beste adviseurs en ik moet aannemen dat die er wat meer van weten dan WernerL. Zit er gebakken lucht in? Zeker. Maar dit doet allemaal erg denken aan de gang naar de Cloud. Daarvan wisten Tweakers ook zeker dat het niets zou worden en dat het hype was. En kijk nu eens.

Het artikel gaat niet over het vervangen van mensen of blind op vertrouwen. Lees het nieuwsbericht anders nog eens.
Dat LLMs er in slagen examens succesvol af te ronden betekend niet dat die modellen enige vorm van intelligentie bevatten. Ik zou je eens verdiepen in hoe die algorithmes precies werken. Het is letterlijk een wiskundig model. Eentje met miljarden inputs, maar nog steeds een wiskundig model. Generative AI en LLMs zijn vooral goed in patronen herkennen en herhalen. Dat betekend niet dat die modellen zelf daadwerkelijk over zaken kunnen beredeneren. Kans op hallucinates is dus vrij groot en die ga je er niet zomaar uitkrijgen.

En er zijn zeker nuttige toepassingen te bedenken voor 'AI' a.k.a Machine learning. Maar LLMs zijn zeker niet de heilige graal wat veel mensen denken. Ander soort regressie-modellen kunnen zeker nuttig zijn als tool om specialisten te ondersteunen. Waaronder zorgmedewerkers. Bijvoorbeeld voor het herkennen van bepaalde ziektes. Daar heb je geen AI chatbot voor nodig. Andere toepassingen zijn bijvoorbeeld detectie van fraude of het detecteren van hack pogingen op netwerken. Afbeelding classificatie is een andere bekende toepassing. Maar geen van die toepassingen hebben iets te maken met taalmodellen. Wel valt het binnen AI.

En de cloud is ook een hype. Cloud kosten zijn echt kansloos hoog bij veel organisaties omdat developers het makkelijk vinden om alle Azure-managed services te gebruiken maar niet over de kosten nadenken. Ik heb al verhalen op Linkedin langs zien komen dat bedrijven terug willen naar on-premise. Kosten is daar een belangrijke reden voor.
De firma's die tientallen miljarden in AI pompen zijn niet gek, die hebben de beste adviseurs en [..]
Tegenargument: alle bedrijven die geld in al die verschillende internet-gebaseerde ondernemingen propten voor de dotcom-bubble werden destijds ook als 'niet gek' bestempeld. Sterker nog - veelvuldig aangehaald als investeerders die wisten waar ze mee bezig waren.

... En toen deed het toch ::plop::


Of om het wat meer formeel te stellen: appeal to authority is een drogreden.

[Reactie gewijzigd door R4gnax op 15 mei 2025 00:36]

Een belangrijkere vraag is misschien: hoe is de pubmed data gecureerd? Er is op pubmed veel fundamenteel onderzoek beschikbaar en niet alles daarvan is even betrouwbaar of toepasbaar in de kliniek (e.g. mijn eigen onderzoek heeft niet direct een klinische toepassing maar is wel op pubmed te vinden). Daarnaast zijn er ook duidelijke biasen (in de literatuur in mijn vakgebied): zo worden zeldzamere aandoeningen minder onderzocht en sinds de genoom-wijde associatie studies zijn er veel gennamen die vaak samen in een paper genoemd worden, wat zou kunnen impliceren dat ze een gedeelde functie hebben, terwijl dat vaak niet zo is.
AI is inderdaad enorm overhyped. AI is niets nieuws, en al decennia is men bezig met experimenten. Volgens mij is het bijna 15 jaar geleden dat IBM's Watson de beste Jeopardy spelers uit de VS wist te verslaan. Dus een AI dat menselijke taal 'begrijpt' en een vraag kan oplossen is niet echt nieuw. Het nieuwe is meer dat het nu bereikbaar is voor mensen zonder een zaal vol supercomputers. Echter, de algemene AI gaat makkelijk de fout in. En waar een AI de fout in gaat, vliegt ie meestal behoorlijk uit de bocht. Dan krijg je antwoorden of resultaten waaraan je kunt zien dat het absoluut geen mens is geweest die dat verzonnen heeft En inderdaad: een AI is nog steeds een domme computer die geen idee heeft waar ie mee bezig is.
Alleen is hier een nuance op zijn plaats. AI's die algemeen worden ingezet, maken makkelijk fouten. Maar als je hun 'kennisgebied' inperkt tot bijvoorbeeld medische of juridische data, wordt het ineens een stuk beter. Er kan meer data over hetzelfde onderwerp in het model, en hij hoeft niet na te denken over het weer of de weg naar Rome. Het kán alleen maar over medische of juridische zaken gaan. Dat scheelt enorm.

Ik denk dat juist dergelijke systemen kansrijk zijn. Ook voor het stellen van diagnoses. En natuurlijk moet je dat in een bepaalde proefperiode heel goed controleren en ook later scherp blijven en het voorlopig alleen als een hulp consultat beschouwen. Maar voor het doel wat hier geschetst wordt, het samenvatten van een consult, lijkt het mij uitermate geschikt. En als dat in de toekomst wordt uitgebreid met het stellen van een diagnose, uiteraard met alle voorzichtigheid die nodig is, kan dat zeer zeker een vooruitgang zijn.

Dat hallucineren van AI assistenten komt naar mijn idee omdat er teveel mogelijkheden zijn. Zodra er weer een horde is genomen in AI land, slaat men meteen door en probeert men dat ding alles te laten doen. En dan blijkt weer hoe goed onze eigen hersenen werken... Ik stel dus dat we voorlopig nog maar moeten blijven bij expert systemen. En daar heb ik best vertrouwen in.
Uiteindelijk zijn computers apparaatjes die nulletjes en ééntjes kunnen optellen - heel veel meer is het niet.

..... en zo kun je dus alle platslaan en kapot redeneren.
Hallucinaties komen vooral door tegenstrijdige informatie in de trainingsdata.
Wanneer een algemene AI getraind is op de websites van zowel de RIVM als Viruswaarheid, dan zal er nooit een zinnig antwoord komen over vaccinaties, etc., omdat het de twee uitersten probeert te combineren. Wanneer je één bron gebruikt om te trainen heb je daar een stuk minder problemen mee.
Maar net als met T9, moet je alle output controleren. Je moet er van uit gaan dat het niets meer is dan een hulpmiddel.
Medische zorg zaken en engels-talig... Dat is in mijn optiek geen goede combinatie voor het Europese vaste land.
In de USA is er een grote financiële en juridische component in het geheel dat is voor Europa beslist niet relevant en interessant.
In de UK is de medische zorg dusdanig verdeeld tussen publiek en private dat het ook niet echt serieus past op de Europese zorg.

Detail ik denk hier vooral aan de zorg, niet aan de medische details en ook niet aan de pharmacy en de biologie.
Hoe zou de zorg veranderen door de introductie van een nieuw middel in de vorm van AI? Veel professionals gebruiken tijdens spreekuur ook gewoon Google om te interperteren welk medicijn je gebruikt of wat kan aansluiten bij je ziektebeeld. Op basis van je symptomen pakken ze de meest voorkomende beelden.

n.b: heel veel papers van medisch onderzoek wordt in het Engels geschreven, omdat dat de samenwerking over universiteiten internationaal bevordert.
Het ging toch over een zorg-organisatie, niet over een medische-organisatie. In de zorg is het veel meer mensenwerk.

Medicijnen, dat is pharmacy, dat is naar mijn idee aan de andere kant van de medische wereld dan de zorg.
Als iemand actief zorg verleend krijgt, is er wel vaker medicatie betrokken dan niet. Een verpleger kan eenvoudiger aan een AI vragen wat de veelvoorkomende bijwerkingen van prednison zijn (als de patient iets in die trant ervaart), voordat er al een specialist aan te pas moet komen.
Medische zorg zaken en engels-talig... Dat is in mijn optiek geen goede combinatie voor het Europese vaste land.
Vrijwel alle vakliteratuur op medisch gebied is in het Engels of Chinees. Je huisarts spreekt daarom redelijk Engels, anders had ie geen huisarts kunnen worden.

[Reactie gewijzigd door Mathijs Kok op 13 mei 2025 17:16]

Zorg en medicatie zijn geheel verschillende zaken. Toegegeven, ze komen vaak samen maar dat is vooral omdat de behoefte gelijktijdig is. Er is geen computer die voor een lekker bakkie koffie kan zorgen. Er is geen medicus die voor een goede lunch kan zorgen. Het zorgen voor mensen is een vak apart.

Het zorgen voor mensen gebeurt het beste in hun moedertaal.
Simpel gezegd is het LLama3.1 met RAG (Retrieval-augmented generation) die data uit PubMed haalt.

[Reactie gewijzigd door zx9r_mario op 13 mei 2025 14:52]

Gezien het feit dat ze specifiek het aantal tokens benoemen ga ik er eerder van uit dat het om fine-tuning gaat en ze geen RAG gebruiken.
Pubmed is leuk, maar als je (AI) er niks van begrijpen kan is het totaal nutteloos om te gaan quoten.

Voorbeeldje: “genetische verband tussen x en y”… Hoezo geen achterliggende kennis van epigenetica?

Ja óf de ACE-studies worden nu een psychologisch ding en gaan artsen helemaal gek worden van hun eigen blind-spots :+
Onlangs kondigde Juvoly aan dat het twee Nvidia DGX B200-supercomputers in gebruik nam, voor zover bekend als eerste bedrijf in Nederland.
Hoezo eerste en zover bekend? Bij de TUe zijn deze allang actief: https://www.tue.nl/en/new...most-powerful-ai-platform
Dit weet ik dankzij via via. Het draait al, niet voor iedereen.
De quote heeft het dan ook over een bedrijf. Een universiteit is een onderwijsinstelling.
Een universiteit is ook een bedrijf.

Kijk maar op de kvk site op 51278871
Hoezo eerste en zover bekend?
Nou ja, wat jij weet was dus duidelijk niet bekend bij de schrijv/ster ;)
Wij gebruiken Juvoly als taal model voor onze telefonie oplossing. Vanuit telefoongesprek worden automatisch SOEP verslagen gemaakt met eventuele genoemde parameters. Dit scheelt de assistentes veel tijd waardoor het aantal afgehandelde telefoongesprekken een stuk hoger ligt.
Klanten die deze dienst afnemen zijn erg tevreden. Daarnaast is Juvoly een hele fijne partij om mee samen te werken.
Helemaal eens :-)
Als arts zijnde ben ik er fel op tegen dat er software van Meta wordt gebruikt, een bedrijf dat nota bene hun software heeft misbruikt om patienten te tracken en per persoon ook een medisch profiel aan te maken waarop bezochte poliklinische afspraken werden gekoppeld aan waarschijnlijke diagnoses door middel van hun illegale pixel.

Meta hoort tot op de wortel uitgeroeid te worden en mag in mijn optiek per direct op lichtjaren op afstand gehouden worden van welke maatschappij dan ook.

Kom nou, ik ga geen gebruik maken van malafide bedrijven die keer op keer op keer privacy van zelfs non-facebook gebruikers hebben geschonden. Zeker niet in arts-patient relatie.
Ik gebruik een compressiealgoritme dat door Facebook is ontwikkeld simpelweg omdat het de beste is. Het is een tooltje zoals elk ander, het brengt ze niks dat ik dat gebruik, er zit geen tracking in en de code is beschikbaar onder een open licentie

Llama is niet open source (alleen de binary is beschikbaar: je ziet de getalletjes maar niet hoe ze ertoe gekomen zijn) dus je kunt je afvragen of het op een onethische manier verkregen is. Diezelfde vraag kun je bij elk bruikbaar taalmodel stellen zover ik weet. Het klinkt echter alsof het jou specifiek om het bedrijf achter Facebook gaat en niet om grote taalmodellen in het algemeen. In dat geval zie ik niet zo hoe het hen helpt als je hun werk pakt en er iets bovenop bouwt

Er gaat bij Llama geen data naar de servers van Meta. Hoewel je dus niet weet hoe het gemaakt is, is het wel zo "open" dat je het ding kan downloaden en zelf draaien. Ik snap in dat geval niet waar het gevaar voor patiëntgegevens zou zitten
Het gaat mij om het principe dat softwarebedrijven als deze geweerd moeten worden bij interactie met gevoelige data omdat ze al eerder bewezen hebben niet alleen onethisch te zijn maar ook crimineel.
Er gaat bij Llama geen data naar de servers van Meta. Hoewel je dus niet weet hoe het gemaakt is, is het wel zo "open" dat je het ding kan downloaden en zelf draaien. Ik snap in dat geval niet waar het gevaar voor patiëntgegevens zou zitten
Het probleem is dat dat is wat Meta zegt, maar tot dit alles door een digital security expert héél serieus is uitgeplozen (lees: sniffen tot 'ie een ons weegt) zou ik, gegeven hun track record van liegen tot ze barsten en inderdaad privacygevoelige gegevens koppelen op een wijze die ik eigenlijk crimineel vind, Llama voorlopig even niet gebruiken.

Don't feed the moloch.

Ik hoop overigens van ganser harte, @TrafalgarLaw, dat meer van de collega's hier scherp op zijn!
Het is een taalmodel, geen software, or begrijp ik het nu fout? Het is alsof je een jpg-bestand opent dat Facebook gemaakt heeft: er is software die de data interpreteert zodat er uit de enen en nullen iets zinnigs getoverd wordt, maar het neurale netwerk is geen programma op zichzelf

Of hebben ze Llama zo gemaakt dat je het altijd in hun software moet draaien? Zoals als het geen jpg maar een eigen bestandsformaat is waarvan we de specificatie niet kennen en je dus hun software moet gebruiken om die te openen
Nou ja, het probleem van een closed source karakter is dat ik geen idee heb wat ik op je vraag moet of mag antwoorden. We hebben simpelweg geen flauwe notie van wat het ding (Llama, voor de duidelijkheid) doet.

Ik ben geen programmeur, dus ik kan ook helemaal niks met de source, begrijp me niet verkeerd, maar dan kunnen we allemaal wel bijgepraat worden door de lieden die daar wel verstand van hebben. Ik smeer de broodjes wel terwijl zij puzzelen.
Ik moet me toch wel flink vergissen in de technologie als we Llama niet gewoon op open source code kunnen draaien. Het is de data (de "weights") die Llama Llama maakt, net als dat jij jij bent door je neuronenverbindingen en wat andere zaken die op jouw hardware draaien (bloedsomloop, organen, spieren, enz.). Jij/ik noch Llama kunnen data naar Meta doorsturen als het systeem waarin het brein draait dat niet toestaat

(Niet dat Llama precies zoals ons brein is, maar voor deze vergelijking van dat het vooral data is, en niet echt software/hardware die iets doet, is het vergelijkbaar genoeg)
Sorry, net terug van een korte vakantie, dus daarom pas laat reactie.

Het probleem zit hem er nu net in dat je van een closed source package geen idee hebt wat het al dan niet aan data doorstuurt *tenzij je het op een offline systeem gebruikt* (zoals jij voorstelt), maar dan heb je er ook meteen geen reet meer aan.
We zijn altijd scherp, zo delen we ook geen patienten-informatie of beelden via whatsapp dat van Meta is. Daar hebben we een andere service voor, genaamde Siilo. We nemen patientenprivacy ernstig serieus omdat het lekken van je dossier of gegevens tegenwoordig grote gevolgen kan hebben en anderzijds omdat er grote boetes op staan. Dit is echter niet altijd zo geweest. Ik weet nog van mijn tijd als student dat er hele dossiers met NAW-gegevens gekoppeld aan diagnoses staan op simpele excelbestanden (met simpele wachtwoorden beveiligd) en deze werden uitgewisseld via onversleutelde mails. Tegenwoordig zijn er versleutelde mailservices en 2FA bij user-end om persoonlijke gegevens in te zien, alsmede DigID.

Daarom vind ik het zo ongelofelijk stupide dat men Meta-software gebruikt, note bene een extern bedrijf dat niet gebonden is aan Europese wetgeving omdat het een amerikaans bedrijf is. DigID, ondanks dat ze eerder door Iran zijn gehackt geweest, is nog een overheidsinstantie gebonden aan Nederlandse wetgeving. Mocht nou blijken dat die Llama software getrained is op hun door-pixel-verkregen informatie, dan faciliteren we eigenlijk privacybreuken door Meta. Dat bedrijf mag, hoe moreel en ethisch ze zich nu profileren, van mij nooit meer aan privacygevoelige data komen.

Meta mag geen plaats hebben in de medische wereld.
U niest, traant en hoest bloed? Paracetamol met een slokje water. Veel bedrust, minimaal 8 uur slaap.

U bent een vrouw? Sorry, onze wetenschappelijke artikelen zijn gebaseerd op de mannen anatomie.

U heeft mentale klachten? Er zijn momenteel 200 wachtenden voor u.

[Reactie gewijzigd door Jaïr.exe op 13 mei 2025 14:15]

Op dit item kan niet meer gereageerd worden.