Delphyr brengt Nederlandse AI-assistent uit voor zorgprofessionals

De Amsterdamse start-up Delphyr heeft een klinisch taalmodel uitgebracht voor zorgprofessionals. Het AI-model genaamd M1 is gebouwd in Nederland en getraind in het Nederlands. Het model kan artsen bijvoorbeeld helpen bij het samenvatten van dossiers.

Delphyr omschrijft zijn AI-model als een medische AI-assistent die zorgprofessionals helpt bij het automatiseren van administratief werk, het valideren van klinische besluitvorming en het verbeteren van resultaten voor patiënten. Het model is specifiek ontworpen voor de Europese gezondheidszorg en voldoet volgens oprichter Michel Abdel Malek aan de privacywetgeving AVG. Ook blijven patiëntgegevens altijd binnen Europa.

De assistent draait op het M1-model van Delphyr, dat 7 miljard parameters heeft en volgens de start-up in medische benchmarks beter presteert dan de internationale concurrenten. Zo behaalde het bij PubMedQA een score van 76,8 procent, bij MedMCQA 62,5 procent en bij MedQA 64,7 procent. "Dit betekent dat het een sterk vermogen heeft getoond om medische vragen te begrijpen en te beantwoorden, wanneer deze worden geëvalueerd op standaard medischekennistests."

Hoewel het model getraind is in het Nederlands, is het in verschillende talen beschikbaar. Op dit moment kan de assistent ondersteunen bij bijvoorbeeld het samenvatten van dossiers, verslaglegging tijdens multidisciplinaire overleggen en toegang bieden tot kennis.

In de toekomst wordt het model nog verder uitgebreid. Zo wil Delphyr multimodale dataverwerking mogelijk maken, wat betekent dat het AI-model verschillende soorten data - zoals foto's en tekst - tegelijk kan analyseren. Ook wordt er gewerkt aan gespecialiseerde modellen voor bepaalde medische taken en komt er ondersteuning voor meer talen. Wanneer dergelijke functies verschijnen, is niet bekendgemaakt.

Door Eveline Meijer

Nieuwsredacteur

03-04-2025 • 12:09

56

Submitter: IzzyG

Reacties (56)

56
56
15
1
0
41
Wijzig sortering
"Het model kan artsen bijvoorbeeld helpen bij het samenvatten van dossiers."
"Zo behaalde het bij PubMedQA een score van 76,8 procent"

Bijna 25% gaat dus fout.
Grote kans dat er bij het samenvatten een belangrijk detail uit je medisch dossier fout geïnterpreteerd wordt.
Als ik dit

https://arxiv.org/pdf/2305.07804

goed interpreteer, is de gemiddelde menselijke score op PubMedQA ook in die orde van grootte, dus ook bij menselijke dokters heb je kans op fouten.
We accepteren fouten van een mens, van een machine/AI accepteren we geen fouten.

Daarom dat we nog steeds zelf autorijden (met al onze blunders in het verkeer) en we van een zelfrijdende auto verwachten dat deze foutloos gaat rijden.
Na ja, daar is ook wel reden toe, want "computer says no" is geen fijn excuus. Artsen hebben verantwoordelijkheid, en het afschuiven van die verantwoordelijkheid naar een computer is natuurlijk niet altijd wenselijk.
person x says no is anders OOK geen fijn idee...

je zult bijvoorbeeld maar een ernstige ziekte hebben met maar één kleine kans op redding een medicijn a 10.000 per maand voor de rest van je leven...

dan komt er zo'n zorgverzekeraar die zegt: "joh van dat geld kunnen we elke maand iemand van een minder rare vorm van kanker genezen", "dus in plaats van één iemand voor 10 jaar in leven houden... genezen we er liever 120 mensen mee"

en zelfs als 75% van al die mensen alsnog dood gaat dan nog hebben we er 30x meer gered dan wanneer we dit soort dure medicijnen uitreiken, en hoe pijnlijk zo'n besluit voor alle betrokkenen en organisaties ook zal zijn, het is wel de juiste beslissing voor onze samenleving.

dat wil maar even zeggen dat 'computer says no' echt geen slechtere situatie is dan person says no of professional says no... voor die persoon die geen geld krijgt, hierdoor zal sterven of wat voor ander leed dan ook zal doormaken maakt het echt geen verschil.

bovendien wordt dit soort zaken altijd enorm opgeblazen en worden computers de schuld gegeven door handige mensen die onder hun verantwoordelijkheid uit proberen te gluipen. want let wel: niet compputers nemen besluiten die rekenen alleen maar uit, mensen nemen besluiten. bijvoorbeeld het besluit om te verzinnen dat zwarte mensen vaker crimineel zijn dan witte en dat dit negatief moet wegen in het beslismodel van de belastingdienst aangaande toeslagen toekenning.

ergens was er een mens die die regel en die statistiek in de broncode van de software heeft gezet dat was niet de computer die daar zelf mee op de proppen kwam maar dat was een minister of top-ambtenaar die dat besluit nam en daar opdracht toe gaf.
Maar is dan de absurde prijs van het medicijn niet het eigenlijke probleem hier?
kleine doelgroep->hoge ontwikkelingskosten->duur medicijn
Niet te vergeten mega winsten voor de farmaceutische industrie. In een tijd als deze zou het niet uit mogen maken wat een medicijn kost. Dit hoort ook bij onderzoeken en verder komen op het gebied van gezondheid.

Ik geloof niet zo in hoge ontwikkelingskosten en kleine doelgroep in deze. Dat kun je opvangen met middelen die gigantisch veel ingezet worden.
De toetredingsdrempels zijn hoog, dus daarmee kunnen ze veel vragen. Aan de andere kant zijn de aanloopkosten ook hoog en is er per onderzoek een grote kans dat er niks verkoopbaar uitkomt
Met andere woorden: tijd voor verbeteringen in dit systeem en misschien minder commercieël maken.
dat is afhankelijk van wat je wil, minder beloning=minder incentive=minder innovatie=minder nieuwe geneesmiddelen. Dat wil niet zeggen dat er niet een hoop mis is met het huidige systeem, maar de output op geneesmiddelengebied is goed. Een aantal vrienden van me investeren in een medicijn dat een familielid van een van hen kan helpen. De koers staat inmiddels op minder dan 1/3 van de inleg van de meesten, dus velen hebben een dik (virtueel) verlies gemaakt. Maar mochten de volgende fases succesvol zijn, dan kan de inleg een aantal malen de inleg opleveren. High risk, high return. Voor veel minder zouden de meesten niet meedoen, het blijft toch een pragmatische keuze wat je als huishouden met je spaargeld doet.

[Reactie gewijzigd door arjandijk162 op 5 april 2025 00:07]

En daarbij is oefening belangrijk. Als je niet regelmatig zelf tot besluiten komt wordt je minder scherp. Dit is een belangrijk argument om voorzichtig te zijn met het inzetten van AI als primaire kracht (met controle achteraf). Het is beter zelf na te denken en dan een AI zijn idee te laten geven.
Een dokter die een bepaalde fout maakt is op één plaats en maakt dus daar die fout. De volgende keer doet ie dat misschien niet. Misschien is er nog een andere dokter ergens anders die een andere fout maakt. e.t.c.

Een AI model draait op heel veel plaatsen tegelijkertijd, dus met een fout of nog ontwetendheid in de code worden er dan op heel veel plaatsen mogelijk fouten gemaakt tot dit wordt opgelost of bijgeleerd.

Een medische AI krijgt volgens mij met veel meer soorten (en dagelijks nieuwe) gegevens te maken. Een AI om een auto in redelijk voorspelbaar (t.o.v. mediche situaties) verkeer te laten functioneren heeft met veel minder (soorten) variabelen te maken.
daar ben ik het niet mee eens sterker nog de logica dicteert dat je er volledig naast zit.

elke dag worden er x diagnoses gesteld. het feit dat een AI dat doet en er in theorie 10.000x zoveel zou kunnen doen doet niet ter zake er komen immers maar x pantienten per dag bij.

nu gaan we ervan uit dat die medische fout ofwel komt door onoplettendheid of door onwetendheid.

in het eerste geval zal een AI daar geen last van mogen hebben want een onoplettende computer klein redelijk onaannemelijk. tenzij je iets als een computer storing of een DDoS als 'onoplettendheid kwalificeert.

dan nog is er de vraag hoevaak die onberijkbaarheidsfouten voorkomt. ten opzichte van de 2e casus.

de 2e casus is er een van ontwetendheid en gaat ervan uit dat 'slechte input zorgt voor slechte output... maar dat probleem geldt niet alleen voor AI modellen ook artsen die achterlopen met hun nascholing die dingen stomweg vergeten kunnen fouten maken en waar dat bij een AI in beginsel opgelost zou worden door één systeemupdate moet je dat bij menselijke artsen oplossen door een nieuwe cursus waar al die artsen vervolgens aan moeten deelnemen.

er zijn dus zeker scenario's waarin een groep mensen het overwegend beter doen dan een enkel opperwezen of oppermachine maar er zijn ook (met veel grotere impact) scenario's waarin 1 update veel efficienter en effectiever is dan het moeten bijscholen van honderden artsen.
Ik denk dat je de inzet van deze AI verkeerd ziet.

Uit het artikel:
Op dit moment kan de assistent ondersteunen bij bijvoorbeeld het samenvatten van dossiers, verslaglegging tijdens multidisciplinaire overleggen en toegang bieden tot kennis.
Dat de AI assistent goed scoort op PubMedQA en andere benchmarks is leuk, maar eigenlijk niet direct relevant. Deze AI wordt niet gevraagd verbanden te leggen of conclusies te trekken, maar wel om samen te vatten en verslaglegging te doen. Daarmee doet deze assistent dus niet "artsenwerk". Dat is een hele andere tak van sport, ook voor mensen hoort hier een compleet andere discipline bij.

Uiteindelijk blijft het aan een tweede paar ogen om dit te controleren, zoals nu ook al het geval is als mensen wat voor anderen samenvatten. Denk aan dat notulen van een vergadering ook rondgestuurd en goedgekeurd worden.
Het verschil is meestal dat de fouten die de AI maakt vaak andere fouten zijn die de mens maakt. Als je bijvoorbeeld naar autonoom rijden kijkt is het vaak dat de mens te weinig slaap heeft of afgeleid wordt of de reactiesnelheid is te laag. Bij een AI is het meestal dat de situatie verkeerd wordt opgevat. Meestal is het een situatie de de mens juist heel makkelijk zou begrijpen. Daarom lijkt de AI heel dom op dat moment en wordt dat niet geaccepteerd.
Het gaat niet enkel omtrent 'accepteren' van fouten van AI of mens, maar vooral ook over de verzekerbaarheid van fouten

Iedere arts is verplicht een verzekering af te nemen. https://www.kbc.be/ondern...aramedische-beroepen.html
verzekeren is niets anders dan inschatten hoe groot de kans op fouten is, op wie die schade verhaald zal worden en hoe zwaar de maatschappelijke verantwoording weegt.

als er morgen een wet komt dat je op bepaalde snelwegen alleen nog autonoom mag rijden in van die treintjes met inter-vehiculer communicatie nets zoals in sommige scenarios wordt gesschetst waarbij treintjes van auto's op nog geen halve meter afstand met 160 over de snelweg razen. (omdat dat het file probleem gemakkelijk zou halveren), dan is er overmorgen een verzekeraar die er een premie op zet.
Wat vaak wordt vergeten bij dit soort vergelijkingen tussen AI en een mens. Is dat het een gemiddelde score is voor mensen en vaak meer een gegeven score is voor machine. De AI maakt waarschijnlijk altijd dezelfde fouten, terwijl mensen meer verschillende fouten maken. Ik denk dat je liever het laatste hebt. Neem bijvoorbeeld zelf rijdende auto's, stel het gaat 80% goed voor mens en AI, dan wil je liever dat die 20% niet alleen maar bestaat uit situaties die iets te maken hebben met door rood rijden bij een bepaalde stand van de zon. Het is makkelijker te fixen, maar de gevolgen kunnen desastreus zijn.
Idd.
De fouten die mensen maken zijn vaak een gevolg zijn van een uitzonderlijke situatie [in het verkeer: bijv. slecht weer].
Bij een AI is daar geen sprake van - de foutkans is altijd even hoog....

Daarom is het bijzonder hoe we hierover denken:
Een mens maakt wel eens een fout en de kans daarop wordt berekend over een lange periode en over alle betrokkenen [wat dus verschillende mensen zijn!]

Als het slechts over 1 mens zou gaan en deze maakt met een 25% kans een fout - onafhankelijk van externe factoren, dan zouden we deze mens die positie niet laten vervullen.....

De AI is dus zo'n geval - maakt dus relatief veel fouten. Zou je als 'standalone' uitvoerder dus niet willen inzetten maar het is zo lekker makkelijk natuurlijk (kost veel minder per uur).
je bedoelt hoe mensen altijd fouten maken wanneer ze rode kruizen op de snelwegen negeren of niet vertragen in schoolzones omdat ze te laat van huis vertrokken zijn of hoe ze dronken achter het stuur zitten

ja al die situaties zijn natuurlijk geweldig veel beter te rechtvaardigen dan een computer die bij een bepaalde stand van de zon bijna gegarandeerd door rood wil rijden en dat door een kleine aanpassing van ons wegennet (met bijvoorbeeld BLE-beacons ipv gloeilampen. toch vrij simpel op te lossen zou zijn.
Het gaat er om dat je 80% score van AI niet hetzelfde is als 80% gemiddelde score mensen. En je dus niet bij 85% score van AI blindelings zegt, 85% > 80%, dus we vervangen alles voor een AI. Je moet dus duidelijk zicht hebben op die fout situaties voordat je dit doet.
Volgens mijn interpretatie stelt een arts een medisch dossier op waarin 28% fouten voorkomen. Vervolgens vat de AI het dossier samen, waarbij nog eens 23% fouten worden toegevoegd. Dit resulteert in een dossier met slechts 55% correcte informatie.
Dan nog zou dat ook zo zijn als een mens met diezelfde score dat samenvat :)

Maar goed die scores gaan (toch?) niet over samenvatten dus die percentages kan je daar niet zomaar voor gebruiken...

[Reactie gewijzigd door watercoolertje op 3 april 2025 13:22]

en als dat mens een fout maakt, dan kan je die er op aan spreken en die voelt (hopelijk) verantwoordelijkheid het te herstellen.

Als de AI een fout maakt... who you gonna call?
Vaak valt dan opeens de verantwoordelijkheid tot herstel van fouten bij de patiënt.

Automatiseren is meestal ook overhevelen van risico's en bewijslast van fouten naar eindgebruiker.
Ik snap niet waarom je dit op mij reageert, de discussie gaat over de mate van fouten (ai vs mens).
Jouw punt is gewoon een discussie op zich(zelf), losstaand van deze discussie :)

Maargoed ik zal alsnog reageren, want het is niet heel moeilijk op te lossen:
Als de AI een fout maakt... who you gonna call?
Vaak valt dan opeens de verantwoordelijkheid tot herstel van fouten bij de patiënt.
Dan moeten we dus wettelijk zorgen dat het altijd de verantwoordelijkheid blijft van de dokter/arts. En dat blijft ook gewoon je aanspreekpunt...

PS Ik gebruik AI voor webdevelopment en ik kan verantwoordelijkheid echt niet op AI afschuiven als klanten een fout tegenkomen die er door AI ingekomen is.

[Reactie gewijzigd door watercoolertje op 3 april 2025 14:53]

verkeerd hebbende in de wereld van de medische aansprakelijkheid (zijlijn dan wel maar toch) kan ik u verzekeren dat het nu niet anders is.

om een arts rechtens aansprakelijk te stellen voor het niet overleven van een medische behandeling moet je als patiënt niet bewijzen dat de arts fout zat (want fouten maken is menselijk) nee me moet aantonen dat die arts onzorgvuldig was en dat hetgeen jou is overkomen ook te wijten was aan die onzorgvuldigheid.

je behandelen voor borstanker terwijl je longkanker had was bijvoorbeeld niet genoeg om aansprakelijk te zijn, maar als ook een goede xray te zien was dat het in je long zat en niet in je borst EN als het maken van zo'n xray ook gebruikelijk en volgens de medische standaard was DAN PAS kun je een arts aanspreken.

ik zeg dit niet om nu te stellen dat artsen een oneerlijk voordeel hebben of omdat patienten 'door het recht in de kou gezet zijn' want dat is niet zo maar fouten zijn nu eenmaal aan de orde van de dag en meer dan je uiterste best kun je niet doen ... bovendien kijk je achteraf altijd met 20-20 visie terug op wat er gebeurd is. of zoals mijn opa zei: een koe in zijn kont...

nee ik zeg dit omdat er dus geen verschil is in de bewijslast tussen mens en machine.

als een AI netjes alle protocollen heeft gevolgd en alle medical best practices heeft gepleegd dan moet je achteraf niet komen met; ja maar als.... natuurlijk kunnen dergelijke lessen worden meegenomen naar de toekomst en kunnen bepaalde symtomen of casussen in de toekomst anders worden gewogen na in acht neming van situaties uit het verleden. maar dan valt er te stellen dat AI met zijn 'alwetende carakter' daar in beginsel beter toe in staat is dan het menselijke brein.
Chat GPT is ook behoorlijk slim zeggen ze. Soms praat ik met mn chatgpt op mn telefoon, en heb ik het idee dat het een kind van 12 is. Dus die score's zijn echt niet een realistische vertegenworodiging van de prestaties die zo een A.I biedt. Of je moet de vraag echt super goed voorkauwen. Wat deze artsen niet willen doen natuurlijk.
En daarom is het dus zo ongelooflijk van belang om alles, wat welk AI model dan ook, te laten controleren door de mensch. Ik ben groot fan van AI maar ik merk te vaak dat het voor zoete koek wordt aangenomen.
Waar ik (als voormalig professional) benieuwd naar ben is de bias van het systeem.

Tijdens de opleiding ooit 2 casussen voorgelegd gekregen. Daar rolden 2 verschillende differentiaal diagnoses uit. Daarna bleek het om exact dezelfde tekst te gaan, alleen waren de zinnen totaal anders gerangschikt. Dan blijkt dat de eerste zin al een bias in gang zet die het hele proces beinvloed. Vraag me af of AI dat ook heeft.
kun je dat verder uitleggen? Ik kan me voorstellen dat de betekenis van een stuk tekst (subtiel) kan verschillen als de volgorde wijzigt, ondanks dat de woorden uiteindelijk gelijk optellen.
Het eerste dat je leest bepaalt je uitgangspunt. Is het eerste dat in het dossier staat "Kankerpatient" of "Persoon met psychisch trauma"? Dat stereotype/referentiekader bepaalt vervolgens hoe je de rest van de informatie interpreteert.

Als ik het me goed herinner is dat het 'framing effect' in de psychologie of misschien de 'anchoring bias'.

[Reactie gewijzigd door bartvb op 3 april 2025 13:08]

Niet alleen je dossier. Als je bij de huisarts komt en je vertelt over je klacht dan is het eerste wat je zegt net zo bepalend.

Pijn in mijn linkerarm en een beetje mijn schouder: iets met het hart?
Beetje pijn in mijn schouder en mijn linkerarm: schouderklacht?

Er natuurlijk nog veel meer zaken die daar een rol in spelen. Ben je de eerste patient van die dag, hoeveel mensen met hartklachten/schouderklachten gingen je voor die dag, noem maar op.

Vooral benieuwd hoe AI daar mee om gaat. Kan die het onderscheid maken tussen een normale en 'dramatische' patient, hoeveel zeg je, hoe vaak herhaal je bepaalde woorden.
En misschien het belangrijkste, kan die zichzelf corrigeren (conclusiewijs)
Kan AI zichzelf een score geven? Iets als met 100% zekerheid het volgende, of 25%.
Deze score kan dan gebruikt worden om meer of minder gewicht te geven aan AI
het eerste denk ik meer dan het 2e - of dat wil zeggen ik denk dat framing meer effect zal hebben op een LLM want dat zijn het uiteindelijk nog steeds

de anchoring bias is toch vooral meer een emotie-ding wat wel aan de grondslag kan liggen van framing maar niet zo zeer een machine learning verband heeft.
en dat geldt dan niet voor alles wat mensen doen.

alsof ik in mijn werk met mensen niet zie hoe ze steeds en keer op keer dezelfde foutern blijven maken. denk maar eens aan mensen in de schulden problematiek of mensen met een verslaving of gewoon mensen die uberhaubt nooit naar school zijn geweest en nu allerlei zaken die voor hen van belang zijn niet weten of begrijpen.

of binnen bedrijven door van die overijverige persoontjes die liever alles zelf doen dan dat ze het een ervaren collega vragen.

[Reactie gewijzigd door i-chat op 3 april 2025 15:17]

ow ik impliceer ook helemaal nergens dat de mensch feilloos is, net zo min als dat AI dat is.
wat ik vooral wil zeggen is dat het werk van AI niet per sé meer of minder feiloos is dan dat van mensen en dus ook op een zelfde manier met argwaan bezien dient te worden.

simpelweg niet alles dat je observeert (of meent te observeren is waar) niet elk systeem is onfeilbaar

wat je wél met enige statistische zekerheid kunt stellen is dat fouten van AI.

-> in de regel voorspelbaarder zijn dan die van mensen
-> dat het makkelijker te traceren is hoe waar wanneer en waarom een Computer een fout heeft gemaakt.

eigenlijk valt er dus iets te zeggen voor het: zelfs als ze fouten maken zijn computers beter dan mensen.
Kleine correctie: PubMedQA is een benchmark waarbij het taalmodel een vraag moet beantwoorden met ja, nee of misschien. Dit is dus niet echt per se indicatief voor de prestaties bij samenvattingstaken.

Maar ik vraag me ook af of we genoegen moeten nemen met een systeem dat 75% accuraat is. Uit onderzoek naar het gebruik van AI-modellen bij ontwikkelaars blijkt dat ontwikkelaars AI-modellen die minder dan 80-90% accuraat zijn links laten liggen, ik kan me voorstellen dat zorgprofessionals nog kritischer zijn.
de vraag is: wat scoort een med student en wat een arts met 10+ jaar evaring op diezelfde test.

als de test is hier hebben we 100 vragen en bij 55 vragen goed heb je een voldoende en bij 100 vragen goed een 10 dan is zo'n test in deze discussie gewoon waardeloos omdat we ook niet weten wat normale scores zijn.

want in het bovenstaande geval zou 75 vragen goed ruim boven de drempel van 55 zitten.

stel dat de test zou is dat een med student 80% goed moet hebben om het tentamen te halen en deze bot scoort maar 75 ... tja

ze hadden voor dit soort test dus beter relatieve precentages kunnen nemen.
ons ai model schoort op deze en deze test tussen de 5 en 10% beter/slechter dan menselijke studenten geneeskunde. / dan menselijke artsen met 5 of meer jaren ervaring.
Dit is een hele belangrijke correctie. De twee zinnen die @yevgeny aan elkaar koppelt hebben eigenlijk niets met elkaar te maken. Medische ja/nee/misschien vragen goed kunnen beantwoorden of overleggen samenvatten zijn twee hele verschillende vakken.
Als ik het niet verkeerd heb is PubMedQA een reproductietest: "The task of PubMedQA is to answer research questions with yes/no/maybe" (https://pubmedqa.github.io/).

Samenvatten daarentegen is een heel ander soort taak, namelijk het correct interpreteren en verwerken van tekst; dit heeft alleen een stuk minder te maken met dingen uit het geheugen van een LLM halen zoals bij de PubMedQA test gevraagd wordt.
- Bijna 77% gaat goed zonder dat er (veel) mankracht voor nodig is.
- Bij menselijke professionals gaat het ook niet 100% goed.
- Wordt dit gebruikt om een samenvatting over een dossier te maken om iemand in te laten lezen bij een intake, of wordt dit gebruikt om een diagnose te stellen of een medicatie toe te schrijven? Niet elke use case heeft evenveel impact als er een fout gemaakt wordt.

Er is veel meer informatie te behalen voor je een goede conclusie kan trekken of dit schadelijk is voor de kwaliteit van zorg.

- Hoe scoren menselijke professionals op de tests?
- Als een vraag goed beantwoord is, hoe betrouwbaar is het dan?
- Zijn er specifieke vragen die het model met ~100% zekerheid kan antwoorden?

Als het uiteindelijk zoveel tijd kan schelen dat professionals meer met hun patiënten zelf bezig kunnen zijn kan het heel waardevol zijn, maar we moeten uitkijken dat we niet te veel gaan vertrouwen op en/of afhankelijk worden van systemen waarvan die geen redenatie achter een antwoord kunnen geven (AI black box probleem).

[Reactie gewijzigd door ghangster op 3 april 2025 12:52]

Als het uiteindelijk zoveel tijd kan schelen dat professionals meer met hun patiënten zelf bezig kunnen zijn
Maar als dat werk dus een diagnose stellen is en de diagnose moet worden vastgesteld op basis van de samenvatting en die samenvatting is dus door de AI gemaakt en vrij vaak 'fout'', dan lijkt me het toch niet zo handig.
Interpretatie van de gegevens is het moeilijkste punt, niet de registratie. Als de AI niet alleen maar registreert maar ook interpreteert dan lijkt mij dit toch een probleem.
Ja, zulke kritieke taken kan je niet aan AI over laten. Maar er zijn ook taken die wel door AI overgenomen kunnen worden zonder dat een fout tot een verkeerde kritische beslissing kan leiden.

LLM modellen zijn zeer geschikt om samenvattingen te geven, maar als je zo'n model vraagt wat voor medicatie voorgeschreven moet worden is dat een heel ander verhaal en mag daar zeker niet op vertrouwd worden.

Het lijkt me daarom belangrijk dat er een duidelijke grens komt (als dat er al niet is) waar je AI wel en/of niet voor mag gebruiken.
Ik zie AI als een tool/hulpmiddel, die het werk verlicht.
Uiteindelijk ben je als mens verantwoordelijk en moet je dus controle uitoefenen en ondanks dat bespaard het je tijd.
Natuutlijk maken de mensen/doktoren/verpleegkundigen ook fouten, wat logischerwijs erg onwenselijk is.

Ik werk zelf in de zorg, en zie het tijdsgebrek waar deze zorgverleners mee te kampen hebben.
Het is goed mogelijk dat wanneer AI kan helpen met rapportage, dit het aantal fouten kan doen laten afnemen. Hierdoor de kwaliteit van rapportage langzaam verbeterd en hierop AI weer getraind kan worden.
Een opwaartse spiraal!

Met de toenemende druk op de zorg en niet afnemende administratieve lasten, is dit een mooie en welkome (zorg)innovatie!
Tja, maar je moet het (zeker op dit moment) ook zien als een soort van 'Personal Assistant'. Als een arts de samenvatting even snel moet doorlezen, scheelt dat natuurlijk wel behoorlijk wat tijd. Zijn dan alleen nog een paar correcties nodig, ipv een arts die alles moet uittypen.
Er mist hier aardig wat transparantie.. Op wat voor NL data is dit getraind dan?
Hoewel het model getraind is in het Nederlands
En op welk medisch materiaal is dit dan getraind? Want denk dat weinig mensen open staan voor het feit dat hun medische informatie voor AI training gebruikt zou worden.
Dat valt nog redelijk mee, meeste ziekenhuizen bieden de mogelijkheid om via de optin formulier wel of geen toestemming te geven via de digitale patientportaal of via de aanmeldzuil als ze het ziekenhuis binnen komen.

Ik werk zelf voor een ziekenhuis met onder andere patient data en wij houden altijd rekening met deze opt-ins. Daarnaast wordt er voor elk verzoek (onderzoek, statistiek, dataset of AI doeleinden) dit altijd getoetst door een privacy functionaris. Ook kan de je ook met gepseudonimiseerde data een model getrained worden. Vaak is het helemaal niet interessant dat dit Karel is en dat die aan de Beukenlaan woont.

[Reactie gewijzigd door Senaxx op 3 april 2025 13:02]

Dat hoeft ook helemaal niet. Anonieme gegevens die niet herleidbaar zijn naar een patiënt mogen gewoon gebruikt worden, en worden ook gebruikt, voor wetenschappelijk onderzoek en data analyse valt daar zeker onder mits goed geformuleerd in wetenschappelijke context.

De nhs heeft daar een heel programma voor.

Bovendien is er ook nog zoiets als medische literatuur. Boeken en tijdschriften.

[Reactie gewijzigd door gaskabouter op 3 april 2025 17:03]

Ben benieuwd of ze een voet aan de grond krijgen in Nederland. Microsoft heeft net Dragon Copilot aangekondigd in samenwerking met Chipsoft. En Chipsoft is de grootste leverancier van EPD software binnen de nederlandse ziekenhuizen met ongeveer 70% van de markt.

Edit:
Toevallig zie ik net op de Chipsoft website dat een samenwerking met Delphyr hebben.

[Reactie gewijzigd door Senaxx op 3 april 2025 13:08]

Dit is natuurlijk prachtig nieuws. Je ziet de trend van AI steeds meer in de zorg opkomen, maar vaak wordt het verkeerd gebruikt. Waar Chipsoft met de verschillende AI integraties mee werkt, gaat juist om het vereenvoudigen van het dossier voor de patiënt. De taal die de dokter gebruikt is voor een patiënt (zeker in pittige medische zaken) niet meer te volgen: de aandacht valt weg. Juist dit soort assistenten maken het eenvoudiger om het verhaal beter over te brengen.

Een medisch dossier gaat niet zomaar samenvattingen maken door AI en die als conclusie opslaan. Het is een hulpmiddel voor specialist en patiënt om tot de juiste communicatie te komen.

Verder ben ik blij om te horen dat Nederlandse datasets gebruikt zijn. Deze zijn goed te anonimiseren binnen de regels van de AVG om zo veilige trainingsets te maken. Daarbij is het zo cruciaal dat Nederlandse richtlijnen, uitganspunten en taal gebruikt worden om juist de beste kans op een goede samenvatting te hebben.

Door een AI samenvatting samen te laten werken met de kennis van een arts, heb je niet twee keer kans op fouten, maar corrigeren ze elkaars fouten (reductie op fouten, dus zeker geen gegarandeerde 100% score!). Zo ondersteunen de assistenten de specialisten waar het vaak iets onduidelijker wordt, of juist heel veel informatie samengevoegd moet worden tot een overzicht.

De gezondheidszorg, én de patiënten gaan hier (zeker in de complexe zorg) mee geholpen zijn.
Op hun website heeft Delphyr geen Algemene Voorwaarden en/of Privacyreglement gepubliceerd. Is dit misschien weer zo'n bedrijfje waarbij alles om de techniek draait en beveiliging / privacy pas veel later komt?

De claim dat alle data binnen Europa blijft lijkt dus juridisch ook niet gewaarborgd momenteel. Daarnaast, blijft de data in Europa of bedoelen ze EU of mss EFTA? Dat kan een verschil uitmaken.
Heeft het model een ‘Thinking’ mode zodat zorgprofessionals kunnen inzien hoe het model tot bepaalde conclusies of samenvattingen komt? Zeker in de zorg lijkt me dat essentieel om de output beter te kunnen valideren.

Op dit item kan niet meer gereageerd worden.