@
arnoudwokke Mijn beeld van de oorzaak is het volgende: we splitsen modellen steeds meer op in kleine submodellen (experts) en hebben een coördinatie laag die er voor zorgt dat de juiste expert het juiste deel van de promot beantwoord.
Voorheen moest je per onderwerp een promp stellen en je vervolg promp over het andere onderwerp, omdat er slechts 1 expert per prompt werd toegewezen.
Denk aan
geef me een drempelvrije UX en een PCI-DSS compliant API voor een login scherm. moest in twee aparte prompts achter elkaar gesteld worden. Ze werden dan door twee verschillende experts afgehandeld en de API sloot dan niet aan bij de UI. ~ okt. 2024.
Nu kun je die vraag in 1x stellen en een coördinatie laag splitst de vraag in stukjes voor elke expert, coördineert de samenhang en combineert het antwoord.
De experts kunnen daardoor nog specialiseerder worden en nog strikter aan hun 'waarheid'. ~ qwen3 is zeer strikt bijvoorbeeld.
Op dit moment is er over-specialisatie. En als de coördinatie misloopt krijg je de verkeerde expert die antwoord geeft. Dus totale onzin teruggeeft. En als de coördinatie iets niet goed kan ontleden gaat het dus fout.
Dat opknippen in kleinere modellen zorgt voor efficiëntie in snelheid, stroom besparing en mutimodaliteit (tekst, plaatjes, video, audio als input en output combineren, kennis gebieden combineren).
We zijn dus bezig de frontale kwab te ontwikkelen 😉
[Reactie gewijzigd door djwice op 8 mei 2025 22:49]