GitHub gebruikt Copilot-code van ontwikkelaars om AI verder te trainen

GitHub gaat data van ontwikkelaars die GitHub Copilot gebruiken inzetten voor het trainen en verbeteren van zijn AI‑modellen. Dit omvat input, output, code en meer. Het ontwikkelplatform van Microsoft schakelt dit op 24 april in, maar biedt gebruikers wel de mogelijkheid om zich af te melden.

Gebruikers die eerder in GitHub de opt-out inschakelden voor datavergaring ter verbetering van het product, hoeven nu geen actie te ondernemen. GitHub meldt aan gebruikers dat die instelling behouden blijft en dat data van die gebruikers niet wordt gebruikt voor AI-training. Tenzij ze zelf kiezen om wel mee te doen.

Andere gebruikers worden vanaf 24 april automatisch opgenomen. Hun zogeheten interacties met GitHub Copilot 'kunnen worden gebruikt' voor AI-training en -verbetering. Dit omvat data die zij invoeren in de AI-dienst, output die zij ervan krijgen, codesnippets die zij op het ontwikkelplatform maken, plus bijbehorende contextuele data.

Niet alle gebruikers

Microsoft biedt wel enkele uitzonderingen. De datavergaring geldt voor gebruikers met een gratis account op GitHub Copilot en voor betalende gebruikers met een Pro- of Pro+-account. Gebruikers met een Copilot Business- en Copilot Enterprise-abonnement zijn uitgezonderd, meldt het bedrijf. Volgens de faq van GitHub over deze AI-beleidswijziging zijn studenten en docenten ook uitgezonderd.

In de e-mail aan gebruikers stelt GitHub dat deze nieuwe aanpak in lijn is met 'gevestigde industriestandaarden'. Het gebruik van klantdata moet de AI‑modellen van Microsoft ontwikkelaars beter en contextbewuster laten helpen bij het schrijven van softwarecode. Het bedrijf testte dit eerder al met interactiedata en zag daardoor 'veelbetekenende verbeteringen'. Dit betrof onder meer een hoger acceptatiepercentage van door GitHub Copilot aangeleverde code in meerdere talen door ontwikkelaars.

GitHub Copilot
Bron: Microsoft

Door Jasper Bakker

Nieuwsredacteur

26-03-2026 • 09:35

48

Submitter: rneeft

Reacties (48)

Sorteer op:

Weergave:

Uitschakelen kan via https://github.com/settings/copilot/features. Scroll naar Allow GitHub to use my data for AI model training en schakel dat uit. Overigens zijn de Copilot reviews best aardig en halen ze er best wat foutjes uit.

[Reactie gewijzigd door BugBoy op 26 maart 2026 09:41]

Tja, verrassend is het niet echt. Gratis of relatief goedkoop AI-gereedschap komt bijna altijd met een andere prijs: je data, je workflow en je feedbackloop.

Dat GitHub nu standaard opt-inachtig gaat werken voor Free en Pro voelt wel weer lekker Microsoft: eerst gemak verkopen, daarna de duimschroeven aandraaien. Zeker als het niet alleen om prompts en output gaat, maar ook om codesnippets en context. Daar zit voor veel devs juist de gevoeligheid.

Persoonlijk vind ik Claude nog steeds mijlenver voor codewerk, vooral agentic. Die snapt vaker echt wat je probeert te bouwen in plaats van alleen losse snippets uit te spugen. Copilot is best bruikbaar voor kleine reviews en het spotten van slordigheden, maar qua “denk even mee en trek dit refactor-/implementatiepad door” vind ik Claude gewoon sterker.

Bottom line: wie Copilot gebruikt moet echt even die setting nalopen, want anders lever je straks gratis trainingsdata aan terwijl je ook nog abonnementskosten betaalt.
In GitHub Copilot (Enterprise) kun je ook verschillende modellen gebruiken. Claude Sonnet, Haiku, Opus zijn daar ook onderdeel van. Net zoals Gemini Grok en GPT (allen met verschillende versies)
Claude Opus 4.6 via een Github Copilot abonnement is echt de bom. Kost niks, kan alles.
Kost niks? Je gebruik is dan 3x hoger dan bij Sonnet 4.6. Oftewel 3x sneller door je verbruik heen.
klopt hoor. maar nog steeds een schijntje vergeleken met Anthropic of openrouter.
Ah, ja dat klopt. Daarentegen krijg je wel veel meer tokens/requests. Maar goed, 110 euro per maand voor een Claude Max abonnement is mij erg gortig.
De baas betaald het enterprise abbo. En dan heb ik zoveel requests dat ik het niet eens op krijg met prive gebruik erbij. Opus doet het wat harder gaan, maar het kost toch echt moeite.
Maar je betaalt per vraag, niet per token, dat is wel het mooie aan Github Copilot. Je kunt Opus flinke vragen stellen in een enkele prompt.

Ik gebruik meestal alsnog Sonnet, maar ik laat Opus gerust ratelen als ik een grote of lastige vraag heb.
Context en output limits zijn ook veel kleiner dan bij anthropic zelf.

https://models.dev
klopt. alleen bij anthropic (enterprise) en openrouter betaal je je helemaal scheel.
Volgens mij betaal je wel voor je Github Copilot abbonement, dus "kost niks" klopt niet helemaal :),.
Het gaat om elke gebruiker, of ze nu CoPilot gebruiken of niet. Ik heb nooit CoPilot gebruikt en moest alsnog opt-outen.
Het is altijd al zo geweest, als iets gratis wordt aangeboden dan ben jij het product waar aan verdiend wordt.


Zo krijgen ze waardevolle informatie: copilot stelde iets voor, de ontwikkelaar gebruikte het of paste het aan, met die response kan copilot weer verder worden getraind.
Ik vraag me nog altijd af waar CachyOS, Ubuntu Touch, lokale Nextcloud, etc. dan aan verdienen bij mij, want er staat standaard geen telemetrie aan. Maar het is wel “altijd al” gratis, dus ik móet wel het product zijn.
Donaties, sponsors en verkopen van abonnementen en support.
Die clubs verdienen geld met enterprise ondersteuning aanbieden.

Een bedrijf zal, zeker als het groter is dan bijvoorbeeld 10 mensen, eerder voor een enterprise versie gaan voor bijvoorbeeld NextCloud dan de gratis versie in verband met ondersteuning
Tja, als een bedrijf aandeelhouders hebben, is het doel winst en wordt alles uitgeknepen.

Voor stichtingen en hobbyisten is dat niet belangrijk.

Maareh, is Ubuntu Touch nog een ding?

Ik heb dat een tijd terug geprobeerd te installeren maar geen een van mijn oude telefoons zou dat volledig ondersteunen bij een aantal zou het werken 'behalve bellen' of een andere belangrijke feature.
Als jij GNU spullen gebruikt ben je ook niet het product. Het is niet altijd zo zwart/wit.
Nou ja, Koffercomputer stelde "Het is altijd al zo geweest, als iets gratis wordt aangeboden dan ben jij het product waar aan verdiend wordt."

En het is die stelligheid/tegeltjeswijsheid waar volgens mij Vivaldi op reageerde, pietsje cynical.

Dat wat jij nu Vivaldi uitlegt, had je misschien beter direct aan Koffercomputer kunnen vertellen :).
Je legt precies uit hoe het werkt - dus wat wil je nu zeggen?
En Pro- of Pro+-accounts zijn niet gratis.
Hoe kunnen ze dan nog aan mij verdienen als ik de feature uitschakel?
Over 3 jaar zie je een nieuwsbericht met “ooh het uitzetten van de optir werkte door technische redenen niet. Het spijt ons” en dan hebben ze toch aan je verdiend.
Zeer recent kwam in het nieuws dat copilot de maatregelen om te voorkomen dat het bepaalde data gebruikte negeerde. Foutje bedankt.
Het ging toen mij om een label dat je op bestanden kon zetten zodat copilot ze niet gebruikte.

Dus specifiek waar het copilot betreft is dit bepaald geen alu hoedje gedachte.
Het vind zeker niet de schoonheids prijs als Microsoft dit met CoPilot gedaan heeft.
Bij mij staat CoPilot als opt-in en vind ik het prima als ze mijn zoek tochten met co-pilot gebruiken om het te verbeteren.
Op het werk gebruik ik het niet gezien ik IP materiaal genereer en dit niet vertrouw.
Als Adje hinte naar die copilot geschiedenis , mag hij zeker hier de draak mee steken.
Op het werk gebruik ik het niet gezien ik IP materiaal genereer en dit niet vertrouw.
Wellicht begrijp ik je niet goed maar als jij zelf Co-pilot niet vertrouwd met IP materiaal, waarom steek je dan de draak met @adje123 ?
Dat wordt wel zo gesteld, maar dat is lang niet altijd waar. Er zijn ook heel wat gratis producten, die hopen dat je converteert naar een betaald abbonement. Ik heb zelf jaren geleden TransferXL gemaakt en daar doen we echt niets met je data. 1% van de gratis gebruikers converteert naar een betaald model met meer mogelijkheden en dat is het verdienmodel. De cookies die we gebruiken is puur voor analytische doeleinden (zowel technisch als commercieel). Zo willen we graag weten in welke landen het gebruikt wordt, zodat we weten welke talen we moeten ondersteunen.

Pas bij heel veel bezoekers wordt het interessant om echt data te vergaren lijkt me. Voor wat kleinere bedrijven kost dat meer dan dat het oplevert.
Dit was een van de redenen dat wij zijn gestopt met GitHub en over zijn gegaan naar Git on premise met Gitea. We waren niet geïnteresseerd in een mogelijkheid dat GitHub AI gaat trainen met onze projecten. Mochten ze bij GitHub ooit zo gek worden.


We zijn nu ook meerdere third party services aan het uitfaseren om over te stappen tot zelf gehoste open source alternatieven. Jira is de volgende waar we vanaf stappen.

[Reactie gewijzigd door Exodai op 26 maart 2026 09:52]

Wat jij maakte is dat dan niet open source? Ik wil het graag begrijpen want ik weet zeker dat je zelf wel ook naar AI grijpt om je problemen helpen op te lossen.
Inderdaad - bedrijven willen vaak wel de lusten maar niet de lasten. Gratis features en dan niet willen bijdragen is een veelvoorkomend probleem. Leechers! :)

[Reactie gewijzigd door michelr op 26 maart 2026 10:17]

Dit gaat niet om alles gratis te willen. Ook betaalde accounts krijgen hiermee te maken.

Deze bedrijven zuigen het internet leeg aan informatie. Copyright lijkt een woord dat steeds minder betekenis heeft bij deze bedrijven.

Sommige mensen willen nu eenmaal niet meewerken aan een product waar een ander bedrijf veel geld aan verdiend. Ik denk niet dat dat heel raar is.

We hebben jaren de push naar de cloud gehad. Daarbij is er een vertrouwen nodig dat jouw informatie prive blijft. Nu lijkt het er steeds meer op dat dit vertrouwen onterecht is.
tbh, ik gebruik copilot etc voor mijn werk en het interesseert geen hol dat ze onze code gebruiken. Uiteindelijk is die code niks anders dan een dom portal in een 1000 dingen doekje framework. Good luck met die code, maar we kunnen wel 3x zo snel op pad door snel features te implementeren (en ja, je moet alles nalopen)

Het verdien model zit echter in wat wij doen met die data (uiteindelijk een fysiek ding, waarvoor echt iemand op pad moet en handen moet 'vies maken', soms letterlijk. Dat is factureerbaar)

[Reactie gewijzigd door divvid op 26 maart 2026 11:34]

Ik vind het bijzonder dat er geen woord over copyright gesproken wordt.
Als je voorstelt om de muziek van miljoenen mensen te kopieren voor eigen gebruik dan is de wereld te klein. Als MS het voorstelt dan is het "ach ja, zo staat het in de EULA".

Copyright is op sterven na dood en AI gaat het nu permanent de das om doen. Copyright is er alleen nog om consumenten te verbieden om content te downloaden of te kopieren.

1. Grote bedrijven hoeven zich er eigenlijk niks van aan te trekken, zeker niet tegenover consumenten en kleinere bedrijven. Nadat copyright jarenlang steeds strenger en agressiever is geworden door die grote bedrijven slaat de houding helemaal om nu ze er zelf last van hebben.

2. Je kan vrijwel ieder werk laten namaken door AI zonder copyright te breken (nog niet perfect, maar dat is een kwestie van tijd). De grote bedrijven zullen dat het beste kunnen.

3. De wet is sowieso steeds minder relevant op internet. De meeste mensen hebben vooral te maken met EULA's. Dat zie je hier ook. Hoewel iedereen technisch gezien copyright heeft wordt dat recht effectief geschrapt met een paar regels tekst in de EULA (tenzij je zelf weer actie onderneemt).
Hetzelfde speelt al jaren op Youtube. Mensen klagen over hoe streng copyright is op Youtube maar ze beseffen niet dat de EULA van YT veel verder gaat dan wat copyright voorschrijft en je een flink deel van je rechten moet afstaan en Google min of meer het recht geeft om zelf te beslissen wie gelijk heeft. (Het hele systeem met strikes en monetizatie heeft niks met copyright te maken, dat zijn Googles eigen regels. Als je regels van de wet wil volgen zal je zelf naar de rechter moeten nadat je het proces bij Google hebt doorlopen).
De techreuzen hebben ongekend veel macht en maken hun eigen regels, maar dan zonder democratie, toezichthouders, volksvertegenwoordigers, politie of rechters. Ze hebben alle macht zelf in handen.
Je hele verhaal past in de eerste regel, copyright doet hier niets mee. Copyright wetgeving is niet geschreven met LLMs in gedachte. Als je hier iets aan wil doen moet je eerst dit veranderen.

Heb persoonlijk geen probleem er mee dat mijn code op github gebruikt wordt voor training van LLMs of wat voor ander doel dan ook.
Copyright van input training data is nog een beetje een ondergeschoven kindje. Als de models alleen trainen op input data waar geen copyright op rust of waar expliciet een "right to use" op zit, is er geen probleem. En bij veel sites die als input worden gebruikt (bv reddit, stackoverflow) staat ook in de voorwaarden dat je ze een "right to use" geeft op jouw content, ook al behoud je wel copyright op je eigen inbreng.

Het probleem met LLMs being "black boxes" plus de enorme hoeveelheid input data is dat achteraf lastig te controleren is welke bronnen precies zijn gebruikt bij een antwoord, al kun je er vergif op innemen dat bij het crawlen naar data ook wel copyrighted materiaal zit zonder right-to-use. Als een original creator dat hard kan maken (bv specifieke termen of informatie die een LLM niet elders kan hebben vergaard) dan zouden zowel de aanbieder als downstream gebruikers van dat model een probleem kunnen hebben.

In de praktijk is dat dus lastig, maar ik zou totaal niet verbaasd zijn als veel bedrijven al markers c.q. watermarks in hun content plaatsen om dat mogelijk in de toekomst alsnog wel te kunnen traceren. Het blijft natuurlijk wel freeloaden op andermans content/ideeën bij gebrek aan right-to-use, of er nou een AI laag tussen zit of niet, dus dat kan wellicht ooit nog een staartje gaan krijgen, mocht copyrightwetgeving nog eens gemoderniseerd worden.

[Reactie gewijzigd door johnwoo op 26 maart 2026 11:25]

Ik was er van overtuigd dat ze dit al lang deden. Aangezien alle code in de repos al langs is gebruikt als trainings data zijn de gesprekken de enige nieuwe data waar ze nog op kunnen trainen.
Ik denk dat ze het ook alang deden voor het maken van proof of concepts en misschien ook wel voor zaken die al in productie zijn. Ze willen nu misschien meer helderheid over hoe "besmet" die trainings dataset wel of niet is.
Dacht ik ook, aangezien de optie om dit "uit" te zetten allang bestond en ik die ook allang heb uitgezet.
AI moet continue bijleren - als iedereen deze functie uitzet werkt dat niet. Anders gezegd, als je deze functie uitzet, ga dan ook niet meer AI raadplegen tijdens het developen. Stick to your principles.
Zomaar een vraag;

Als ik met behulp van IA een programma maak, heb ik dan ook de rechten?
Of gaan die rechten naar de eigenaar van de AI dienst die ik heb gebruikt om het programma te schrijven.
Op output uit LLMs zit in principe geen copyright. Als jij dit wezenlijk transformeert tot iets anders heb jij copyright op die broncode.
Volgens mij is dit nog niet uitgevochten of voldoende uitgezocht, tenzij je referenties hebt die van toepassing zijn binnen Nederland of EU zou ik zo'n algemene verwoording nalaten.
Ja inderdaad er zijn geen rechtzaken over geweest, al te meer reden om er gewoon van uit te gaan dat er geen copyright op zit. Bang leven is ook een optie als je voor alles in je leven een weterschappelijk onderzoek vereist. source source source?
Ik weet niet waar die opmerking over 'bang leven' voor nodig is, maar goed. Inhoudelijk lijkt het mij verstandiger om hier niet te stellig over te zijn zonder bron of juridische onderbouwing, zeker als het juridisch nog niet vaststaat. Juist die stelligheid kan namelijk eerder overkomen als bangmakerij: zonder onderbouwing verkondigen dat er geen copyright op zit. En wat betreft 'source source source': het is redelijk normaal om van degene die de claim doet ook enige onderbouwing te verwachten.
In de e-mail aan gebruikers stelt GitHub dat deze nieuwe aanpak in lijn is met 'gevestigde industriestandaarden'.
Dat is inderdaad de industriestandaard zo veel mogelijk data graaien.
Beetje bedrijf heeft een opt-in. Zetten ze waarschijnlijk niet aan. De kleine bedrijven en privé gebruikers hebben opt-out. Denk je na, in het algemeen of specifiek hierover, zet je die wellicht uit. Maar de set aan trainingsdata is dus afgebakend.

Nu gaan we steeds meer coden met AI. Met name die privé gebruiker en kleine bedrijven. Want de grote bedrijven hebben weer intern beleid dat het niet mag. Anyway, die hebben toch de opt-in uit staan.

GitHub leert van de code die online staat. En gaat vervolgens met die kennis AI ondersteuning bieden aan programmeurs. Die code wordt weer gepusht naar GitHub. GitHub leert nu van code die het zelf (deels) heeft geschreven. Gaat daarmee adviseren. En de cirkel begint opnieuw.

Dan vraag ik me af, waar komen we dadelijk uit? Wordt de AI beter, gelijk of slechter?
En een andere vraag, misschien wel relevanter. Gaat GitHub leren om beter code te schrijven. Of gaat het ook ideeën herkennen en wellicht adviseren als anderen de juiste vragen stellen? Er staat namelijk "input, output, code en meer". Dat lijkt me nog best een risico.

Om te kunnen reageren moet je ingelogd zijn