Microsoft: we gebruiken Office-data niet voor trainen AI-modellen - update

Microsoft ontkent dat het gebruikmaakt van gegevens uit zijn Office-software voor het trainen van AI-modellen. Op sociale media meldden gebruikers dat een instelling het bedrijf daar mogelijkheden toe zou geven, maar het bedrijf zegt dat dat niet klopt.

Gebruikers op sociale media schreven over een instelling genaamd 'connected experiences', waarmee gebruikersgegevens uit Office-software gebruikt zouden worden voor het trainen van llm's. Daarbij werd ook verwezen naar een clausule in de serviceovereenkomst, die stelt dat Microsoft een wereldwijde, royaltyvrije licentie heeft om gebruikerscontent te gebruiken 'om de producten en diensten van Microsoft te verbeteren.'

Microsoft ontkent echter dat dit het geval is. Het bedrijf schrijft op sociale media dat het geen gebruik maakt van de data van Microsoft 365-klanten voor het trainen van llm's. "Deze instelling maakt alleen functies mogelijk waarvoor internettoegang nodig is, zoals het coauteurschap van een document." Er zijn ook connected experiences voor andere diensten, zoals het vertalen van teksten.

Update, 14.06 uur: Microsoft ontkent dat het gebruikersgegevens uit Office-software gebruikt voor het trainen van AI-modellen. Het artikel is hierop aangepast.

Door Andrei Stiru

Redacteur

26-11-2024 • 12:01

115

Submitter: Marc H

Reacties (115)

115
115
69
11
2
33
Wijzig sortering
Klinkt mij als een beveiligingslek about to happen. Data verwijderen nadat het al gebruikt is om AI-modellen te trainen, heeft weinig nut. Zover ik weet, is het onmogelijk om zulke data volledig uit een model te verwijderen. Onderzoekers hebben zelfs al aangetoond dat specifieke trainingsdata uit modellen kan worden geëxtraheerd.

Daarnaast is het bekend dat verkeerde informatie in een model niet zomaar gecorrigeerd kan worden. Een concreet voorbeeld is de zaak van Samsung, waarbij medewerkers onbedoeld bedrijfsgeheimen lekten naar ChatGPT. Of een journalist die werd beschuldig van zaken waarover hij zelf berichte omdat ie erover berichten https://nos.nl/artikel/25...nalist-van-kindermisbruik (dat krijg je er niet meer uit).

Dat het opt-out is in plaats van opt-in, is helemaal belachelijk. Hoewel het goed is dat gebruikers nu een opt-out kunnen doen, blijft dit een privacy-onvriendelijke aanpak.

Veel mensen, lees: bijna iedereen, zijn zich niet eens bewust van wat er allemaal opgeslagen wordt of hoe dat later gebruikt kan worden. Wat gebeurt er met data die al verwerkt is? Het lijkt mij totaal onwaarschijnlijk dat die achteraf volledig uit een model kan worden verwijderd, waardoor het risico op datalekken nooit 0% zal zijn.

Je kunt bijvoorbeeld in normale chats met ChatGPT meteen zien dat een ie het "onthoudt" (een melding met opgeslagen in geheugen) en dat direct aanpassen of verwijderen mocht je dat niet willen. Maar in een complexere context zoals een Word- of Excel-document? Ga jij na een werkdag alle data nalezen om te zien wat je onbedoeld gedeeld hebt? Hoe snel wordt het verwerkt? ben je dan mogelijk al te laat? Dat lijkt me onpraktisch en een recept voor problemen.

Edit: @TV_NERD TV_NERD in ''Microsoft gebruikt gebruikersdata uit Word en Excel voor AI-training' - update' Voor dit bericht blijkt de vork dus toch anders in de steel te zitten, gelukkig maar. Maar, in het algemeen ,aakt de gevaren niet minder mocht een bedrijf dit toepassen maar gelukkig dus niet zao.

Bron, zie ook:
nieuws: OpenAI stelt Advanced Voice Mode voor ChatGPT beschikbaar in de EU
nieuws: OpenAI geeft ChatGPT-gebruikers optie om chatgeschiedenis uit te zetten

[Reactie gewijzigd door jdh009 op 26 november 2024 13:36]

@Andrei Stiru
Microsoft beweert in een reactie op dezelfde tweet dat dit onjuist is overigens.

https://x.com/Microsoft365/status/1861160874993463648

Misschien aardig om in het artikel te verwerken.
Even het bericht op X quoten zodat je niet per se naar een externe link moet gaan om het te lezen:
In the M365 apps, we do not use customer data to train LLMs. This setting only enables features requiring internet access like co-authoring a document.
Deze reactie werd ondertussen toegevoegd aan het artikel op Tweakers maar toch spreekt het bericht nog over het trainen van Microsoft's LLM met gebruikersdata.

[Reactie gewijzigd door Admiral Freebee op 26 november 2024 13:39]

Het is nogal triest, de setting is niet nieuw en te vinden in screenshots van Office 2007/Office 2010. Heeft altijd aan gestaan, er is 1 iemand, welke eerder FUD heeft verspreid over Microsoft die tweet dat het met AI te maken heeft. Microsoft zegt "is niet zo" Microsoft medewerkers onder de tweet leggen uit waarom het niet zo is, inclusief links naar de documentatie en toch laat @Andrei Stiru het artikel online staan.
Dat is wel een belangrijke nuance ja. We hadden de reactie in het artikel verwerkt als tussenstap, en zijn daarna aan de slag gegaan om het artikel te herschrijven in het kader van die reactie. Die versie staat nu live, inclusief gewijzigde kop en een update onderaan het artikel waarin die wijziging kenbaar is gemaakt. Dank voor het opmerken en de tags!
Ondanks dat het initiële artikel misschien niet klopt is het niet handig om het artikel en de titel volledig aan te passen en wel zodanig dat de meerderheid van de comments nergens meer op slaat. Misschien moeten we het artikel op -1 downvoten maar laat de inhoud intact, desnoods met een update onderaan zoals wel vaker gebeurd. Erg slecht dit!
Ik hoop eigenlijk stiekem dat ChatGPT het originele artikel al heeft opgepikt... :+
Wel vreemd dat Microsoft's eigen Copilot na enig doorvragen met het volgende antwoord komt:

Is user input provided to OPTIONAL connected experiences retained or used to improve Microsoft's services ?
Copilot
Yes, when you use optional connected experiences in Microsoft 365, the data collected may be retained and used to develop, train, and improve Microsoft's AI models and services. This can include content such as documents, emails, and other user inputs that interact with these optional features.
These experiences are designed to enhance functionality and provide personalized results, but you always have control over whether to enable or disable them.
For more detailed information about data handling practices and privacy, you can refer to Microsoft's privacy statement. If you have any more questions or need assistance with managing these settings, just let me know!
Dit betekent echter niet veel. LLMs hallucineren, ze geven antwoorden die statistisch gezien goed uit de berekening komen, maar of deze antwoorden correct zijn is een tweede.
Dan gaan we een "mooie" toekomst tegemoet, gebaseerd op halucinaties en onwaarheden, omdat zulke AI dingen stilaan overal gaan ingezet worden.
Ze worden ondertussen zelfs door rechters en artsen gebruikt.
Klinkt mij als een beveiligingslek about to happen. Data verwijderen nadat het al gebruikt is om AI-modellen te trainen, heeft weinig nut. Zover ik weet, is het onmogelijk om zulke data volledig uit een model te verwijderen.
Dan is de oplossing simpel: gehele model verwijderen.
Is er geen plugin die een lul verhaal kan typen waarbij Microsoft van fraude, het faciliteren van kinder misbruik, diefstal, moord etc. beschuldigd wordt?
Dat dan 300x uittypt en opslaat en 24 uur later de bestanden opschoont.
Misschien ook nog een paar documenten voor het raad van vestuur van OpenAI?

Ik denk dat ze zich dan hard achter de oren gaan krabben.
Een soortgelijk iets gebeurt ook met AI kunst iirc. daar hebben ze ook een plugin gemaakt die een watermerk aan adobe projecten toevoegt die hun ai probeert te vergiftigen met elementen die als mens niet zichtbaar zijn, maar een ai wel op pikt.
De connected experiences kuinnen een beveiligingslek vormen, alleen zijn ze niet nieuw maar zitten ze al jaren in MS Office en Microsoft medewerkers mogen nu dus overal gaan ontkennen dat deze gebruikt worden om AI mee te trainen.

Er hangt te veel aan die connected experiences vast om daar ook maar even de opt-out van AI training van te maken.
Het lijkt wel of je de noodklok luidt over iets wat inderdaad zorgelijk klinkt. Maar laten we even de zaken op een rijtje zetten, want er zijn wel wat nuances die we niet moeten vergeten:

1. Je zegt dat het weinig nut heeft om data te verwijderen nadat het gebruikt is voor AI-training omdat het niet volledig uit een model weg te halen is. Maar, het is niet helemaal zwart-wit. Er zijn slimme manieren om de invloed van die data te verminderen, zoals door te werken met 'differentiële privacy' of modellen te 'ontleren' wat ze van specifieke data hebben geleerd. Dus, al is het niet perfect, er zijn maatregelen hiervoor.

2. Het incident bij Samsung waar je naar verwijst, toont wel aan dat we voorzichtig moeten zijn. Maar, het is niet alleen maar kommer en kwel. Bedrijven kunnen ook AI opleiden om gevoelige info te herkennen en te stoppen. Het gaat om het slimmer maken van systemen, en mensen beter informeren over hoe ze met AI om moeten gaan.

3. Opt-out, tja, opt-out is misschien niet ideaal als je privacy als hoogste prioriteit hebt, maar het is wel een stap vooruit. Denk maar aan de hoeveelheid data die we nu al delen zonder dat we er echt bij stilstaan. Opt-out geeft mensen tenminste de keuze om te zeggen 'nee, ik wil niet dat mijn data hiervoor gebruikt wordt'.

4. Je hebt een punt dat niet iedereen zich bewust is van wat er met hun data gebeurt. Maar, er zijn bedrijven die het beter proberen te doen door mensen te informeren en te onderwijzen over hun privacy. Als je je er niet van bewust bent, is het ook een beetje aan jezelf om je te verdiepen in wat je deelt.

Het klinkt als een nachtmerrie om na je werkdag alles na te lezen op wat je misschien per ongeluk hebt gedeeld. Maar technologie kan ons hierbij ook helpen. Denk aan tools die automatisch op de uitkijk staan voor gevoelige info, of systemen die standaard al privacybeschermingen hebben ingebouwd.

Dus ja je hebt gelijk om je zorgen te maken, maar er is ook hoop. We zijn 'm.i. op de goede weg met innovaties en nieuwe methodes om onze privacy te beschermen terwijl we gebruik maken van AI. Het is een beetje als autorijden, er zijn risico's, maar we nemen maatregelen om zo veilig mogelijk te rijden. Het gaat om het vinden van die balans.
het gaat over customer data toch, niet de inhoud van documenten, maar verder heb je natuurlijk gelijk
Een model kunnen ze opnieuw genereren, kost alleen veel rekenkracht. Maar ik denk dat dat een groter business model is voor deze generatie AI tools dan de AI tools zelf, goede, opgeschoonde en neutrale trainingsdata. Daarom zijn zoveel partijen - waaronder o.a. Reddit, Photobucket, maar nu dus ook Microsoft - bezig om hun user-generated content zodanig te licensen dat ze het kunnen inpakken en verkopen aan de hoogste bieder.

Tien jaar geleden zeiden ze al dat data waardevoller was dan olie - gekke vergelijking natuurlijk - maar met deze tools is het alleen maar meer waardevol geworden.
De link naar Samsung gaat eigenlijk niet over het kunnen terughalen van die informatie, maar over het feit dat confidential data aan de US gegeven is. (en dus leaked is) De realiteit is echter dat er helemaal niks geleaked is, tenzij OpenAI dat zou ingekeken hebben.
Toch even een tegengeluid geven hier. Ik vind het heel eenvoudig om te zeggen, zonder enige onderbouwing of bewijs, dat Microsoft deze data gebruikt om hun AI modellen mee te trainen. Dat kan je sowieso uit die gebruikersovereenkomst niet opmaken.

Connected experiences zijn ook niet nieuw en zijn ook niet "recent" door MS ineens aangezet. Deze maken al meerdere jaren deel uit van Office en zorgen er onder andere voor dat je in Outlook die "suggested replies" krijgt of wanneer Word voorstellen doet om je zinnen of woorden af te maken. Dat zijn allemaal zulke ervaringen. Een overizcht kan je vinden op: https://learn.microsoft.c...acy/connected-experiences

En ja, voor vele van die handigheidjes ben je dan weer afhankelijk van het versturen van data naar de cloud diensten. Wil je bij een adres of coordinaten dat kaartje zien in die email om na te gaan waar het is? Dat vereist dat die data naar de cloud wordt gestuurd, anders heb je geen kaartje. Wil je een document naar je Kindle sturen? Dan moet je die data wel mogen versturen. Maak je gebruik van safelinks? Dan moet de originele link wel naar MS gestuurd mogen worden.

Tweakers is ook selectief in het quoten van die gebruikersovereenkomst:
b. Voor zover noodzakelijk om de Diensten aan u en anderen te leveren, om u en de Diensten te beschermen en om de producten en diensten van Microsoft te verbeteren, verleent u Microsoft een wereldwijde en royaltyvrije intellectuele eigendomslicentie voor het gebruik van Uw Inhoud, bijvoorbeeld, om kopieën te maken van Uw Inhoud of om Uw Inhoud te bewaren, verzenden, anders in te delen, te distribueren via communicatiemiddelen en weer te geven op de Diensten.
Deze bepaling op zich is ook niet nieuw en dit artikel gaat ook verder door te zeggen dat als je zelf bestanden publiek deelt, met heel de wereld dus, dat je daarmee MS ook toestemming geeft om die bestanden te mogen gebruiken in demos en advertenties. Iets wat hier in het verleden ook al eens op Tweakers is voorbijgekomen geloof ik.

Daarnaast heeft MS ook gewoon dat recht op uw werk nodig, anders hebben zij niet eens het recht om je bestanden op te slaan in OneDrive bijvoorbeeld.
Er moet even een duidelijk onderscheid worden gemaakt tussen optionele diagnostische data en de "connected experiences". Ik heb onder de X-post van nixcraft een toggle laten zien hoe in MacOS (Word => Preferences => Privacy) de optionele diagnostische gegevens verzending uit te schakelen. Hierin staat duidelijk vermeld:
Optional diagnostic data

Optional diagnostic data is data you can choose to provide, this data helps us make product improvements and provides enhanced information to help us diagnose and fix issues. For example, learning how long it takes a thumbnail version of a PowerPoint slide to render so we can improve the performance of that feature.
Optional diagnostic data may also be used in aggregate to train and improve experiences powered by machine learning, such as recommended actions, text predictions, and contextual help.
If you choose to send optional diagnostic data, it is collected in addition to required diagnostic data.
Optional diagnostic data requires your consent, and you may enable it while installing and setting up Microsoft 365, or later by visiting the Account Privacy settings of any Microsoft 365 app.
https://support.microsoft...d?ui=en-us&rs=en-gb&ad=gb
Connected experiences zijn dus iets anders dan de optionele diagnostische data die verzonden wordt.
Oops, verkeerd gelezen

[Reactie gewijzigd door CoenRan op 26 november 2024 12:46]

Deze bepaling op zich is ook niet nieuw
Precies.
Allemaal geschokte en verbolgen reacties hier over iets dat al jaren gebeurt en echt niet alleen bij Microsoft.
De titel van dit artikel staat ook niet voor niets tussen aanhalingstekens.
Het is een mening van een 'X-gebruiker'. M.a.w. flame voor internetpunten waar alle schaapjes weer mee aan de haal gaan.
Beetje vreemd van Tweakers om dit soort flamebait zo te publiceren aangezien ze 'ongefundeerde opinies' bij andere relevante onderwerpen juist lijken te mijden.

Internetbedrijven zijn niet braaf. Ze doen wat ze willen zolang daar geen duidelijke regels voor opgesteld zijn en zullen daar zo min mogelijk inzicht in willen geven.
En hoe sneller de ontwikkelingen gaan, hoe verder de regelgeving achter loopt.
Het is als gebruiker ook lastig om bepaalde ontwikkelingen wel te willen, maar daar bepaalde dingen voor op te moeten geven gaat te ver.
Zolang het toegestaan wordt zal Microsoft vast houden aan het alles of niets principe en gebruikers geen enkele nuance bieden in wat je wel en niet wilt delen en met wie.
Onder de privacywetgeving is het bedrijf verplicht om duidelijk te zijn of en wanneer er persoonlijke gegevens verwerkt worden en voor welk doel. Het lijkt me hier vooral bewezen dat die voorwaarden zelfs voor meer gevorderde gebruikers veel te onduidelijk zijn over wanneer het bedrijf gegevens verwerkt. Daarbij is in de afgelopen jaren meerdere keren gewezen dat voorwaarden in veel situaties volstrekt onvoldoende uitleg zijn. Juist omdat ze te vaag zijn over wat er in de praktijk precies wel en niet onder valt. En waarbij gebruikers ook zeer slecht geïnformeerd worden over nieuwe en gewijzigde de instellingen in de praktijk. De vaagheid is dus vooral het bedrijf aan te rekenen. En hoewel we het dan te simpel kunnen noemen dat gebruikers conclussies trekken dat het bedrijf gegevens op een ongewenste manier verwerkt zijn dat wel conclussies die veiliger zijn dan maar net doen alsof het bedrijf er zorgvuldig mee om gaat of het beste met de gebruikers op heeft naast hun eigen belangen.
Royaltyvrije intellectuele eigendoms licentie

Dat is juist hetgeen waar het om gaat. Voor opslag heb je een verwerkersovereenkomst, voor samenwerking idem (namelijk opslag). Voor LLM suggesties heb je wederom diezelfde verwerkingsovereenkomst. Voor support (voor zover MS dat levert), stuur je individuele documenten op waarvan de schrijver eventuele redacties heeft uitgevoerd en wederom beperkingen die opgelegd zijn in de verwerkingsovereenkomst.

Een wereldwijde, royaltyvrij licentie in elke context is simpelweg fout. Al helemaal om diezelfde claim te gebruiken in een brede statement van "diensten verbeteren". Demo? Nee! maak maar zelf iets. Advertentie? Wees niet lui en maak zelf iets!

De noodzakelijkheid zou zeer expliciet moeten worden benoemd en niet globaal. Het gegeven voorbeeld van distributie/kopieen heeft geen enkele relatie met het verbeteren met de diensten. Er wordt hier te eenvoudig overheen gelezen en geaccepteerd.
Persoonlijk zou ik het ontbreken van een hoop van die functies die je aanhaalt niet missen. Niet ten koste van privacy / vertrouwelijkheid, al helemaal in een zakelijke omgeving.
Dat de connected services al lange tijd bestaan, betekent toch niet dat daar niets in veranderd is? Bij diverse services (zoals Analyze Data en Editor) wordt daar tegenwoordig AI voor gebruikt
Nepnieuws. Connected experiences worden niet gebruikt voor AI-training.

Connected experiences voeren activiteiten uit buiten de Office API. Bijvoorbeeld wanneer je een document in Word vertaalt, dan gaat dit via de Translate API. Of wanneer je in Teams Giphy gebruikt, heb je interactie met een niet-Microsoft API (Giphy behoort tot Meta).

Het heeft niets te maken met het trainen van AI modellen, in welke aard dan ook.
Inderdaad, lijkt hier vandaan te komen. Geen enkele bronvermelding en ook geen zichtbare kwalificaties die het vertrouwen wekken dat ze weet waar ze het over heeft.

Maar het duid wel op een echt bestaand probleem:
Er is wat Microsoft mag doen.
Er is wat Microsoft kan doen.
Er is wat Microsoft doet.
Er is wat Microsoft vertelt dat ze doen.
Er is wat Microsoft moet vertellen dat ze doen.
En uiteindelijk is er een gebruiker die moet weten en begrijpen wat er echt gebeurt.

Die onduidelijkheid, zeker voor de gemiddelde gebruiker, is waarom dit viral gaat en emoties oproept.
Dus nepnieuws, maar het goede eraan is dat het hopelijk ogen opent voor waar we allemaal zomaar mee akkoord gaan tegenwoordig.
Als je een document vertaald in Word gaat dat via Azure AI Translator. 1 van de redenen dat sommige bedrijven deze dienst (maar ook bv Google Translate) niet toestaan
Nope. Vertalen gaat via de Microsoft Translator API, wat tegenwoordig onderdeel is van Azure Cognitive Services.

[Reactie gewijzigd door MaZo op 26 november 2024 15:25]

Hier staat toch echt wat anders:
Build your solutions using a production-ready translation engine that has been tested at scale, powering translations across Microsoft products such as Word, PowerPoint, Teams, Edge, Visual Studio, and Bing.
Dit is wel erg slecht, en dan nog ook nog onder "optioneel verbonden ervaringen" noemen zodat het de standaard gebruiker niet opvalt. Ik ga even kijken of dit standaard in de tenant geblokked kan worden want dit willen we gewoon niet..
Ja, Connected Experiences kun je blokkeren in M365 Apps Cloud Policies. Nadeel is dat deze set "optional connected experiences' meer omvat dan enkel deze AI-training functie, dus je hebt kans dat gebruikers gaan klagen dat sommige dingen niet meer werken.

Microsoft zou er goed aan doen meer granular controls toe te voegen aan Connected Experiences.

https://learn.microsoft.c...nal-connected-experiences
Tja, dat doen ze natuurlijk bewust niet.
Want klagende gebruikers zorgt ervoor dat IT gedwongen wordt overstag te gaan.
Volgens mij mis je niet heel veel als dit uitstaat. Geen schokkende dingen als ik het zo lees. Correctie als bedrijf zijnde is dit wel ruk.

[Reactie gewijzigd door TheDudez op 26 november 2024 12:38]

Typisch Microsoft: gebruikers om de tuin leiden met wollig taalgebruik en dark patterns.

Toevoeging (14:27): dit keer klopte de berichtgeving misschien niet, maar Microsoft heeft wel een handje van dergelijke acties.

[Reactie gewijzigd door Commendatore op 26 november 2024 14:28]

Een ander dark pattern: als je deze privacy-opties uitschakelt, gaan daarmee automatisch ook de OneDrive-koppeling en autosave-optie uit.

Je vertelt ons exact wat je met onze software doet, of we maken het een stuk minder bruikbaar.
Een ander dark pattern: als je deze privacy-opties uitschakelt, gaan daarmee automatisch ook de OneDrive-koppeling en autosave-optie uit.
Kun je bewijzen dat dit zo is?
Als dat het geval is, voor privé of zakelijk, is dat wel een hele ernstige keuze, want autosave is een veel gebruikte functie met OneDrive.
Bijvoorbeeld hier: https://answers.microsoft...fc-4107-a7a4-f0d827214b48

Dan kun je enkel documenten openen vanaf het lokale (naar OneDrive gemapte) pad, maar niet automatisch laten opslaan. OneDrive-links werken dan ook niet meer.

[Reactie gewijzigd door CodeCaster op 26 november 2024 14:08]

Dank hiervoor.
Dat is een mooi voorbeeld dat je daar aanhaalt. En tegelijkertijd schokkend dat er zulke toestemmingen gegeven moeten worden voor zo'n essentiële functie. Want je hebt al toestemming gegeven voor toegang tot OneDrive door de koppeling die je gemaakt hebt en het gebruik ervan. Dat Microsoft dan de noodzaak ziet om een dergelijke functie uit te schakelen, is behoorlijk schokkend.
Jouw link onderbouwd dit verhaal goed, en laat zien dat dit wel degelijk geen lullig vinkje is in een grote lijst van privacy "functies".
Idd slecht maar meer door de schrijven omdat ze connected expiriances heel anders omschrijven dan waarvoor het aan staat en nodig is.

Dit zijn je auto correct, DLP, copilot etc integraties die via apis geraadpleegd worden en al jaren aan staan en in het product zitten.
heftig, ik zie een heel stadion vol boze ISO's voor me. Bij mijn vorige werkgever was dit een stevig gesprek met de MS vertegenwoordiger worden.

[Reactie gewijzigd door fenrirs op 26 november 2024 12:08]

zie een heel stadion vol boze ISO's voor me
Ik hoop echt dat Microsoft dit niet aan durft te zetten bij bedrijven, en dit alleen bij Home & Education-edities standaard aan gaat staan.
edit:
I stand corrected en ben verbaasd over het gebrek aan gêne van Microsoft

edit:
Gelukkig geeft mIcrosoft in een reactie aan dat ze het niet voor AI-training gebruiken. Ze hebben slechts het recht dit te doen.

[Reactie gewijzigd door 84hannes op 26 november 2024 13:49]

Natuurlijk staat dit standaard aan. Anders heb je bijv. geen OneDrive/SharePoint integratie. De connected experiences bevatten letterlijk alles waarvoor een internet verbinding vereist is.

Maar wat het niet is, is een opt-out voor AI training daar MS de data van Office apps niet gebruikt voor het trainen van hun LLMs. Dit is gewoon iemand die deze optie tegen is gekomen, niet weet wat het is, geen onderzoek heeft gedaan, maar wel anderen gaat adviseren om het maar uit te zetten.

Ik hoop dat systeembeheerders slimmer zijn dan dat en wel het nodige opzoekwerk doen voordat ze iets als dit uitzetten in een organisatie.
Ik heb het net gechecked, het staat gewoon aan (bedrijfs tenant). Dus dit staat voor bedrijven dus schijnbaar ook al aan.

Check zelf ook even in Word of Excel de bovengenoemde stappen, je zult zien dat het vinkje gewoon aanstaat.
Bij mij staat het uit (ook bedrijfs tenant).

Wanneer ik het aanvink komt er een melding dat als ik dit doe sommige ervaringen niet meer beschikbaar zijn voor mij.

Dat wil ik natuurlijk niet dus laat het maar uitgevinkt. :o

[Reactie gewijzigd door Mit-46 op 26 november 2024 14:43]

Want consumenten en studenten mag je wel gewoon naaien?
Want consumenten en studenten mag je wel gewoon naaien?
Is dat niet een beetje het business model van bedrijven als Microsoft? Zorgen dat mensen als kind (thuis), scholier en student kennis maken met hun software zodat ze als ze gaan werken niets anders meer kunnen gebruiken? Daarom vragen ze relatief weinig geld aan thuisgebruikers en studenten, zodat die ook meer pikken.
Daarom al in het onderwijs bewust maken dat er alternatieven zijn.
Voor onze organizatie met Volume Licences van Office Pro Plus zie ik dat die optie standaard actief is. Ik kan de optie "connected experiences" enkel volledig uitschakelen, niet enkel het trainen van AI. Dus dan stoppen andere gebruikte features ook met functioneren.
Net gecontroleerd in Word: de optie is er en staat aan.
Mag hopen dat je het als bedrijf niet uit zet gezien de connected expiriance onderdeel is van purview om bijvoorbeeld MPIP en DLP correct te laten werken.
Stond wel degelijk aan in mijn zakelijke omgeving met data opslag in de EU, blergh.
Tja, ondertussen zou toch duidelijk moeten zijn wat de cloud is, hoe de cloud werkt, en welke prioriteiten de Cloud giganten hebben (hint: jij bent niet de prioriteit).

Dit wetende is het wel erg naïef om zeer kritische/gevoelige data uit handen te geven aan zo'n cloud gigant. En daar valt ook de gemiddelde office werkplek onder tegenwoordig.
Wow, dit soort praktijken zou eigenlijk bij de wet verboden moeten worden. Opt-in, prima, maar geen opt-out.
Ze zijn bij wet verboden, omdat Microsoft van tevoren niet kan weten of er persoonsgegevens verwerkt worden op die manier, en daar maar heel weinig info over geeft (welk deel van de wereld, hoe lang opgeslagen, met wie gedeeld etc).
Maar begin jij als mkb-tje of zzp-er maar eens te vechten tegen Microsoft. Boeit ze geen drol als je je licentie opzegt.
Bij de ombudsman of Autoriteit Persoonsgegevens melden. Collectief ben je sterker.
Voordat je dat voor elkaar hebt ben je echt jaren verder. Schiet je niks mee op.
Als bedrijf kun je het niet weten, maar je kunt er wel van uitgaan dat mensen persoonlijke gegevens in teksten zet. Als het al verboden is, dan zou het bijzonder raar zijn als er geen handhaving is. Het is niet een niche product wat maar door een paar mensen wordt gebruikt.

Ik werk als arts en verwerk soms ook persoonsgegevens en gevoelige medische gegevens in Word-documenten.

EDIT: ah, ik zie dat het artikel is aangepast. Wel zo fijn.

[Reactie gewijzigd door honey op 26 november 2024 14:56]

Dit is ook bij wet verboden, want hier kunnen natuurlijk net zo goed persoonsgegevens bij zitten. Zolang je niet expliciet toestemming geeft dat die gegevens gebruikt mogen worden voor dat doel, mag dat ook gewoon niet.
Er zijn meer grondslagen dan (expliciete) toestemming. Jaja allerlei nuance in hoeverre MS zich op gerechtvaardigd belang kan beroepen maar dat haal ik totaal niet uit jouw reactie.
Kweenie - zou een wet echt helpen denk je?

Ik gok dat MS365 draait bij meer dan 90% van de bedrijven en bevolking wereldwijd.
Microsoft accepteert gewoon het risico van mogelijke claims en boetes.
Immers - de opbrengst is een veelvoud van die claims en boetes.

Bovendien - de pakkans is niet zo heel groot - laat staan schuldig bevonden worden en daadwerkelijk claims/boetes moeten betalen.

Dat zou waarschijnlijk anders worden als de bewijslijst omgekeerd zou worden.
Dus ja - Microsoft is schuldig totdat anders is aangetoond.
Idealiter inclusief een voorlopige(?) boete die binnen 90 dagen betaald moet zijn.
Het is niet bij wet verboden en dat hoeft ook niet. Maar als je persoonsgegevens verwerkt, moet je wel aan een aantal voorwaarden voldoen. Grondslag, doelbinding etc. maar daar weten de juristen van Microsoft wel raad mee. Maar, transparantie is ook zo'n voorwaarde... altijd lastig... weten gebruikers dat hun gegevens verwerkt worden, kunnen ze dat redelijkerwijs verwachten? Is Microsoft hier proactief transparant over (in begrijpelijke taal)?
Alle bedrijfs- en staatsgeheimen in handen van de Amerikanen. Met zo'n bondgenoot heb je geen vijanden nodig.
Nee veel beter, je kunt straks aan ChatGPT vragen om gevoelige bedrijfsdata van elk bedrijf wat werkt met Microsoft.
En met het bericht van gisteren dat de NL overheid cloudstrategie is: 't is goedkoop, dus gaan we over hoeven we straks niets meer te WOB'en maar kunnen we gewoon vragen wat de minister SMS'de om 12 uur 's nachts naar een leverancier. Win-win zeg ik! :+
Waarschijnlijk is dit een proefballon. Mijn verwachting is dat er een heleboel kritiek komt en dat Microsoft over een paar dagen zegt dat de standaardinstelling een fout was en het opt-in had moeten zijn.
Nee zit er al jaren in en aan bij default. Is ook heel veel documentatie over beschikbaar en niet iets nieuws.
Ik begrijp dit niet helemaal en kan het ook niet teruglezen in de documenten. Van wat ik kan lezen maakt Copilot (indien aanwezig) gebruik van deze setting om te werken. Maar ik lees nergens terug dat Microsoft content uit Word en Excel documenten gebruikt om eigen modellen te trainen. Naar ik heb begrepen wordt Copilot alleen "getraind" door het standaard LLM van OpenAI te pakken en daar tenant specifieke "hoofdprompts" aan mee te geven. De data gaat de organisatie ook niet uit. Klopt dit wel?
Klopt, volgens mij een voorbeeld van iemand roept iets en we nemen het klakkeloos over zonder in te lezen. Er staat nergens dat deze connected services worden gebruikt voor AI training.

Microsoft heeft al eerder op gereageerd:

In the M365 apps, we do not use customer data to train LLMs. This setting only enables features requiring internet access like co-authoring a document.

Op dit item kan niet meer gereageerd worden.