Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Europese Commissie wil dat bedrijven trainingsdata AI bewaren

De Europese Commissie wil dat bedrijven en onderzoekers data over de training van kunstmatige intelligentie en in sommige gevallen hele datasets gaan bewaren. Dat moet het mogelijk maken om achteraf na te gaan waar een foute beoordeling vandaan is gekomen.

De regel om data te bewaren staat als voorstel in een whitepaper over kunstmatige intelligentie die de Europese Commissie woensdag online heeft gezet. "Deze eisen laten in essentie toe om problematische acties of beslissingen van AI-systemen achteraf te verifiëren", zo staat in de whitepaper. "Dit laat niet alleen toezicht en handhaving toe, maar het zet de maker van de AI-systemen er mogelijk ook toe aan om rekening te houden met de regels rond AI."

Zo moeten bedrijven en onderzoekers een beschrijving van de data kunnen geven en omschrijven hoe die is geselecteerd. In sommige gevallen moeten ze zelfs de hele dataset kunnen overhandigen. Er moeten meer maatregelen komen om kunstmatige intelligentie op een verantwoorde manier te ontwikkelen, waaronder menselijk toezicht op AI-systemen.

De whitepaper over kunstmatige intelligentie maakt deel uit van de plannen van de Europese Commissie voor data en kunstmatige intelligentie. Het gaat nog niet om concrete voorstellen, maar om principes waaraan die voorstellen moeten voldoen. Daarbij richt de Commissie zich er vooral op dat technologie te vertrouwen moet zijn.

Door Arnoud Wokke

Redacteur mobile

19-02-2020 • 17:58

47 Linkedin

Reacties (47)

Wijzig sortering
Ik zie hier twee tegenstrijdige belangen. Aan de ene kant heb je GDPR en aan de andere kant je AI trainen op data. Data kan van alles zijn zoals wetenschappelijke data, data vergaard van consumenten en etc. Grote organisaties trainen vaak hun data welke verkregen is van en door consumenten. Om uiteindelijk input data te bewaren, betekent ook dat GDPR aangepast zal moeten worden of in ieder geval een uitzondering gemaakt worden
+1, alleen het recht om vergeten te worden dan al. Hoe ga je dat in hemelsnaam bewerkstelligen? Ik voorzie een regeltjes nachtmerrie
Dus je bent bang voor teveel 'regeltjes'? Je bent dus niet bang voor bedrijven die data over jou bewaren en gebruiken om daar geld mee te verdienen?

En je bent al helemaal niet bang om straks slachtoffer te worden van AI, zonder dat kan worden uitgelegd waarom? Vergis je niet, je wordt straks beoordeeld of je bv op een sollicitatiegesprek mag komen door een AI-getraind algoritme. Als je dan niet mag komen, vind je het niet nodig dat een bedrijf je uitlegt waarom?

Als we het zover laten komen leer jij dus niks meer, want je wordt nooit meer gewezen op je fouten. Je wordt alleen op mysterieuze wijze nooit meer ergens voor uitgekozen. Prima zaak, deze wet. Bedrijven en instanties moeten ten allen tijde kunnen uitleggen waarom ze bepaalde keuzes hebben gemaakt.
Ik kan dus straks niet meer vergeten worden wat mijn privacy schaad. Ik ben bang dat het woud van regels die hier voor nodig is niet meer te interpreteren valt. Ik vrees dat jij en ik hetzelfde bedoelen vanuit een ander oogpunt.
Je bedoelt dat het mogelijk moet zijn om specifiek _jouw_ data te verwijderen uit een AI dataset? Ja, dat kan ook nog best lastig worden inderdaad...
In sommige gevallen kun je nu al niet meer vergeten worden. GDPR is alleen van toepassing als het recht om vergeten te worden niet in strijd is met andere regels. Een bedrijf die je info heeft staan op een invoice kan die invoice anonimiseren of vernietigen, want dat is in strijd met de wetgeving rond BTW.

Kortom, de zorg die je hebt, bestaat nu in wezen al.
Als regulier bedrijf ben je alleen verplicht om de gegevens van de klant in je financiele administratie te bewaren bij een verwijder verzoek. Je bent wel verplicht de informatie van de klant uit je overige CRM te halen!

Zelfs de facturen welke in de CRM systemen staan, moet je verwijderen, want alle facturen dienen ook je je financiele administratie te staan en anders dien je ze te verplaatsen van de CRM systeem naar het administratie systeem. Dat kan bijvoorbeeld ook betekenen dat je de factuur uitprint en in een multimap bewaard in een archief kluis en daarna verwijderd uit je CRM systeem.

En bij een verwijder verzoek ben je verder verplicht alle gegevens te verwijderen van de klant welke niet van toepassing zijn op de financiele administatie. Hierbij moet je bijvoorbeeld denken aan BSN, telefoonnummer of emailadres..

Het AP treedt vooralsnog niet echt op tegen overtredingen van de AVG/GDPR, maar over een paar jaar zal dat (hopelijk) anders zijn. Hoewel de AVG zeer complex is, is het op zich een goede wet. Het is vooral de handhaving en de relatief lage boetes welke ten wensen over laat..

Daarnaast is het gewoon goed dat men nadenkt over hoe om te gaan met vooral zelflerende systemen. Daarnaast zou het ook niet misstaan dat men alleen gegevens van de afgelopen 36 maanden mag gebruiken voor trainingssets en dat bedrijven zijn om regelmatig de systemen volledig opnieuw te trainen..
Het zal sowieso erg lastig worden om uit te leggen waarom een AI een bepaald besluit heeft genomen.

De AI werkt met een ingewikkeld algoritme, gebruikt waarschijnlijkheid en is niet voorzien van logische regels maar is getraind met data.

Wat ik verder niet begrijp is dat de training data bewaard moet worden. Maar zonder algoritme zegt het niet zo veel. Ik zou eisen dat het model (algoritme dat getraind is met training data + eventuele feedback) bewaard moet worden. Pas dan heb je een mogelijkheid om e.e.a. na te spelen.
Als dat algoritme elke dag of elke week weer wordt aangepast wordt het wel een hele puzzel.
GDPR is nu al een nachtmerrie. Met name voor de lange termijn, offline backups. Banken en verzekeraars hebben retentie termijnen van soms wel tien jaar. Uit die backups moeten dus personen verwijderd kunnen worden, na afloop van hun retentie termijn terwijl andere data bewaard in die backups bewaard moet blijven. Er is een redelijke kans dat de orginele software waarvan de backup gemaakt is, niet eens meer draait.
In mijn ogen heeft dit niets met het recht om vergeten te worden te maken. De informatie wordt bewaard om aan te tonen hoe een model is getraind.

Hij wordt niet gebruikt in jouw profilering of andere processen dan dat.

Het is niet anders dan een expert die je case voorbij heeft zien komen, en het geleerde onthoudt.

Wel is het van belang dat dit dan alleen voor het betreffende model wordt gebruikt en wordt verwijderd zodra dit niet meer relevant is.

Geloof me, in mijn wereld mag je met je oplossing niet live als je dit niet voor elkaar hebt, cq krijg je de eerste dataset niet eens aangeleverd.
Nee hoor, de gdpr voorziet dergelijke uitzonderingen gewoon al
Whah..... als de data niet herleidbaar is tot personen niks aan de hand. Je kan prima een datasets gebruiken waar dit geregeld is
Nou nee hoor dat is een beetje onzinnig, je kunt redelijk simpel de data anonimiseren en dit aan het systeem voeren. Het gaat om trainingsdata niet om operationele data, denk aan een recommendation service. Laat de AI de laatste miljard aankopen op Bol.com bekijken en de klanten hebben allemaal een UUID of een dergelijke construct die niet te herleiden valt naar de eigenlijke persoon. Hop training is over, nu kan de AI mensen die een bepaald product kopen aanraden om ook eens naar dit andere product te kijken omdat uit de trainingsdata is gebleken dat mensen die dit product kopen ook vaak dat andere product willen hebben.

Je kunt redelijk makkelijk de trainingsdata zo structureren dat er geen persoonsgegevens in staan, of nodig zijn om de AI te trainen. En zelfs als die nodig zijn kun je ook die data anonimiseren.

Ik werk zelf veel met healthcare data uit de VS, data die wij dankzij contracten met bedrijven aldaar niet mogen zien, dus wordt alles anoniem verwerkt en kunnen wij 99% van alle software testen en bug oplossen zonder dat wij hoeven te zien dat John Smith zijn been gebroken heeft en zijn vrouw zwanger is. Zo ook alle data in alle niet productie omgevingen omdat ook in de VS (zeker healthcare data) niet zo maar ingezien kan/mag worden. Zo moeilijk is dat niet.
De vraag is of je wel wilt dat de data anoniem is. Het kan best wel zo zijn dat de trainingsdata voor antillianen ongelukkig uitpakt. Wil je achteraf goed onderzoeken wat er aan de hand was, dan zou je graag een kopeling willen maken. Daarnaast is er ook gewoon fraude mogelijk. Door iemand die zich gedwongen voelt resultaten te produceren. Ik vind dat we beter teveel dan te weinig data moeten opslaan. Zodat we achteraf kunnen analyseren of er nu wel of niet sprake is can inacceptabele discriminatie.
Wat!?!? Maar hoed dan?
Als de trainingsdata anoniem is en dus geen verschil kan maken tussen welke groep dan ook omdat je alleen naar de data kijkt niet naar welk labeltje er aan die data hangt dan kan de AI dus ook niet besluiten dat groep A of B stom is en er dus een rommeltje van maken omdat het onmogelijk deze groepen kan onderscheiden.
Dus tenzij jij nu claimt dat de meeste mensen uit groep A bepaald gedrag vertonen dat dus tot een negatief resultaat leid en andere mensen uit die zelfde groep die zich wel naar jouw maatstaven "goed" gedragen hier door benadeeld zullen worden. Maar ik denk niet dat dat is wat je bedoeld omdat dat wel heel erg naar een discriminatoire insteek neigt of niet?

De andere claim dat je opzettelijk data zou vervalsen om op die manier een negatieve uitkomst voor een bepaalde groep af te dwingen is naast dat het erg moeilijk is ook in de trainingsdata terug te vinden want omdat voor elkaar te krijgen zo als hier boven beschreven zal de AI moeten weten welke data bij welke groep hoort en dus als je de data bewaard kun je erg eenvoudig aantonen dat de trainingsdata een bias had zo als dat dan heet. Nu kun je vervolgens nog weer ruzie maken over hoe de trainingsdata verkregen is en of die bron(nen) misschien ook weel een bepaalde voorkeur/afkeer hadden wat betreft een bepaalde groep. En dat is omdat je alleen je trainingsdata bewaard moeilijk te bewijzen omdat de bron(nen) waarschijnlijk niet hun data bewaard hebben en het dus weer wijst op een onzinnig idee om de data op deze manier te bewaren. Om op die manier te proberen te achterhalen of een bedrijf opzettelijk "verkeerde" trainingsdata heeft aangeleverd.

Daar naast is er een grote fout in de manier waarop mensen denken dit soort dingen te kunnen achterhalen. Het gebeurt heel vaak dat op basis van de data het resultaat ongewenst is waarna men het algoritme aanpast om op die manier de resultaten te sturen. Dit kan dan weer onbedoelde effecten hebben op andere resultaten die misschien niet meteen opvallen. Ook al gebruikt men de zelfde data set als input het resultaat kan heel verschillend zijn. De keuzes die men maakt in hoe bepaalde dingen gewogen moeten worden kan de resultaten in een bepaalde richting sturen.
De input data hoeft helemaal niet aangepast te worden om een bepaalde resultaat te verkrijgen, wat dus inhoud dat de EU lijkt te denken te kunnen uitvogelen hoe een AI systeem dingen leert. Dit is de heilige graal van de moderne machine learning en iets wat we nog lang niet kunnen en misschien wel nooit kunnen nu de data sets maar blijven groeien en de hoeveelheid rekenkracht die er tegen aan gegooid wordt op het punt aan gekomen is dat men niet langer meer DC's kan gebruiken en kijkt naar optimalisatie in de hardware om nog meer rekenkracht te kunnen gebruiken.

Zelfs als je de data zou kunnen bekijken en doorgronden dan nog is het met geen mogelijkheid te achterhalen hoe een AI tot bepaalde keuzes is gekomen. Dus het hele idee van de trainingsdata opslaan is onzin, maar dat daar gelaten. Anonieme data gebruiken voor het trainen van je systemen is hoe dan ook beter omdat je op die manier kunt voorkomen dat je per ongeluk of met opzet een bias in je uitkomst terechtkomt.
Ook al is die bias soms juist gewenst (klinkt gek maar kan zeker het geval zijn). Denk aan een situatie waarin de AI moet besluiten of het een goed idee is om mensen te bellen en te vertellen dat op basis van hun verzekeringsclaims zij zich in een risico groep bevinden voor bijvoorbeeld diabetes... als je er voor kiest om meer mensen te bellen en zich te laten testen/behandelen dan wil je juist dat je niet 100% zekerheid hebt maar misschien al bij 80% of zelfs 70% zekerheid mensen gaat bellen. Aan de andere kant kun je er juist voor kiezen mensen juist alleen te bellen als ze ook echt tot de risico groep behoren omdat bijvoorbeeld de het bellen of test/behandeling erg duur is en je dus liever alleen mensen wil behandelen die dit ook echt nodig hebben... (een hele simpele uitleg van wat je kunt sturen en waarom je dat zou willen doen maar wel een voorbeeld uit de dagelijkse praktijk)

Het argument voor niet anonieme trainingsdata is alleen te maken als je met opzet verschil wil maken tussen mensen die tot bepaalde groepen behoren. Nu kun je bijvoorbeeld er voor kiezen om wel geslacht mee te nemen zo dat je niet tot de conclusie komt dat Mr. Smith in verwachting is. Maar om nu ook zijn geloofsovertuiging mee te nemen of zijn nationaliteit is onzin omdat dit totaal arbitraire waardes zijn die niets zegen over de persoon anders dan wat het toeval de toebedeeld heeft. Als jij een paar duizend kilometer naar het oosten toe geboren was was je waarschijnlijk Rus geweest en had je naar de orthodoxe kerk gegaan. Daar in tegen als je een paar duizend kilometer naar het zuiden geboren was was je misschien wel Marokkaans geweest en waarschijnlijk naar de moskee gegaan.
Dit soort pure toeval data is dus totale onzin voor een algoritme om te gebruiken bij het wegen van een besluit om wel of geen label aan de origine van de data te hangen.
Het is heel relatief duur om meer data te gebruiken in een training dan noodzakelijk is, omdat je dan berekeningen uitvoert op data die totaal geen relevante informatie bevat. Wat dus verspilde rekenkracht en dus geld is.
Wat!?!? Maar hoed dan?
Als de trainingsdata anoniem is en dus geen verschil kan maken tussen welke groep dan ook omdat je alleen naar de data kijkt niet naar welk labeltje er aan die data hangt dan kan de AI dus ook niet besluiten dat groep A of B stom is en er dus een rommeltje van maken omdat het onmogelijk deze groepen kan onderscheiden.
Als bijvoorbeeld kijkt naar Antillianen dan kan de AI het onderscheid maken doordat ze Nederlanders zijn, maar dat de vier cijfers van hun postcode van hun geboorteplaats onbekend zijn. Vrouwen bijvoorbeeld vertonen een heel ander soort gedrag, tijdens hun zwangerschap. Ze gaan met zwangerschapverlof, consumeren geen sigaretten, alcohol, of rauwe producten. Economisch relevant. De AI kan dus onderscheid maken, waarvan niet direct duidelijk is waar die vandaan komt. Vrouwen worden gediscrimineerd op basis van relatie, geslacht en leeftijd, waarbij de leeftijd varieert aan de hand van opleiding, en afkomst. Als je achteraf zwangerschap expliciet in het model stopt wordt misschien duidelijk dat je zwangere vrouwen discrimineert.

Ik denk dat AI tot rationele beslissingen kan leiden, waar we vanuit moreel perspectief niet per se achter hoeven te staan. Dat gebeurt nu trouwens ook al. De verzekeringspremie van auto's hangt af van de postcode. Dat is duidelijk, je kan er wel of niet mee eens zijn. Maar een maatschappelijke discussie is mogelijk. We moeten er voor uit kijken dat er een situatie ontstaat waardoor er geen maatschappelijk discussie meer mogelijk is.
Dus als je de data bewaard kun je erg eenvoudig aantonen dat de trainingsdata een bias had zo als dat dan heet. Nu kun je vervolgens nog weer ruzie maken over hoe de trainingsdata verkregen is en of die bron(nen) misschien ook weel een bepaalde voorkeur/afkeer hadden wat betreft een bepaalde groep.
Als er uit de trainingsdata iets heel opmerkelijks voortkomt, dan moet je dat kunnen onderzoeken. Als er iets verkeerds uitkomt kan dat aan de brondata liggen of aan de methodiek.

Er zijn gewoon wetenschappers die databestanden met een bias aanmaken. Soms bewust, maar soms ook onbewust. Omdat de bronbestanden al een bias bevatten. Om dit te onderzoeken heb je de koppeling met de bronbestanden nodig.
De EU lijkt te denken te kunnen uitvogelen hoe een AI systeem dingen leert. Dit is de heilige graal van de moderne machine learning en iets wat we nog lang niet kunnen en misschien wel nooit kunnen nu de data sets maar blijven groeien en de hoeveelheid rekenkracht die er tegen aan gegooid wordt op het punt aan gekomen is dat men niet langer meer DC's kan gebruiken en kijkt naar optimalisatie in de hardware om nog meer rekenkracht te kunnen gebruiken.
Uiteindelijk zal de AI niet meer te doorgronden zijn. Dat lijkt mij onvermijdbaar. In bepaalde gevallen ook onwenselijk. Juist in het beginstadium van de AI lijkt me het wenselijk om te doorgronden wat er gebeurt. Zodat er nog bijgestuurd kan worden.
Het argument voor niet anonieme trainingsdata is alleen te maken als je met opzet verschil wil maken tussen mensen die tot bepaalde groepen behoren.
Waar ik meer bang voor ben, is dat bedrijven resultaten gaan opleveren die geen betekenis hebben in de praktijk. Bij Big Data heb je de keus uit vele databestanden. Als je genoeg databestanden af gaat, vind je vanzelf een databestand met een bias, op basis waarvan je de samenleving opzadelt met onjuiste beslissingen. Om de onterechte bias op te sporen in geval van excessen, zou de data niet anoniem moeten zijn. Overigens zie ik de waarde hiervan alleen in het beginstadium van AI. Uiteindelijk zou dit moeten resulteren in procedures waar bedrijven aan zouden moeten houden.
Zolang de AI zélf de GDPR niet comprommiteerd, heb je geen probleem met GDPR, AI is nl. geen rechtspersoon, en valt dus niet onder GDPR.
Als de AI wél GDPR compromitteerd, is dit nou juist een mooie wet die inzichtelijk maakt welke AI-software fabrikanten zich daar schuldig aan maken, dus ik zie het probleem niet?
Dan moeten ze andere data gebruiken dan door "truukjes" met gebruikersovereenkomsten verkregen gegevens van gebruikers.
De enige reden is natuurlijk weer geld; hoe krijg je anders de gigantische bergen nodige trainingsdara voor nop in plaats van ervoor te betalen?
Staat er niet (lid 40) in de GDPR: (tenzij) "er een gerechtvaardigd grondslag waarin de wet voorziet" is? Dan voldoet deze registratie gewoon aan de GDPR.

https://eur-lex.europa.eu...=CELEX:32016R0679&from=EN
Er is volgens mij geen tegenstelling. Dat je data moet bewaren wil nog niet zeggen dat het persoonlijke informatie. Ge-anonimiseerde data kan heel goed.

En vergeet niet dat GDPR al een clausule heeft waarin staat dat persoonlijke data bewaard moet blijven wanneer die data nodig is om aan compliant te blijven. Die nieuwe wet schuif je gewoon onder die uitzonderingsclausule.
De GDPR/AVG hoeft dan niet te worden aangepast hoor. De gegevensverwerking (bewaren van inputdata) krijgt op basis van deze nieuw AI-regels een wettelijke basis. Vervolgens moet je die gegevens dus verwerken (als in bewaren) en mag je dat van de AVG omdat de AVG voorziet in een grondslag voor verwerkingen gebaseerd op een wettelijke plicht.
Dat word flink wat data lijkt mij ...
Ongetwijfeld in sommige gevallen. Maar je moet je afvragen of dat erg is.

Toen het internet een niet-gereguleerde sector was, was ook van alles heel erg goedkoop. Maar soms wel met grote gevolgen voor de maatschappij. Bijvoorbeeld bedrijven die van alles en nog wat opslaan, en deze gegevens uiteindelijk op straat terecht komen. Daarvan kan je ook zeggen "Oh, dat gaat flink wat kosten". Bedrijven kunnen bijv. sinds de AVG* niet zomaar meer allerlei data verzamelen en moeten er ook moeite in stoppen die goed te beveiligen.

Hier geldt iets vergelijkbaars. Het doel kan niet alleen zijn 'alles zo goedkoop mogelijk', maar ook 'maatschappelijk verantwoord'. Dat je dan veel data gaat moeten bijhouden, kan gewoon onderdeel worden van de business case. In sommige gevallen zal dat dan kunnen betekenen dat men dan geen AI (wat eigenlijk gewoon Machine Learning is) doet. Prima toch?

offtopic:
* Ik laat even in het midden of het voor de introductie van de AVG wel al toegestaan was om zomaar van alles te verzamelen. Sindsdien is het dat in ieder geval niet.
Dat word een complexe wetgeving. Wij verzamelen data ten behoeve van AI onderzoek maar garanderen de mensen die die data vrijwillig leveren dat we die data meteen na het gebruik verwijderen. Ik zou er niet over willen denken die data te houden en zeker niet om die zomaar aan de overheid door te geven.

Ik ben een groot fan van de EU maar dit onderzoek verplaats ik dan accuut naar de VK. De data die wij verzameld hebben is van ons en van de mensen die de data gegeven hebben. Niet van de overheid.
Terecht punt. Ik ga op dit moment niet de 26 a4'tjes van die paper doornemen. Wellicht dat ze er al een oplossing voor bedacht hadden. Het woord GDPR komt er exact 1 keer in voor (voetnoot 34, p11), maar gaat niet hierover. Sterker nog, ze passen het precies in (ogenschijnlijk) tegenovergestelde toe:
The use of AI can affect the values on which the EU is founded and lead to breaches of fundamental rights (33), including the rights to freedom of expression, freedom of assembly, human dignity, non-discriminationbased on sex, racial orethnic origin, religion or belief, disability, age or sexual orientation, as applicable in certain domains,protection of personal data and private life (34), or the right to an effective judicial remedy and a fair trial,as well as consumer protection. Theserisks might result fromflaws in the overalldesign of AIsystems (including as regards human oversight)or from the use of data without correcting possible bias (e.g. the system is trained using only or mainly data from menleading to suboptimal results in relation to women).
Een andere uitdaging zal een partij als Google hebben, die in theorie continue hun zoekalgoritme tunen aan de hand van nieuwe zoekqueries. Dat is een continue culminatie van alle data die Google op dat moment beschikbaar heeft. Zouden zij dan continue een snapshot moeten maken van alle data?

Dat gezegd hebbende, de whitepaper op pagina 19 beschrijft dat:
- accurate records regarding the data set used to train and test the AI systems, including a description of the main characteristics and how the data set was selected;
- in certain justified cases, the data sets themselves
- documentation on the programming [...]
Het gaat in het grootste geval van de gevallen dus enkel om een beschrijving van hoe die dataset opgebouwd was, niet de data set zelf. De dataset zelf stelt men enkel voor om enkel in specifieke gevallen te doen. Ongetwijfeld komen daar nog veel lobbyisten en politieke discussies over wat daar wel/niet onder zou vallen.
Mooie onderzoeker ben je dan. Alle data na je onderzoek verwijderen, dat betekent dat je onderzoek niet reproduceerbaar is. Klinkt niet heel wetenschappelijk.
Zie ook mijn andere reactie. Voor het gros gaat het niet om de dataset zelf, maar enkel om een beschrijving van die data (en, inderdaad, ook documentatie over de programmatuur).

En zelfs dan nog, je reageert alleen met 'Natuurlijk is dat erg [...] compleet belachelijk'. Natuurlijk mag je dat vinden, maar dan mis ik daar wel een weging in van de argumenten aan de andere kant. Alleen maar zeggen 'dit is slecht', zonder daarbij ook de andere belangen bij in het oog te nemen levert niets op.
En zelfs dan nog, je reageert alleen met 'Natuurlijk is dat erg [...] compleet belachelijk'. Natuurlijk mag je dat vinden, maar dan mis ik daar wel een weging in van de argumenten aan de andere kant. Alleen maar zeggen 'dit is slecht', zonder daarbij ook de andere belangen bij in het oog te nemen levert niets op.
Omdat het geen praktische, realistische voorstellen zijn. Ik kan ook voorstellen dat de maan niet meer op mag komen zonder toestemming omdat er veel mensen niet kunnen slapen door het extra licht; dan hoeven mensen die belangen niet in het oog te nemen, hoe graag je die mensen hun nachtrust misschien ook gunt.
Ik had niet door dat AI een natuurverschijnsel was. :)

Toch is je voorbeeld wel een mooie. Als het gaat het plaatsen van lantaarnpalen houdt men enerzijds rekening met de nachtrust van de bewoners, anderzijds met de veiligheid op straat.

Dan kan ik ook zeggen: "Het is compleet belachelijk dat je allemaal lampen gaat hangen voor de slaapkamers". Als je daarbij die andere kant volledig onbelicht (haha) laat dan lijkt het prima facie inderdaad een debiel voorstel.
Je begrijpt mn analogie niet helemaal. Wat je vaak ziet in politiek ook zijn voorstellen die in de praktijk niet kunnen. Dan kan je het wel heel graag willen, en misschien is het ook wel heel goed, maar het kan niet. Een recent voorbeeld is bijvoorbeeld encryptie verbieden of providers dwingen alles te decrypten.
Ik kan al verschillende varianten bedenken:
1. Alleen initiële ruwe data;
2. Gegenereerde data uit verschillende iteraties;
3. Selectie van gebruikte data die tijdens trainingen is gegenereerd en weer voor verdere trainingen is gebruikt;
4. Combinatie van bovenstaande...
Ja, of het liefst dus wat je eigenlijk een incrementele backup noemt, alle data van start tot finish, met alle iteraties daarin dus.

Kan je stapsgewijs terugkijken bij welke stap er wat fout ging, en of dat meeging naar de volgende iteratie...

[Reactie gewijzigd door zion op 19 februari 2020 18:30]

Afgezien van de hiervoor genoemde kanttekeningen over de AVG en GDPR.
Wel een positieve ontwikkeling lijkt mij, dingen zoals SyRi zou je dan echt volledig de grond in kunnen stampen (als inderdaad blijkt dat de trainingset niet divers genoeg is of biased).
Lijkt me goed dat die data gaat gebruikt worden, door de bevoegde overheidsdiensten, om te handhaven of bedrijven geen discriminatie- en privacywetten schenden en/of in het verleden ooit geschonden hebben.

Vind je dat als bedrijf maar eng? Wel dan, doe dan niets illegaals.
Ach als men AI kan bouwen kan men dat ook wel niet dan?

https://developer.ibm.com...s/open-source-ibm-and-ai/

Enne IBM helpt alvast een handje. :)
Beter zoiets wat er reeds is gebruiken lijkt me handiger niet dan?

http://aif360.mybluemix.net/
""AI Fairness 360 Open Source Toolkit

This extensible open source toolkit can help you examine, report, and mitigate discrimination and bias in machine learning models throughout the AI application lifecycle. Containing over 70 fairness metrics and 10 state-of-the-art bias mitigation algorithms developed by the research community, it is designed to translate algorithmic research from the lab into the actual practice of domains as wide-ranging as finance, human capital management, healthcare, and education. We invite you to use it and improve it.""

En waarom nog meer van belang wat men ermee doet , dus gegevens verzamelen OK , maar gebruiken voor vormen van ongelijkheid ( uitsluitingen , hogere premies wat dan ook is natuurlijk altijd zelfs als voor ieder in overstromingsgebied de premie evenhoog is maar veel hoger dan niet overstromingsgebied oneerlijk toch? )
https://www.handelsblatt....-fZmLPooJcOCz2GMuHkCX-ap5
Künstliche Intelligenz – wie gefährlich ist sie wirklich?
""Algorithmen könnten Krankheiten abschaffen, aber auch unsere Freiheit
Auf dem Gesundheitsmarkt der Zukunft geht es um Daten und Kostenreduzierung. Doch für die digitale Körperkontrolle zahlen wir einen hohen Preis.

Dr. Google möchte die Krankheiten abschaffen

In dem Maße, wie wir anhand von präzisen Daten sekündlich Erkenntnisse über den körperlichen Zustand eines Menschen evaluieren können, können wir ihn auch vor Krankheiten und ungesundem Lebenswandel schützen. Smart Watches und Smartphones sind kleine Lebensstil-Diktatoren, die uns sagen, was gesund oder ungesund für uns ist.

Doch laufen wir durch einen solchen Kurzschluss von Leib und Algorithmus nicht Gefahr, die Kontrolle über unseren Körper zu verlieren? Verkaufen wir unsere Persönlichkeit über solche „Digital Therapeutics“, „Predictive Medicine“ (Prävention durch digitale Überwachung) und unzählige Fitness- und Abnehm-Apps nicht endgültig an Big Tech, an gefährlich souveräne „Net-States“, die uns zu Biosklaven machen?

Liegt hierin vielleicht sogar eine der größten Freiheitsgefahren für unser Leben im 21. Jahrhundert? ""

[Reactie gewijzigd door jahoorisieweer op 20 februari 2020 00:44]

Wie gaat dat betalen? De klant, wij dus!
He hoezo , dat AI met juiste tools wel goed doen is gewoon wat bij het vak zou moeten horen.

Dat er regels voor komen en/of standards van e.a. is niet meer dan normaal om een gelijk en zover mogelijk veilig speelveld te hebben.

Zou goed zijn als dan ook werkelijk AI zoals ik hierboven geschreven met juiste tools gewoon veilig verder ontwikkeld gaat worden heel gewoon hoor en gewone kosten zoals bij alle IT..

JA niet alle IT projecten die bij overheden en instanties , maar dat is zo gewild en gegroeid dat die moeten mislukken, want dan verdienen de bedrijven er het meest aan , en hebben ook minder risico dan wel iets opleveren. ( dat mislukken heeft men mooi constructies voor , namelijk even kort gezegd zorgen dat de specs niet meer conform opdracht zijn maar tussendoor e.a. erbij gewijzigd enz enz kijk dat kan ook , en o wat mooi, zou handig zijn alsook enz enz)

Sommige mensen zijn aan een inbouwkeuken zo ook eerder tonnen kwijt dan …. steeds weer eruit veranderen tijdens traject , daar kan zelden een project / budget beheer / beheersing tegenop. Zorgen dat de beslissers meer in te brengen heeft dan project beheerder , en woep ge.l ze op wat allemaal nog niet meer kan.

Ach zo oud.

Ok gaat offtopic , maar beheersing van IT en projecten zo al helemaal AI is voro heel erg veel van belang.

Juist ook om kosten te besparen, namelijk als het fout gaat gaat het vaak ook goed fout , is gevaarlijk , geeft oneerlijke situaties, enz

Als de klant niet voor veilig , eerlijk en privacy enz. krijg je straks allemaal zelfrijdende auto's waar elke sofwtware bouwer in combi met AI anders e.a. laat reageren , bij recht op elkaar af rijden niet allebei stuur naar rechts of links , neen dezelfde richting op dus toch botsen is maar 1 vb. 8)7

Je hebt nu al zoveel onveilige goedkope IT troep op de markt dat wil men niet weten , en ja omdat het zo goedkoop en easy is krijgen die partijen ook nog een overgroot markt aandeel , waarop de BOTNETS vrij een feestje vieren.
Echt een volledig kansloos verhaal dit weer... klassiek ambtenarij aan het werk in de IT...
Zoals hierboven al benoemd wordt zijn er tal van privacy problemen maar past dit ook totaal niet op de huidige werkwijze in IT. Datasets worden continue bijgewerkt, vervangen of handmatig verbeterd. Een moderne ontwikkel club heeft ontwikkel sprints van gemiddeld 4 weken.. als ze iedere dataset moeten bewaren knallen ze binnen no-time uit elkaar.

Neem als voorbeeld Tesla die autobeelden verzameld van hun gehele autovloot om hun AI te trainen. Die zouden hier nooit aan kunnen voldoen.. laten we helemaal maar niet praten over Google....die weten volgens mij zelf niet eens meer hoe hun zoekmachine werkt...

En laten we even kijken naar het resultaat van zo’n wetgeving: het hindert innovatie enorm.. nu heeft Europa al een enorm probleem op IT innovatie (niemand wil hier zitten) en hiermee wil helemaal niemand meer met hun AI research in de EU op gaan zetten. Ze verhuizen mooi naar de US of Azië...of erger, dat Britse eiland...
UH ook hier simpel daar zijn veel tools voor die e.a. kunnen en moeten bewaken , zo ook om te kunnen snappen wat voor stappen enz, zijn o.a. door IBM veel opensource free beschikbaar gesteld.

Ben het eens dat politiek natuurlijk geen onzinnige dingen moet gaan verlangen , maar dat er met standaards en zulk soort controle tools ontwikkeld dient te worden is natuurlijk wel duidelijk, want veel AI moet uiteindelijk wel met elkaar samenwerken en op elkaar reageren. ( zo ook beheerbaar blijven , een grote rode stop / uitknop hebben en eerlijk.. met e.a. omgaan )

Zoals bij zelfrijdende auto's enz. (vb. bij slachtoffers dient er toch een zover mogelijk verantwoordelijke (punt) gevonden te worden ( egaal of grof nalatig of gewoon foutje want> ) , zo ook voorkomen van herhaling, zie even de BOEING 737 MAX waar men zelfs wist waar een fout zat, maar hier niet goed mee omging)

[Reactie gewijzigd door jahoorisieweer op 19 februari 2020 23:19]

Ik vind dit een goede actie en vwel hierom:
Machine learning/AI op een dataset kan last hebben van ongewilde bias. Bijvoorbeeld de dataset is voornamelijk van een groep blanke mannen tussen 18 en 30 jaar (tweakers.net bezoekers bijvoorbeeld) maar wordt toegepast op een complete bevolking.
Wanneer er later ongewilde gedragingen tegen niet blanken/niet mannen/andere leeftijden lijken te ontstaan kun je dat tenminste nog met de trainingsset controleren.

Voorbeeld: nieuws: Reuters: Amazon schrapte machinelearningtool voor sollicitaties om di...
EU: "Wij willen niet dat er data wordt opgeslagen van onze burgers als zij dit niet willen! Ze moeten de optie hebben om te worden vergeten!"

EU: "Wij willen dat data wordt bewaard!"

Dus welke is het nou?
Sorry hoor, maar dit vind ik echt weer zo'n totaal onwerkbare regel die door ambtenaren bedacht is die een eind van de praktijk afstaan. Hoe kan dit nu ooit werken? Het is toch niet zo dat er één standaard AI algoritme is, met een standaard dataset format. Zodat een overheid achteraf een beslissing van een AI systeem even kan naspelen? Alsof het een excel bestandje is?
Elk AI systeem is weer anders, alle algoritmes zijn anders, en het is voortdurend in beweging.
Bij een AI systeem is nu eenmaal zo dat je niet weet waarom een bepaalde beslissing is genomen wordt.
Ik zie de gevaren van AI heus wel. Maar dit soort regels levert alleen maar een verstikkende regeldruk op, en zorgt dat Europa alleen maar een grotere achterstand oploopt.

Op dit item kan niet meer gereageerd worden.


Apple iPhone SE (2020) Microsoft Xbox Series X LG CX Google Pixel 4a CES 2020 Samsung Galaxy S20 4G Sony PlayStation 5 Nintendo Switch Lite

'14 '15 '16 '17 2018

Tweakers vormt samen met Hardware Info, AutoTrack, Gaspedaal.nl, Nationale Vacaturebank, Intermediair en Independer DPG Online Services B.V.
Alle rechten voorbehouden © 1998 - 2020 Hosting door True