IBM wil machinelearningmodellen met 'watermerk' beschermen

IBM heeft een methode gepresenteerd waarmee het machinelearningmodellen van een 'watermerk' wil voorzien. Op die manier moet bijvoorbeeld na te gaan zijn of een model dat online wordt gebruikt, is gestolen.

IBM schrijft dat kunstmatige-intelligentieonderzoek vaak gepaard gaat met aanzienlijke investeringen en dat het daarom van belang is om ontwikkelde modellen te beschermen tegen ongeautoriseerd gebruik. Hoewel het idee om machinelearningmodellen van een watermerk te voorzien niet nieuw is, moet de door IBM in een paper beschreven methode het identificeren van een beschermd model mogelijk maken zonder toegang te hebben tot de parameters, in tegenstelling tot eerdere pogingen. Dat moet nuttig zijn als het model alleen op afstand te benaderen is.

Het idee is om een model van tevoren zodanig te trainen dat er bij een specifieke input een van tevoren bepaalde output volgt, bijvoorbeeld door een specifieke afbeelding aan te bieden. Dit moet echter niet ten koste gaan van de nauwkeurigheid van het model. Het bedrijf beschrijft drie verschillende methoden, oftewel watermark generation algorithms. Een daarvan gebruikt 'zinvolle inhoud' in combinatie met de trainingdata, terwijl de andere irrelevante gegevens en noise toepassen. De gepresenteerde watermerkmethode, waarop IBM patent zegt te hebben aangevraagd, moet bovendien bescherming bieden tegen 'counter-watermark mechanisms'.

De beperking van deze aanpak is wel dat een model niet te controleren is als het niet online beschikbaar is, maar intern wordt toegepast. In dat scenario is er geen externe toegang, maar volgens IBM ook geen methode voor de dief om er geld mee te verdienen. Ook zou de methode niet tegen diefstal beschermen. Het bedrijf zegt de methode intern te willen inzetten om vervolgens te onderzoeken of deze als dienst aan te bieden is.

IT-banen

Reacties (45)

GlowMouse 20 juli 2018 18:23

Het is niet zo eenvoudig om te bepalen of een getraind model valt onder het auteursrecht. Daarvoor zou het moeten gaan om een werk van wetenschap dat een eigen oorspronkelijk karakter heeft en een persoonlijk stempel van de maker draagt. In bepaalde omstandigheden kan hieraan wel zijn voldaan. De maker kan creatieve keuzes maken bij het iteratief bijwerken van de trainingset en bij het ontwerp van het model (het aantal layers is een vrij basale keuzes, maar je kunt denken aan het apart trainen van een deel van het netwerk, bijvoorbeeld een subnetwerk voor het herkennen van wielen als onderdeel van een netwerk dat een auto kan herkennen, waardoor het uiteindelijke netwerk een bepaalde structuur krijgt). Een watermerk is in dat geval handig.

Een andere situatie is wanneer je een model hebt dat niet auteursrechtelijk is beschermd dat je in licentie geeft aan verschillende bedrijven. Je kunt met elk bedrijf afspreken dat zij het model niet verder zullen verspreiden met een boeteclausule. Door elk bedrijf een model met een eigen watermerk te geven, kun je bij een lek de vinden welk bedrijf verantwoordelijk is.

Arnoud Engelfriet @GlowMouse • 20 juli 2018 19:35

Auteursrecht geloof ik geen seconde dat opgaat. De creatieve keuzes moeten uit het model kenbaar zijn, én je moet die creatieve keuzes (creatieve output) hebben gekopieerd. Daarvan is geen sprake bij het klonen van een AI - want daar hebben we het over. Daarbij train je gewoon je eigen AI op basis van de antwoorden van andermans model. Ik neem dan niets creatiefs over maar noteer alleen de output van een heel grote bak met getallen.

In Europa is er misschien nog een optie: het databankenrecht. Wij kennen sinds eind jaren negentig aparte bescherming voor databanken met waardevolle informatie, los van het auteursrecht. Een databank is beschermd als hij het resultaat is van een substantiële investering in tijd, geld of moeite. Iets preciezer, een databank is:

een verzameling van werken, gegevens of andere zelfstandige elementen die systematisch of methodisch geordend en afzonderlijk met elektronische middelen of anderszins toegankelijk zijn en waarvan de verkrijging, de controle of de presentatie van de inhoud in kwalitatief of kwantitatief opzicht getuigt van een substantiële investering;

Met enige goede wil is een zelflerende AI prima in deze definitie te passen volgens mij. De brokjes kennis zijn “zelfstandige elementen”, die geordend zijn. Hooguit kun je je afvragen of die blokjes kennis apart op te vragen zijn, maar als een AI een uitlegmodule heeft (“dit is spam want het komt uit China en bevat spelfouten in de titel”) dan lijkt me ook daar wel aan voldaan.

Onder het databankenrecht is het verboden een databank te kopiëren, maar ook het herhaald en systematisch opvragen van stukjes inhoud is verboden als je daarmee de normale exploitatie van de databank verhindert. En dat is volgens mij wel het geval als je een AI-databank kloont.

MSalters

Wetenschap
IBM
Kunstmatige intelligentie

@Arnoud Engelfriet • 22 juli 2018 00:42

Bescherming van ML modellen is één van de meest interessante onderwerpen in het moderne IP-recht. Ik heb me erin mogen verdiepen omdat wij voor een Europees Horizon 2020 subsidie-traject een ML model hebben ontwikkeld. En als onderdeel van het subsidie-traject moesten wij aangeven hoe we onze Intellectual Property beschermen -dat was dus een simpele vraag zonder een simpel antwoord.

Ik zie niet zo'n risico in neurale netwerken die getraind worden om een ander netwerk te kopiëren. Juridisch is het misschien een grijs gebied, technisch is het simpelweg matig idee. Denk aan de oude analogie kopieën van casettebandjes - de kopie is nooit zo goed als het origineel.

Wat betreft het databanken-recht: Het vervelende hier is dat de gegevens in een neuraal netwerk niet echt geordend zijn in de gebruikelijke zijn van het woord. Je kunt heel veel permutaties van het neterk maken die zich exact identiek gedragen, wat aantoont dat de ordening irrerelevant is. En als ik de precieze definitie lees moet er sprake zijn van én ordening én toegankelijkheid én een investering. Dan is er dus geen sprake van een databankenrecht omdat niet aan de eerste voorwaarde wordt voldaan.

thoravatahr @MSalters • 22 juli 2018 08:53

Interessant! Is het echter niet zo te stellen dat het NN juist wel geordend is?
De ordening ervan kost juist zoveel rekenkracht, het NN is zó geordend dat het geschikt is gemaakt voor een bepaalde taak. Ook al is het voor mensen niet duidelijk hoe die ordening te interpreteren is, het is nog steeds een ordening en de manier waarop die ordening tot stand is gekomen is ook duidelijk (nl. het leerproces). Of zou deze argumentatie geen stand houden?

GlowMouse @Arnoud Engelfriet • 20 juli 2018 20:08

Het gaat in dit artikel om het kopiëren van een getraind neuraal netwerk, dus om het kopiëren van elk individueel neuron. Jouw reactie ziet op een andere situatie (het kopiëren van de trainingset of het trainen van een eigen model op basis van de output van een ander model). Misschien dat je het met deze insteek wel met mij eens bent dat een neuraal netwerk beschermd kan zijn:)

Arnoud Engelfriet @GlowMouse • 20 juli 2018 20:55

Ik kan me niet voorstellen hoe een netwerk als zodanig gekopieerd wordt. Alle aanvallen tegen AI netwerken die ik ken, gaan over dit kloonverhaal. Maar ook als iemand inderdaad letterlijk de databestanden kopieert, dan kan ik me geen auteursrechtelijke bescherming voorstellen. Een trainingset wellicht, omdat daar nog denkbaar is dat je creatief bezig bent met wat op te nemen. Maar het voelt zeer onwaarschijnlijk, je wilt een zo compleet mogelijke coverage. Je AI moet een accountant zijn die consistent een juist antwoord geeft, geen creatieve fladderaar.

GlowMouse @Arnoud Engelfriet • 20 juli 2018 21:17

Het paper geeft een paar voorbeelden: "In practice, there are multiple ways for S to get the model m, for example, it could be an insider attack from owner O who leaks the model or it could be stolen by malware and sold on dark net markets".

Een neuraal netwerk kan, zoals ik al eerder zei, het resultaat zijn van creatieve keuzes die in het netwerk te herkennen zijn (leesvoer: modulair neuraal netwerk), dus je opmerking "dan kan ik me geen auteursrechtelijke bescherming voorstellen" lijkt me wat kort door de bocht.

MSalters

Wetenschap
IBM
Kunstmatige intelligentie

@GlowMouse • 22 juli 2018 00:44

Bekende stof - ik heb zulke modulaire netwerken gebouwd. Het probleem daar is dat het auteursrecht de handgemaakte verbindingen tussen de verschillende netewrken beschermt, maar vermoedelijk niet de computer-getrainde netwerken zelf.

Verwijderd @Arnoud Engelfriet • 20 juli 2018 20:20

Vergeef mij mijn leken vraag maar hoezo ->

maar ook het herhaald en systematisch opvragen van stukjes inhoud is verboden als je daarmee de normale exploitatie van de databank verhindert. En dat is volgens mij wel het geval als je een AI-databank kloont.

Hoezo zou het opvragen van output van een AI de normale exploitatie verhinderen? Is dat omdat exploitatie in jouw zin inhoudt 'de winstgevendheid' oid? Met exploitatie van elektronische system kan ook gewoon de werking bedoelt worden volgens mij en de werking van een AI wordt toch niet gehinderd door het herhaald en systematisch opvragen van output?

Arnoud Engelfriet @Verwijderd • 20 juli 2018 20:56

Dat is geen lekenvraag, databankenrecht is een moeilijk onderweprp. Mijn antwoord zou zijn dat het is omdat je door dat opvragen van die output je eigen kloon kunt maken, zodat het origineel minder waardevol wordt. Bij twee aanbieders gaat de prijs omlaag. Zeker als de tweede gratis openbaar is.

uiltje @Arnoud Engelfriet • 21 juli 2018 15:57

Lijkt me inderdaad dat de waarde vermindering mee telt. Maar een duurder maar beter gemarket model kan net zo schadelijk zijn lijkt me. Extra letten op gratis / openbaar lijkt me niet toepasselijk. En het maakt bij het kiezen van een strafmaat ongetwijfeld uit of je het uit persoonlijk gewin doet of niet.

Stoney3K

Wetenschap

@Verwijderd • 20 juli 2018 20:47

Die clausule is dan vooral ook bedoeld om een juridisch wapen te hebben tegen het plegen van denial-of-service attacks.

Cerberus_tm

@Stoney3K • 21 juli 2018 01:46

Weet je dat zeker? Zou dat niet onder een heel andere wet vallen, die niets met auteursrecht/informatiemonopolies te maken heeft?

Verwijderd @GlowMouse • 20 juli 2018 19:16

De huidige wet en regelgeving is gewoon ongeschikt om hiermee om te gaan, dit is geen kwestie van classificatie maar van ontbrekende passende regelgeving mijns inziens.

Het resultaat ( getraind model ) zou gezien moeten worden als meer dan de combinatie van input ( ontwerp en trainingsdata ).

t_captain @GlowMouse • 20 juli 2018 20:58

Er zou ook bescherming mogelijk zijn onder patentrecht en/of databankwet. Auteursrecht is beperkt omdat het ML model in tegenstelling tot traditionele code geen handwerk is.

Verwijderd 20 juli 2018 18:11

"Hi, IBM had me made"

Je kan een neuraal netwerk met training toch niet copyrighten of patenteren?

[Reactie gewijzigd door Verwijderd op 28 juli 2024 09:34]

robvanwijk

Wetenschap

@Verwijderd • 20 juli 2018 18:20

Patenteren zal lastig worden en ik weet niet of copyright het correcte woord is, maar als jij een model traint, dan is dat jouw intellectueel eigendom. Als je heel veel tijd, geld en moeite steekt in het trainen van een goed model, dan vind ik het logisch dat je daar ook zelf de vruchten van wilt plukken.

Ter vergelijking: plattegronden hebben vaak ergens, op een plaats waar (hopelijk...) niemand er last van heeft, een klein zijstraatje dat helemaal niet bestaat. Als iemand een volledig correcte plattegrond kopieert, dan is er geen goede methode om te bewijzen dat het van jou gestolen is (ze zouden ook zelf alles opgemeten kunnen hebben), maar dat niet-bestaande zijstraatje, dat kan maar van één plek vandaan komen: jouw plattegrond, waarmee het opeens heel makkelijk is om diefstal te bewijzen. Dit watermerk van IBM lijkt op ongeveer dezelfde manier te moeten werken.

[Reactie gewijzigd door robvanwijk op 28 juli 2024 09:34]

FlaffTweakr @robvanwijk • 20 juli 2018 19:38

Dat betekent dat zelfbewuste AI's later ook intellectueel eigendom zullen zijn. Futuristische slavernij dus. Het klinkt misschien belachelijk, maar als de wetgeving dit bij aanvang toelaat, is de kans op misbruik groot. Stel dat je het brein van mensen/soldaten kan upgraden (onder leenstelsel) om met een AI module nieuwe input te verwerken, tot waar reikt dit eigendom dan? bvb een kaart uploaden naar je hersenen / real time positie van vriend of vijand 'voelen'.

Klinkt misschien gek, maar ik geloof wel dat het probleem zich één dezer decennia in versimpelde vorm zal stellen.

_{of moet ik m'n alu hoedje afzetten?}

robvanwijk

Wetenschap

@FlaffTweakr • 20 juli 2018 20:00

zelfbewuste AI's

Is het misschien handiger om eerst eens te wachten tot we die ook daadwerkelijk kunnen bouwen, dan kunnen we tegen die tijd regels vast gaan stellen. Op dit moment hebben we geen idee hoe dat precies zou werken, wat het ontzettend lastig maakt om er zinnige regels voor te formuleren. Net zoals we nog geen regels hebben over het claimen van grond op de Maan en geen snelheidslimieten voor reizen door hyperspace. En ja, de eerste paar jaar zal dat problemen opleveren (techniek gaat sneller dan wetgeving), maar dat is waarschijnlijk beter dan nu maar vast allerlei regels te maken en er later achter te komen dat die compleet onwerkbaar zijn en het van voren af aan opnieuw te moeten doen.

--Andre-- @robvanwijk • 21 juli 2018 08:23

Wachten? Dan zijn we te laat! Dan is slavernij terug ingevoerd, legáál. En dan is het wachten op de opstand en komen al die films uit. Vóórdat we een zelfbewuste AI maken, moeten we deze dezelfde rechten en plichten geven als hun makers.

robvanwijk

Wetenschap

@--Andre-- • 21 juli 2018 18:53

Vóórdat we een zelfbewuste AI maken, moeten we deze dezelfde rechten en plichten geven als hun makers.

In theorie: ja. In praktijk: dat is simpelweg niet haalbaar.

Voordat je wetten kunt maken over zelfbewuste AI moet je een (juridisch waterdichte) definitie hebben die vaststelt wat "zelfbewuste AI" überhaupt betekent. Als je denkt dat dat een koud kunstje is: geef jouw voorstel voor zo'n definitie en dan zal ik kijken of ik voorbeelden kan bedenken van situaties waarin die definitie niet werkt. Vergeet niet dat de definitie "beide kanten op" moet kloppen (geen false positives én geen false negatives), want als een zelfbewuste AI voor de rechter staat of zijn aanslag inkomstenbelasting krijgt, dan moet ie daar niet onderuit kunnen komen door simpelweg te beweren dat ie niet "zelfbewust" is (en dat alle aansprakelijkheid voor zijn acties bij zijn maker / eigenaar / gebruiker ligt).

Voor zover ik in kan schatten is de enige manier om uit te werken hoe je een zelfbewuste AI kunt onderscheiden van een niet-zelfbewuste AI het daadwerkelijk bouwen van een zelfbewuste AI. Hoewel je op dat moment een legale vorm van slavernij hebt, is dat niet echt een probleem zolang niemand zich er daadwerkelijk schuldig aan maakt. Ik heb er eigenlijk best wel vertrouwen in dat de onderzoekers die de eerste paar zelfbewuste AIs bouwen hun creaties juist zullen aanbidden; welk nut hebben wetten als de manier waarop ze behandeld worden toch al veel beter is dan de wet ooit zal vereisen?

En ja, bovenstaande gaat alleen op zolang er een heel klein, exclusief clubje is van mensen die zelfbewuste AIs bouwen. Dus ik ben het helemaal met je eens dat we dit probleem ooit op zullen moeten lossen. Maar ik stel voor om twee wijzigingen te maken in jouw stelling. Ten eerste wil ik het moment verplaatsen naar "voordat we zelfbewuste AIs in serieproductie nemen" (als we al besluiten dat dat ethisch verantwoord is). Ten tweede ben ik het niet eens met simpelweg "dezelfde rechten en plichten geven als hun makers". Dat is veel te eenvoudig gedacht; met AIs kun je allerlei dingen doen die niet kunnen met mensen en waarvoor we dus geen regels hebben. Mag je een AI "op pauze zetten"? Mag je een AI kopiëren? Dan zijn er opeens twee zelfbewuste entiteiten met toegang tot het geheugen (en de persoonlijke gedachten) van de oorspronkelijke AI, hoe zit dat met privacy? En als we het dan toch over privacy hebben, hoe zijn de regels voor het analyseren (en debuggen) van een AI? Wat zijn de regels voor het opstarten van een nieuwe AI (mag iedereen dat, zijn er minimumeisen voor de kwaliteit, capaciteit, levensduur, ... van de hardware waarop die AI draait)? En tot slot, wat zijn de regels voor het uitschakelen van een AI? Puur en alleen het feit dat een entiteit zelfbewust is, betekent nog niet dat het beëindigen van dat zelfbewustzijn dan maar automatisch gelijkstaat aan moord. Als je het daar niet mee eens bent, dan hoop ik dat je nog nooit een mier doodgetrapt hebt, want het lijkt erop dat zelfs die zelfbewust zijn...

uiltje @FlaffTweakr • 21 juli 2018 15:52

Ik denk dat je Vacuumflowers een leuke cyberpunk roman zal vinden - de hoofdpersoon, Rebel Mudlark als ik me niet vergis, is op de vlucht voor een Duits / Japans conglomeraat omdat haar persoonlijkheid hun toebehoord.

Natuurlijk zijn hierop wel meer science fiction boeken geschreven (en voel je vrij om er een paar aan te prijzen).

Cheetah_777 @robvanwijk • 20 juli 2018 18:53

"Bewijs" is wel een goed lobbypunt /verkooppraatje van IBM. Net als tracking dots.

Wetenschappers van de Technische Universiteit van Dresden hebben onderzoek gedaan naar tracking dots die veel printers achterlaten op documenten. Las ik hier laatst:
Watermerken omdat dat bij gewone printers ook tracking dots gebruikt worden. Wie print wat wanneer - eventueel meta data. Er zijn mensen mee vrijgesproken bijvoorbeeld door dna sporen op een papier; -dit document komt niet van de bewuste printer-.

Als je dan middels een tool van IMB in een smartphone bijvoorbeeld dit "watermerk" aan een persoon / persoonsgegevens / gezondheid / rijgedrag enzovoort koppelt of een profiel opmaakt zoals Google dat bijvoorbeeld doet met je zoekresultaten, dan kan je *met dit watermerk* achterhalen dat Google de machine learning gemaakt heeft? Wat kan dit watermerk nou in de praktijk?

Stel ik maak een "namaak zoekmachine resultaat" met data teruggaand sinds de browserinstallatie. Maar ik doe alsof het een bekend zoekmachine bedrijf de maker is van user geschiedenis data maar dan met een eigen externe check: Je krijgt alle zoekresultaten als man in the middle.

Dit watermerk houdt dit soort dingen (ongeautoriseerd gebruik) tegen? Of krijgt iedereen dat watermerk zomaar, zodra je roept dat je

Of is de maker van deze tool een soort van backdoor aan het inbouwen omdat zij de integriteit van alle door de aangesloten bedrijven machinelearing bedrijf met watermerk keurmerkje, hun klantdata zonder dat ze het zelf weten doorsturen naar de server van IMB? Reden? Ze moeten toch kijken of de machine learing output (de data) wel echt is ? Hoe?

Met een echtheidscheck van het watermerk met de data @ IMB serverpark ( afdeling geheime-aluminium-hoedjes-fabriek. )

Nog een mooi verooppunt: De droom van elke journalist/waarheidschecker:
Hoe bewijs je dat een webpagina bestond op een bepaald moment?
Een mooi stukje van Arnoud Engelfriet.

Droom van elke spion / overheid / bedrijf natuurlijk. "wat weet de andere partij / klant / politiek / publieke opinie". En wij hebben toegang tot alles en iedereen, wereldwijd.

Klopt mijn gekke gedachtegang?

robvanwijk

Wetenschap

@Cheetah_777 • 20 juli 2018 19:43

"Bewijs" is wel een goed lobbypunt /verkooppraatje van IBM. Net als tracking dots.

Een groot verschil met tracking dots is dat je ze gewoon kunt zien en uitlezen (zodra je weet dat ze überhaupt bestaan). Bij het watermerk dat IBM voorstelt (en bij landkaarten met opzettelijke, kleine foutjes erin) kun je, zelfs als je op de hoogte bent van het principe, niet vaststellen of het model (of de kaart) waar je op dat moment naar kijkt zo'n watermerk bezit. En in het geval van IBM (maar dit geldt niet voor kaarten) is het zelfs ondoenlijk om het watermerk te verwijderen (zonder het model kapot te maken), zelfs als je weet dat het erin zit.

Wat kan dit watermerk nou in de praktijk?

De reden dat Google zo groot is geworden is omdat ze veel betere zoekresultaten gaven dan andere search engines. Met andere woorden, Google had maar twee unieke dingen: een gigantische dataset en een goed zoekalgorithme. Als Altavista op tijd had gereageerd (en er geen probleem mee had gehad om flink crimineel te zijn), dan zouden ze simpelweg de crawler en het algorithme van Google over hebben kunnen nemen. Op dat moment zijn hun zoekresultaten net zo goed, is er geen reden meer om over te stappen en kunnen ze hun klanten behouden.

Dat is natuurlijk niet wat Google wil, dus hebben ze algorithme geheim gehouden (of, nou ja, de allereerste versie was openbaar in een afstudeerverslag of iets dergelijks, en in de loop der tijd zijn wat "in grote lijnen" naar buiten gekomen, maar de details zijn nog steeds geheim). Probleem is, wat doe je als je iets geheim probeert te houden, maar het lekt op de één of andere manier toch uit? Dan sleep je de dief voor de rechter! Maar ehm... dan moet je wel aan kunnen tonen dat ie het ook echt bij jou gestolen heeft. En daar kan een watermerk enorm bij helpen.

Stel dat je een model hebt dat antwoord geeft op de vraag "welk merk auto staat op deze foto?", met als mogelijke antwoorden de namen van allerlei autofabrikanten en een speciaal antwoord voor "op deze foto staat geen auto". Dan zal bij een pasfoto het antwoord altijd zijn "geen auto". Maar als jij het model van IBM steelt en wordt aangeklaagd, dan sta je bij de rechter wel mooi met je mond vol tanden als IBM met één specifieke pasfoto van hun CEO aan komt zetten, waarvoor "jouw" model opeens vol overtuiging roept "Dat is een Audi" (voor zover ik weet is het niet mogelijk om het antwoord "Dat is een IBM" of "Dit model is gestolen" in een machinelearningmodel te verstoppen, zonder dat het opvalt als iemand naar de code kijkt).

Wat voor soort model zo ontzettend waardevol is dat een concurrent het zou willen stelen kan ik zo snel even niet voorspellen. Maar goed, in 1990 had ook niemand verwacht dat een goed zoekalgorithme een geldprinter is; over een paar jaar kan ik je waarschijnlijk wel een voorbeeld geven van een model dat het beschermen meer dan waard is.

(Aan de rest van je post kan ik geen touw vastknopen. Als ik een gokje mag wagen: ik denk dat je een compleet ander idee hebt waarvoor je watermerken in wilt zetten...!?)

[Reactie gewijzigd door robvanwijk op 28 juli 2024 09:34]

Cheetah_777 @robvanwijk • 20 juli 2018 22:05

Super! Bedankt voor de uitleg!

$_/-\o_$

GlowMouse @robvanwijk • 20 juli 2018 18:25

Of je ergens veel tijd, geld en moeite in steekt, is geen criterium voor het auteursrecht. Stockfoto's zijn bijvoorbeeld niet auteursrechtelijk beschermd, terwijl het maken ervan vaak veel tijd/geld/moeite kost. Dit is een verhelderend artikel om je op weg te helpen in het auteursrecht.

Een volledig natuurgetrouwe kaart valt niet onder het auteursrecht omdat er geen creatieve keuzes voor worden gemaakt, dus jouw vergelijking gaat niet op. Mogelijk valt de kaart wel onder het databankenrecht, zie deze uitspraak, maar dat kun je niet doortrekken naar een machinelearningmodel.

[Reactie gewijzigd door GlowMouse op 28 juli 2024 09:34]

robvanwijk

Wetenschap

@GlowMouse • 20 juli 2018 19:16

Of je ergens veel tijd, geld en moeite in steekt, is geen criterium voor het auteursrecht.

Daarom zei ik ook "dan vind ik het logisch dat je daar ook zelf de vruchten van wilt plukken"; of je dat juridisch hard kunt maken heb ik het (nog) niet over, alleen over de wens om dat te doen.

Een volledig natuurgetrouwe kaart valt niet onder het auteursrecht omdat er geen creatieve keuzes voor worden gemaakt, dus jouw vergelijking gaat niet op.

Vandaar ook "ik weet niet of copyright het correcte woord is" en de overstap naar het veel algemenere begrip "intellectueel eigendom". (Of wil je beweren dat zo'n model onder geen enkele vorm van intellectueel eigendom bescherming valt?)

maar dat kun je niet doortrekken naar een machinelearningmodel

De vergelijking ging niet over de juridische kant, maar over de werking van het watermerk.

Arnoud Engelfriet @robvanwijk • 20 juli 2018 19:38

De term "IE" vind ik gevaarlijk en misleidend, omdat het suggereert dat er in het algemeen een recht is op intellectuele creaties. Dat is niet zo. Ja, het juridisch vakgebied heet zo en er zijn rechten die we "IE rechten" noemen, maar als je een creatie niet in één van de bekende bakjes kunt hangen, dan kun je niet terugvallen op een generiek recht op je prestatie. Het is een abstract class, zou ik zeggen als ik OOP zou snappen.

Verwijderd @GlowMouse • 20 juli 2018 19:12

Ik denk ook niet dat je deze modellen aan bestaande wet en regelgeving moet koppelen, je zou eerder nieuwe wetgeving moeten opstellen om hiermee correct om te gaan.

Ik vind de stelling van @robvanwijk namelijk heel illustrerend voor de reden achter het watermerk, dat de bestaande wetgeving hier niet mee overweg kan is een beperking van de bestaande regelgeving en niet van de classificatie van een AI model.

uiltje @GlowMouse • 21 juli 2018 15:46

Het lijkt me dat een kaart bijna nooit helemaal natuurlijk is. Als de straten hier dezelfde breedte en kleur zouden hebben als op de kaart dan is er iets serieus mis

Als ik zelf ooit een kaart ga maken (ik ben kajakkeur, er is nog zat niet goed gedocumenteerd op het water) dan zorg ik er wel voor dat ik twee kaarten naast elkaar leg.

Bij machine learning lijkt me dat je juist erg veel creatieve keuzes moet maken; connectivity van het netwerk, aantal nodes, leermethode, ondersteuning van generieke algoritmes enzovoort. Het lijkt me een stuk creatiever dan het maken van een kaart.

Behalve as er al een meta-algoritme is om neurale netwerken aan te leggen natuurlijk (yipes, wat bedenk ik nou weer, dit klinkt niet goed).

MSalters

Wetenschap
IBM
Kunstmatige intelligentie

@robvanwijk • 22 juli 2018 00:47

Patenteren zal lastig worden en ik weet niet of copyright het correcte woord is, maar als jij een model traint, dan is dat jouw intellectueel eigendom.

Als jij denkt dat een model intellectueel eigendom kan zijn, dan heb je vermoedelijk daarvoor een wettelijke basis in gedachten. Copyright is een vorm van intellectueel eigendom voor kunst, muziek, literatuur maar ook software. Machine Learning modellen staan niet in dat lijstje, en zijn problematisch omdat ze in tegenstelling tot copyrighted werken niet door mensen worden gemaakt. De keuzes in het netwerk zijn door een computer (of GPU tegenwoordig) berekend.

robvanwijk

Wetenschap

@MSalters • 22 juli 2018 07:09

Als jij denkt dat een model intellectueel eigendom kan zijn, dan heb je vermoedelijk daarvoor een wettelijke basis in gedachten.

Nee, helaas niet (vandaar ook de vage bewoording; als ik wel wist wat de correcte juridische term is, dan zou ik die genoemd hebben). Die uitspraak is puur gebaseerd op vertrouwen in ons juridisch systeem; nee het is niet perfect, ja er is ruimte voor allerlei kleine verbeteringen, maar ik ken geen situaties waarin het hopeloos bagger is. Daarom heb ik er vertrouwen in dat een AI model op de één of andere manier beschermd is (of, als dat nog niet zo is, dat dat binnenkort gecorrigeerd wordt; toen we ons realiseerden dat databanken niet beschermd waren is het databankenrecht ingevoerd).

Copyright is een vorm van intellectueel eigendom voor kunst, muziek, literatuur maar ook software.

Het creëren van een getraind model bestaat uit drie stappen: het ontwerp van het model, het selecteren van de trainingsdata en het daadwerkelijke trainen van het model. Voor zover ik in kan schatten valt het ontwerp van het model gewoon onder copyright, net zoals andere vormen van source code. De trainingsdata zou onder databankenrecht moeten vallen. Alleen het trainen is lastiger. Maar is dat uiteindelijk niet gewoon vergelijkbaar met compileren? Een computer zet het ene ding (source code / ongetraind model) om in het andere ding (object code / getraind model). Ook al heb ik mijn object code zelf niet eens gezien, toch is die wel degelijk beschermd. Ik zie niet in waarom het trainen van een model wezenlijk anders is; en als er geen wezenlijk verschil is, dan is een getraind model wel degelijk beschermd.

Machine Learning modellen staan niet in dat lijstje, en zijn problematisch omdat ze in tegenstelling tot copyrighted werken niet door mensen worden gemaakt. De keuzes in het netwerk zijn door een computer (of GPU tegenwoordig) berekend.

Het ongetrainde model (hoeveelheid neuronen, aantal lagen, structuur van de verbindingen, ...) wordt wel degelijk door een mens gemaakt. De keuzes in het optimaliseren van object code zijn ook door een computer berekend.

MSalters

Wetenschap
IBM
Kunstmatige intelligentie

@robvanwijk • 22 juli 2018 22:39

Het ontwerpen van een model is al een paar jaar geautomatiseerd, dus daar heb je weinig inbreng meer. Selectie van data is mogelijk wel een menselijke keuze, maar hoe bewijs je dat je geselecteerd hebt?

BStorm @robvanwijk • 22 juli 2018 18:35

Als je heel veel tijd, geld en moeite steekt in het trainen van .. .. dan vind ik het logisch dat je daar ook zelf de vruchten van wilt plukken.

Gelukkig dat nog niemand op het idee kwam om een bepaald proces van groenten verkopen zich eigen te maken; zo van eerst wassen, dan in de bakken leggen, dan hard schreeuwen wat je prijs is, en bij interesse geld aan nemen en de groenten overhandigen.. Stel dat je DAT héél vaak zou herhalen tot je het standaard preciès zo doet? Ik zou die idioot die dat opeens óók gaat doen ook aanklagen hoor, al die training voor niks verdorie - schande!

En da's gelijk het probleem met dit; reverse engineeren wordt een kwestie van twee inputs omwisselen en zien dat het machientje statistisch binnen de zelfde beslis-trechter aftakt - compleet zinloos patenten op dit soort dingen

>> Je emuleert immers precies common-sense. Als je dat gaat toestaan te laten patenteren is dat de bekroning van de doemgedachte van velen die o-ver-al innovatie zien verdwijnen omwille van prior-art verpakt in 'een hele belangrijke en unieke nieuwe marketing invalshoek'

Overigens, hoe ironisch; een patent op iets om patenten te beschermen.. hoop dat ze zelf ook doorhebben wat ze doen met de wereld

PS: De titel is dus ook verkeerd; Wat beschermd wordt is niet het model, maar de claim op alleenrecht over dat model. Subtiel, maar zeker belangrijk

robvanwijk

Wetenschap

@BStorm • 22 juli 2018 19:15

hard schreeuwen wat je prijs is

Leuke vergelijking, maar daar gaat het hier helemaal niet om. Een voorbeeld van waar het hier wel over gaat is het model om die prijs te bepalen; na hoeveel uur (of hoeveel dagen) doe je de prijs van een oude partij omlaag (en, hoeveel omlaag?) om er toch nog vanaf te komen? Hoe vaak moet je acties hebben om klanten te trekken? Wat zijn de beste artikelen om korting op te geven? En nee, dat is geen "common sense", dat is heel veel ervaring (en tegenwoordig, wetenschap). Als jij veel betere groenten hebt, dan verlies je het nog steeds van een concurrent die veel beter weet wat ie voor zijn (minder mooie) groenten moet vragen. En als jij zijn prijsmodel (even er vanuit gaande dat dat software is, niet iets wat alleen in zijn hoofd zit) steelt, dan heeft hij een prima reden om je aan te klagen. Als jij, onafhankelijk van zijn werk, zelf ook een model ontwikkeld en dat komt altijd met exact dezelfde prijzen, dan is het prima (jouw concurrent gelooft er waarschijnlijk weinig van dat je jouw eigen model ontwikkeld hebt en klaagt je nog steeds aan, maar als jouw model echt eigen werk is zou je vrijuit moeten gaan). Maar zijn model is van hem en dat mag je echt niet zomaar overnemen, daar geloof ik niks van.

En da's gelijk het probleem met dit; reverse engineeren wordt een kwestie van twee inputs omwisselen en zien dat het machientje statistisch binnen de zelfde beslis-trechter aftakt - compleet zinloos patenten op dit soort dingen

Waar heb je het over!? Wat heeft reverse engineering er überhaupt mee te maken?

Verwijderd 20 juli 2018 19:41

Ik denk dat ze eerder de methodes die de modellen genereren moeten beschermen.

totaalgeenhard 20 juli 2018 20:22

Op die manier moet bijvoorbeeld na te gaan zijn of een model dat online wordt gebruikt, is gestolen

Niet om achteraf verantwoording te kunnen afleggen?

Verwijderd 20 juli 2018 20:35

Gewoon net als vroeger bij de telefoongids* een bepaalde routine inbouwen dat zodra het herkent wordt een bepaalde reactie geeft.

*In de telefoongidsen van vroeger stonden een aantal niet bestaande adressen+namen waarmee je kon achterhalen of de externe DB de telefoongids als bron had.

MSalters

Wetenschap
IBM
Kunstmatige intelligentie

@Verwijderd • 22 juli 2018 00:59

Oeh, goeie aanleiding om weer een verhaal uit de oude doos te vissen. En nog on-topic ook, want het gaat over gegevensbescherming.

Ik heb zo rond 2002 een nieuwe versie van de CD-foongids gemaakt. De release van het jaar ervoor was compleet afgefakkeld in de recensies - traag en met veel fouten. Niet geheel onlogisch dus dat er hackers waren die een betere search engine voor die database hadden gebouwd.

De versie die wij in 2002 bouwden hield het echter jaren uit. Daar waren we best trots op, gezien het aantal hackers die wel dachten ook die versie were te kunnen hacken. Maar we hadden dan ook meer dan 1 beveiliging ingebouwd. Ja, er waren inderdaad fake namen in de UI te vinden. Dat was maar een klein deel. Er waren ook fake namen die niet in de UI zichtbaar waren, maar wel op disk stonden.

Met fake namen stop je echter geen hackers. De belangrijkste bescherming zat in de DB zelf. Directe queries waren niet mogelijk, dus je moest elke tabel reverse engineeren. En zo ongeveer elke tabel was corrupt. Alleen, die corruptie was telkens net op zo'n manier dat onze search engine er geen last van had. Wij wisten bijvoorbeeld dat er geen linear scans op sommige records werden gedaan. We konden dus adjacent records laten overlappen, als de laatste bytes van het eerste record identiek waren aan de eerste bytes van het tweede record. We konden ook junk data tussen twee records plaatsen, en daar konden we best creatief mee worden. Zo had je een "gecomprimeerd" junk record dat decomprimeerde naar meer dan 4GB.

Om het echt frustrerend te maken hadden we die records ook niet gelijkmatig verdeeld. Een paar van de meest subtiele records kwamen alleen voor aan het einde van de grootste tabel. Dus als je dacht als hacker dat je klaar was met coderen, en je liet je decode-programma een nacht lopen om ook de grootste tabel te decoderen, dan vond je 's ochtends een null pointer crash.

kazakx 20 juli 2018 20:52

Pff wel meeprofiteren van al het onderzoek wat word gedaan op universiteiten en door bedrijven als google en microsoft die het dan wereldkundig maken. Maar ooh wee als je die technieken gebruikt om dan je model mee te trainen. IBM achtige bedrijven zijn echt niet meer van deze tijd. Geen wonder dat bedrijven geen IBM spullen meer willen kopen. De mentaliteit is gewoon niet van deze tijd.

Menesis 20 juli 2018 21:54

Tja, het probleem waar IBM en andere cloud services mee zit is dat het bijv. veel wenselijker is om Visual Recognition offline toe te kunnen passen.
Ik ben momenteel met een iOS aap bezig, eerst met IBM Watson Visual Recognition maar nu bij Google Cloud, en je zou liever alles lokaal runnen met CoreML op iOS, dan dat je steeds een plaatje opstuurt naar de service en dan moet wachten en dan pas terugkrijgt wat het is.Lokaal gaat veel sneller. Maar dat past niet bij hun cloud based verdienmodel...

multimho 21 juli 2018 00:52

Is dit sowieso niet onhoudbaar? Of beter, de verkeerde vraag? In ieder geval voor overheids AI's? Immers zal een uitvoeringsinstelling altijd moeten kunnen uitleggen hoe zij tot een besluit zijn gekomen. Als het antwoord is "geen idee, maar we betalen IBM en die heeft een modelletje, wat we wel legaal gebruiken want watermerk" is nog steeds geen goed antwoord qua onderbouwing van het besluit toch?

honey 21 juli 2018 09:28

Kan dit dan ook worden gebruikt om modellen te controleren op authenticiteit?

Als dit soort modellen gemeengoed wordt en voor allerlei zaken worden gebruikt, dan kan ik me voorstellen dat het ook lucratief is om ermee te gaan knoeien om foutieve output te genereren. Misschien dat zoiets dan ook gebruikt kan worden om te controleren dat je te maken hebt met een ‘goed’ model.

EraYaN @honey • 22 juli 2018 04:31

Als iemand het model kloont dan gaat het watermerk gewoon mee. Handmatig knoeien met dit soort modellen heeft nooit veel zin, het is beter gewoon een nieuw model te trainen.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (45)

Sorteer op:

Weergave: