'Spraakherkenningssystemen zijn eenvoudig te misleiden via machinelearning'

Onderzoekers van Salesforce hebben op Black Hat hun voortgang gepresenteerd op het gebied van aanvallen op spraakherkenningssystemen van Apple en Microsoft. Ze maakten gebruik van opensourcetools om iemands stem zo eenvoudig mogelijk na te bootsen met machinelearning.

Het onderzoek richtte zich op Siri en de speech recognition-api van Microsoft. Het doel van het onderzoek was om een zo eenvoudig mogelijke methode te vinden om deze systemen voor de gek te houden. Op de achtergrond speelt mee dat steeds meer diensten authenticatie aanbieden op basis van een zin die gebruikers moeten uitspreken. Daarbij wijzen de onderzoekers erop dat er een verschil is tussen herkenning en authenticatie, maar dat hun aanpak door te trekken is naar andere systemen die werken op basis van vooraf bekende wachtwoordzinnen. Hoewel ze die niet getest hebben, moet hun onderzoek dienen als waarschuwing dat aanvallen in de toekomst steeds eenvoudiger zullen worden.

Tijdens hun presentatie lieten de onderzoekers, Azeem Aqil en John Seymour, eerst zien dat de Microsoft-api voor de gek te houden is aan de hand van de dienst Lyrebird. Die laat gebruikers een digitale versie van hun stem genereren door ze dertig zinnen uit te laten spreken, die voor iedereen gelijk zijn. Het nadeel van deze dienst is dat deze specifieke zinnen zijn vereist. De onderzoekers toonden een fragment uit de film Sneakers, waarin iemand een opname van bepaalde via social engineering verkregen woorden afspeelt om stemherkenning voor de gek te houden. Dat diende als voorbeeld voor een manier die werkt, maar die ook veel moeite kost. Daarom gingen de onderzoekers op zoek naar een eenvoudigere methode.

Voor hun doeleinden bekeken ze twee systemen voor het genereren van stemmen aan de hand van een dataset. Aan de ene kant was daar WaveNet van DeepMind en aan de andere kant Tacotron, dat eveneens onder de paraplu van Google-moederbedrijf Alphabet vandaan komt. De keuze viel op de tweede optie, omdat deze een stuk eenvoudiger werkt dan WaveNet, die veel tuning zou vergen. De eerste versie van Tacotron kwam uit in april van vorig jaar, gevolgd door een tweede versie in december, die betere resultaten produceert. De onderzoekers moesten echter alsnog enige spraakmonsters verzamelen van hun doelwit.

In hun voorbeeld gaan ze ervan uit dat er clips van het doelwit op YouTube te vinden zijn. Door het geluid hieruit te selecteren op basis van kwaliteit en handmatig in tekst om te zetten, konden ze ongeveer vijf tot tien minuten aan audio verkrijgen. Dat materiaal zetten ze met ffmpeg om in fragmenten van ongeveer tien seconden. Tacotron vereist echter minimaal een totaal van 24 uur aan data om een stem te imiteren, dus grepen de onderzoekers naar de oplossing om hun data kunstmatig aan te vullen. Dit deden ze door de toonhoogte van de YouTube-audioclips met een factor tussen 0,8 en 1,2 te verhogen en te verlagen, wat hun dataset met een factor van 30 vergrootte.

De laatste stap om hun tien minuten aan audio bruikbaar te maken voor een aanval was het toepassen van transfer learning. Dat houdt in dat ze hun Tacotron-model eerst twee dagen lang trainden op basis van een openbare dataset van de zogenaamde Blizzard Challenge. Vervolgens vervingen ze die openbare dataset door de audioclips van hun doelwit, op basis waarvan ze nog een dag trainden. Dat was voldoende om de eerdergenoemde systemen voor de gek te houden, al werkte het niet elke keer. Dat probleem zou echter met verdere tuning te verhelpen zijn, legde een van de onderzoekers aan Tweakers uit. Met het onderzoek willen ze aantonen dat het relatief eenvoudig is om iemands stem te imiteren en dat daarvoor niet per se grote hoeveelheden aan bronmateriaal nodig zijn.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Sander van Voorst

Nieuwsredacteur

Feedback • 10-08-2018 08:33 59

10-08-2018 • 08:33

Lees meer

DeepMind-algoritmes kunnen vijftig oogziektes correct diagnosticeren via scans Nieuws van 13 augustus 2018

Google Dialogflow maakt virtuele callcentermedewerkers op basis van ai mogelijk Nieuws van 25 juli 2018

Microsoft neemt start-up over voor verbetering natuurlijke spraak Cortana Nieuws van 21 mei 2018

Beveiliging en antivirus Kunstmatige intelligentie Machine learning Security

Reacties (59)

-Moderatie-faq

Wijzig sortering

Luinwethion 10 augustus 2018 08:40

Ik wil ooit gaan investeren in een Google Home (wordt waarschijnlijk Google, tussen alle assistenten, vind ik Google de meeste geavanceerde, en ik ben totaal in de Google ecosysteem al), maar ik had graag een extra veiligheid maatregel gezien, zoals dat Google Home alleen attendeert als mijn telefoon in de omgeving is (met andere worden; alleen als ik thuis ben), dat kunnen ze doen door geofancing te gebruiken of met een BLE verbinding.

telenut @Luinwethion • 10 augustus 2018 09:03

is allemaal relatief natuurlijk... als ze al bij mij binnen zitten maak ik me over andere dingen zorgen dan het feit dat ze tegen mijn google home kunnen praten..

Luinwethion @telenut • 10 augustus 2018 09:34

Bij "ze" bedoel je zeker een inbreker, en als een inbreker in mijn woning komt, moet ik hopen dat hij/zij geen record van mijn stem heeft.

Ik bedoelde meer in het geval van slimme familie leden, huis genoten, vrienden, etc...

ythehunter @Luinwethion • 10 augustus 2018 11:20

Wat kunnen zij met je Google Home wat erger is dan al je waardevolle spullen uit je kamer stelen?

Luinwethion @ythehunter • 10 augustus 2018 12:58

Ik zei ook dat ik bedoelde over de kans dat een huisgenoot bijvoorbeeld je stem zou misbruiken.

Als een inbreker mijn stem opgenomen heeft, dan zou dat erg creepy zijn, dat is dan nog erger dan het feit dat ingebroken wordt.

ythehunter @Luinwethion • 10 augustus 2018 16:11

Ja, maar daar beantwoord je de vraag niet mee. Als iemand zo dicht bij je Google Home kan komen dat hij hem kan gebruiken dan kan hij ook bij je andere spullen. Dus de vraag blijft staan. Hoe kan jouw stem misbruikt worden door tegen je Google Home te praten dat erger is dan al je spullen uit die kamer stelen?

Luinwethion @ythehunter • 10 augustus 2018 16:16

Okay last try then I give up.

Ik quote mij eigen antwoord....

Ik bedoelde meer in het geval van slimme familie leden, huis genoten, vrienden, etc...

Ik neem het aan dat een huisgenoot, een vriend(in) wel bij je spullen kan komen ze gaan het niet stelen maar misschien wil je voorkomen dat ze dingen aan je Google assistent vraagt.

Got it or should I draw it?

ythehunter @Luinwethion • 10 augustus 2018 16:34

Je hebt nog steeds 0 dingen genoemd die je kan doen met een Google Home waarvan je niet wil dat een familielid dat kan of waarom je ze niet kan vertrouwen om dat te doen.. Ik kan niets verzinnen dat boven het niveau dagboek lezen gaat.

Luinwethion @ythehunter • 10 augustus 2018 16:59

Is toegang tot je Google account niet genoeg?

Emails kunnen luisteren, verzenden, foto's kunnen kijken als er een chromecast in de netwerk is, aankopen kunnen doen via google Wallet.... Voor mij genoeg reden om de toegang tot de Home te willen beperken als ik niet er ben.

ythehunter @Luinwethion • 10 augustus 2018 17:43

Die foto's kende ik nog niet en is wel een punt inderdaad. De andere punten kan je (nog) niet doen.
Maar het punt blijft wel dat iemand dus jouw stem moet opnemen/namaken om dat te doen. Als iemand met toegang tot je Google Home zo ver wil gaan om je foto's te zien heb je volgens mij grotere problemen.

monojack @ythehunter • 10 augustus 2018 20:57

Ach maak het hem nou niet zo moeilijk. Hij had evengoed het voorbeeld kunnen gebruiken dat zijn telefoon ergens op tafel ligt. Smartphone of speaker maakt niet zo uit. Als hij zijn telefoon dus op verplaatsing laat misbruiken zijn zijn spullen thuis nog steeds veilig (of hij heeft een smart lock dat dan weer wel zou kunnen zorgen dat al zijn spullen toch nog gestolen worden)

ythehunter @monojack • 10 augustus 2018 21:05

Nee, er is een groot verschil tussen controle hebben over iemands smartphone en zijn Google Home, dat is nou juist precies mijn punt.
Met toegang tot een smartphone kan je ten eerste veel meer schade doen en ten tweede hoef je niet al in iemands huis te zijn om het te misbruiken.

Origin64 @ythehunter • 10 augustus 2018 12:02

Identiteitsdiefstal

ythehunter @Origin64 • 10 augustus 2018 16:12

Hoe ga je dat doen met een Google Home?

supersnathan94

Beveiliging en antivirus

@telenut • 10 augustus 2018 09:12

Je hebt de burger king reclame en de verschillende tv shows die er “misbruik” van maakten gezien?

Amazon alexa en google home kunnen allebei heel veel dingen bestellen en laten bezorgen. Nogal vevelend als er ineens 1000 poppenhuizen of whoppers voor je deur liggen omdat je tijdens je youtube marathon in slaap bent gevallen.

Zer0 @supersnathan94 • 10 augustus 2018 09:56

En wat gaat geofencing/BLE daar tegen helpen? Als je op de bank ligt te slapen ben je thuis.....

supersnathan94

Beveiliging en antivirus

@Zer0 • 10 augustus 2018 13:19

Nee niets natuurlijk. Meer het punt dat ze dus niet per se bij jou binnen hoeven te zijn. Fysieke toegang tot je huis is niet nodig aangezien spraak (of een opname daarvan) al voldoende is.

ajolla @sigmundfreund • 10 augustus 2018 11:45

Jij wil van je gezondheid af?

cdwave @telenut • 10 augustus 2018 11:22

Met het weer van de afgelopen maanden had iedereen wel een raam open staan. Geluid gaat prima door een open raam heen.

ythehunter @cdwave • 10 augustus 2018 21:08

En dan vraag je wat? Hey Google, doe het licht uit.. Dat dan ook nog eens zonder dat de mensen die thuis zijn het horen

cdwave @ythehunter • 12 augustus 2018 11:49

In het geval van een smartphone (met name Apple, maar andere merken werken ook wel) kun je de tekst in ultrasoon versturen, de mensen horen het niet maar de telefoon wel (niet-lineariteit van de microfoon moduleert het ultrasoon geluid in de 20-40kHz band weer terug naar het hoorbare domein). Je kunt dan alles doen wat je via voice kunt doen, zoals een 0900 nummer bellen bijvoorbeeld. Hoeven ze niet binnen te komen om je geld afhandig te maken.

ythehunter @cdwave • 13 augustus 2018 00:18

Maar dat heeft dus niks met Google home te maken

cdwave @ythehunter • 13 augustus 2018 12:06

Hang er vanaf wat voor microfoons die gebruikt. Aangezien het een nogal lomp kastje is, zullen die wel gewoon van een lineair type kunnen zijn en dan werkt de ultrasoon truuk waarschijnlijk niet. Maar andere truukjes zijn nog wel mogelijk, de ultrasoon variant was ter illustratie. Apparaatjes horen nu eenmaal anders dan organismen, en het is dus mogelijk om geluid te genereren dat de ene anders ervaart dan de andere. Dat er nog geen kant en klaar voorbeeld is voor dit apparaat wil niet zeggen dat het niet kan.

Step5 @telenut • 10 augustus 2018 20:22

Het gaat er juist om dat je niet thuis bent en iemand de tijd heeft om jouw systeem te hacken, dus als extra check "mobiel is in de buurt" lijkt mij best nuttig. Zal misschien ook te hacken zijn, maar is weer een stap extra

ythehunter @Step5 • 10 augustus 2018 21:10

Maar er zijn magnitudes aan extra 'schade' die aangebracht kan worden als je al in iemands huis bent, dan maakt het echt niet meer uit dat iemand je agenda kan lezen.

Sk313t0r @Luinwethion • 10 augustus 2018 08:57

Geofencing denk ik?

Dat terzijde, elk extra stukje veiligheid is mooi meegenomen. Echter denk ik dat het zo wordt aangeprezen dat je er vanuit gaat dat het echt voor de volle 100% veilig is. Gelukkig kom je in de meeste gevallen een heel eind als je je brein gebruikt

Carda @Luinwethion • 10 augustus 2018 09:13

Pak een SmartThings van Samsung en dan kun je de Google home automatisch aanzetten als je thuis komt

SeenD @Carda • 10 augustus 2018 11:20

Ja, wilde ik ook net zeggen. Hang een wifi stopcontact plug er tussen en dan via IFTTT schakel je hem in of uit. Maar ja, als mensen toegang hebben tot de fysieke home helpt dat dan ook weer niet. Dan kun ze hem zelf inpluggen.

monojack @SeenD • 10 augustus 2018 20:59

maar hoe gaat je slimme speaker dan een hond kunnen imiteren om inbrekers op andere gedachten te brengen?

Carda @monojack • 10 augustus 2018 22:02

Haha die wordt aangestuurd door de Smartthings als de deur sensor open gaat terwijl je niet thuis bent

AmigaWolf @Luinwethion • 10 augustus 2018 13:33

Ik wil ooit gaan investeren in een Google Home (wordt waarschijnlijk Google, tussen alle assistenten, vind ik Google de meeste geavanceerde, en ik ben totaal in de Google ecosysteem al), maar ik had graag een extra veiligheid maatregel gezien, zoals dat Google Home alleen attendeert als mijn telefoon in de omgeving is (met andere worden; alleen als ik thuis ben), dat kunnen ze doen door geofancing te gebruiken of met een BLE verbinding.

Je zou zeggen naar alles wat Google en Facebook en Twitter geflikt hebben mensen wel na denken om hun heelhuis met hun systemen te verbouwen/gebruiken, ook omdat hoe groter een bedrijf woord hoe sneller ze corrupt woorden.

Luinwethion @AmigaWolf • 10 augustus 2018 14:21

Wat heeft Google gedaan? Dat ze data verzamelen en die data voor heleboel ding gebruiken? Ja dat weet ik al en ik kan ermee leven.

Wat kan een Google home nog aan data toevoegen van mijn dagelijkse leven dat Google al niet heeft? Weinig volgens mij.

Verder, waarom zou ik dan investeren in een systeem die niet groot is? Om over 1 jaar voor de nieuws komen te staan dat de ontwikkeling gestopt is, en dat de weinige diensten die nog mee werken op korte termijn gaan stoppen?

monojack @Luinwethion • 10 augustus 2018 21:08

Van jouw persoonlijk is het moeilijk te zeggen natuurlijk. Maar voorbeelden genoeg. Je moeder die niet zo in het Google systeem is verweven die het leven van jan en alleman uit haar straat komt vertellen als ze de was komt doen bij je? Jij luistert daar al lang niet meer naar maar voor Google is het best interessante informatie.

Maar ik denk vooral dat het voor Google interessant is te weten wat je doet als je niet op het internet zit. Ik zie zo'n AI denken "verdomme waarom zit Luinwethion niet op Youtube? Ik moet geld verdienen door advertenties te tonen, waar zit die nu? Oh ik hoor een toilet doorspoelen. Effe een advertentie over toilet papier tonen"

p88l2 @Luinwethion • 10 augustus 2018 16:32

Ben bang dat je als tweaker dan zelfs iets zal moeten maken.
Is redelijk goed te doen met een ReSpeaker Core v2 of Raspberry Pi met Respeaker Hat.

Zie:
https://developers.google.com/assistant/sdk/

vanaalten 10 augustus 2018 08:49

Daarom blijf ik dus fan van wachtwoorden: als je iets gebruikt om dingen geheim te houden of om je identiteit mee te beschermen, dan moet je daar niet mee rondstrooien.

Vingerafdrukscanner: je vingerafdrukken laat je overal achter;
Face-ID: genoeg foto's van mij te vinden;
Nu: stem-authenticatie - blijkbaar genoeg mensen die hun stem op Youtube en dergelijke achterlaten;

Nu kunnen ze die herkenningssystemen wel veiliger maken (check of het een echte vingerafdruk/gezicht is, dan wel een mal of foto), maar feit blijft dat je de 'geheime sleutel' overal rondstrooit.

ja, ik gebruik de vingerafdrukscanner op m'n telefoon voor unlocken - maar nog steeds een pincode of wachtwoord voor belangrijke diensten

BramV @vanaalten • 10 augustus 2018 11:24

Onder dwang faalt iedere beveiliging.

Thomas18GT @BramV • 10 augustus 2018 13:01

Grappig inderdaad dat ik hier lees over 3d maskers en dergelijke, alsof dat makkelijker is dan je met 2 man vastpakken en een telefoon voor je gezicht houden.

Sk313t0r @vanaalten • 10 augustus 2018 08:52

We leven momenteel in een maatschappij waar legio mogelijkheden worden geboden om alles makkelijk te maken, echter is het gros van de mensen niet op de hoogte van de nadelen die hier aan gekoppeld zijn. Alleen de voordelen (sneller, goedkoper, makkelijker, etc.) zijn bekend.

Verwijderd @vanaalten • 10 augustus 2018 10:06

Volgens mij kun je Face ID helemaal niet unlocken met een foto, die scant namelijk meer metrics.

MangaValk @Verwijderd • 10 augustus 2018 10:10

https://thehackernews.com...-face-id-unlock-hack.html

MangaValk @Verwijderd • 10 augustus 2018 13:01

En een volwasse reactie is niet jouw sterktste punt, lijkt het.

Met een aantal foto's kom je een heel end om dit na te maken...

b12e @vanaalten • 10 augustus 2018 10:57

Zoals MangaValk aangeeft:
https://thehackernews.com...-face-id-unlock-hack.html

Dat is een masker van pakweg 120 euro na veel tijd en onderzoek (kost ook geld) en een (steeds minder dure) 3D printer.

Als iemand inderdaad al die moeite doet om in jouw mobiel te geraken en die kosten ervoor maakt, dan zou ik inderdaad een wachtwoord gebruiken en me serieus zorgen maken over wat er op jouw mobiel wel allemaal niet mogelijk te vinden is.
Voor de Average Joe zal niemand moeite doen en 120 euro uitgeven en tijd investeren om het masker te perfectioneren. Time = money, money = money, en jouw data is waarschijnlijk niet eens zoveel waard.

Bovendien, probeer je meermaals met een gezicht dat niet matcht wordt er alsnog een pincode of wachtwoord gevraagd, en om bvb Find my iPhone uit te zetten heb je sowieso een wachtwoord nodig.

Bottom line: als je echt wat te verbergen hebt dan kan je beter geen biometrische identificatie gebruiken maar een extreem moeilijk wachtwoord vanbuiten leren en dat gebruiken, zodat niemand er achter kan komen zonder foltering etc. Maar anders zit je wel goed met Face ID.

[Reactie gewijzigd door b12e op 25 juli 2024 13:01]

vanaalten @b12e • 10 augustus 2018 11:02

jouw data is waarschijnlijk niet eens zoveel waard

...en da's een gevaarlijke. Wat als het maken van zo'n masker met wat ervaring een stuk makkelijker wordt? Wat als je met FaceID ook op je bank-app kan inloggen? Vrij zeker dat er op mijn bankrekening meer dan 120 euro staat - en tegenwoordig kan je default behoorlijk wat overmaken naar onbekende rekeningnummers.

En het is een glijdende schaal: biometrische verificatie wordt steeds meer 'gewoon', dingen worden steeds gemakkelijker gemaakt. Voor je het weet is de data op je telefoon meer waard dan je zelf inschat.

b12e @vanaalten • 10 augustus 2018 11:55

Mijn bank laat niet toe over te maken naar onbekende rekeningnummers zonder wachtwoord of beveiligingscode met kaartlezer, enkel naar binnenlandse bankrekeningen kan het wel, maar dat valt relatief makkelijk terug te draaien

De kans dat ze je pincode of wachtwoord achterhalen is net zo groot als de kans dat zo'n masker maken en daarmee iemand je mobiel kan ontgrendelen peace of cake wordt. Om te beginnen heb je al een goed 3D profiel nodig van het gezicht, en je moet het in minder dan 5 pogingen goed doen. Verder mag het toestel in tussentijd ook niet uitgeschakeld worden..

En moest het dan toch plots supermakkelijk worden om een goed 3D masker te kunnen maken binnen afzienbare tijd, daartegen zijn er alweer nieuwe smartphones op de markt met waarschijnlijk weer extra vernuft om het toch nog moeilijker te maken.

Verwijderd @vanaalten • 10 augustus 2018 11:59

Met dat het fabriceren van dit soort ongein eventueel makkelijker wordt, krijgt FaceID natuurlijk ook steeds meer security features.

wiert.tweakers 10 augustus 2018 09:40

Alles wat voor authenticatie gebruikt wordt en waar je veel data van kunt krijgen valt te trainen.

Uiteindelijk wordt dit weer een walls and ladders verhaal: betere authenticatie algorithmes gevolgd door betere training.

Origin64 @wiert.tweakers • 10 augustus 2018 12:03

Of we gebruiken gewoon een goed wachtwoord

Verwijderd @Origin64 • 10 augustus 2018 15:03

Laten we niet net doen alsof een wachtwoord niet te kraken valt. Voor menig persoon die verjaardag, 0000, 1234 of een ander herkenbare reeks gebruiken, is een FaceID al 10 stappen omhoog qua veiligheid.

Krulliebol @Verwijderd • 10 augustus 2018 16:43

Dat is waar. Alhoewel oneindig wachtwoorden/codes uitproberen (op de iPhone) niet kan. Na een paar pogingen moet je steeds langer wachten voordat je een volgende poging kunt doen. En je kunt instellen dat 'ie na 10x helemaal blokkeert.

Origin64 @Verwijderd • 10 augustus 2018 22:11

Daarom zeg ik ook een 'goed' wachtwoord.

kozue 10 augustus 2018 12:25

Huh?

iemand een opname van bepaalde via social engineering verkregen woorden afspeelt om stemherkenning voor de gek te houden. Dat diende als voorbeeld voor een manier die werkt, maar die ook veel moeite kost. Daarom gingen de onderzoekers op zoek naar een eenvoudigere methode.

De onderzoekers moesten echter alsnog enige spraakmonsters verzamelen van hun doelwit.
In hun voorbeeld gaan ze ervan uit dat er clips van het doelwit op YouTube te vinden zijn.

Hoezo is dit een eenvoudigere methode? Ik ken niemand in mijn omgeving waarvan z'n stem op youtube te vinden is. Volgens mij is het veel eenvoudiger om gewoon het geluid op te nemen terwijl iemand die zin uitspreekt bij het daadwerkelijk inloggen, bv met afluisterapparatuur, malware op het systeem zelf, of een richtmicrofoon.

Pluspunten voor de technische prestatie, minpunten voor praktische toepasbaarheid.

Verwijderd 10 augustus 2018 09:55

Siri werkt wel goed, Samsung bixby werkt niet en de rest heb ik geen evaring mee.

xoniq @Verwijderd • 10 augustus 2018 10:04

Behalve dat als ik een video mij op m'n telefoon en 'hé Siri' meerdere keren wordt geactiveerd.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (59)

Sorteer op:

Weergave: