Onderzoekers kraken audio-captcha

Twee onderzoekers aan de Amerikaanse Stanford-universiteit hebben een programma geschreven dat audio-captcha's, codes die zijn bedoeld om websites te beveiligen, kan omzeilen. Het programma maakt gebruik van audioanalyse.

captcha Informatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen. Audio-captcha's worden gebruikt om slechtzienden te ondersteunen bij het oplossen van een captcha, ofwel een 'completely automated public turing test to tell computers and humans apart'. Een captcha toont in de visuele vorm een aantal letters en cijfers die dusdanig zijn verhaspeld dat ze door mensen wel, maar door computers niet herkend kunnen worden. Zo kunnen spammers niet geautomatiseerd accounts registreren. Registratieformuleren op veel websites maken gebruik van captcha's.

De audiovariant moet slechtzienden een auditief alternatief bieden om de captcha's op te lossen. De cijfers en letters worden ten gehore gebracht, maar met achtergrondgeluiden moet spraakherkenning op het verkeerde been worden gezet, net zoals ocr bij normale captcha's moet falen. Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend.

Bij eenvoudige audio-captcha's, die voornamelijk ruis bevatten, lukte het ontcijferen van de captcha in zestig tot tachtig procent van de gevallen. Zodra de captcha echter specifieke storende geluiden, zoals gezongen teksten of vertekende stemmen, bevatte, daalde het succes van Decaptcha tot slechts één procent. Dat ligt aan de manier waarop de software werkt; de cijfers en letters uit de captcha's die in de audiofragmenten hoorbaar zijn, vormen pieken in een spectrumanalyse. Die pieken worden van ruis gescheiden, maar bij spraak als storende component werkt dat niet.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Willem de Moor

Redacteur

Feedback • 24-05-2011 16:43 57

24-05-2011 • 16:43

Lees meer

Google ontwikkelt 'Invisible Recaptcha' Nieuws van 6 december 2016

Ticketmaster stapt over op gebruiksvriendelijkere captcha Nieuws van 31 januari 2013

Onderzoek: baan vinden wordt lastig voor informatici Nieuws van 20 december 2011

Onderzoekers kraken captcha's van grote sites Nieuws van 4 november 2011

Onderzoekers werken aan verbeterd captcha-systeem Nieuws van 2 januari 2010

Google neemt reCaptcha over Nieuws van 17 september 2009

Google werkt aan verbeterde captcha-techniek Nieuws van 19 april 2009

Steeds meer spamfilters blokkeren Gmail na kraken captcha Nieuws van 7 april 2008

Gekraakte Gmail-captcha's leiden tot toename spam Nieuws van 11 maart 2008

Trojan maakt webmailaccounts aan voor versturen spam Nieuws van 15 augustus 2007

Spammers buiten 'captcha'-techniek voor eigen voordeel uit Nieuws van 8 juli 2007

Nieuwe captcha-techniek helpt bij digitaliseren van boeken Nieuws van 26 mei 2007

Meer producten en artikelen

Wetenschap Netwerk en systeembeheer Microsoft Beveiliging Youtube

IT-banen

Meer vacatures

Reacties (57)

-Moderatie-faq

Wijzig sortering

Wolfos 24 mei 2011 17:20

Sorry, maar ik vind captcha's al zo onduidelijk... Ik heb gewoon websites gehad waarbij ik gewoon weg ben gegaan omdat ik de captcha's niet goed kreeg. Wat krijgen we straks?
Zelf maak ik gewoon gebruik van deze blacklist:
http://www.stopforumspam.com/
en daarnaast heb ik ook nog Akismet. Geen spam die er nog doorheen komt (sinds ik het geactiveerd heb, absoluut 0 spam).

Hinderlijk zijn de nieuwe spammers, deze vragen om hulp en linken ondertussen naar een website.
Bijvoorbeeld: "ik wil een website maken, net zoals deze site [link] en hoe kan ik dat het beste aanpakken?". Vooral zielige Youtubers maken hier gebruik van. Deze spammers zijn erg lastig te herkennen.
Andere spammers plaatsen irrelevante posts op blogs en de blog linkt naar hun website (blogs vragen vaak om je site en maken je username klikbaar). Akismet plukt die er ook zo uit, maar het duurde even voordat ik het zelf door had.

[Reactie gewijzigd door Wolfos op 23 juli 2024 06:25]

Verwijderd @Wolfos • 24 mei 2011 18:57

SFS is een goede site, maar het werkt niet voor iedereen.
Ik maak gebruik van Zaphods tool (ZB Block voor diegene die het zoekt), en block bijvoorbeeld het hele oosten vanaf India. Werkt prima, maar alleen voor mij. Ik heb geen forum, heb het commenten op mijn fotos uitgezet, en op mijn vrouws blog (die niet erg actief is) wordt elk commentaar eerst door ons beoordeeld.

Stel dat ik echter klanten uit die landen wil hebben dan kom ik rap in de problemen. India, China, Filippijnen en Indonesie maken veel gebruik van dynamic IP's, dus de kans dat mijn klant ineens een door mij geblockt IP heeft is vrij groot. Dag klant....
Niet goed als je een bedrijf hebt.

Verwijderd 24 mei 2011 18:42

In tegenstelling tot wat hierboven beweert wordt, is het breken van audio-captchas een toepassing van "noise robust automatic speech recognition", niet blind source separation. Al zou je blind source seperation wel kunnen gebruiken als eerste stap om daarna een niet-ruisrobuuste spraakherkenner te draaien.

Het is een beetje flauw te stellen dat de audio captcha gekraakt zijn - 2 of 3 jaar geleden was er al een dergelijk paper (op de NIPS conferentie dacht ik). Zolang je zelf mag kiezen wat je drempel is voor gekraakt (50-60% blijkbaar) kun je die titel wel voor elk artikel hergebruiken.

Wat me overigens opvalt is dat de mensen die audio-captchas breken, tot nu toe niet mensen uit het veld van automatische spraakherkenning zijn, en voor zover ik kan zien ook niet state-of-the-art methoden gebruiken. Misschien moet de groep waarin ik werk (Spraakherkenningsgroep, Universiteit Leuven) het ook maar ns proberen...geeft blijkbaar leuke publiciteit.

Nemean 24 mei 2011 16:52

Ik begon mijn website tijd terug ook te beveiligen met dit soort beveiliging (reCaptcha), vooral met de opkomende spambots (die vaker voor komen laatste jaren). En ik zat toen inderdaad te denken, wat als ze het nu opnemen. Er zullen vast mensen slim genoeg zijn die weer een stuk software ontwikkelen, en er voor zorgen dat dit systeem weer nutteloos is.

Zou het niet op te lossen zijn door middel van een vraag te stellen?

Zoals: "4+3 = ... " ? (Zomaar even een voorbeeld)

Waarna de mensen dan een antwoord moeten geven? Dan heb je in ieder geval niet meer het probleem van het opnemen. Ik moet wel toegeven na het toepassen van reCaptcha is het spam-leden en e-mails in aantallen flink afgenomen.

ultimasnake @Nemean • 24 mei 2011 17:25

Een simpel rekensommetje is nog makkelijker dan de ocr's ik kwam ze wel eens tegen, dan staat het daar in html elementen 4+3 =. Met een javascript kan je dit snel oplossen door de = weg te halen en vervolgens eval('4+3') te doen, daar komt 7 uit en dat stop je in de input field

.

Ik ben zelf nog steeds gecharmeerd van de google oplossing om van een afbeelding de horizon goed te zetten, kan even de demo niet meer vinden maar het principe is dus dat je de horizon van een aantal afbeeldingen zelf recht moet zetten iets waar een computer meestal (op de gekozen afbeeldingen) geen kaas van kan maken. De plaatjes haalde ze weer uit de google image pool voor een gigantische variatie etc etc

De demo zelf niet gevonden maar wel een cnet artikel: http://news.cnet.com/8301-17939_109-10222514-2.html

[Reactie gewijzigd door ultimasnake op 23 juli 2024 06:25]

RVervuurt @Nemean • 24 mei 2011 17:36

We hebben voor het contactformulier van ons schoolproject een systeem geprogrammeerd (waarschijnlijk wel eerder gedaan), waarbij je het contactformulier pas na 5 seconden kon versturen. Ben je sneller dan 5 seconden, dan staat er "Only computers fill in forms this fast".

Niet vervelend voor bezoekers en geen spam

ATS @RVervuurt • 24 mei 2011 17:58

Automatische tools hebben geen enkel probleem om daar omheen te werken.

defixje @RVervuurt • 25 mei 2011 21:43

Dat is toch niet zo moeilijk te omzeilen?

KatirZan @Nemean • 24 mei 2011 16:57

Deze optie hebben ze zelfs al.

Ik gebruik het momenteel onder joomla!/virtuemart

een simpel rekensommetje

poefel @KatirZan • 24 mei 2011 17:10

Het is best mogelijk een rekensom te detecteren en uit te rekenen, maar het is toch even werk om dit voor iedere site opnieuw te programmeren.

Bij eigen projectjes is het vaak voldoende 'iets' te doen wat niet standaard is. Iemand die dan geautomatiseerd wil spammen moet eerst nadenken om een script, en die moeite nemen ze vaak niet voor de site van laten we zeggen de lokale voetbalvereniging.

Bij grotere sites (facebook, T.net) is het anders natuurlijk. Ik vrees dat een succes rate van 1% voor hen niet eens goed genoeg is.

Verwijderd @poefel • 24 mei 2011 20:57

In de tijd dat ik weleens www.synthforum.nl bezocht, moest ik bij elke zoek-actie (ja, ELKE zoekactie) een antwoord op een vraag geven. Bijvoorbeeld: "Hoe noemt men de zetel op een fiets?"

Dit lijkt me een vrij sterke beveiliging, en kinderen van 5 kunnen die vraag (misschien anders geformuleerd) beantwoorden. Maar een computer heeft blijkbaar erg moeite met het herkennen van vraagstellingen. Zo was alleen een supercomputer van Dell genaamd 'Watson' in staat in het nieuws te komen toen deze een Amerikaanse quiz Jeopardy van mensen won. Misschien een off-scale vergelijking omdat er in die show naar overleden schrijvers van vergeten opera's gevraagd werden. Maar voor een degelijke ontrafelaar heb je vraag-herkenning nodig en een groot database met antwoorden daarop. Lijkt mij niet makkelijk. Maar mijn hobby is gamen, niet programmeren

FRidh @Nemean • 24 mei 2011 16:59

je kan de afzonderlijke symbolen herkennen, en vervolgens is het een kleine stap om te checken of een = of wellicht een ? aanwezig is wat een rekensom zou kunnen impliceren.

Verwijderd @Nemean • 24 mei 2011 16:59

Nope; dat soort sommen kan je vinden met preg_match (ooid). Daarna kan ieder simpel script ze even oplossen en invullen.

Het is een perfecte methode, totdat iemand de moeite neemt om specifiek voor jouw site een kraker te maken. Als diegene het eenmaal voor jouw site heeft, is het <1 minuut werk om het op een willekeurige (non-flash) site werkend te krijgen.

Daarnaast is jouw methode heel makkelijk te bruteforcen. Je kan niet zo snel boven de 20 als uitkomst gaan zitten (mensen willen dom browsen... rekenen is dan ineens heel lastig), dus met puur gokken zal je al gauw >5% van de pogingen goed hebben.

Verwijderd @Nemean • 24 mei 2011 17:03

Op het forum waar ik moderator ben moet 5+6 uitgerekend worden.
Door nog onbekende reden was dit weggevallen (user error ergens). Het effect was overduidelijk, bots galore die hun troep kwamen dumpen. En dat terwijl er ook een Captcha op staat.

Dus ja, dat werkt. Niet feilloos, maar bijna alles wordt tegengehouden.

Deze Captcha hack is jammer voor de slechtzienden, nu gaan de sites die het gebruiken weer over op een andere manier denk ik. En wordt het heel erg onoverzichtelijk en gebruikers onvriendelijk. En er zijn al zo weinig sites die het gebruiken...

XanderDrake

24 mei 2011 16:53

Het was natuurlijk slechts een kwestie van tijd voordat dit zou gebeuren, al ben ik blij dat het in dit geval onderzoekers zijn IPV hackers.

Het moment nadert dat de huidige Captcha's onwerkbaar worden. Aan de ene kant worden ze steeds meer onleesbaar voor normale mensen, aan de andere kant worden computers steeds beter om zelfs onleesbare tekst te ontcijferen. Nu ook de audio variant faalt, moeten we overstappen op andere dingen.
Geen tekst meer.

plaatjes, figuren of dergelijke dan maar?

Niemand_Anders

Beveiliging

@XanderDrake • 24 mei 2011 17:16

Maar de audio variant mislukt juist omdat je via spectrum analyse de ruis kunt verwijderen en dan nog steeds de pieken en dalen overhoud. Door voldoende audio captchas te analyseren kun je op een gegeven moment klanken herkennen.

Bij een visuele captcha werkt deze techniek erg slecht. Als ik een woord schrijf en daar overheen ruis plaats of te veel vervorm blijft de tekst slecht leesbaar. De onderzoekers van de Stanton universiteit konden dus niet zo eenvoudig de visuele captcha's kraken, dus zijn ze naar het audio visuele alternatief gaan kijken. En audio kun je veel gemakkelijker in lagen opdelen dan beeld. Vervolgens kun je deze lagen licht bewerken (verzwakken) en vervolgens een analyse op het restant loslaten.

Bij veel audio captcha's werd er dus alleen ruis toegevoegd. Ruis heeft een repeterend karakter en kun je dus redelijk eenvoudig filteren.

Ik vind het jammer dat ze alleen vermelden dat ze 1% van de reCaptcha audio fragmenten hebben kunnen raden, maar niet hebben vermeld hoeveel teksten ze konden herkennen.

Binnenkort kun je dus audio captcha's verwachten met cafe geluid op de achtergrond.. en audio fragmenten met een breder frequentie bereik. Uiteraard wordt daardoor de de gesproken tekst ook minder duidelijk en mogelijk op een gegeven moment onherkenbaar..

RielN @Niemand_Anders • 24 mei 2011 23:35

Dat is knap. Ik heb wel eens geprobeerd een Audiocaptcha te ontcijferen, maar dat is gruwelijk lastig ??

findftp 24 mei 2011 16:57

Oftewel, dan maar een captcha die een vraag stelt in de trend van 'wat valt niet ver van de boom?"
Antwoord, appel.
Heel simpel, en bijna niet te kraken.

Tenzij je een google request doet op de captcha vraag, en de eerste hit als antwoord geeft. Grote kans dat je goed zit.
Als ik nu maar geen spammers op het verkeerde idee breng ;-)

[Reactie gewijzigd door findftp op 23 juli 2024 06:25]

Paul-G @findftp • 24 mei 2011 17:06

Ik weet het niet, maar als je bijvoorbeeld kijkt naar de computer van IBM (hoe heet dat ding ook al weer?) dat meedeed aan een tv quiz, dan denk ik dat het niet heel lang zou duren voordat zoiets ook zou worden gekraakt.

Maar het is idd zo dat je gewoon een afbeelding zou kunnen geven, waarvan je minstens drie voorwerpen zou moeten opnoemen (ik zeg maar wat: een plaatje van een bal, een appel, en een hoofd). Voor een PC is dat heel moeilijk.

Verwijderd @Paul-G • 24 mei 2011 17:15

Dat bestaat al. Op Safelink moet je iets naar een cirkel slepen. Heel duidelijke en simpele objecten zoals een hartje, en schaar, een potlood...

Verwijderd @findftp • 24 mei 2011 17:02

Tenzij je met een paar man een lijst maakt met alle vragen (en dus de antwoorden) die je tegenkomt. Binnen no-time kan je minstens 1% van de captcha's op deze manier automatisch in laten vullen...

[Reactie gewijzigd door Verwijderd op 23 juli 2024 06:25]

DrSkunk 24 mei 2011 16:51

Al een geluk dat slechts 1% van de reCaptcha van Google herkend werd. Ik ken namelijk veel websites die van deze dienst gebruik maken.

Roland684 @DrSkunk • 24 mei 2011 18:03

1 procent is ideaal. Spammers sturen zo 1.000.000 emails de deur uit in de hoop 1 resultaat te halen. Dan is 1% success hemel op aarde.
Als je geautomatiseerd accounts wil aanmaken is dat natuurlijk een peuleschil om je scriptje 100 keer te draaien. Dus bereik je het doel van de captcha's niet.

Daar staat tegenover dat er waarschijnljk meer dan 1 op de 100 mensen niet door komt.

Captcha's zijn irritant en achterhaald, zelfs op wikipedia staan al diverse manieren om ze te omzeilen.

(Om nog maar te zwijgen over captcha's die al verlopen zijn voordat je redelijkerwijs het formulier in hebt kunnen vullen)

TheNephilim

@Roland684 • 24 mei 2011 23:31

Heb je dan een alternatief? Want zeggen dat ze irritant en achterhaald zijn is makkelijker dan voorkomen dat je website volgespammed word met fake users of berichten.

Verwijderd @TheNephilim • 25 mei 2011 00:07

Een torrent site die ik gebruik de geeft 1 op de 3 keer dezelfde capcha

Verwijderd @Roland684 • 24 mei 2011 18:42

De beste (en meest irritante) die ik ooit heb ontmoet vraagt ELKE keer om dezelfde 3 codes, zo erg zelfs dat mijn auto-complete ze gewoon al invult

Verwijderd 24 mei 2011 16:52

Ik ben sinds de katjes en hondjes van Rapidshare sowieso al allergisch voor captcha's. Als een site rekening houdt met usability, dan weer je zoiets.

Sgreehder @Verwijderd • 24 mei 2011 17:05

Hmm, de katjes en hondjes zijn juist zo leuk:

http://arstechnica.com/old/content/2006/04/6554.ars

Oeroeg 24 mei 2011 17:25

Naar mijn idee zijn die captcha's voor een deel onzin, er zijn namelijk landen waar je voor een paar euro een persoon de hele dag van deze dingen kan laten ontcijferen.

Het zou mij dan ook niet verbazen als de meeste spammers gewoon een aantal chinezen in dienst hebben.

azerty

@Oeroeg • 24 mei 2011 20:05

Je hebt volledig gelijk, kijk maar eens op freelancer sites. Staat redelijk vol met zo'n verzoeken om tonnen captcha's in te typen...

Verwijderd 24 mei 2011 16:50

Ze worden dus nog onduidelijker...

bonus @Verwijderd • 24 mei 2011 17:14

Idd ik druk regelmatig op de refresh (of hoe heet dat ding) om een duidelijkere code of kortere te krijgen. Soms zie ik het echt niet...

supersnathan94

Microsoft

@bonus • 24 mei 2011 17:32

dat heeft toch niets te maken met de duidelijkheid van het gesproken deel? voor de visuele captcha's is volgens mij nog geen werkende software om het te omzeilen dus die hoeven niet veel onduidelijker dan dat ze nu al zijn seg maar. bij de audio captcha's had ik ook allang bedacht om de ruis er eens uit te halen met audacity. wat je dan krijgt is een mooie uitgesproken tekst die ieder spraakherkenningsporgramma zou kunnen omzetten. alleen moet je dan nog een stukje software schrijven die het allebei tegelijk doet. captcha's die als achtergrond ruis een muziek nummer hebben met gesproken tekst zijn ook heel eenvoudig weg te krijgen. je hoeft alleen het nummer op te zoeken het spoor om te draaien en eroverheen te leggen. meestal zit er dan nog een berg ruis in, maar dat is ook weg te halen. alleen worden deze heel weinig gebruikt vanwege copyright issues enzo.

Verwijderd @supersnathan94 • 24 mei 2011 17:39

"Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend."

Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.

Edit: Het voordeel van audio captcha's is dat deze inplaats van 50% 60-80% oplost, dus nog sneller. Ook wordt er vaak nog gebruikt gemaakt van eenvoudig audi-captcha's met nieuwe reCaptcha's die moeilijker op zijn te lossen.

Persoonlijk vind ik die dingen ook niet te ontcijferen en haal ook soms maar na 3x de juiste letters eruit. Heel irritant.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 06:25]

Heedless @Verwijderd • 24 mei 2011 18:37

Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.

Dat citaat gaat over de audioanalyse software, niet over beeld:

Informatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen.

Verwijderd @supersnathan94 • 24 mei 2011 20:03

In 2004 startte een student PWNtcha op en kon toen heel wat captcha's ontcijferen, tegenwoordig zijn er betere programma's, maar de sourcecode van PWNtcha is publiekelijk dus kan wel interessant zijn voor sommigen:

http://caca.zoy.org/wiki/PWNtcha

Shanquish

@bonus • 24 mei 2011 18:38

gelukkig, dat ligt dus niet aan mij, ik vind het echt ondingen en ik klik ook regelmatig een site dicht die dit heeft, er zijn immers meer wegen die naar rome leiden.

Sibrand @Verwijderd • 24 mei 2011 16:52

Inderdaad, en ik heb tegenwoordig al moeite om sommige captcha's te ontcijferen, binnenkort zal de software de mens inhalen met het ontcijferen van die dingen denk ik.

Verwijderd @Verwijderd • 24 mei 2011 22:47

De strijd met de robots vergt ons beste intellectueel beentje willen we de overhand houden ; de teerling is geworpen

Darkstriker 24 mei 2011 16:51

Ze zijn dus niet echt gekraakt. Als je gewoon het achtergrondgeluid moet veranderen om tot <1% succes te komen.

Slecht gemaakte captchas zijn ook visueel te kraken. Ik zie het verschil niet echt...

[Reactie gewijzigd door Darkstriker op 23 juli 2024 06:25]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (57)

Sorteer op:

Weergave: