Hoofdcategorieën
Device Settings

Onderzoekers kraken audio-captcha

Door Willem de Moor, dinsdag 24 mei 2011 16:43, views: 16.986

Twee onderzoekers aan de Amerikaanse Stanford-universiteit hebben een programma geschreven dat audio-captcha's, codes die zijn bedoeld om websites te beveiligen, kan omzeilen. Het programma maakt gebruik van audioanalyse.

captchaInformatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen. Audio-captcha's worden gebruikt om slechtzienden te ondersteunen bij het oplossen van een captcha, ofwel een 'completely automated public turing test to tell computers and humans apart'. Een captcha toont in de visuele vorm een aantal letters en cijfers die dusdanig zijn verhaspeld dat ze door mensen wel, maar door computers niet herkend kunnen worden. Zo kunnen spammers niet geautomatiseerd accounts registreren. Registratieformuleren op veel websites maken gebruik van captcha's.

De audiovariant moet slechtzienden een auditief alternatief bieden om de captcha's op te lossen. De cijfers en letters worden ten gehore gebracht, maar met achtergrondgeluiden moet spraakherkenning op het verkeerde been worden gezet, net zoals ocr bij normale captcha's moet falen. Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend.

Bij eenvoudige audio-captcha's, die voornamelijk ruis bevatten, lukte het ontcijferen van de captcha in zestig tot tachtig procent van de gevallen. Zodra de captcha echter specifieke storende geluiden, zoals gezongen teksten of vertekende stemmen, bevatte, daalde het succes van Decaptcha tot slechts één procent. Dat ligt aan de manier waarop de software werkt; de cijfers en letters uit de captcha's die in de audiofragmenten hoorbaar zijn, vormen pieken in een spectrumanalyse. Die pieken worden van ruis gescheiden, maar bij spraak als storende component werkt dat niet.

Volgende 17:09 Samsung moet Apple nieuwe smartphones en tablets laten zien
Vorige 16:25 'HP gaat dv6 met Llano-apu uitrusten'
Advertentie

Reacties

«  1  2  3  »

Ze worden dus nog onduidelijker...

Inderdaad, en ik heb tegenwoordig al moeite om sommige captcha's te ontcijferen, binnenkort zal de software de mens inhalen met het ontcijferen van die dingen denk ik.

Idd ik druk regelmatig op de refresh (of hoe heet dat ding) om een duidelijkere code of kortere te krijgen. Soms zie ik het echt niet...

dat heeft toch niets te maken met de duidelijkheid van het gesproken deel? voor de visuele captcha's is volgens mij nog geen werkende software om het te omzeilen dus die hoeven niet veel onduidelijker dan dat ze nu al zijn seg maar. bij de audio captcha's had ik ook allang bedacht om de ruis er eens uit te halen met audacity. wat je dan krijgt is een mooie uitgesproken tekst die ieder spraakherkenningsporgramma zou kunnen omzetten. alleen moet je dan nog een stukje software schrijven die het allebei tegelijk doet. captcha's die als achtergrond ruis een muziek nummer hebben met gesproken tekst zijn ook heel eenvoudig weg te krijgen. je hoeft alleen het nummer op te zoeken het spoor om te draaien en eroverheen te leggen. meestal zit er dan nog een berg ruis in, maar dat is ook weg te halen. alleen worden deze heel weinig gebruikt vanwege copyright issues enzo.

"Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend."

Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.

Edit: Het voordeel van audio captcha's is dat deze inplaats van 50% 60-80% oplost, dus nog sneller. Ook wordt er vaak nog gebruikt gemaakt van eenvoudig audi-captcha's met nieuwe reCaptcha's die moeilijker op zijn te lossen.

Persoonlijk vind ik die dingen ook niet te ontcijferen en haal ook soms maar na 3x de juiste letters eruit. Heel irritant.

[Reactie gewijzigd door Domus von Dutch op dinsdag 24 mei 2011 17:42]


Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.
Dat citaat gaat over de audioanalyse software, niet over beeld:
Informatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen.

In 2004 startte een student PWNtcha op en kon toen heel wat captcha's ontcijferen, tegenwoordig zijn er betere programma's, maar de sourcecode van PWNtcha is publiekelijk dus kan wel interessant zijn voor sommigen:

http://caca.zoy.org/wiki/PWNtcha

gelukkig, dat ligt dus niet aan mij, ik vind het echt ondingen en ik klik ook regelmatig een site dicht die dit heeft, er zijn immers meer wegen die naar rome leiden.

De strijd met de robots vergt ons beste intellectueel beentje willen we de overhand houden ; de teerling is geworpen

Dit valt denk ik toch wel weer mee, de betere captchas hebben dit wel goed voor elkaar. Volgens mij wordt het sowieso nooit gebruikt dat audio, omdat het bijna altijd in het Engels is en heel erg onduidelijk. Wel vind ik het goed dat het weer eens aangetoond is in de praktijk

[Reactie gewijzigd door martin149 op dinsdag 24 mei 2011 16:52]


Recaptcha's zijn redelijk makkelijk, maar toch best wel moeilijk te kraken voor computers.


aan de andere kant ik heb nog weinig audio-captcha's ontdekt die redelijk te oncijferen waren. - als er mensen zijn met linkjes naar de zogenaamd goede varianten dan hoor ik (pun intended) die graat.

en for de record, ik ben visueel gehandicapt, en ik ben getraind om veel met gehoor te doen, maar voor captcha's moet ik bijna altijd hulp vragen...

De audiocaptcha's van recaptcha zijn anders goed te doen, heb het even getest en had 5/5 goed.

Al een geluk dat slechts 1% van de reCaptcha van Google herkend werd. Ik ken namelijk veel websites die van deze dienst gebruik maken.

1 procent is ideaal. Spammers sturen zo 1.000.000 emails de deur uit in de hoop 1 resultaat te halen. Dan is 1% success hemel op aarde.
Als je geautomatiseerd accounts wil aanmaken is dat natuurlijk een peuleschil om je scriptje 100 keer te draaien. Dus bereik je het doel van de captcha's niet.

Daar staat tegenover dat er waarschijnljk meer dan 1 op de 100 mensen niet door komt.

Captcha's zijn irritant en achterhaald, zelfs op wikipedia staan al diverse manieren om ze te omzeilen.

(Om nog maar te zwijgen over captcha's die al verlopen zijn voordat je redelijkerwijs het formulier in hebt kunnen vullen)

De beste (en meest irritante) die ik ooit heb ontmoet vraagt ELKE keer om dezelfde 3 codes, zo erg zelfs dat mijn auto-complete ze gewoon al invult :)

Heb je dan een alternatief? Want zeggen dat ze irritant en achterhaald zijn is makkelijker dan voorkomen dat je website volgespammed word met fake users of berichten.

Een torrent site die ik gebruik de geeft 1 op de 3 keer dezelfde capcha :P

Ze zijn dus niet echt gekraakt. Als je gewoon het achtergrondgeluid moet veranderen om tot <1% succes te komen.

Slecht gemaakte captchas zijn ook visueel te kraken. Ik zie het verschil niet echt...

[Reactie gewijzigd door Darkstriker op dinsdag 24 mei 2011 16:51]


Mooi ik heb een hekel aan die dingen

Ik ook, maar ik heb een nog grotere hekel aan spam reacties, dus wat dat betreft is het soms een noodzakelijk kwaad.

mooi? ze worden alleen maar lastiger te herkennen.

Maar ik heb het idee dat niemand echt goed leest. Het gaat hier om de audiocaptcha's en ik denk niet dat iemand die ooit gebruikt hier.

Ik ben sinds de katjes en hondjes van Rapidshare sowieso al allergisch voor captcha's. Als een site rekening houdt met usability, dan weer je zoiets. :)

Ik begon mijn website tijd terug ook te beveiligen met dit soort beveiliging (reCaptcha), vooral met de opkomende spambots (die vaker voor komen laatste jaren). En ik zat toen inderdaad te denken, wat als ze het nu opnemen. Er zullen vast mensen slim genoeg zijn die weer een stuk software ontwikkelen, en er voor zorgen dat dit systeem weer nutteloos is.

Zou het niet op te lossen zijn door middel van een vraag te stellen?

Zoals: "4+3 = ... " ? (Zomaar even een voorbeeld)

Waarna de mensen dan een antwoord moeten geven? Dan heb je in ieder geval niet meer het probleem van het opnemen. Ik moet wel toegeven na het toepassen van reCaptcha is het spam-leden en e-mails in aantallen flink afgenomen.

Deze optie hebben ze zelfs al.

Ik gebruik het momenteel onder joomla!/virtuemart

een simpel rekensommetje :)

Het is best mogelijk een rekensom te detecteren en uit te rekenen, maar het is toch even werk om dit voor iedere site opnieuw te programmeren.

Bij eigen projectjes is het vaak voldoende 'iets' te doen wat niet standaard is. Iemand die dan geautomatiseerd wil spammen moet eerst nadenken om een script, en die moeite nemen ze vaak niet voor de site van laten we zeggen de lokale voetbalvereniging.

Bij grotere sites (facebook, T.net) is het anders natuurlijk. Ik vrees dat een succes rate van 1% voor hen niet eens goed genoeg is.

In de tijd dat ik weleens www.synthforum.nl bezocht, moest ik bij elke zoek-actie (ja, ELKE zoekactie) een antwoord op een vraag geven. Bijvoorbeeld: "Hoe noemt men de zetel op een fiets?"

Dit lijkt me een vrij sterke beveiliging, en kinderen van 5 kunnen die vraag (misschien anders geformuleerd) beantwoorden. Maar een computer heeft blijkbaar erg moeite met het herkennen van vraagstellingen. Zo was alleen een supercomputer van Dell genaamd 'Watson' in staat in het nieuws te komen toen deze een Amerikaanse quiz Jeopardy van mensen won. Misschien een off-scale vergelijking omdat er in die show naar overleden schrijvers van vergeten opera's gevraagd werden. Maar voor een degelijke ontrafelaar heb je vraag-herkenning nodig en een groot database met antwoorden daarop. Lijkt mij niet makkelijk. Maar mijn hobby is gamen, niet programmeren :).

je kan de afzonderlijke symbolen herkennen, en vervolgens is het een kleine stap om te checken of een = of wellicht een ? aanwezig is wat een rekensom zou kunnen impliceren.

Nope; dat soort sommen kan je vinden met preg_match (ooid). Daarna kan ieder simpel script ze even oplossen en invullen.

Het is een perfecte methode, totdat iemand de moeite neemt om specifiek voor jouw site een kraker te maken. Als diegene het eenmaal voor jouw site heeft, is het <1 minuut werk om het op een willekeurige (non-flash) site werkend te krijgen.

Daarnaast is jouw methode heel makkelijk te bruteforcen. Je kan niet zo snel boven de 20 als uitkomst gaan zitten (mensen willen dom browsen... rekenen is dan ineens heel lastig), dus met puur gokken zal je al gauw >5% van de pogingen goed hebben.

Op het forum waar ik moderator ben moet 5+6 uitgerekend worden.
Door nog onbekende reden was dit weggevallen (user error ergens). Het effect was overduidelijk, bots galore die hun troep kwamen dumpen. En dat terwijl er ook een Captcha op staat.

Dus ja, dat werkt. Niet feilloos, maar bijna alles wordt tegengehouden.

Deze Captcha hack is jammer voor de slechtzienden, nu gaan de sites die het gebruiken weer over op een andere manier denk ik. En wordt het heel erg onoverzichtelijk en gebruikers onvriendelijk. En er zijn al zo weinig sites die het gebruiken...

Een simpel rekensommetje is nog makkelijker dan de ocr's ik kwam ze wel eens tegen, dan staat het daar in html elementen 4+3 =. Met een javascript kan je dit snel oplossen door de = weg te halen en vervolgens eval('4+3') te doen, daar komt 7 uit en dat stop je in de input field ;).

Ik ben zelf nog steeds gecharmeerd van de google oplossing om van een afbeelding de horizon goed te zetten, kan even de demo niet meer vinden maar het principe is dus dat je de horizon van een aantal afbeeldingen zelf recht moet zetten iets waar een computer meestal (op de gekozen afbeeldingen) geen kaas van kan maken. De plaatjes haalde ze weer uit de google image pool voor een gigantische variatie etc etc

De demo zelf niet gevonden maar wel een cnet artikel: http://news.cnet.com/8301-17939_109-10222514-2.html

[Reactie gewijzigd door ultimasnake op dinsdag 24 mei 2011 17:27]


We hebben voor het contactformulier van ons schoolproject een systeem geprogrammeerd (waarschijnlijk wel eerder gedaan), waarbij je het contactformulier pas na 5 seconden kon versturen. Ben je sneller dan 5 seconden, dan staat er "Only computers fill in forms this fast".

Niet vervelend voor bezoekers en geen spam :D

Automatische tools hebben geen enkel probleem om daar omheen te werken.

Dat is toch niet zo moeilijk te omzeilen?

Het was natuurlijk slechts een kwestie van tijd voordat dit zou gebeuren, al ben ik blij dat het in dit geval onderzoekers zijn IPV hackers.

Het moment nadert dat de huidige Captcha's onwerkbaar worden. Aan de ene kant worden ze steeds meer onleesbaar voor normale mensen, aan de andere kant worden computers steeds beter om zelfs onleesbare tekst te ontcijferen. Nu ook de audio variant faalt, moeten we overstappen op andere dingen.
Geen tekst meer.

plaatjes, figuren of dergelijke dan maar?

Maar de audio variant mislukt juist omdat je via spectrum analyse de ruis kunt verwijderen en dan nog steeds de pieken en dalen overhoud. Door voldoende audio captchas te analyseren kun je op een gegeven moment klanken herkennen.

Bij een visuele captcha werkt deze techniek erg slecht. Als ik een woord schrijf en daar overheen ruis plaats of te veel vervorm blijft de tekst slecht leesbaar. De onderzoekers van de Stanton universiteit konden dus niet zo eenvoudig de visuele captcha's kraken, dus zijn ze naar het audio visuele alternatief gaan kijken. En audio kun je veel gemakkelijker in lagen opdelen dan beeld. Vervolgens kun je deze lagen licht bewerken (verzwakken) en vervolgens een analyse op het restant loslaten.

Bij veel audio captcha's werd er dus alleen ruis toegevoegd. Ruis heeft een repeterend karakter en kun je dus redelijk eenvoudig filteren.

Ik vind het jammer dat ze alleen vermelden dat ze 1% van de reCaptcha audio fragmenten hebben kunnen raden, maar niet hebben vermeld hoeveel teksten ze konden herkennen.

Binnenkort kun je dus audio captcha's verwachten met cafe geluid op de achtergrond.. en audio fragmenten met een breder frequentie bereik. Uiteraard wordt daardoor de de gesproken tekst ook minder duidelijk en mogelijk op een gegeven moment onherkenbaar..

Dat is knap. Ik heb wel eens geprobeerd een Audiocaptcha te ontcijferen, maar dat is gruwelijk lastig ??

Oftewel, dan maar een captcha die een vraag stelt in de trend van 'wat valt niet ver van de boom?"
Antwoord, appel.
Heel simpel, en bijna niet te kraken.

Tenzij je een google request doet op de captcha vraag, en de eerste hit als antwoord geeft. Grote kans dat je goed zit.
Als ik nu maar geen spammers op het verkeerde idee breng ;-)

[Reactie gewijzigd door findftp op dinsdag 24 mei 2011 17:00]


Tenzij je met een paar man een lijst maakt met alle vragen (en dus de antwoorden) die je tegenkomt. Binnen no-time kan je minstens 1% van de captcha's op deze manier automatisch in laten vullen...

[Reactie gewijzigd door GZFan op dinsdag 24 mei 2011 17:02]


Ik weet het niet, maar als je bijvoorbeeld kijkt naar de computer van IBM (hoe heet dat ding ook al weer?) dat meedeed aan een tv quiz, dan denk ik dat het niet heel lang zou duren voordat zoiets ook zou worden gekraakt.

Maar het is idd zo dat je gewoon een afbeelding zou kunnen geven, waarvan je minstens drie voorwerpen zou moeten opnoemen (ik zeg maar wat: een plaatje van een bal, een appel, en een hoofd). Voor een PC is dat heel moeilijk.

Dat bestaat al. Op Safelink moet je iets naar een cirkel slepen. Heel duidelijke en simpele objecten zoals een hartje, en schaar, een potlood...

haha cool, met elke recaptcha die je intypt/oplost, help je ook aan het ontcijferen van voor OCR onleesbare oude boeken :D
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 17:09 Samsung moet Apple nieuwe smartphones en tablets laten zien
Vorige 16:25 'HP gaat dv6 met Llano-apu uitrusten'
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011