Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 57 reacties

Twee onderzoekers aan de Amerikaanse Stanford-universiteit hebben een programma geschreven dat audio-captcha's, codes die zijn bedoeld om websites te beveiligen, kan omzeilen. Het programma maakt gebruik van audioanalyse.

captchaInformatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen. Audio-captcha's worden gebruikt om slechtzienden te ondersteunen bij het oplossen van een captcha, ofwel een 'completely automated public turing test to tell computers and humans apart'. Een captcha toont in de visuele vorm een aantal letters en cijfers die dusdanig zijn verhaspeld dat ze door mensen wel, maar door computers niet herkend kunnen worden. Zo kunnen spammers niet geautomatiseerd accounts registreren. Registratieformuleren op veel websites maken gebruik van captcha's.

De audiovariant moet slechtzienden een auditief alternatief bieden om de captcha's op te lossen. De cijfers en letters worden ten gehore gebracht, maar met achtergrondgeluiden moet spraakherkenning op het verkeerde been worden gezet, net zoals ocr bij normale captcha's moet falen. Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend.

Bij eenvoudige audio-captcha's, die voornamelijk ruis bevatten, lukte het ontcijferen van de captcha in zestig tot tachtig procent van de gevallen. Zodra de captcha echter specifieke storende geluiden, zoals gezongen teksten of vertekende stemmen, bevatte, daalde het succes van Decaptcha tot slechts één procent. Dat ligt aan de manier waarop de software werkt; de cijfers en letters uit de captcha's die in de audiofragmenten hoorbaar zijn, vormen pieken in een spectrumanalyse. Die pieken worden van ruis gescheiden, maar bij spraak als storende component werkt dat niet.

Moderatie-faq Wijzig weergave

Reacties (57)

Sorry, maar ik vind captcha's al zo onduidelijk... Ik heb gewoon websites gehad waarbij ik gewoon weg ben gegaan omdat ik de captcha's niet goed kreeg. Wat krijgen we straks?
Zelf maak ik gewoon gebruik van deze blacklist:
http://www.stopforumspam.com/
en daarnaast heb ik ook nog Akismet. Geen spam die er nog doorheen komt (sinds ik het geactiveerd heb, absoluut 0 spam).

Hinderlijk zijn de nieuwe spammers, deze vragen om hulp en linken ondertussen naar een website.
Bijvoorbeeld: "ik wil een website maken, net zoals deze site [link] en hoe kan ik dat het beste aanpakken?". Vooral zielige Youtubers maken hier gebruik van. Deze spammers zijn erg lastig te herkennen.
Andere spammers plaatsen irrelevante posts op blogs en de blog linkt naar hun website (blogs vragen vaak om je site en maken je username klikbaar). Akismet plukt die er ook zo uit, maar het duurde even voordat ik het zelf door had.

[Reactie gewijzigd door Wolfos op 24 mei 2011 17:23]

SFS is een goede site, maar het werkt niet voor iedereen.
Ik maak gebruik van Zaphods tool (ZB Block voor diegene die het zoekt), en block bijvoorbeeld het hele oosten vanaf India. Werkt prima, maar alleen voor mij. Ik heb geen forum, heb het commenten op mijn fotos uitgezet, en op mijn vrouws blog (die niet erg actief is) wordt elk commentaar eerst door ons beoordeeld.

Stel dat ik echter klanten uit die landen wil hebben dan kom ik rap in de problemen. India, China, Filippijnen en Indonesie maken veel gebruik van dynamic IP's, dus de kans dat mijn klant ineens een door mij geblockt IP heeft is vrij groot. Dag klant....
Niet goed als je een bedrijf hebt.
In tegenstelling tot wat hierboven beweert wordt, is het breken van audio-captchas een toepassing van "noise robust automatic speech recognition", niet blind source separation. Al zou je blind source seperation wel kunnen gebruiken als eerste stap om daarna een niet-ruisrobuuste spraakherkenner te draaien.

Het is een beetje flauw te stellen dat de audio captcha gekraakt zijn - 2 of 3 jaar geleden was er al een dergelijk paper (op de NIPS conferentie dacht ik). Zolang je zelf mag kiezen wat je drempel is voor gekraakt (50-60% blijkbaar) kun je die titel wel voor elk artikel hergebruiken.

Wat me overigens opvalt is dat de mensen die audio-captchas breken, tot nu toe niet mensen uit het veld van automatische spraakherkenning zijn, en voor zover ik kan zien ook niet state-of-the-art methoden gebruiken. Misschien moet de groep waarin ik werk (Spraakherkenningsgroep, Universiteit Leuven) het ook maar ns proberen...geeft blijkbaar leuke publiciteit.
Ik begon mijn website tijd terug ook te beveiligen met dit soort beveiliging (reCaptcha), vooral met de opkomende spambots (die vaker voor komen laatste jaren). En ik zat toen inderdaad te denken, wat als ze het nu opnemen. Er zullen vast mensen slim genoeg zijn die weer een stuk software ontwikkelen, en er voor zorgen dat dit systeem weer nutteloos is.

Zou het niet op te lossen zijn door middel van een vraag te stellen?

Zoals: "4+3 = ... " ? (Zomaar even een voorbeeld)

Waarna de mensen dan een antwoord moeten geven? Dan heb je in ieder geval niet meer het probleem van het opnemen. Ik moet wel toegeven na het toepassen van reCaptcha is het spam-leden en e-mails in aantallen flink afgenomen.
Een simpel rekensommetje is nog makkelijker dan de ocr's ik kwam ze wel eens tegen, dan staat het daar in html elementen 4+3 =. Met een javascript kan je dit snel oplossen door de = weg te halen en vervolgens eval('4+3') te doen, daar komt 7 uit en dat stop je in de input field ;).

Ik ben zelf nog steeds gecharmeerd van de google oplossing om van een afbeelding de horizon goed te zetten, kan even de demo niet meer vinden maar het principe is dus dat je de horizon van een aantal afbeeldingen zelf recht moet zetten iets waar een computer meestal (op de gekozen afbeeldingen) geen kaas van kan maken. De plaatjes haalde ze weer uit de google image pool voor een gigantische variatie etc etc

De demo zelf niet gevonden maar wel een cnet artikel: http://news.cnet.com/8301-17939_109-10222514-2.html

[Reactie gewijzigd door ultimasnake op 24 mei 2011 17:27]

We hebben voor het contactformulier van ons schoolproject een systeem geprogrammeerd (waarschijnlijk wel eerder gedaan), waarbij je het contactformulier pas na 5 seconden kon versturen. Ben je sneller dan 5 seconden, dan staat er "Only computers fill in forms this fast".

Niet vervelend voor bezoekers en geen spam :D
Automatische tools hebben geen enkel probleem om daar omheen te werken.
Dat is toch niet zo moeilijk te omzeilen?
Deze optie hebben ze zelfs al.

Ik gebruik het momenteel onder joomla!/virtuemart

een simpel rekensommetje :)
Het is best mogelijk een rekensom te detecteren en uit te rekenen, maar het is toch even werk om dit voor iedere site opnieuw te programmeren.

Bij eigen projectjes is het vaak voldoende 'iets' te doen wat niet standaard is. Iemand die dan geautomatiseerd wil spammen moet eerst nadenken om een script, en die moeite nemen ze vaak niet voor de site van laten we zeggen de lokale voetbalvereniging.

Bij grotere sites (facebook, T.net) is het anders natuurlijk. Ik vrees dat een succes rate van 1% voor hen niet eens goed genoeg is.
In de tijd dat ik weleens www.synthforum.nl bezocht, moest ik bij elke zoek-actie (ja, ELKE zoekactie) een antwoord op een vraag geven. Bijvoorbeeld: "Hoe noemt men de zetel op een fiets?"

Dit lijkt me een vrij sterke beveiliging, en kinderen van 5 kunnen die vraag (misschien anders geformuleerd) beantwoorden. Maar een computer heeft blijkbaar erg moeite met het herkennen van vraagstellingen. Zo was alleen een supercomputer van Dell genaamd 'Watson' in staat in het nieuws te komen toen deze een Amerikaanse quiz Jeopardy van mensen won. Misschien een off-scale vergelijking omdat er in die show naar overleden schrijvers van vergeten opera's gevraagd werden. Maar voor een degelijke ontrafelaar heb je vraag-herkenning nodig en een groot database met antwoorden daarop. Lijkt mij niet makkelijk. Maar mijn hobby is gamen, niet programmeren :).
je kan de afzonderlijke symbolen herkennen, en vervolgens is het een kleine stap om te checken of een = of wellicht een ? aanwezig is wat een rekensom zou kunnen impliceren.
Nope; dat soort sommen kan je vinden met preg_match (ooid). Daarna kan ieder simpel script ze even oplossen en invullen.

Het is een perfecte methode, totdat iemand de moeite neemt om specifiek voor jouw site een kraker te maken. Als diegene het eenmaal voor jouw site heeft, is het <1 minuut werk om het op een willekeurige (non-flash) site werkend te krijgen.

Daarnaast is jouw methode heel makkelijk te bruteforcen. Je kan niet zo snel boven de 20 als uitkomst gaan zitten (mensen willen dom browsen... rekenen is dan ineens heel lastig), dus met puur gokken zal je al gauw >5% van de pogingen goed hebben.
Op het forum waar ik moderator ben moet 5+6 uitgerekend worden.
Door nog onbekende reden was dit weggevallen (user error ergens). Het effect was overduidelijk, bots galore die hun troep kwamen dumpen. En dat terwijl er ook een Captcha op staat.

Dus ja, dat werkt. Niet feilloos, maar bijna alles wordt tegengehouden.

Deze Captcha hack is jammer voor de slechtzienden, nu gaan de sites die het gebruiken weer over op een andere manier denk ik. En wordt het heel erg onoverzichtelijk en gebruikers onvriendelijk. En er zijn al zo weinig sites die het gebruiken...
Het was natuurlijk slechts een kwestie van tijd voordat dit zou gebeuren, al ben ik blij dat het in dit geval onderzoekers zijn IPV hackers.

Het moment nadert dat de huidige Captcha's onwerkbaar worden. Aan de ene kant worden ze steeds meer onleesbaar voor normale mensen, aan de andere kant worden computers steeds beter om zelfs onleesbare tekst te ontcijferen. Nu ook de audio variant faalt, moeten we overstappen op andere dingen.
Geen tekst meer.

plaatjes, figuren of dergelijke dan maar?
Maar de audio variant mislukt juist omdat je via spectrum analyse de ruis kunt verwijderen en dan nog steeds de pieken en dalen overhoud. Door voldoende audio captchas te analyseren kun je op een gegeven moment klanken herkennen.

Bij een visuele captcha werkt deze techniek erg slecht. Als ik een woord schrijf en daar overheen ruis plaats of te veel vervorm blijft de tekst slecht leesbaar. De onderzoekers van de Stanton universiteit konden dus niet zo eenvoudig de visuele captcha's kraken, dus zijn ze naar het audio visuele alternatief gaan kijken. En audio kun je veel gemakkelijker in lagen opdelen dan beeld. Vervolgens kun je deze lagen licht bewerken (verzwakken) en vervolgens een analyse op het restant loslaten.

Bij veel audio captcha's werd er dus alleen ruis toegevoegd. Ruis heeft een repeterend karakter en kun je dus redelijk eenvoudig filteren.

Ik vind het jammer dat ze alleen vermelden dat ze 1% van de reCaptcha audio fragmenten hebben kunnen raden, maar niet hebben vermeld hoeveel teksten ze konden herkennen.

Binnenkort kun je dus audio captcha's verwachten met cafe geluid op de achtergrond.. en audio fragmenten met een breder frequentie bereik. Uiteraard wordt daardoor de de gesproken tekst ook minder duidelijk en mogelijk op een gegeven moment onherkenbaar..
Dat is knap. Ik heb wel eens geprobeerd een Audiocaptcha te ontcijferen, maar dat is gruwelijk lastig ??
Oftewel, dan maar een captcha die een vraag stelt in de trend van 'wat valt niet ver van de boom?"
Antwoord, appel.
Heel simpel, en bijna niet te kraken.

Tenzij je een google request doet op de captcha vraag, en de eerste hit als antwoord geeft. Grote kans dat je goed zit.
Als ik nu maar geen spammers op het verkeerde idee breng ;-)

[Reactie gewijzigd door findftp op 24 mei 2011 17:00]

Ik weet het niet, maar als je bijvoorbeeld kijkt naar de computer van IBM (hoe heet dat ding ook al weer?) dat meedeed aan een tv quiz, dan denk ik dat het niet heel lang zou duren voordat zoiets ook zou worden gekraakt.

Maar het is idd zo dat je gewoon een afbeelding zou kunnen geven, waarvan je minstens drie voorwerpen zou moeten opnoemen (ik zeg maar wat: een plaatje van een bal, een appel, en een hoofd). Voor een PC is dat heel moeilijk.
Dat bestaat al. Op Safelink moet je iets naar een cirkel slepen. Heel duidelijke en simpele objecten zoals een hartje, en schaar, een potlood...
Tenzij je met een paar man een lijst maakt met alle vragen (en dus de antwoorden) die je tegenkomt. Binnen no-time kan je minstens 1% van de captcha's op deze manier automatisch in laten vullen...

[Reactie gewijzigd door GZFan op 24 mei 2011 17:02]

Al een geluk dat slechts 1% van de reCaptcha van Google herkend werd. Ik ken namelijk veel websites die van deze dienst gebruik maken.
1 procent is ideaal. Spammers sturen zo 1.000.000 emails de deur uit in de hoop 1 resultaat te halen. Dan is 1% success hemel op aarde.
Als je geautomatiseerd accounts wil aanmaken is dat natuurlijk een peuleschil om je scriptje 100 keer te draaien. Dus bereik je het doel van de captcha's niet.

Daar staat tegenover dat er waarschijnljk meer dan 1 op de 100 mensen niet door komt.

Captcha's zijn irritant en achterhaald, zelfs op wikipedia staan al diverse manieren om ze te omzeilen.

(Om nog maar te zwijgen over captcha's die al verlopen zijn voordat je redelijkerwijs het formulier in hebt kunnen vullen)
Heb je dan een alternatief? Want zeggen dat ze irritant en achterhaald zijn is makkelijker dan voorkomen dat je website volgespammed word met fake users of berichten.
Een torrent site die ik gebruik de geeft 1 op de 3 keer dezelfde capcha :P
De beste (en meest irritante) die ik ooit heb ontmoet vraagt ELKE keer om dezelfde 3 codes, zo erg zelfs dat mijn auto-complete ze gewoon al invult :)
Ik ben sinds de katjes en hondjes van Rapidshare sowieso al allergisch voor captcha's. Als een site rekening houdt met usability, dan weer je zoiets. :)
Naar mijn idee zijn die captcha's voor een deel onzin, er zijn namelijk landen waar je voor een paar euro een persoon de hele dag van deze dingen kan laten ontcijferen.

Het zou mij dan ook niet verbazen als de meeste spammers gewoon een aantal chinezen in dienst hebben.
Je hebt volledig gelijk, kijk maar eens op freelancer sites. Staat redelijk vol met zo'n verzoeken om tonnen captcha's in te typen...
Ze worden dus nog onduidelijker...
Idd ik druk regelmatig op de refresh (of hoe heet dat ding) om een duidelijkere code of kortere te krijgen. Soms zie ik het echt niet...
dat heeft toch niets te maken met de duidelijkheid van het gesproken deel? voor de visuele captcha's is volgens mij nog geen werkende software om het te omzeilen dus die hoeven niet veel onduidelijker dan dat ze nu al zijn seg maar. bij de audio captcha's had ik ook allang bedacht om de ruis er eens uit te halen met audacity. wat je dan krijgt is een mooie uitgesproken tekst die ieder spraakherkenningsporgramma zou kunnen omzetten. alleen moet je dan nog een stukje software schrijven die het allebei tegelijk doet. captcha's die als achtergrond ruis een muziek nummer hebben met gesproken tekst zijn ook heel eenvoudig weg te krijgen. je hoeft alleen het nummer op te zoeken het spoor om te draaien en eroverheen te leggen. meestal zit er dan nog een berg ruis in, maar dat is ook weg te halen. alleen worden deze heel weinig gebruikt vanwege copyright issues enzo.
"Met de Decaptcha-software werden Microsofts captcha's in vijftig procent van de gevallen opgelost; van de veiligere reCaptcha's werd echter slechts één procent correct herkend."

Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.

Edit: Het voordeel van audio captcha's is dat deze inplaats van 50% 60-80% oplost, dus nog sneller. Ook wordt er vaak nog gebruikt gemaakt van eenvoudig audi-captcha's met nieuwe reCaptcha's die moeilijker op zijn te lossen.

Persoonlijk vind ik die dingen ook niet te ontcijferen en haal ook soms maar na 3x de juiste letters eruit. Heel irritant.

[Reactie gewijzigd door Domus von Dutch op 24 mei 2011 17:42]

Zie die software om visuele captcha's is er ook al, eerst lezen dan reageren.
Dat citaat gaat over de audioanalyse software, niet over beeld:
Informatici van Stanford hebben een programma geschreven dat zij Decaptcha noemen. De software werd gebruikt om kwetsbaarheden in audio-captcha's aan te tonen.
In 2004 startte een student PWNtcha op en kon toen heel wat captcha's ontcijferen, tegenwoordig zijn er betere programma's, maar de sourcecode van PWNtcha is publiekelijk dus kan wel interessant zijn voor sommigen:

http://caca.zoy.org/wiki/PWNtcha
gelukkig, dat ligt dus niet aan mij, ik vind het echt ondingen en ik klik ook regelmatig een site dicht die dit heeft, er zijn immers meer wegen die naar rome leiden.
Inderdaad, en ik heb tegenwoordig al moeite om sommige captcha's te ontcijferen, binnenkort zal de software de mens inhalen met het ontcijferen van die dingen denk ik.
De strijd met de robots vergt ons beste intellectueel beentje willen we de overhand houden ; de teerling is geworpen
Ze zijn dus niet echt gekraakt. Als je gewoon het achtergrondgeluid moet veranderen om tot <1% succes te komen.

Slecht gemaakte captchas zijn ook visueel te kraken. Ik zie het verschil niet echt...

[Reactie gewijzigd door Darkstriker op 24 mei 2011 16:51]

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True