Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 47 reacties
Bron: Ars Technica

Onderzoekers van de Carnegie Mellon University hebben de bekende captcha's voorzien van een update waardoor ze gebruikt kunnen worden als hulp voor het digitaliseren van oude boeken, tijdschriften en kranten. Daarnaast wordt de dienst gecombineerd met spam-protectie voor e-mailadressen.

ReCaptchaDe nieuwe dienst om captcha's te leveren voor websites is gelanceerd onder de naam reCaptcha. Captcha's, wat eigenlijk een afkorting is voor 'Completely Automated Public Turing Test to Tell Computers and Humans Apart', zijn oorspronkelijk ook ontwikkeld door de Carnegie Mellon University in opdracht van Yahoo. Een vervormd woord moet door de gebruiker worden herkend en worden ingetypt alvorens een registratie of gebruikersactie definitief is. Met de test moeten spammers en andere geautomatiseerde systemen die misbruik willen maken van de aangeboden dienst buiten de deur worden gehouden. De nieuwe reCaptcha-dienst toont twee vervormde woorden die door de gebruiker moeten worden herkend. Eén van de twee vervormde woorden is bekend bij de computer, het andere woord nog niet. De antwoorden van de gebruikers voor het onbekende woord worden opgeslagen en de antwoorden van verschillende gebruikers gecombineerd om uiteindelijk de 'vertaling' van het woord te bepalen.

Het onbekende woord in de reCaptcha is afkomstig van gescande boeken, tijdschriften en kranten die door het Internet Archive worden gedigitaliseerd. Woorden die door ocr-software niet worden herkend, dienen als invoer voor de reCaptcha's. De universiteit hoopt zoveel mogelijk traditionele captcha's te kunnen vervangen door reCaptcha's om zodoende de inspanningen van het publiek nuttig te kunnen aanwenden. De onderzoekers schatten dat dagelijks ruim zestig miljoen captcha's worden opgelost, waarmee 150.000 manuren eigenlijk worden weggegooid. ReCaptcha moet een deel van deze verloren arbeid nuttig gaan maken door het ocr-process te helpen. Om ook het grote publiek te laten profiteren van de nieuwe dienst, biedt reCaptcha ook een gratis dienst aan onder de naam Mailhide. Hiermee is het mogelijk om een e-mailadres te beschermen tegen spammers. Om een e-mailadres te kunnen zien, dient eerst een reCaptcha te worden opgelost.

Moderatie-faq Wijzig weergave

Reacties (47)

Ik volg ff niet, wat doet dit systeem nu precies want ik vat het echt niet. Iemand die het kort en simpel kan uitleggen? O+
Captcha's zijn afbeeldingen met een woord in. De gebruiker moet het woord overtikken om toegang te krijgen tot iets. Een computer kan het woord niet overtikken, omdat de captcha niet te ontcijferen valt mbv OCR.

reCaptcha doet hetzelfde. Ze voegen echter nog een tweede woord toe; een ingescand woord uit krant of tijdschrift, waarop hun eigen OCR faalt. De gebruiker tikt ook dat woord over. De gebruiker is nu (net zoals bij normale Captcha) geverifieerd, en heeft daarenboven een woordje ontcijferd. Dit helpt bij het digitaliseren van oude kranten, handschriften, etc.

Als laatste: OCR = Optical Character Recignition: beelden van letters omzetten naar letters.
.. maar dan graaft het systeem toch ook zijn eigen graf ?? Want OCR wordt dus steeds beter en kunnen bots dit dus ook gebruiken om de captcha te lezen.
Niet noodzakelijk. Een gewone OCR kan op dit moment meeste getypte tekst vrij nauwkeurig analyseren, sommigen ook wat handschrift; maar de stukjes tekst die in de meeste captcha's zitten, zijn op zo'n manier vervormd dat OCR juist gaat falen. Met de woorden die ze op deze manier vinden, wordt de OCR niet direct beter: je krijgt enkel antwoorden op enkele specifieke moeilijkheden, maar daarmee heb je nog geen antwoorden op meer algemene moeilijkheden (zoals OCR die juist wel nodig zou hebben).

Natuurlijk, de huidige resultaten kunnen misschien via iets van neurale netwerken (artificial intelligence) bijdragen tot een betere OCR op langere termijn (maar dat zou sowieso wel op een of andere manier mogelijk moeten worden). Maar dan wordt er ook wel iets voor de captcha's gevonden (bv. zoals Google in dat spelletje, meer met afbeeldingen gaan werken dan met vervormde tekst ofzo).

Ook is het maar een kwestie van de stukjes ingescande tekst op dergelijke manier te presenteren dat ze voor een mens nog net leesbaar zijn (dus roteren, vervormen, ruis bijgooien), maar voor een computer niet. Dan betekenen verbeteringen in de OCR-wereld niet direct dat je OCR-algoritmes ook je captcha's kunnen inlezen. Een beetje te vergelijken met hoe de captcha's ook nu al werk leveren: je begint van een seed (nu een tekenreeks, in de toekomst dus een afbeelding), je klutst die door elkaar, om ervoor te zorgen dat de computer er zelf niet meer aanuit geraakt, maar een mens nog wel en voila, het hudige systeem werkt vrij goed (op het doorsluizen van die captcha's na misschien; maar er is op zich nog geen OCR engine die captcha's zonder problemen kan verslinden).

In het totaal is het volgens mij dus niet zo dat dit systeem e binnen afzienbare tijd voor gaat zorgen dat captcha's zullen ten onder gaan (maar zal het eerder een soort van natuurlijke evolutie zijn, dat computers krachtiger zullen worden, algoritmes complexer en dus ook dat de mogelijkheden van een computer dichter bij die van de mensen zullen komen te liggen.
Helaas blijft het een wapenwedloop. Automatisch gegenereerde CAPTCHAs omzeilen is iets anders dan een boek met OCR met een nauwkeurigheid van 99.7% om kunnen zetten.

Heel veel CAPTCHAs worden inmiddels al probleemloos door simpele stukjes software gebroken.

De wat lastigere CAPTCHAs hebben als nadeel dat het ook een deel van de menselijke gebruikers afschrikt. Ik heb diverse malen meer dan 1 poging moeten doen. En dus geef ik het vaak na 1 poging maar op.

Zoals ik iets meer omhoog al schreef: het probleem kan en moet gewoon bij de bron aangepakt worden. Ik volg al lange tijd comment spam op mijn blog, en het is onder te verdelen in 3 groepen:

1) link(s) naar sites die misbruikt worden [1]. De pagina bevat of links naar de spamvertized sites, of gebruikt JavaScript om te redirecten. Deze sites worden meestal snel opgeruimd als je de site eigenaar direct benaderd (of de hosting provider).

2) directe links naar spamvertized sites. Dat is vaak een gok: sommige hosting providers droppen direct hun klant. Voor anderen is het hun business. De 1e groep komt uiteindelijk bij dit soort hostingproviders uit (als ze niet opgeven), en dan kan je met een simpele methode spam filteren [2].

3 links naar redirection services (tiny url en vrienden). Wordt bij melden meestal direct opgeruimd.

Ik gebruik zelf een stukje Perl om spam aan te melden. Mochten mensen interesse hebben om mee te werken/helpen om comment spam aan te melden, graag (contact at johnbokma puntje com). Diensten als Akismet doen nl niks met de spam zelf (tenzij ze dat recent wel doen). En dat terwijl aanmelden vaak werkt (is mijn ervaring).


[1] http://johnbokma.com/mexi...du-domains-host-spam.html

[2] voor elke link in comment vind het IP adres van het domein, als op zwarte lijst, drop comment.
ABBY FineReader PRO kan anders heel wat Captcha's uitlezen hoor. Zo veranderd bijvoorbeeld Rapidshare.com steeds weer zijn Captcha omdat er teveel Free Users met een dynamic IP of proxy komen aan surfen en het downloaden zelf automatiseren met onder ander dat programma.
Een captcha is een woord dat in een afbeelding wordt geplaatst en zodanig vervormd wordt dat een computer dit woord niet eenvoudig kan uitlezen.

Zo'n captcha wordt gebruikt om te controleren of de persoon die zich bv. registreert bij een forum wel degelijk een echte persoon is en geen computer.

Wat men nu heeft gedaan is twee woorden laten zien: één dat dient als toegangscontrole en één dat afkomstig vanuit een ingescand document (maar dat de OCR-software niet kon herkennen).
De gebruiker tikt de twee captcha's in, de één zal zorgen dat hij toegang heeft tot het forum, de ander zal doorgestuurd worden naar de OCR-software die nu weet welk woord het was dat hij niet kon herkennen.

Zo kan men weer effectiever woorden gaan herkennen. Heel slim concept.

*edit* Ja, iemand was me blijkbaar voor met de uitleg. Dubbele uitleg maakt het misschien nog duidelijker? :)
Ik snap iets niet.
Een van die twee woorden komt dus uit een boek o.i.d. Maar is dat woord zelf ook nog vervormd? Lijkt me overbodig, maar ik vraag me af hoe die woorden anders zo vervormd eruit komen te zien.. En in welk boek staat er een streep door woorden :)?
Volgens zet captcha die er zelf overheen. Anders word het veel te makkelijker voor OCR-bots natuurlijk.
Dat lijkt mij niet. Die woorden zijn nou juist gekozen omdat ze niet herkend werden door de software.
Ik heb ook niet alles even netjes ondertreept in mijn studieboeken :+.

Maar echt van dat soort strepen zullen het wel niet zijn, maar misschien wel krassen, verkleurd papier, scheuren, etc etc
De onderzoekers schatten dat dagelijks ruim zestig miljoen captcha's worden opgelost, waarmee 150.000 manuren eigenlijk worden weggegooid.
Die 150.000 weggegooide manuren houd je met dit systeem ook; in fact, er moeten nu 300.000 manuren worden besteed door het publiek om captcha's op te lossen waarvan slechts de helft 'nuttig' wordt aangewend.
Met dat verschil dat ze nu die 150.000 manuren niet meer zelf hoeven te betalen. Misschien is er nu wel 750.000 manuren voor nodig om dezelfde hoeveelheid tekst te vertalen (vertalingen van meerdere gebruikers vergelijken), maar omdat die tijd bij elkaar wordt gesprokkeld door miljoenen gebruikers die per keer maar een hele kleine hoeveelheid tijd "investeren" (alleen één woordje extra overtypen), is dit voor de Internet Archive reuze handig en goedkoop.

Ik ben niet echt bekend met de Internet Archive, maar als die een grote hoeveelheid werk gratis ter inzage biedt of die werk doet voor instanties die een publieke dienst leveren, dan vind ik dit een goed initiatief. Is het echter een puur commercieel doel, dan zal ik het nooit gaan gebruiken..
Nee, er wordt 30.000 ipv 150.000 nuttig gebruikt: omdat je geen idee hebt hoe correct je first-time captcha gebruiker is, moet je elk onbekend woord door 5mensen laten omzetten [dus 150.000 --> 30.000], en als er eentje afwijkt van de andere vier dan laat je het nog eens tien man het intikken totdat er een acceptabele zekerheid is.

Het is een bayesiaans probleem --- als 1 mens 90% kans zeker juist is, dan is 5x hetzelfde erg zeker juist (1 - .1 ^5 = 99.999%). Maar als je mens 50% kans juist is, heb je er 5 nodig om 95% kans juist te zijn (1 - .5^5 = 96.875%). Dat weet je dus niet, omdat je niet je vaste proofreaders hebt maar `the unwashed' probeert te gebruiken.

[De eigenlijke complicatie schuilt erin dat de fouten grotendeels random (tikfouten) zijn, maar sommige dingen niet (standaard leesfouten) zodat de antwoorden niet echt onafhankelijk zijn.]
Slimme truc, eigenlijk net zoals met distributed computing, maar nu worden de "idle cycles" van mensen aangewend.
Ja, alleen maken spammers al gebruik van deze truc. Gewoon door de de captcha's van sites op een eigen site te zetten waarbij de bezoekers zogenaamd gratis toegang krijgen tot bijv. porno. De oplossing van de bezoekers wordt dan gebruikt om een bot op forums te laten registreren en daar spam te verspreiden.

Nu wordt er wat nuttigers mee gedaan, maar nieuw is het dus niet.
Zoals in de tekst staat gaat het in dit geval om woorden die niet in OCR herkend zijn. Daar zal dus waarschijnlijk niet zoveel herhaling in zitten, en dan gaat je argument niet op.
gaat nog steeds op.

Bezoeker komt op pron site
botje gaat naar site met captcha en haalt plaatjes over
bezoeker lost captcha op
botje gaat met de oplossing naar de site en post wat spam
bezoeker krijgt wat pron te zien

Doe dat maal 10.000 bezoekers per dag of zo, en je snapt al hoe CAPTCHAs *NIKS* doen aan spam. Ook omdat niet iedereen het gebruikt.

En terwijl eventjes de spamvertized URLs melden bij de hosting provider wel resultaten heeft. Maar goed, men laat het probleem liever eerst zo groot groeien als email spam, en dan halen we onze schouders op en zeggen: 't hoort er bij.

Gemiste kansen dus.
Ik weet niet hoe vaak jij al een spamvertised site hebt gemeld, maar door mijn abuse mailtjes is er nog nooit een verdwenen of gestopt met spammen.

Bovenstaande manier is trouwens altijd nog veel lastiger dan een POST request naar elk form sturen, dus het helpt vast en zeker wel.
Betekent dit dan dat die reCaptcha dan totaal niet is voor de verificatie? Ze weten immers niet wat het goede antwoord is, toch? Op zich wel mooi, tis wel nuttig. Alleen ik vind één zo captcha al vervelend genoeg.

Had Google trouwens poosje geleden ook niet zoiets. Een soort spelletje dat je plaatjes een naam moest geven ofzo. Werd dan ook weer ergens nuttig voor gebruikt. Niet geheel vergelijkbaar, maar toch.

edit: accentjes toegevoegd
Nee dat begrijp je verkeerd. Ze tonen er expres twee, dus de ene die ze kennen dient ter verificatie en de ander die ze niet kennen los je ook op.
Zo kunnen ze met redelijke zekerheid vaststellen of iets klopt. Ze kunnen een woord bv ook door meerdere gebruikers laten vertalen en dan kunnen ze een nog grotere zekerheid halen.

Het tweede dat je noemt is ook van de maker van captcha's, Luis von Ahn. Hier een interessant filmpje erover: http://video.google.com/v...ocid=-8246463980976635143
Lees dan eerst voor je een 'zinnige' FIPO wil zetten.
Eén van de twee vervormde woorden is bekend bij de computer, het andere woord nog niet.
Captcha technieken zijn over het algemeen onverstandig om aan te beginnen.

Wanneer deze op grote schaal toegepast zouden worden dan gaan spammers vanzelf geld steken in bots die er tegenin gaan (zoals ze nu ook doen met spamfilters).

Aangezien captcha technieken geld kosten om te implementeren en spammers er net zo hard tegenin gaan is het netto effect bijna nul terwijl het wel geld kost.

Het beste is om een handmatige actie in te voeren in het proces, zoals het handmatig activeren van een account alvorens er iets gedaan kan worden op een website (waarvan misbruik gemaakt zou kunnen worden). Dat is ongeveer het enige wat echt effectief is.

De oude e-mail met activatielink methode is helaas ook door steeds meer spammers te omzeilen, ofwel door daadwerkelijk de e-mail te verwerken of bij bekende systemen als phpBB door exploits in het systeem.

Toch jammer dat een universiteit niet inziet dat het onverstandig is om te beginnen aan captcha technieken, ook in het bedrijfsleven wordt het helaas vaak gezien als de magische oplossing...
http://en.wikipedia.org/wiki/XRumer
http://blog.washingtonpos..._tool_1.html?nav=rss_blog

De botmaster.net site (die regelmatig down is, wellicht omdat de eigenaar opzoek moet naar opnieuw een nieuwe hosting provider) heeft een overzicht van CAPTCHAs die probleemloos opgelost kunnen worden met het programma.

De software is rond de 500 USD. Ik zie vaak spamruns opduiken op ca. 200,000+ sites (via Google). Ik heb een vermoeden dat die 500 USD er vlot uit is, helaas.
Ik maak gewoon gebruik van het feit dat computers niet begrijpend lezen kunnen! Veel fijner voor de gebruiker die niet 100 keer hoeft te kijken of ze een code goed hebben overgetypt.
Kan je daar eens een voorbeeld van geven? Ik vind het een interessante techniek, maar werkt het ook voor mensen die de engelse taal niet goed machtig zijn?
Gewoon een onnozele vraag stellen, een computer snapt dat niet. Bijvoorbeeld iets als "Hoe heet de vader van de zoon van Piet?", een computer heeft geen idee wat daar ingevuld moet worden, omdat een computer niet begrijpend kan lezen.
Zit je alleen nog met het probleem dat sommige mensen ook niet begrijpend kunnen lezen :+
Probleem is dus dat als de spambot eenmaal het antwoord van: "Hoe heet de vader van de zoon van Piet?" weet dat hij dat kan opslaan en het dan de volgende keer kan toepassen wanneer hij dezelfde vraag tegenkomt.
Een heel simpel voorbeeld dat op mijn site +/- 80% van de spam tegenhoud:
Internet adresses will be converted automatically. You can use the following notation to specify anchor text for a link: example text. HTML will be ignored.
Het merendeel van mijn bezoek post geen links in hun bericht zelf, dus die hebben er geen last van.

Vervolgens is er een deel dat een link zonder markup ingeeft. Prima, dat mag.

Mensen die per ongeluk HTML gebruiken krijgen een melding met uitleg hoe het op te lossen.

Botjes lezen die uitleg niet, en gaan door naar het volgende blog, waar het vaak wel werkt.

Uiteraard rolt er spam door (20%). Ik doe mijn best om daar tenminste 90% van aan te melden, en hosting providers achter hun broek aan te zitten.

hardnekkige gevallen filter ik op basis van domain naam (URL redirecters, hosting providers die vinden dat hun klant de maand uit mag zitten, etc.)

Ik heb nu ca. 5-6 spam berichten per dag op een site met ca. 15.000 bezoekers per dag.

Soms leeft het even op naar 20-30 per dag, maar ik gok dat mijn domein inmiddels op de zwarte lijst van een aantal spammers staat :9
Ook wel bekend als Human Computation. Hier heb ik een lezing over gevolgd van Luis von Ahn, een van de bedenkers van deze technieken.

Erg interessant hoe je mensen met spelletjes e.d. je interpretatieproblemen op kunt laten lossen :)
En hier is een lezing van Luis von Ahn over Human Computation. Erg interessant EN grappig!!

http://video.google.nl/vi...35143&q=human+computation
Er is eigenlijk maar één ding waarover ik me hierbij zorgen maak: toegankelijkheid.

Bij de huidige captcha's kun je namelijk altijd nog een audio-alternatief aanbieden voor blinden, slechtzienden en consorten. Helaas weet je dat niet voor het nog onbekende deel van de recaptcha's, dus die vlieger gaat niet op. Ik hoop dat ze daar wel rekening mee gaan houden.

edit: gelukkig hebben ze dat gedaan :)
En wij zijn juist langzaam alle systemen aan het overzetten naar een Captcha box, waarbij er niks meer ingetypt hoeft te worden, maar er een klein donker gekleurd vierkant verborgen achter lijnen aangeklikt moet worden.

We zagen teveel log meldingen van gebruikers die text-captcha niet begrepen (zelfs met lange uitleg ernaast) of het simpelweg verkeerd intypte. En zodra we de captcha gemakkelijker maakte, dan werden we overdondert met OCR-bots.

Voor toegankelijkheid bieden we dan nog wel een link met een aparte voice-capthca of die kunnen dan via de telefoon de registratie doen.

Bij een poll onder 50,000 gebruikers gaf ongeveer 91% de voorkeur aan dit nieuwe systeem, doordat het in hun ogen veel gemakkelijker is, waardoor wij nu alle Captcha's aan het overzetten zijn.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True