Nieuwe captcha-techniek helpt bij digitaliseren van boeken

Onderzoekers van de Carnegie Mellon University hebben de bekende captcha's voorzien van een update waardoor ze gebruikt kunnen worden als hulp voor het digitaliseren van oude boeken, tijdschriften en kranten. Daarnaast wordt de dienst gecombineerd met spam-protectie voor e-mailadressen.

ReCaptchaDe nieuwe dienst om captcha's te leveren voor websites is gelanceerd onder de naam reCaptcha. Captcha's, wat eigenlijk een afkorting is voor 'Completely Automated Public Turing Test to Tell Computers and Humans Apart', zijn oorspronkelijk ook ontwikkeld door de Carnegie Mellon University in opdracht van Yahoo. Een vervormd woord moet door de gebruiker worden herkend en worden ingetypt alvorens een registratie of gebruikersactie definitief is. Met de test moeten spammers en andere geautomatiseerde systemen die misbruik willen maken van de aangeboden dienst buiten de deur worden gehouden. De nieuwe reCaptcha-dienst toont twee vervormde woorden die door de gebruiker moeten worden herkend. Eén van de twee vervormde woorden is bekend bij de computer, het andere woord nog niet. De antwoorden van de gebruikers voor het onbekende woord worden opgeslagen en de antwoorden van verschillende gebruikers gecombineerd om uiteindelijk de 'vertaling' van het woord te bepalen.

Het onbekende woord in de reCaptcha is afkomstig van gescande boeken, tijdschriften en kranten die door het Internet Archive worden gedigitaliseerd. Woorden die door ocr-software niet worden herkend, dienen als invoer voor de reCaptcha's. De universiteit hoopt zoveel mogelijk traditionele captcha's te kunnen vervangen door reCaptcha's om zodoende de inspanningen van het publiek nuttig te kunnen aanwenden. De onderzoekers schatten dat dagelijks ruim zestig miljoen captcha's worden opgelost, waarmee 150.000 manuren eigenlijk worden weggegooid. ReCaptcha moet een deel van deze verloren arbeid nuttig gaan maken door het ocr-process te helpen. Om ook het grote publiek te laten profiteren van de nieuwe dienst, biedt reCaptcha ook een gratis dienst aan onder de naam Mailhide. Hiermee is het mogelijk om een e-mailadres te beschermen tegen spammers. Om een e-mailadres te kunnen zien, dient eerst een reCaptcha te worden opgelost.

Door Martin Sturm

Nieuwsposter

26-05-2007 • 12:51

47 Linkedin

Bron: Ars Technica

Reacties (47)

47
47
19
0
0
21
Wijzig sortering
Anoniem: 212607
26 mei 2007 13:34
Ik volg ff niet, wat doet dit systeem nu precies want ik vat het echt niet. Iemand die het kort en simpel kan uitleggen? O+
Captcha's zijn afbeeldingen met een woord in. De gebruiker moet het woord overtikken om toegang te krijgen tot iets. Een computer kan het woord niet overtikken, omdat de captcha niet te ontcijferen valt mbv OCR.

reCaptcha doet hetzelfde. Ze voegen echter nog een tweede woord toe; een ingescand woord uit krant of tijdschrift, waarop hun eigen OCR faalt. De gebruiker tikt ook dat woord over. De gebruiker is nu (net zoals bij normale Captcha) geverifieerd, en heeft daarenboven een woordje ontcijferd. Dit helpt bij het digitaliseren van oude kranten, handschriften, etc.

Als laatste: OCR = Optical Character Recignition: beelden van letters omzetten naar letters.
Anoniem: 166774
@Parasietje26 mei 2007 14:21
.. maar dan graaft het systeem toch ook zijn eigen graf ?? Want OCR wordt dus steeds beter en kunnen bots dit dus ook gebruiken om de captcha te lezen.
Niet noodzakelijk. Een gewone OCR kan op dit moment meeste getypte tekst vrij nauwkeurig analyseren, sommigen ook wat handschrift; maar de stukjes tekst die in de meeste captcha's zitten, zijn op zo'n manier vervormd dat OCR juist gaat falen. Met de woorden die ze op deze manier vinden, wordt de OCR niet direct beter: je krijgt enkel antwoorden op enkele specifieke moeilijkheden, maar daarmee heb je nog geen antwoorden op meer algemene moeilijkheden (zoals OCR die juist wel nodig zou hebben).

Natuurlijk, de huidige resultaten kunnen misschien via iets van neurale netwerken (artificial intelligence) bijdragen tot een betere OCR op langere termijn (maar dat zou sowieso wel op een of andere manier mogelijk moeten worden). Maar dan wordt er ook wel iets voor de captcha's gevonden (bv. zoals Google in dat spelletje, meer met afbeeldingen gaan werken dan met vervormde tekst ofzo).

Ook is het maar een kwestie van de stukjes ingescande tekst op dergelijke manier te presenteren dat ze voor een mens nog net leesbaar zijn (dus roteren, vervormen, ruis bijgooien), maar voor een computer niet. Dan betekenen verbeteringen in de OCR-wereld niet direct dat je OCR-algoritmes ook je captcha's kunnen inlezen. Een beetje te vergelijken met hoe de captcha's ook nu al werk leveren: je begint van een seed (nu een tekenreeks, in de toekomst dus een afbeelding), je klutst die door elkaar, om ervoor te zorgen dat de computer er zelf niet meer aanuit geraakt, maar een mens nog wel en voila, het hudige systeem werkt vrij goed (op het doorsluizen van die captcha's na misschien; maar er is op zich nog geen OCR engine die captcha's zonder problemen kan verslinden).

In het totaal is het volgens mij dus niet zo dat dit systeem e binnen afzienbare tijd voor gaat zorgen dat captcha's zullen ten onder gaan (maar zal het eerder een soort van natuurlijke evolutie zijn, dat computers krachtiger zullen worden, algoritmes complexer en dus ook dat de mogelijkheden van een computer dichter bij die van de mensen zullen komen te liggen.
Helaas blijft het een wapenwedloop. Automatisch gegenereerde CAPTCHAs omzeilen is iets anders dan een boek met OCR met een nauwkeurigheid van 99.7% om kunnen zetten.

Heel veel CAPTCHAs worden inmiddels al probleemloos door simpele stukjes software gebroken.

De wat lastigere CAPTCHAs hebben als nadeel dat het ook een deel van de menselijke gebruikers afschrikt. Ik heb diverse malen meer dan 1 poging moeten doen. En dus geef ik het vaak na 1 poging maar op.

Zoals ik iets meer omhoog al schreef: het probleem kan en moet gewoon bij de bron aangepakt worden. Ik volg al lange tijd comment spam op mijn blog, en het is onder te verdelen in 3 groepen:

1) link(s) naar sites die misbruikt worden [1]. De pagina bevat of links naar de spamvertized sites, of gebruikt JavaScript om te redirecten. Deze sites worden meestal snel opgeruimd als je de site eigenaar direct benaderd (of de hosting provider).

2) directe links naar spamvertized sites. Dat is vaak een gok: sommige hosting providers droppen direct hun klant. Voor anderen is het hun business. De 1e groep komt uiteindelijk bij dit soort hostingproviders uit (als ze niet opgeven), en dan kan je met een simpele methode spam filteren [2].

3 links naar redirection services (tiny url en vrienden). Wordt bij melden meestal direct opgeruimd.

Ik gebruik zelf een stukje Perl om spam aan te melden. Mochten mensen interesse hebben om mee te werken/helpen om comment spam aan te melden, graag (contact at johnbokma puntje com). Diensten als Akismet doen nl niks met de spam zelf (tenzij ze dat recent wel doen). En dat terwijl aanmelden vaak werkt (is mijn ervaring).


[1] http://johnbokma.com/mexi...du-domains-host-spam.html

[2] voor elke link in comment vind het IP adres van het domein, als op zwarte lijst, drop comment.
ABBY FineReader PRO kan anders heel wat Captcha's uitlezen hoor. Zo veranderd bijvoorbeeld Rapidshare.com steeds weer zijn Captcha omdat er teveel Free Users met een dynamic IP of proxy komen aan surfen en het downloaden zelf automatiseren met onder ander dat programma.
Een captcha is een woord dat in een afbeelding wordt geplaatst en zodanig vervormd wordt dat een computer dit woord niet eenvoudig kan uitlezen.

Zo'n captcha wordt gebruikt om te controleren of de persoon die zich bv. registreert bij een forum wel degelijk een echte persoon is en geen computer.

Wat men nu heeft gedaan is twee woorden laten zien: één dat dient als toegangscontrole en één dat afkomstig vanuit een ingescand document (maar dat de OCR-software niet kon herkennen).
De gebruiker tikt de twee captcha's in, de één zal zorgen dat hij toegang heeft tot het forum, de ander zal doorgestuurd worden naar de OCR-software die nu weet welk woord het was dat hij niet kon herkennen.

Zo kan men weer effectiever woorden gaan herkennen. Heel slim concept.

*edit* Ja, iemand was me blijkbaar voor met de uitleg. Dubbele uitleg maakt het misschien nog duidelijker? :)
Betekent dit dan dat die reCaptcha dan totaal niet is voor de verificatie? Ze weten immers niet wat het goede antwoord is, toch? Op zich wel mooi, tis wel nuttig. Alleen ik vind één zo captcha al vervelend genoeg.

Had Google trouwens poosje geleden ook niet zoiets. Een soort spelletje dat je plaatjes een naam moest geven ofzo. Werd dan ook weer ergens nuttig voor gebruikt. Niet geheel vergelijkbaar, maar toch.

edit: accentjes toegevoegd
Nee dat begrijp je verkeerd. Ze tonen er expres twee, dus de ene die ze kennen dient ter verificatie en de ander die ze niet kennen los je ook op.
Zo kunnen ze met redelijke zekerheid vaststellen of iets klopt. Ze kunnen een woord bv ook door meerdere gebruikers laten vertalen en dan kunnen ze een nog grotere zekerheid halen.

Het tweede dat je noemt is ook van de maker van captcha's, Luis von Ahn. Hier een interessant filmpje erover: http://video.google.com/v...ocid=-8246463980976635143
Lees dan eerst voor je een 'zinnige' FIPO wil zetten.
Eén van de twee vervormde woorden is bekend bij de computer, het andere woord nog niet.
Slimme truc, eigenlijk net zoals met distributed computing, maar nu worden de "idle cycles" van mensen aangewend.
Ja, alleen maken spammers al gebruik van deze truc. Gewoon door de de captcha's van sites op een eigen site te zetten waarbij de bezoekers zogenaamd gratis toegang krijgen tot bijv. porno. De oplossing van de bezoekers wordt dan gebruikt om een bot op forums te laten registreren en daar spam te verspreiden.

Nu wordt er wat nuttigers mee gedaan, maar nieuw is het dus niet.
Anoniem: 118045
@Atomsk26 mei 2007 17:33
Zoals in de tekst staat gaat het in dit geval om woorden die niet in OCR herkend zijn. Daar zal dus waarschijnlijk niet zoveel herhaling in zitten, en dan gaat je argument niet op.
gaat nog steeds op.

Bezoeker komt op pron site
botje gaat naar site met captcha en haalt plaatjes over
bezoeker lost captcha op
botje gaat met de oplossing naar de site en post wat spam
bezoeker krijgt wat pron te zien

Doe dat maal 10.000 bezoekers per dag of zo, en je snapt al hoe CAPTCHAs *NIKS* doen aan spam. Ook omdat niet iedereen het gebruikt.

En terwijl eventjes de spamvertized URLs melden bij de hosting provider wel resultaten heeft. Maar goed, men laat het probleem liever eerst zo groot groeien als email spam, en dan halen we onze schouders op en zeggen: 't hoort er bij.

Gemiste kansen dus.
Ik weet niet hoe vaak jij al een spamvertised site hebt gemeld, maar door mijn abuse mailtjes is er nog nooit een verdwenen of gestopt met spammen.

Bovenstaande manier is trouwens altijd nog veel lastiger dan een POST request naar elk form sturen, dus het helpt vast en zeker wel.
Ik maak gewoon gebruik van het feit dat computers niet begrijpend lezen kunnen! Veel fijner voor de gebruiker die niet 100 keer hoeft te kijken of ze een code goed hebben overgetypt.
Kan je daar eens een voorbeeld van geven? Ik vind het een interessante techniek, maar werkt het ook voor mensen die de engelse taal niet goed machtig zijn?
Gewoon een onnozele vraag stellen, een computer snapt dat niet. Bijvoorbeeld iets als "Hoe heet de vader van de zoon van Piet?", een computer heeft geen idee wat daar ingevuld moet worden, omdat een computer niet begrijpend kan lezen.
Anoniem: 160588
@_JGC_26 mei 2007 14:43
Probleem is dus dat als de spambot eenmaal het antwoord van: "Hoe heet de vader van de zoon van Piet?" weet dat hij dat kan opslaan en het dan de volgende keer kan toepassen wanneer hij dezelfde vraag tegenkomt.
Zit je alleen nog met het probleem dat sommige mensen ook niet begrijpend kunnen lezen :+
Een heel simpel voorbeeld dat op mijn site +/- 80% van de spam tegenhoud:
Internet adresses will be converted automatically. You can use the following notation to specify anchor text for a link: example text. HTML will be ignored.
Het merendeel van mijn bezoek post geen links in hun bericht zelf, dus die hebben er geen last van.

Vervolgens is er een deel dat een link zonder markup ingeeft. Prima, dat mag.

Mensen die per ongeluk HTML gebruiken krijgen een melding met uitleg hoe het op te lossen.

Botjes lezen die uitleg niet, en gaan door naar het volgende blog, waar het vaak wel werkt.

Uiteraard rolt er spam door (20%). Ik doe mijn best om daar tenminste 90% van aan te melden, en hosting providers achter hun broek aan te zitten.

hardnekkige gevallen filter ik op basis van domain naam (URL redirecters, hosting providers die vinden dat hun klant de maand uit mag zitten, etc.)

Ik heb nu ca. 5-6 spam berichten per dag op een site met ca. 15.000 bezoekers per dag.

Soms leeft het even op naar 20-30 per dag, maar ik gok dat mijn domein inmiddels op de zwarte lijst van een aantal spammers staat :9
Ook wel bekend als Human Computation. Hier heb ik een lezing over gevolgd van Luis von Ahn, een van de bedenkers van deze technieken.

Erg interessant hoe je mensen met spelletjes e.d. je interpretatieproblemen op kunt laten lossen :)
Anoniem: 116394
@neographikal27 mei 2007 12:57
En hier is een lezing van Luis von Ahn over Human Computation. Erg interessant EN grappig!!

http://video.google.nl/vi...35143&q=human+computation
Er is eigenlijk maar één ding waarover ik me hierbij zorgen maak: toegankelijkheid.

Bij de huidige captcha's kun je namelijk altijd nog een audio-alternatief aanbieden voor blinden, slechtzienden en consorten. Helaas weet je dat niet voor het nog onbekende deel van de recaptcha's, dus die vlieger gaat niet op. Ik hoop dat ze daar wel rekening mee gaan houden.

edit: gelukkig hebben ze dat gedaan :)
Anoniem: 116213
26 mei 2007 14:42
En wij zijn juist langzaam alle systemen aan het overzetten naar een Captcha box, waarbij er niks meer ingetypt hoeft te worden, maar er een klein donker gekleurd vierkant verborgen achter lijnen aangeklikt moet worden.

We zagen teveel log meldingen van gebruikers die text-captcha niet begrepen (zelfs met lange uitleg ernaast) of het simpelweg verkeerd intypte. En zodra we de captcha gemakkelijker maakte, dan werden we overdondert met OCR-bots.

Voor toegankelijkheid bieden we dan nog wel een link met een aparte voice-capthca of die kunnen dan via de telefoon de registratie doen.

Bij een poll onder 50,000 gebruikers gaf ongeveer 91% de voorkeur aan dit nieuwe systeem, doordat het in hun ogen veel gemakkelijker is, waardoor wij nu alle Captcha's aan het overzetten zijn.
En wat als je die ene nou goed raad en dat woord wat de computer nog niet weet expres fout opgeeft? Dan is dit hele idee waardeloos..
De antwoorden van de gebruikers voor het onbekende woord worden opgeslagen en de antwoorden van verschillende gebruikers gecombineerd om uiteindelijk de 'vertaling' van het woord te bepalen.
:Z
niet als ze hetzelfde woord door verschillende personen laten controleren tot er een relatief grote zekerheid omtrent het woord bestaat...
Je weet niet welke de computer al weet :)
Ik denk dat het verschil tussen een Captcha en een ingescand stuk tekst over het algemeen duidelijk te zien is.
Waarom zouden ze de oude ingescande teksten niet opnieuw gebruiken voor de captchas?
Damn dit vind ik nou echt een slimme oplossing ! :D
maar ze moeten inderdaad nog wel een verificatie ronde doen.
Is al enige tijd bekend en wordt door bv. gratis porno sites toegepast om zo toegang te kunnen verkrijgen tot forums die met captcha's beveiligd zijn: je gooit de captcha gewoon door naar de geile bezoeker: die wil de porno site in en tikt de code over en de site heeft daarop automatisch toegang tot het forum dat ze willen spammen.
Hoe kan dit?

Als het goed gedaan is, is elke sessie toch verschillend? een getcaptcha.php bv retourneert "abcde", aan de hacker bv maar die kan die image toch niet doorgooien? Tenzij hij een screenshot zou nemen en die dan zo doorsturen naar de gebruiker etc met veel omslachtig werk. Maar ik zie dat toch niet gebeuren?
Waarschijnlijk sturen ze de cached versie van de afbeelding door.. waarom moeilijk doen als het makkelijk kan
.edit: niet goed gelezen
De onderzoekers schatten dat dagelijks ruim zestig miljoen captcha's worden opgelost, waarmee 150.000 manuren eigenlijk worden weggegooid.
Die 150.000 weggegooide manuren houd je met dit systeem ook; in fact, er moeten nu 300.000 manuren worden besteed door het publiek om captcha's op te lossen waarvan slechts de helft 'nuttig' wordt aangewend.
Anoniem: 133254
@crisp28 mei 2007 15:30
Nee, er wordt 30.000 ipv 150.000 nuttig gebruikt: omdat je geen idee hebt hoe correct je first-time captcha gebruiker is, moet je elk onbekend woord door 5mensen laten omzetten [dus 150.000 --> 30.000], en als er eentje afwijkt van de andere vier dan laat je het nog eens tien man het intikken totdat er een acceptabele zekerheid is.

Het is een bayesiaans probleem --- als 1 mens 90% kans zeker juist is, dan is 5x hetzelfde erg zeker juist (1 - .1 ^5 = 99.999%). Maar als je mens 50% kans juist is, heb je er 5 nodig om 95% kans juist te zijn (1 - .5^5 = 96.875%). Dat weet je dus niet, omdat je niet je vaste proofreaders hebt maar `the unwashed' probeert te gebruiken.

[De eigenlijke complicatie schuilt erin dat de fouten grotendeels random (tikfouten) zijn, maar sommige dingen niet (standaard leesfouten) zodat de antwoorden niet echt onafhankelijk zijn.]
Met dat verschil dat ze nu die 150.000 manuren niet meer zelf hoeven te betalen. Misschien is er nu wel 750.000 manuren voor nodig om dezelfde hoeveelheid tekst te vertalen (vertalingen van meerdere gebruikers vergelijken), maar omdat die tijd bij elkaar wordt gesprokkeld door miljoenen gebruikers die per keer maar een hele kleine hoeveelheid tijd "investeren" (alleen één woordje extra overtypen), is dit voor de Internet Archive reuze handig en goedkoop.

Ik ben niet echt bekend met de Internet Archive, maar als die een grote hoeveelheid werk gratis ter inzage biedt of die werk doet voor instanties die een publieke dienst leveren, dan vind ik dit een goed initiatief. Is het echter een puur commercieel doel, dan zal ik het nooit gaan gebruiken..

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee