Google neemt reCaptcha over

Google neemt het bedrijf reCaptcha over, dat een test aanbiedt die computers van mensen helpt onderscheiden. Bijzonder aan reCaptcha is dat het helpt bij het digitaliseren van boeken en kranten; Google heeft er belang bij dat dat gebeurt.

De reCaptcha-dienst biedt websitebeheerders de mogelijkheid om een zogeheten captcha in hun website te integreren. Captcha-tests worden gebruikt om te voorkomen dat html-formulieren door bots worden ingevuld, door de gebruiker een vervormde tekst over te laten typen. Zo kan misbruik van onder andere fora en messageboards door spammers voorkomen worden.

Computers zijn weliswaar in staat om tekst te herkennen, maar lopen op dit moment nog vast op afwijkend vormgegeven tekens. Het bijzondere aan het reCaptcha-project is dat het de input van gebruikers inzet om fragmenten van nog niet gedigitaliseerde teksten te herkennen. De gebruiker krijgt twee woorden voorgeschoteld, waarvan er één bekend is. Als de gebruiker het al bekende woord juist heeft ingevoerd, neemt de reCaptcha-software aan dat zijn andere antwoord ook klopt. Zo kunnen bots buiten de deur worden gehouden en kan ocr-programmatuur een handje worden geholpen.

Google maakt op dit moment nog geen gebruik van reCaptcha, maar het bedrijf zegt de dienst te willen implementeren. Googles eigen captcha-beveiliging voor de registratie van Gmail-adressen werd eerder gekraakt. Daarnaast heeft de zoekgigant er belang bij dat boeken en kranten worden gedigitaliseerd voor zijn boeken- en nieuwsarchief-diensten. Het is niet bekend welk bedrag Google voor reCaptcha op tafel heeft gelegd.

Google neemt ReCaptcha over

Door Joost Schellevis

Redacteur

17-09-2009 • 10:31

63

Submitter: Sparta

Reacties (63)

63
60
38
2
0
0
Wijzig sortering
Oeh! In het vervolg ga ik maar 1 woord juist invullen dan :+
Reken maar dat ze de woorden bij verschillende personen gaan tonen om de check in te bouwen of het écht juist is ingevuld. Bij een discrepantie tussen de twee antwoorden zal het woord waarschijnlijk een flag krijgen en nog vaker getoond worden om de juiste input te ontvangen.
Precies, dit wist ik ook niet inderdaad, maar welke van de twee hoeft niet ingevuld te worden?

edit: @SandaX tuurlijk wordt dit meerdere keren gecheckt, maar je kan nu wel als je een captcha krijgt maar 1 woord invullen, scheelt tijd en ontcijferwerk.

[Reactie gewijzigd door ApexAlpha op 24 juli 2024 06:15]

Daar was al een hoop over geschreven toen recaptcha beetje in begon te komen (dat je maar 1 woord hoeft te weten). Er zijn ook van die grappenmakers die dan expres iets fout intikken voor het tweede.

Waarschijnlijk is het goede woord, de meest leesbare.

Ik heb recaptcha ook geintegreerd in een aantal sites, puur omdat het zo makkelijk is om te integreren. Als gebruiker vind ik recaptcha toch vrij onduidelijk/onleesbaar (maar niet zo erg als rapidshare een paar maanden geleden)
Waarschijnlijk is het goede woord, de meest leesbare.
Waarom? Voor het bekende woord gebruikt men in eerste instantie woorden die met de hand zijn omgezet. Op het moment dat er heel veel input bestaat over een onbekend woord wordt het automatisch een bekend woord en kan hij als bekend woord getoond worden. Dat zegt dus helemaal niets over de leesbaarheid van beide woorden.
als je nu eens wist welk van de 2 woorden je juist moet hebben :p
Anoniem: 136863 17 september 2009 10:33
Ik heb nooit echt het idee gehad dat die recaptcha's echt goed konden werken gezien de lage mate van distortion, als je bijvoorbeeld vergelijkt met die van Microsoft.

Verder is denk zeker het herkennings gedeelte meer van belang in deze overname dat het captcha gedeelte.

Edit: zie hier (tweakers webalbum) de verschillen die ik bedoelde.
Edit 2: Alles is te kraken, alleen die van reCaptcha leek mij altijd zéér simpel om te kraken

[Reactie gewijzigd door Anoniem: 136863 op 24 juli 2024 06:15]

alleen die van reCaptcha leek mij altijd zéér simpel om te kraken
"zéér simpel" lijkt me wat overdreven. Hoe zou je het aanpakken dan ? De voorbeelden van reCaptcha zijn voor mensen goed te lezen maar kan voor OCR software best lastig zijn.
Ik zou zeggen onderzoek eens wat er schuilt achter OCR software, en hoe de captcha's die er zijn gekraakt worden, de letters zijn nauwelijks vervormd en een vrij vast lettertype, de lichte vervormingen kan je bijna met een align en alike library "kraken" dan is het nog niet eens een intelligente aanpak.

* Anoniem: 136863 heeft een uitdaging gevonden
Als het zo makkelijk te kraken was, waarom zijn die woorden dan onleesbaar voor de OCR software die de boeken heeft ingescanned? Let wel, software waar bovendien jaren aan research in is gestoken. De vervorming die erin zit is het probleem niet. De OCR software had al moeite met die woorden toen ze recht stonden. Maar als jij ervan overtuigd bent dat jij het wel eventjes fixt dan wens ik je veel succes :Y)

[Reactie gewijzigd door .oisyn op 24 juli 2024 06:15]

De mensen worden dus gebruikt om de OCR software beter te maken.
En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden :+

http://recaptcha.net/digitizing.html

Maar waarom al die moeite voor slechte scans? Als je een boek inscant, doe het dan op hoge resolutie? Dan heeft een standaard OCR er geen enkel probleem mee, want boeken zijn gedrukt, elke letter is dezelfde.. Het is niet zoals een handschrift. Dus dat hele gedoe is eigenlijk enkel bedoeld omdat er ooit iemand een foute beslissing gemaakt heeft om boeken op 75dpi in de scannen?

[Reactie gewijzigd door ? ? op 24 juli 2024 06:15]

En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden
Vergeet ook niet dat captcha krakers ook vaak hetzelfde idee gebruiken als recaptcha. Die serveren gewoon de captcha's van bijv. gmail bij een login van een porno-website, en laten de onwetende bezoeker de captcha invullen. Die invoer wordt vervolgens weer doorgeroute naar de gmail site zodat er geheel automatisch een nieuwe emailadres aan kan worden gemaakt :)
Denk je niet dat op 2400dpi scannen iets ineffectiever is dan op 75dpi? En oude boeken hebben nog weleens de neiging om oud te worden, letters vervagen.
Om het nog maar niet te hebben over in onbruik geraakte lettertypes. Ik ken voorbeelden daarvan waarbij de "s" heel erg op een "f'" lijkt (alleen dwars streepje ontbreekt). En zo zijn er nog wat.
Ooit al eens van paleografie gehoord? Originelen zijn soms ook erg moeilijk leesbaar, zelfs voor mensen. Zie bijvoorbeeld http://www.paleografie.ugent.be/oefening5.htm
het voordeel daar van is wel dat je ze in een keer goed hebt, sommige zijn echt onleesbaar.
Het bijzondere van recaptcha is net dat er afbeeldingen getoond worden van woorden die niet met ocr-technieken geïnterpreteerd kon worden.

Dit itt de klassieke interpretatie van de captcha techniek die vertrekt van een leesbare tekst en deze vervormt tot iets dat (hopelijk) niet leesbaar is met ocr.
reCaptcha schotelt je dingen voor waar de beste OCR software over struikelt bij boek scan projecten.

Als iemand een deel van de reCaptcha's kan kraken, betekend dat een doorbraak in text herkenning zodat boeken eficienter gescant kunnen worden.
Die kraak kan weer verwerkt worden in de OCR software zodat reCaptcha automatisch de kraak 'fixed'.

Zolang er er boeken ingescant moeten worden en mensen beter zijn in text herkennen zal reCaptcha dus blijven werken. Echt een geweldig project.......
Die van microsoft zijn denk ik juist veel makkelijker? kwestie van rechtzetten en je kunt ze lezen. Terwijl je die van recaptcha door alleen draaien nooit herkenbaar krijgt voor de computer.

Best of both worlds dus: beter leesbaar voor mensen en slechter voor computers.
Weer zon lekker onnozele reactie van iemand die de klok heeft horen luiden maar niet weet waar de klepel hangt.

Om even wikipedia aan te halen (http://nl.wikipedia.org/wiki/Captcha):

captcha (een afkorting van "completely automated public Turing-test to tell computers and humans apart")

En als je dan op Turing-test klikt, dan kan je lezen dat:
Als deze persoon niet consistent kan vertellen wie mens en wie machine is, doorstaat de machine de Turing-test. Tot nu toe is dat onmogelijk gebleken.

Het feit dát een captcha gebroken kán worden wil niet zeggen dat alle captcha's gebroken kunnen worden.

En tot slot, als alles gebroken kan worden daag ik jou uit om een blowfish encryptie, een AES encyptie of sha-2 hash te breken. Want alles is ten slotte te kraken, toch...? |:(
Jahoor na verloop van tijd zullen die ook gekraakt worden. Was het niet zo dat de NSA al AES-1024 aanraadde omdat minder alweer kraakbaar was ?
Fijnste van reCaptcha is dat je "live" een nieuw woord kunt krijgen en ook het woord kunt laten spreken. Daarnaast is het gemakkelijk dat het gecentraliseerd is.
het vreemde is natuurlijk dat recaptcha eigenlijk van 1 woord niet zeker weet wat het is, dus wat moet ie uitspreken dan?
Anoniem: 126698 @kmf17 september 2009 11:05
reCaptcha spreekt de woorden niet uit die je ziet.
De woorden verdwijnen en je hoort dan nieuwe woorden.
http://recaptcha.net/learnmore.html
Microsoft's Sam kan ook alles uitspreken, dus ik denk dat deze woorden, die ook nog eens normale woorden zijn ook uitgesproken kunnen worden.
Wat ik bedoel is dat van het tweede onbekende woord bv "following" op dit moment door recaptcha als "fonowmg" herkend wordt. Ja, wat spreekt ie dan uit?
Ik heb het nooit uitgeprobeerd, maar er zijn 2 opties:
1- Ik las ergens anders dat recaptcha ook gebruikt werd voor oude radio-uitzendingen, dus in dat geval heeft het niets met de woorden te maken die gedisplayed worden.
2 - aangezien er zo weinig mensen zijn die de audio gebruiken, kiest het systeem voor 2 bekende woorden wanneer audio gebruikt wordt.
inderdaad, die audio is gemaakt voor mensen die minder goed zien, dus daar plakken ze een achtergrondgeluidje onder 2 woorden die gesproken worden
mjah ik vind die reCaptcha's verschrikkelijk hebt aardig wat moeite om ze correct te lezen. :(
Klopt ja. Soms is het nog erger, want dan is het half niet te lezen en moet je ook symbolen gebruiken. De asciicode voor pound of de hotkey daarvoor weet ik namelijk niet uit mijn hoofd. http://www.kixtart.tweakdsl.nl/recaptcha.png
Start -> Run -> charmap
Gelukkig zit er dan ook een refresh knopje bij dat je realtime een nieuwe geeft. Nadeel is dan weer wel dat het pound-ding blijft staan en later weer bij iemand anders terecht komt...
En het mooie is dat spam bots dat dus ook hebben. Het mooie aan reCaptcha daarnaast is dat het ook goed gekeurd wordt wanneer je antwoord in de buurt komt.
Anoniem: 225842 17 september 2009 10:44
Ik vind de captcha's van Youtube (als je te veel berichten heb gepost), toch wel zwaar moeilijk hoor! Die moet ik soms 2x opnieuw doen... gaat wat te ver. Mja beter dat dan spam bots op YT.
Dan heb je deze nog niet tegengekomen (screenshotje), op zich een stuk moeilijker, zeker voor mensen die niet veel logisch inzicht hebben, anderzijds wel een stuk duidelijker dan sommige captcha's waar ik echt met men neus aan men scherm moet plakken voor te kunnen lezen wat er zou staan ...
Volgens mij is hier de verkeerde kant op geredeneerd, namelijk 'wij als mensen vinden dit moeilijk/complex, dan zal de computer het helemaal moeilijk vinden'. Als alle captchas in deze vorm zijn lijkt me dit een vrij makkelijke opgave: het enige dat er met de letters/cijfers is gebeurd zijn affine transformaties en die heb je er zo weer uit.
Je moet juist iets zoeken dat computers ingewikkeld vinden en mensen niet.
Dat is toch vrij logisch en te kraken, aangezien je de letters mee krijgt kun je automatisch ook nagaan hoeveel de cijfers moeten gedraaid worden.
Die lijkt me nou juist weer niet zo moeilijk te kraken. In die vakjes staat een duidelijke letter en cijfer. Dat moet voor een beetje software niet zo'n probleem zijn om dat te herkennen.
alles is te kraken, ook deze code.. puur een kwestie van tijd dat een gemiddelde hacker een dusdanig snelle rekenkracht onder zn bureau heb staan om er snel doorheen te komen (die codes verversen om de zoveel tijd nadat ze getoond zijn) een combi van codering en tijdsduur geeft deze implementatie een "veilig gevoel" voor hooguit 3 jaar
Mooi toch? dan doet die hacker ook wat nuttigs. Namelijk even zorgen dat een hoop onleesbare digitaliseringen goed worden gedigitaliseerd.

Ik neem aan dat ie dan ook aangenomen wordt door google.

The point is, alle captcha tot nu toe zijn eigenlijk "zonde" van de CPU-kracht (om te genereren/checken) en mens-tijd. Nu wordt het nog ergens nuttig voor gebruik.

Later komst vast ook nog de image tagging, mp3-tagging, en andere "make yourself useful"-ideeen als captcha.
Totdat de captcha dingen te moeilijk worden en het te hinderlijk wordt om iets op een forum oid te posten.
Anoniem: 317696 17 september 2009 10:57
Mooie stap, hopelijk kan Google dit project uitwerken tot een groter project.
Mis alleen nog wat aanpassingen zodat je je eigen stylesheets kan gebruiken.
Ik heb ook reCaptcha wel eens zien falen met bots.
Geen enkele Captcha is meer veilig, je kan voor een $2 via een API iets van 1000 captcha's laten kraken, welke gegarandeerd gaan lukken aangezien het door mensen wordt opgelost....

Je moet minimaal een tientje overmaken, dus dan zit je met een aantal captcha's van 5000 welke je dan kan kraken.

http://decaptcher.com/client/
You pay for correctly recognized CAPTCHAs only
The price is $2 for 1000 CAPTCHAs. We accept payments from $10.
Hi. I need to crack captcha. Do you provide a captcha decoders?
DeCaptcher CAPTCHA solving is processed by humans. So the accuracy is much better than an automated captcha solver ones.

[Reactie gewijzigd door ZpAz op 24 juli 2024 06:15]

Er zijn zat mensen in India en China die hier hun geld mee verdienen, de hele dag captcha's typen.
Je kan af en toe zo lachen om die woordencombinaties (http://www.somethingawful...riday/recaptcha-paint.php)
Gebruik nu al een ruime tijd de PHP plugin library. Werkt echt ideaal moet ik zeggen! Ze mogen deze echter wel eens IE8.0 proof maken ;) Laatste versie vd plugin is van 2007!
http://code.google.com/p/...ist?q=label:phplib-Latest

Ben eigenlijk ook echt niet verbaasd door deze overname, want er worden 30 miljoen woorden per dag vertaald. Integreer dit met al Googles captcha's, en de hele mensheid helpt constant mee met het zeer nauwkeurig digitaliseren van teksten.
http://recaptcha.net/digitizing.html
Het grote nadeel van recaptcha is dat er geen statistieken beschikbaar zijn. Lijkt me toch wel leuk hoeveel woorden mijn site opgelost hebben.
Anoniem: 108024 17 september 2009 14:14
De gebruiker krijgt twee woorden voorgeschoteld, waarvan er één bekend is. Als de gebruiker het al bekende woord juist heeft ingevoerd, neemt de reCaptcha-software aan dat zijn andere antwoord ook klopt.

Wat ik nooit begrepen heb ik waarom je maar 1 van de twee woorden hoeft in te typen (ik voer er altijd maar 1 in),
terwijl er staat: "Type these two words".
Omdat bij mij meestal één van de twee onleesbaar is door hun render engine.
Dit doen ze om de bots te slim af te zijn -denk ik-.
Zie hier de uitleg van een van de bedenkers van (re)Capcha:
http://www.youtube.com/watch?v=Aszl5avDtek

Blijkbaar heb je dan geluk en kies je altijd het goede woord om in te typen, maar als je dan toch het verkeerde woord pakt, verschijnt er vrij snel een nieuwe en heb je grote kans dat je dan wel de juiste typt.

[Reactie gewijzigd door hellbringer op 24 juli 2024 06:15]

Op dit item kan niet meer gereageerd worden.