Hoofdcategorieën
Device Settings

Google neemt reCaptcha over

Door Joost Schellevis, donderdag 17 september 2009 10:31
Submitter: robrt, views: 17.852

Google neemt het bedrijf reCaptcha over, dat een test aanbiedt die computers van mensen helpt onderscheiden. Bijzonder aan reCaptcha is dat het helpt bij het digitaliseren van boeken en kranten; Google heeft er belang bij dat dat gebeurt.

De reCaptcha-dienst biedt websitebeheerders de mogelijkheid om een zogeheten captcha in hun website te integreren. Captcha-tests worden gebruikt om te voorkomen dat html-formulieren door bots worden ingevuld, door de gebruiker een vervormde tekst over te laten typen. Zo kan misbruik van onder andere fora en messageboards door spammers voorkomen worden.

Computers zijn weliswaar in staat om tekst te herkennen, maar lopen op dit moment nog vast op afwijkend vormgegeven tekens. Het bijzondere aan het reCaptcha-project is dat het de input van gebruikers inzet om fragmenten van nog niet gedigitaliseerde teksten te herkennen. De gebruiker krijgt twee woorden voorgeschoteld, waarvan er één bekend is. Als de gebruiker het al bekende woord juist heeft ingevoerd, neemt de reCaptcha-software aan dat zijn andere antwoord ook klopt. Zo kunnen bots buiten de deur worden gehouden en kan ocr-programmatuur een handje worden geholpen.

Google maakt op dit moment nog geen gebruik van reCaptcha, maar het bedrijf zegt de dienst te willen implementeren. Googles eigen captcha-beveiliging voor de registratie van Gmail-adressen werd eerder gekraakt. Daarnaast heeft de zoekgigant er belang bij dat boeken en kranten worden gedigitaliseerd voor zijn boeken- en nieuwsarchief-diensten. Het is niet bekend welk bedrag Google voor reCaptcha op tafel heeft gelegd.

Google neemt ReCaptcha over

Volgende 11:00 Mmog-makers aangeklaagd om data-sharingpatent
Vorige 09:52 Conceptronic Yuixx-mediaspeler verschijnt in november
Advertentie

Reacties

«  1  2  »

Ik heb nooit echt het idee gehad dat die recaptcha's echt goed konden werken gezien de lage mate van distortion, als je bijvoorbeeld vergelijkt met die van Microsoft.

Verder is denk zeker het herkennings gedeelte meer van belang in deze overname dat het captcha gedeelte.

Edit: zie hier (tweakers webalbum) de verschillen die ik bedoelde.
Edit 2: Alles is te kraken, alleen die van reCaptcha leek mij altijd zéér simpel om te kraken

[Reactie gewijzigd door PaddoSwam op donderdag 17 september 2009 10:57]


Alles is te kraken, ook die van MS.

Die van microsoft zijn denk ik juist veel makkelijker? kwestie van rechtzetten en je kunt ze lezen. Terwijl je die van recaptcha door alleen draaien nooit herkenbaar krijgt voor de computer.

Best of both worlds dus: beter leesbaar voor mensen en slechter voor computers.

Weer zon lekker onnozele reactie van iemand die de klok heeft horen luiden maar niet weet waar de klepel hangt.

Om even wikipedia aan te halen (http://nl.wikipedia.org/wiki/Captcha):

captcha (een afkorting van "completely automated public Turing-test to tell computers and humans apart")

En als je dan op Turing-test klikt, dan kan je lezen dat:
Als deze persoon niet consistent kan vertellen wie mens en wie machine is, doorstaat de machine de Turing-test. Tot nu toe is dat onmogelijk gebleken.

Het feit dát een captcha gebroken kán worden wil niet zeggen dat alle captcha's gebroken kunnen worden.

En tot slot, als alles gebroken kan worden daag ik jou uit om een blowfish encryptie, een AES encyptie of sha-2 hash te breken. Want alles is ten slotte te kraken, toch...? |:(

Jahoor na verloop van tijd zullen die ook gekraakt worden. Was het niet zo dat de NSA al AES-1024 aanraadde omdat minder alweer kraakbaar was ?

het voordeel daar van is wel dat je ze in een keer goed hebt, sommige zijn echt onleesbaar.

Het bijzondere van recaptcha is net dat er afbeeldingen getoond worden van woorden die niet met ocr-technieken geďnterpreteerd kon worden.

Dit itt de klassieke interpretatie van de captcha techniek die vertrekt van een leesbare tekst en deze vervormt tot iets dat (hopelijk) niet leesbaar is met ocr.

reCaptcha schotelt je dingen voor waar de beste OCR software over struikelt bij boek scan projecten.

Als iemand een deel van de reCaptcha's kan kraken, betekend dat een doorbraak in text herkenning zodat boeken eficienter gescant kunnen worden.
Die kraak kan weer verwerkt worden in de OCR software zodat reCaptcha automatisch de kraak 'fixed'.

Zolang er er boeken ingescant moeten worden en mensen beter zijn in text herkennen zal reCaptcha dus blijven werken. Echt een geweldig project.......

alleen die van reCaptcha leek mij altijd zéér simpel om te kraken
"zéér simpel" lijkt me wat overdreven. Hoe zou je het aanpakken dan ? De voorbeelden van reCaptcha zijn voor mensen goed te lezen maar kan voor OCR software best lastig zijn.

Ik zou zeggen onderzoek eens wat er schuilt achter OCR software, en hoe de captcha's die er zijn gekraakt worden, de letters zijn nauwelijks vervormd en een vrij vast lettertype, de lichte vervormingen kan je bijna met een align en alike library "kraken" dan is het nog niet eens een intelligente aanpak.

* PaddoSwam heeft een uitdaging gevonden

Als het zo makkelijk te kraken was, waarom zijn die woorden dan onleesbaar voor de OCR software die de boeken heeft ingescanned? Let wel, software waar bovendien jaren aan research in is gestoken. De vervorming die erin zit is het probleem niet. De OCR software had al moeite met die woorden toen ze recht stonden. Maar als jij ervan overtuigd bent dat jij het wel eventjes fixt dan wens ik je veel succes :Y)

[Reactie gewijzigd door .oisyn op donderdag 17 september 2009 16:27]


De mensen worden dus gebruikt om de OCR software beter te maken.
En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden :+

http://recaptcha.net/digitizing.html

Maar waarom al die moeite voor slechte scans? Als je een boek inscant, doe het dan op hoge resolutie? Dan heeft een standaard OCR er geen enkel probleem mee, want boeken zijn gedrukt, elke letter is dezelfde.. Het is niet zoals een handschrift. Dus dat hele gedoe is eigenlijk enkel bedoeld omdat er ooit iemand een foute beslissing gemaakt heeft om boeken op 75dpi in de scannen?

[Reactie gewijzigd door Fastman op donderdag 17 september 2009 12:14]


Denk je niet dat op 2400dpi scannen iets ineffectiever is dan op 75dpi? En oude boeken hebben nog weleens de neiging om oud te worden, letters vervagen.

Om het nog maar niet te hebben over in onbruik geraakte lettertypes. Ik ken voorbeelden daarvan waarbij de "s" heel erg op een "f'" lijkt (alleen dwars streepje ontbreekt). En zo zijn er nog wat.

Ooit al eens van paleografie gehoord? Originelen zijn soms ook erg moeilijk leesbaar, zelfs voor mensen. Zie bijvoorbeeld http://www.paleografie.ugent.be/oefening5.htm

En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden
Vergeet ook niet dat captcha krakers ook vaak hetzelfde idee gebruiken als recaptcha. Die serveren gewoon de captcha's van bijv. gmail bij een login van een porno-website, en laten de onwetende bezoeker de captcha invullen. Die invoer wordt vervolgens weer doorgeroute naar de gmail site zodat er geheel automatisch een nieuwe emailadres aan kan worden gemaakt :)

Oeh! In het vervolg ga ik maar 1 woord juist invullen dan :+

Reken maar dat ze de woorden bij verschillende personen gaan tonen om de check in te bouwen of het écht juist is ingevuld. Bij een discrepantie tussen de twee antwoorden zal het woord waarschijnlijk een flag krijgen en nog vaker getoond worden om de juiste input te ontvangen.

Precies, dit wist ik ook niet inderdaad, maar welke van de twee hoeft niet ingevuld te worden?

edit: @SandaX tuurlijk wordt dit meerdere keren gecheckt, maar je kan nu wel als je een captcha krijgt maar 1 woord invullen, scheelt tijd en ontcijferwerk.

[Reactie gewijzigd door ApexAlpha op donderdag 17 september 2009 10:46]


Daar was al een hoop over geschreven toen recaptcha beetje in begon te komen (dat je maar 1 woord hoeft te weten). Er zijn ook van die grappenmakers die dan expres iets fout intikken voor het tweede.

Waarschijnlijk is het goede woord, de meest leesbare.

Ik heb recaptcha ook geintegreerd in een aantal sites, puur omdat het zo makkelijk is om te integreren. Als gebruiker vind ik recaptcha toch vrij onduidelijk/onleesbaar (maar niet zo erg als rapidshare een paar maanden geleden)

Waarschijnlijk is het goede woord, de meest leesbare.
Waarom? Voor het bekende woord gebruikt men in eerste instantie woorden die met de hand zijn omgezet. Op het moment dat er heel veel input bestaat over een onbekend woord wordt het automatisch een bekend woord en kan hij als bekend woord getoond worden. Dat zegt dus helemaal niets over de leesbaarheid van beide woorden.

als je nu eens wist welk van de 2 woorden je juist moet hebben :p

Lekker Voor google.. Lekker voor de mensen recaptha .. Hoeveel van de zakken met geld die google heeft zijn daar over&onder de tafel gegaan ??

Ik vind het wel nuttiger als Google recaptcha overneemt. Want het materiaal van recaptcha was oude archieven welke niet eens voor het grote publiek toegankelijk is.

Als Google het gebruikt voor z'n boekenscandienst, dan heb je er als gebruiker nog wat aan alle captchadingen.

De geschiedkundigen (waaronder ik) zijn daar anders wel heel erg dankbaar voor. En alle dingen waar het grote publiek geďntresseerd in is, zijn sowieso wel digitaal goed leesbaar beschikbaar. Alle boeken van de afgelopen 80 jaar kunnen probleemloos ge-OCR'd worden. Oudere boeken zijn voor het grote publiek sowieso niet echt interessant.

Fijnste van reCaptcha is dat je "live" een nieuw woord kunt krijgen en ook het woord kunt laten spreken. Daarnaast is het gemakkelijk dat het gecentraliseerd is.

het vreemde is natuurlijk dat recaptcha eigenlijk van 1 woord niet zeker weet wat het is, dus wat moet ie uitspreken dan?

Microsoft's Sam kan ook alles uitspreken, dus ik denk dat deze woorden, die ook nog eens normale woorden zijn ook uitgesproken kunnen worden.

Wat ik bedoel is dat van het tweede onbekende woord bv "following" op dit moment door recaptcha als "fonowmg" herkend wordt. Ja, wat spreekt ie dan uit?

Ik heb het nooit uitgeprobeerd, maar er zijn 2 opties:
1- Ik las ergens anders dat recaptcha ook gebruikt werd voor oude radio-uitzendingen, dus in dat geval heeft het niets met de woorden te maken die gedisplayed worden.
2 - aangezien er zo weinig mensen zijn die de audio gebruiken, kiest het systeem voor 2 bekende woorden wanneer audio gebruikt wordt.

inderdaad, die audio is gemaakt voor mensen die minder goed zien, dus daar plakken ze een achtergrondgeluidje onder 2 woorden die gesproken worden

reCaptcha spreekt de woorden niet uit die je ziet.
De woorden verdwijnen en je hoort dan nieuwe woorden.
http://recaptcha.net/learnmore.html

Ik vind de captcha's van Youtube (als je te veel berichten heb gepost), toch wel zwaar moeilijk hoor! Die moet ik soms 2x opnieuw doen... gaat wat te ver. Mja beter dat dan spam bots op YT.

Dan heb je deze nog niet tegengekomen (screenshotje), op zich een stuk moeilijker, zeker voor mensen die niet veel logisch inzicht hebben, anderzijds wel een stuk duidelijker dan sommige captcha's waar ik echt met men neus aan men scherm moet plakken voor te kunnen lezen wat er zou staan ...

Dat is toch vrij logisch en te kraken, aangezien je de letters mee krijgt kun je automatisch ook nagaan hoeveel de cijfers moeten gedraaid worden.

Die lijkt me nou juist weer niet zo moeilijk te kraken. In die vakjes staat een duidelijke letter en cijfer. Dat moet voor een beetje software niet zo'n probleem zijn om dat te herkennen.

Volgens mij is hier de verkeerde kant op geredeneerd, namelijk 'wij als mensen vinden dit moeilijk/complex, dan zal de computer het helemaal moeilijk vinden'. Als alle captchas in deze vorm zijn lijkt me dit een vrij makkelijke opgave: het enige dat er met de letters/cijfers is gebeurd zijn affine transformaties en die heb je er zo weer uit.
Je moet juist iets zoeken dat computers ingewikkeld vinden en mensen niet.

Je kan af en toe zo lachen om die woordencombinaties (http://www.somethingawful...riday/recaptcha-paint.php)

alles is te kraken, ook deze code.. puur een kwestie van tijd dat een gemiddelde hacker een dusdanig snelle rekenkracht onder zn bureau heb staan om er snel doorheen te komen (die codes verversen om de zoveel tijd nadat ze getoond zijn) een combi van codering en tijdsduur geeft deze implementatie een "veilig gevoel" voor hooguit 3 jaar

Mooi toch? dan doet die hacker ook wat nuttigs. Namelijk even zorgen dat een hoop onleesbare digitaliseringen goed worden gedigitaliseerd.

Ik neem aan dat ie dan ook aangenomen wordt door google.

The point is, alle captcha tot nu toe zijn eigenlijk "zonde" van de CPU-kracht (om te genereren/checken) en mens-tijd. Nu wordt het nog ergens nuttig voor gebruik.

Later komst vast ook nog de image tagging, mp3-tagging, en andere "make yourself useful"-ideeen als captcha.

Totdat de captcha dingen te moeilijk worden en het te hinderlijk wordt om iets op een forum oid te posten.

Mooie stap, hopelijk kan Google dit project uitwerken tot een groter project.
Mis alleen nog wat aanpassingen zodat je je eigen stylesheets kan gebruiken.
Ik heb ook reCaptcha wel eens zien falen met bots.

Geen enkele Captcha is meer veilig, je kan voor een $2 via een API iets van 1000 captcha's laten kraken, welke gegarandeerd gaan lukken aangezien het door mensen wordt opgelost....

Je moet minimaal een tientje overmaken, dus dan zit je met een aantal captcha's van 5000 welke je dan kan kraken.

http://decaptcher.com/client/
You pay for correctly recognized CAPTCHAs only
The price is $2 for 1000 CAPTCHAs. We accept payments from $10.
Hi. I need to crack captcha. Do you provide a captcha decoders?
DeCaptcher CAPTCHA solving is processed by humans. So the accuracy is much better than an automated captcha solver ones.

[Reactie gewijzigd door ZpAz op donderdag 17 september 2009 11:20]


Er zijn zat mensen in India en China die hier hun geld mee verdienen, de hele dag captcha's typen.

dit zijn de simpele verificatie methoden totdat het niet meer gaat.
over een paar jaar log jij in met een chip onderhuids. en zelfs die word gekraakt. :X

En vervolgens schrijft iemand een virus voor die dingen die ze laat oververhitten 8)7
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 11:00 Mmog-makers aangeklaagd om data-sharingpatent
Vorige 09:52 Conceptronic Yuixx-mediaspeler verschijnt in november
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011