Google neemt reCaptcha over

Google neemt het bedrijf reCaptcha over, dat een test aanbiedt die computers van mensen helpt onderscheiden. Bijzonder aan reCaptcha is dat het helpt bij het digitaliseren van boeken en kranten; Google heeft er belang bij dat dat gebeurt.

De reCaptcha-dienst biedt websitebeheerders de mogelijkheid om een zogeheten captcha in hun website te integreren. Captcha-tests worden gebruikt om te voorkomen dat html-formulieren door bots worden ingevuld, door de gebruiker een vervormde tekst over te laten typen. Zo kan misbruik van onder andere fora en messageboards door spammers voorkomen worden.

Computers zijn weliswaar in staat om tekst te herkennen, maar lopen op dit moment nog vast op afwijkend vormgegeven tekens. Het bijzondere aan het reCaptcha-project is dat het de input van gebruikers inzet om fragmenten van nog niet gedigitaliseerde teksten te herkennen. De gebruiker krijgt twee woorden voorgeschoteld, waarvan er één bekend is. Als de gebruiker het al bekende woord juist heeft ingevoerd, neemt de reCaptcha-software aan dat zijn andere antwoord ook klopt. Zo kunnen bots buiten de deur worden gehouden en kan ocr-programmatuur een handje worden geholpen.

Google maakt op dit moment nog geen gebruik van reCaptcha, maar het bedrijf zegt de dienst te willen implementeren. Googles eigen captcha-beveiliging voor de registratie van Gmail-adressen werd eerder gekraakt. Daarnaast heeft de zoekgigant er belang bij dat boeken en kranten worden gedigitaliseerd voor zijn boeken- en nieuwsarchief-diensten. Het is niet bekend welk bedrag Google voor reCaptcha op tafel heeft gelegd.

Google neemt ReCaptcha over

Vorig nieuwsartikel Volgend nieuwsartikel

Door Joost Schellevis

Redacteur

Feedback • 17-09-2009 10:31
63 • submitter: r0b

17-09-2009 • 10:31

Submitter: r0b

Lees meer

Cloudflare stopt met reCaptcha omdat Google die tot een betaalde dienst maakt Nieuws van 9 april 2020

Google introduceert reCaptcha-versie die geen interactie van gebruiker vereist Nieuws van 30 oktober 2018

Ticketmaster stapt over op gebruiksvriendelijkere captcha Nieuws van 31 januari 2013

Onderzoekers kraken captcha's van grote sites Nieuws van 4 november 2011

Onderzoekers kraken audio-captcha Nieuws van 24 mei 2011

Google wil Global IP Solutions overnemen Nieuws van 18 mei 2010

Google neemt 3d-desktopbouwer BumpTop over Nieuws van 3 mei 2010

Onderzoekers werken aan verbeterd captcha-systeem Nieuws van 2 januari 2010

'Google neemt DocVerse over voor 25 miljoen dollar' Nieuws van 21 december 2009

Harvard University gaat grote Chinese boekcollectie digitaliseren Nieuws van 12 oktober 2009

Google werkt aan verbeterde captcha-techniek Nieuws van 19 april 2009

Steeds meer spamfilters blokkeren Gmail na kraken captcha Nieuws van 7 april 2008

Gekraakte Gmail-captcha's leiden tot toename spam Nieuws van 11 maart 2008

Trojan maakt webmailaccounts aan voor versturen spam Nieuws van 15 augustus 2007

Spammers buiten 'captcha'-techniek voor eigen voordeel uit Nieuws van 8 juli 2007

Nieuwe captcha-techniek helpt bij digitaliseren van boeken Nieuws van 26 mei 2007

Captcha-beveiliging geen lang leven beschoren Nieuws van 10 juli 2006

Meer producten en artikelen

Bedrijfsnieuws Google Beveiliging Fusies en overnames

IT-banen

Meer vacatures

Reacties (63)

-Moderatie-faq

Wijzig sortering

itsme 17 september 2009 10:39

Oeh! In het vervolg ga ik maar 1 woord juist invullen dan

SandaX @itsme • 17 september 2009 10:41

Reken maar dat ze de woorden bij verschillende personen gaan tonen om de check in te bouwen of het écht juist is ingevuld. Bij een discrepantie tussen de twee antwoorden zal het woord waarschijnlijk een flag krijgen en nog vaker getoond worden om de juiste input te ontvangen.

ApexAlpha @itsme • 17 september 2009 10:42

Precies, dit wist ik ook niet inderdaad, maar welke van de twee hoeft niet ingevuld te worden?

edit: @SandaX tuurlijk wordt dit meerdere keren gecheckt, maar je kan nu wel als je een captcha krijgt maar 1 woord invullen, scheelt tijd en ontcijferwerk.

[Reactie gewijzigd door ApexAlpha op 24 juli 2024 06:15]

kmf @ApexAlpha • 17 september 2009 10:48

Daar was al een hoop over geschreven toen recaptcha beetje in begon te komen (dat je maar 1 woord hoeft te weten). Er zijn ook van die grappenmakers die dan expres iets fout intikken voor het tweede.

Waarschijnlijk is het goede woord, de meest leesbare.

Ik heb recaptcha ook geintegreerd in een aantal sites, puur omdat het zo makkelijk is om te integreren. Als gebruiker vind ik recaptcha toch vrij onduidelijk/onleesbaar (maar niet zo erg als rapidshare een paar maanden geleden)

.oisyn Moderator Devschuur®

Beveiliging

@kmf • 17 september 2009 16:32

Waarschijnlijk is het goede woord, de meest leesbare.

Waarom? Voor het bekende woord gebruikt men in eerste instantie woorden die met de hand zijn omgezet. Op het moment dat er heel veel input bestaat over een onbekend woord wordt het automatisch een bekend woord en kan hij als bekend woord getoond worden. Dat zegt dus helemaal niets over de leesbaarheid van beide woorden.

defcon84 @itsme • 17 september 2009 14:10

als je nu eens wist welk van de 2 woorden je juist moet hebben

Verwijderd 17 september 2009 10:33

Ik heb nooit echt het idee gehad dat die recaptcha's echt goed konden werken gezien de lage mate van distortion, als je bijvoorbeeld vergelijkt met die van Microsoft.

Verder is denk zeker het herkennings gedeelte meer van belang in deze overname dat het captcha gedeelte.

Edit: zie hier (tweakers webalbum) de verschillen die ik bedoelde.
Edit 2: Alles is te kraken, alleen die van reCaptcha leek mij altijd zéér simpel om te kraken

[Reactie gewijzigd door Verwijderd op 24 juli 2024 06:15]

epic007 @Verwijderd • 17 september 2009 11:16

alleen die van reCaptcha leek mij altijd zéér simpel om te kraken

"zéér simpel" lijkt me wat overdreven. Hoe zou je het aanpakken dan ? De voorbeelden van reCaptcha zijn voor mensen goed te lezen maar kan voor OCR software best lastig zijn.

Verwijderd @epic007 • 17 september 2009 11:26

Ik zou zeggen onderzoek eens wat er schuilt achter OCR software, en hoe de captcha's die er zijn gekraakt worden, de letters zijn nauwelijks vervormd en een vrij vast lettertype, de lichte vervormingen kan je bijna met een align en alike library "kraken" dan is het nog niet eens een intelligente aanpak.

/me heeft een uitdaging gevonden

.oisyn Moderator Devschuur®

Beveiliging

@Verwijderd • 17 september 2009 16:26

Als het zo makkelijk te kraken was, waarom zijn die woorden dan onleesbaar voor de OCR software die de boeken heeft ingescanned? Let wel, software waar bovendien jaren aan research in is gestoken. De vervorming die erin zit is het probleem niet. De OCR software had al moeite met die woorden toen ze recht stonden. Maar als jij ervan overtuigd bent dat jij het wel eventjes fixt dan wens ik je veel succes

[Reactie gewijzigd door .oisyn op 24 juli 2024 06:15]

? ? @Verwijderd • 17 september 2009 11:58

De mensen worden dus gebruikt om de OCR software beter te maken.
En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden

http://recaptcha.net/digitizing.html

Maar waarom al die moeite voor slechte scans? Als je een boek inscant, doe het dan op hoge resolutie? Dan heeft een standaard OCR er geen enkel probleem mee, want boeken zijn gedrukt, elke letter is dezelfde.. Het is niet zoals een handschrift. Dus dat hele gedoe is eigenlijk enkel bedoeld omdat er ooit iemand een foute beslissing gemaakt heeft om boeken op 75dpi in de scannen?

[Reactie gewijzigd door ? ? op 24 juli 2024 06:15]

.oisyn Moderator Devschuur®

Beveiliging

@? ? • 17 september 2009 16:41

En rarara wat gebeurt er dan met de moeilijke captcha's? Die worden gekraakt omdat de OCR software beter is geworden

Vergeet ook niet dat captcha krakers ook vaak hetzelfde idee gebruiken als recaptcha. Die serveren gewoon de captcha's van bijv. gmail bij een login van een porno-website, en laten de onwetende bezoeker de captcha invullen. Die invoer wordt vervolgens weer doorgeroute naar de gmail site zodat er geheel automatisch een nieuwe emailadres aan kan worden gemaakt

ikt @? ? • 17 september 2009 13:03

Denk je niet dat op 2400dpi scannen iets ineffectiever is dan op 75dpi? En oude boeken hebben nog weleens de neiging om oud te worden, letters vervagen.

Freee!!

@ikt • 17 september 2009 13:46

Om het nog maar niet te hebben over in onbruik geraakte lettertypes. Ik ken voorbeelden daarvan waarbij de "s" heel erg op een "f'" lijkt (alleen dwars streepje ontbreekt). En zo zijn er nog wat.

Teun_2 @? ? • 17 september 2009 14:16

Ooit al eens van paleografie gehoord? Originelen zijn soms ook erg moeilijk leesbaar, zelfs voor mensen. Zie bijvoorbeeld http://www.paleografie.ugent.be/oefening5.htm

BGB4rn @Verwijderd • 17 september 2009 10:40

het voordeel daar van is wel dat je ze in een keer goed hebt, sommige zijn echt onleesbaar.

UniCatcher @Verwijderd • 17 september 2009 11:10

Het bijzondere van recaptcha is net dat er afbeeldingen getoond worden van woorden die niet met ocr-technieken geïnterpreteerd kon worden.

Dit itt de klassieke interpretatie van de captcha techniek die vertrekt van een leesbare tekst en deze vervormt tot iets dat (hopelijk) niet leesbaar is met ocr.

SuperNull @Verwijderd • 17 september 2009 11:11

reCaptcha schotelt je dingen voor waar de beste OCR software over struikelt bij boek scan projecten.

Als iemand een deel van de reCaptcha's kan kraken, betekend dat een doorbraak in text herkenning zodat boeken eficienter gescant kunnen worden.
Die kraak kan weer verwerkt worden in de OCR software zodat reCaptcha automatisch de kraak 'fixed'.

Zolang er er boeken ingescant moeten worden en mensen beter zijn in text herkennen zal reCaptcha dus blijven werken. Echt een geweldig project.......

Gepetto @Verwijderd • 17 september 2009 10:40

Alles is te kraken, ook die van MS.

martijnve @Gepetto • 17 september 2009 11:23

Die van microsoft zijn denk ik juist veel makkelijker? kwestie van rechtzetten en je kunt ze lezen. Terwijl je die van recaptcha door alleen draaien nooit herkenbaar krijgt voor de computer.

Best of both worlds dus: beter leesbaar voor mensen en slechter voor computers.

Data-base @Gepetto • 17 september 2009 23:58

Weer zon lekker onnozele reactie van iemand die de klok heeft horen luiden maar niet weet waar de klepel hangt.

Om even wikipedia aan te halen (http://nl.wikipedia.org/wiki/Captcha):

captcha (een afkorting van "completely automated public Turing-test to tell computers and humans apart")

En als je dan op Turing-test klikt, dan kan je lezen dat:
Als deze persoon niet consistent kan vertellen wie mens en wie machine is, doorstaat de machine de Turing-test. Tot nu toe is dat onmogelijk gebleken.

Het feit dát een captcha gebroken kán worden wil niet zeggen dat alle captcha's gebroken kunnen worden.

En tot slot, als alles gebroken kan worden daag ik jou uit om een blowfish encryptie, een AES encyptie of sha-2 hash te breken. Want alles is ten slotte te kraken, toch...?

fevenhuis @Data-base • 18 september 2009 00:45

Jahoor na verloop van tijd zullen die ook gekraakt worden. Was het niet zo dat de NSA al AES-1024 aanraadde omdat minder alweer kraakbaar was ?

MMaster23 17 september 2009 10:41

Fijnste van reCaptcha is dat je "live" een nieuw woord kunt krijgen en ook het woord kunt laten spreken. Daarnaast is het gemakkelijk dat het gecentraliseerd is.

kmf @MMaster23 • 17 september 2009 10:43

het vreemde is natuurlijk dat recaptcha eigenlijk van 1 woord niet zeker weet wat het is, dus wat moet ie uitspreken dan?

Verwijderd @kmf • 17 september 2009 11:05

reCaptcha spreekt de woorden niet uit die je ziet.
De woorden verdwijnen en je hoort dan nieuwe woorden.
http://recaptcha.net/learnmore.html

ApexAlpha @kmf • 17 september 2009 10:48

Microsoft's Sam kan ook alles uitspreken, dus ik denk dat deze woorden, die ook nog eens normale woorden zijn ook uitgesproken kunnen worden.

kmf @ApexAlpha • 17 september 2009 10:53

Wat ik bedoel is dat van het tweede onbekende woord bv "following" op dit moment door recaptcha als "fonowmg" herkend wordt. Ja, wat spreekt ie dan uit?

- peter -

@kmf • 17 september 2009 10:59

Ik heb het nooit uitgeprobeerd, maar er zijn 2 opties:
1- Ik las ergens anders dat recaptcha ook gebruikt werd voor oude radio-uitzendingen, dus in dat geval heeft het niets met de woorden te maken die gedisplayed worden.
2 - aangezien er zo weinig mensen zijn die de audio gebruiken, kiest het systeem voor 2 bekende woorden wanneer audio gebruikt wordt.

Niosus @- peter - • 17 september 2009 18:23

inderdaad, die audio is gemaakt voor mensen die minder goed zien, dus daar plakken ze een achtergrondgeluidje onder 2 woorden die gesproken worden

et36s 17 september 2009 11:20

mjah ik vind die reCaptcha's verschrikkelijk hebt aardig wat moeite om ze correct te lezen.

Kixtart

@et36s • 17 september 2009 12:17

Klopt ja. Soms is het nog erger, want dan is het half niet te lezen en moet je ook symbolen gebruiken. De asciicode voor pound of de hotkey daarvoor weet ik namelijk niet uit mijn hoofd. http://www.kixtart.tweakdsl.nl/recaptcha.png

DPLuS @Kixtart • 17 september 2009 12:31

Start -> Run -> charmap

hostname @Kixtart • 17 september 2009 18:56

Gelukkig zit er dan ook een refresh knopje bij dat je realtime een nieuwe geeft. Nadeel is dan weer wel dat het pound-ding blijft staan en later weer bij iemand anders terecht komt...

Rvanlaak @et36s • 17 september 2009 13:08

En het mooie is dat spam bots dat dus ook hebben. Het mooie aan reCaptcha daarnaast is dat het ook goed gekeurd wordt wanneer je antwoord in de buurt komt.

Verwijderd 17 september 2009 10:44

Ik vind de captcha's van Youtube (als je te veel berichten heb gepost), toch wel zwaar moeilijk hoor! Die moet ik soms 2x opnieuw doen... gaat wat te ver. Mja beter dat dan spam bots op YT.

Verwijderd @Verwijderd • 17 september 2009 12:01

Dan heb je deze nog niet tegengekomen (screenshotje), op zich een stuk moeilijker, zeker voor mensen die niet veel logisch inzicht hebben, anderzijds wel een stuk duidelijker dan sommige captcha's waar ik echt met men neus aan men scherm moet plakken voor te kunnen lezen wat er zou staan ...

Verwijderd @Verwijderd • 18 september 2009 09:52

Volgens mij is hier de verkeerde kant op geredeneerd, namelijk 'wij als mensen vinden dit moeilijk/complex, dan zal de computer het helemaal moeilijk vinden'. Als alle captchas in deze vorm zijn lijkt me dit een vrij makkelijke opgave: het enige dat er met de letters/cijfers is gebeurd zijn affine transformaties en die heb je er zo weer uit.
Je moet juist iets zoeken dat computers ingewikkeld vinden en mensen niet.

Precision @Verwijderd • 17 september 2009 17:28

Dat is toch vrij logisch en te kraken, aangezien je de letters mee krijgt kun je automatisch ook nagaan hoeveel de cijfers moeten gedraaid worden.

Darude1234 @Verwijderd • 17 september 2009 18:30

Die lijkt me nou juist weer niet zo moeilijk te kraken. In die vakjes staat een duidelijke letter en cijfer. Dat moet voor een beetje software niet zo'n probleem zijn om dat te herkennen.

MelodyDeluxe 17 september 2009 10:47

alles is te kraken, ook deze code.. puur een kwestie van tijd dat een gemiddelde hacker een dusdanig snelle rekenkracht onder zn bureau heb staan om er snel doorheen te komen (die codes verversen om de zoveel tijd nadat ze getoond zijn) een combi van codering en tijdsduur geeft deze implementatie een "veilig gevoel" voor hooguit 3 jaar

kmf @MelodyDeluxe • 17 september 2009 10:51

Mooi toch? dan doet die hacker ook wat nuttigs. Namelijk even zorgen dat een hoop onleesbare digitaliseringen goed worden gedigitaliseerd.

Ik neem aan dat ie dan ook aangenomen wordt door google.

The point is, alle captcha tot nu toe zijn eigenlijk "zonde" van de CPU-kracht (om te genereren/checken) en mens-tijd. Nu wordt het nog ergens nuttig voor gebruik.

Later komst vast ook nog de image tagging, mp3-tagging, en andere "make yourself useful"-ideeen als captcha.

PV85 @kmf • 17 september 2009 13:22

Totdat de captcha dingen te moeilijk worden en het te hinderlijk wordt om iets op een forum oid te posten.

Verwijderd 17 september 2009 10:57

Mooie stap, hopelijk kan Google dit project uitwerken tot een groter project.
Mis alleen nog wat aanpassingen zodat je je eigen stylesheets kan gebruiken.
Ik heb ook reCaptcha wel eens zien falen met bots.

ZpAz @Verwijderd • 17 september 2009 11:18

Geen enkele Captcha is meer veilig, je kan voor een $2 via een API iets van 1000 captcha's laten kraken, welke gegarandeerd gaan lukken aangezien het door mensen wordt opgelost....

Je moet minimaal een tientje overmaken, dus dan zit je met een aantal captcha's van 5000 welke je dan kan kraken.

http://decaptcher.com/client/

You pay for correctly recognized CAPTCHAs only
The price is $2 for 1000 CAPTCHAs. We accept payments from $10.

Hi. I need to crack captcha. Do you provide a captcha decoders?
DeCaptcher CAPTCHA solving is processed by humans. So the accuracy is much better than an automated captcha solver ones.

[Reactie gewijzigd door ZpAz op 24 juli 2024 06:15]

Yakotb @ZpAz • 17 september 2009 11:45

Er zijn zat mensen in India en China die hier hun geld mee verdienen, de hele dag captcha's typen.

Castor385 17 september 2009 10:46

Je kan af en toe zo lachen om die woordencombinaties (http://www.somethingawful...riday/recaptcha-paint.php)

Rvanlaak 17 september 2009 13:18

Gebruik nu al een ruime tijd de PHP plugin library. Werkt echt ideaal moet ik zeggen! Ze mogen deze echter wel eens IE8.0 proof maken

Laatste versie vd plugin is van 2007!
http://code.google.com/p/...ist?q=label:phplib-Latest

Ben eigenlijk ook echt niet verbaasd door deze overname, want er worden 30 miljoen woorden per dag vertaald. Integreer dit met al Googles captcha's, en de hele mensheid helpt constant mee met het zeer nauwkeurig digitaliseren van teksten.
http://recaptcha.net/digitizing.html

kmf @Rvanlaak • 17 september 2009 14:46

Het grote nadeel van recaptcha is dat er geen statistieken beschikbaar zijn. Lijkt me toch wel leuk hoeveel woorden mijn site opgelost hebben.

Verwijderd 17 september 2009 14:14

De gebruiker krijgt twee woorden voorgeschoteld, waarvan er één bekend is. Als de gebruiker het al bekende woord juist heeft ingevoerd, neemt de reCaptcha-software aan dat zijn andere antwoord ook klopt.

Wat ik nooit begrepen heb ik waarom je maar 1 van de twee woorden hoeft in te typen (ik voer er altijd maar 1 in),
terwijl er staat: "Type these two words".

Verwijderd @Verwijderd • 17 september 2009 17:09

Omdat bij mij meestal één van de twee onleesbaar is door hun render engine.
Dit doen ze om de bots te slim af te zijn -denk ik-.

hellbringer @Verwijderd • 18 september 2009 12:31

Zie hier de uitleg van een van de bedenkers van (re)Capcha:
http://www.youtube.com/watch?v=Aszl5avDtek

Blijkbaar heb je dan geluk en kies je altijd het goede woord om in te typen, maar als je dan toch het verkeerde woord pakt, verschijnt er vrij snel een nieuwe en heb je grote kans dat je dan wel de juiste typt.

[Reactie gewijzigd door hellbringer op 24 juli 2024 06:15]

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (63)

Sorteer op:

Weergave: