Google werkt aan verbeterde captcha-techniek

Teneinde computers van mensen te onderscheiden en alleen de laatstgenoemden toegang tot zijn diensten te geven, werken medewerkers van Google aan een captcha-techniek die met geroteerde afbeeldingen werkt.

Captcha's, of completely automated public Turing test to tell computers and humans apart, worden onder meer gebruikt om te controleren of een mens toegang tot webdiensten probeert te krijgen, danwel of een computer of bot dat probeert. De inmiddels gemeengoed geworden tekst-captcha's, die met vervormde letters mens van machine proberen te onderscheiden, worden echter met steeds meer succes door ocr-programma's opgelost. Medewerkers van Google trachten nu afbeeldingen die onjuist geörienteerd zijn in te zetten om mensen toegang tot diensten te verschaffen en softwareprogramma's van spammers toegang te ontzeggen.

De geroteerde afbeeldingen zijn door mensen eenvoudig rechtop te zetten, zo schrijven Google-onderzoekers Rich Gossweiler, Maryam Kamvar en Shumeet Baluja in hun rapport, maar voor computers vaak moeilijk correct te oriënteren. Het captcha-experiment maakt gebruik van afbeeldingen die via Googles Image Search werden verzameld. Deze afbeeldingen werden vervolgens door software beoordeeld op oriëntatie en de foto's waarmee de computer geen problemen had, werden afgekeurd. De afbeeldingen die wel succesvol door software rechtop te zetten waren, zoals foto's met gezichten en teksten, werden niet in de dataset opgenomen. Ook foto's die door mensen lastig juist te oriënteren waren, zoals bepaalde close-ups of abstracte foto's, werden buiten het captcha-systeem gehouden.

Middels een slider konden menselijke proefkonijnen de gekantelde foto's recht zetten. Het op deze manier ontwikkelde systeem resulteerde in captcha's die in 84 procent van de menselijke proefpersonen werden opgelost, terwijl computers slechts 0,009 procent van de puzzels op konden lossen. Zodra software beter wordt in het oplossen van de puzzel, kunnen de afbeeldingen die succesvol juist werden geörienteerd eenvoudig uit de captcha's gefilterd worden, zodat de captcha's alleen door mensen opgelost kunnen blijven worden. Of en wanneer dit alternatieve captcha-systeem wordt ingevoerd is echter nog niet duidelijk.

Google image-captcha

Door Willem de Moor

Redacteur

19-04-2009 • 12:19

117 Linkedin

Reacties (117)

117
115
28
15
0
9
Wijzig sortering
Ik vraag me af wat dit voor blinden zal doen, text captchas waren daarbij natuurlijk al een ramp maar dankzij verbeterde OCR werd het iig mogelijk om het ook voor hen toegankelijk te maken. Daarnaast was/is er ook de optie van audiobestanden, maar die zijn net zo gemakkelijk als text om te kraken tegenwoordig.

Dit echter lijkt mij het echt onmogelijk te maken voor hen. Is dus een leuk idee van Google, maar zeker voor grotere communities en bedrijven lijkt het me gewoon niet haalbaar om die groep mensen buiten te sluiten.
en hoe vaak zie jij een blinde achter de computer. als ze er al achter zitten zit er altijd wel iemand naast die in 84% van de gevallen deze Captcha zo oplost
Hmm, je kent waarschijnlijk niet veel blinden?
Al degene die ik ken, werken met de computer en de meeste bijna de hele dag op hun werk. Bijvoorbeeld post lezen e.d. gebeurt allemaal met de computer.
En nee, er zit niet altijd iemand naast, veel blinden zijn heel zelfstandig.

Over vooroordelen gesproken...
Misschien zit hier ook nog een spraak achtig iets bij zodat blinden kunnen horen welke letters er gegeven moeten worden. Of zoals in dit geval wordt er een beschrijving genoemd van iets bekends en dan moeten ze de naam van dat ding invullen zoiets als. In parijs staat een groot ijzer voorwerp wat erg veel toeristen trekt en het heeft de vorm van een uitgerekte driehoek. Antwoord: Eifeltoren.
Ik zag laatst een oplossing op een site met het verzoek om een e-mail naar de beheerder te sturen. Van de ene kant is dat niet heel gebruiksvriendelijk (ik weet niet hoe snel de beheerder reageert), maar wel universeel.

De huidige captcha's hebben dat probleem ook, die voorgelezen teksten zijn echt niet alles.

Al met al vind ik de captcha´s vaak (te) lastig, zoals anderen ook al aangeven. Goed dat Google kijkt naar een andere oplossing.
ik vroeg laatst een extra gmail adres aan en kon de captcha niet lezen, dus ik klikte op het geluid icoontje. dat geluid wat geproduceerd werd was verschrikkelijk, ik geloof niet dat daar ook maar iemand wijs uit kon worden.
Het gaat vast een hoop spam schelen, getuige nieuws: Steeds meer spamfilters blokkeren Gmail na kraken captcha.

Wat ook wel leuk is is dat áls mensen dit weten te kraken, dat men de comuter weer iets compleet nieuws heeft gelerd: het correct roteren van plaatjes. Lijkt mij overigens een NP-compleet probleem, dus succes daarmee :P
Je hoeft dan ook alleen maar de uitkomst te benaderen, en hoeft niet in alle gevallen een goed resultaat te geven ;) Er zijn voor heel veel NP-complete problemen vrijwel triviale benaderingen die er maar een heel klein beetje naast kunnen zitten, en dus in 90% van de gevallen voldoen. Bijvoorbeeld load-balancing :)
Er zijn nog steeds mensen die betaald krijgen om deze dingen op te lossen voor spammers. Ook worden captcha's soms onopgemerkt verwerkt in sites, waarbij je bijvoorbeeld een gratis ringtone kan krijgen ofzo. Mensen die dan de captcha invullen krijgen dan iets, terwijl ze niet weten dat ze eigenlijk een account hebben geactiveerd voor spammers.
en met een beetje ongeluk moesten zu hun mailadres ook nog eens invullen, of iets downloaden, of een acount maken met mailadres en wachtwoord...
offtopic: er zijn zoveel dingen gevaarlijker als spam. spam is bijna altijd ongevaarlijk... virusen of keyloggers zijn pas gevaarlijk. die moeten ze eerst maar eens aanpakken
Standaard tekst captcha's ken ik, en daarom is er om niveau hoger te maken gekozen voor animated gifs waar tekst niet meer 1 geheel vormen maar beweeglijk en vervormd getoond worden. Er zijn al scripts te krijgen.

Andere methodes is tekst bijna geheel samensmelten tot 1 brok, maar voor menselijk oog zit er wel leesbaar patroon in, voor OCR is een ramp om "lijnen" te ontdekken in een samengesmolten tekst. De methode is al paar keer gebruikt.

Diverse kleuren en veel lijnen doorheen is bekende misleiding methode om OCR in de war te brengen. Een totale chaos heeft echter nadeel voor mensen met slechte ogen of lage leesvermogen: de alfabeten.

Raadspelletjes is ook vorm van captcha. Je toont 5 plaatjes en er zit vraag bij: welke plaatje is een koe? De bot weet niet altijd wat een koe is, daar is heel wat structuur data voor nodig, zeker als men met opzet niet keurige koe foto van maak, maar voor mens wel te zien is dat het van koe komt. Raadspelletjes is weer makkelijk voor mensen met slechte ogen. Ze hoeven alleen goede aan te wijzen.

Ik heb elders gelezen dat spammers proberen captcha file te "doorlinken" naar andere pagina waar persoon moet raden wat er staat om punten te "winnen". Met ingevulde code wordt het teruggelinkt naar de pagina en zo kan spammer toch nog erin komen.
We worden dan misbruikt als menselijke "bot" door zogenaamde captcha spelletjes sites die spammers maken om data hieruit te halen en zo met de ingevoerde gegevens de andere sites inkomen.
Dus niet alleen met bots, maar ook nietsvermoedend buitenom mensen gebruiken om codes in te voeren...
Vraag me af of zoiets niet heel makkelijk te kraten is.
De voorbeeld foto's die ik zie staan hebben allemaal iets van de horizon erin.
In de meeste foto's is die toch recht. Daar moet dan toch wat voor te scripten zijn of niet?
Je geeft precies aan waarom dit werkt: jij weet/ziet dat het gaat om een landschap met een horizon, de computer ziet alleen maar pixels.

Zonder de orientatie te weten, is het dan heel lastig om die pixels zo te interpreteren dat de computer "ziet" dat er een horizon op het plaatje staat.

Daarbij: zo recht vind ik de horizons op die plaatjes niet. Wederom: jij weet dat "de" horizon recht is, maar hoe gaat de computer dat achterhalen met die bergen, bomen e.d.?

[Reactie gewijzigd door Herko_ter_Horst op 19 april 2009 12:32]

Volgens mij dachten ze dit ook met de originele captcha's. Jij ziet dat het om een letter of cijfer gaat, die totaal vervormd is en waar andere, nutteloze lijnen en kronkels doorheen lopen, maar de computer ziet alleen maar pixels...
Toch zijn er algoritmen uitgevonden voor het herkennen van die tekens, en in een demonstratie heb ik zelf gezien dat de algoritmen sterker zijn dan mensen. Wat totaal onleesbaar was voor een mens werd zonder problemen "vertaald" door de PC, wat dus soms een vals gevoel van veiligheid geeft...

Bestaan er trouwens al geen opties in foto software, zoals photosop, om je afbeeldingen automatisch te laten rechtzetten?

Voor meer info over captcha breaking:
PWNTCHA
W3 - Turingtest

[Reactie gewijzigd door Big Womly op 20 april 2009 12:39]

Vergeet niet dat er altijd een manier is om een beveiliging te omzeilen. Maakt niet uit hoe moeilijk, zelfs de 1024Bit codering die US Army gebruikt kan gekraakt worden (nog niet gebeurt omdat niemand het nut ervan in zag).

Een nieuwe beveiliging zal alleen zorgen dat krakers weer moeten werken en dat er ~2 weken geen 'bots' meer zullen werken, daarna natuurlijk weer wel. (Best treurig dat mensen spam maken)

ObAt
Particulier of burger mocht toch max dacht ik 128bit hebben? Maar ik denk wel dat ze al lang die 1024bit hebben gekraakt moet wel. Weet nog dat hier een bericht was met een virus die uit 2005 stamde in de VS militair-netwerk zat. ;) ( ok het hoeft niet te betekenen dat het is gekraakt maar ik denk toch wel dat het is gekraakt hoor) ;)

[Reactie gewijzigd door Simyager op 20 april 2009 19:41]

Bovendien zien ze dan nog niet wat de boven en onderkant is van die horizon.
En juist de foto's die de computer recht kan zetten worden niet meegenomen. Alles wat Google hoeft te doen is dus de algoritmen die door 'krakers' gebruikt worden zelf ook te gebruiken :)
Anoniem: 229527
@Solomon19 april 2009 21:21
Algoritme: out-sourcen naar China. Captcha's gaan nooit werken zolang er landen zijn met lage lonen.
Ik vind dat ze dan wel achter de feiten aan lopen.
Deze afbeeldingen werden vervolgens door software beoordeeld op oriëntatie en de foto's waarmee de computer geen problemen had, werden afgekeurd.
Als ik het goed begrijp checkt google of ZIJ het plaatje recht kunnen zetten. Lukt dit niet vinden ze het een geschikt plaatje. Dus alleen als hun software superieur aan alle andere software is gaat dit goed werken.
Anoniem: 296074
@HenkEisDS20 april 2009 18:59
Beetje verkeerd begrepen misschien: De software van google kan niet het plaatje juist zetten, hij weet gewoon voor elk plaatje hoe ver de slider moet staan en kan dit nakijken.
Vast wel, maar begin zelf maar eens met het (visueel ) definieren van een horizon.

Een rechte lijn? Een groot onderscheid tussen een vlak en een ander groot vlak?
Die beperkte definities zullen eerder tot een nog groter percentage fouten leiden, als ik als door een camera naar mijn kamer kijk en de stukken zie, die aan die definitie voldoen.

Natuurlijk kan een computer iets met kansberekening, contouren en onderscheidende vlakken, maar zoals al gezegd, zijn de door google ingezette computers in bovenstaande tests slechts in staat om dit in 0,009 procent correct te doen (of is dit gewoon dat kans dat computers het toevallig goed deden?). Ze zullen wel enkele doordachte scripts hebben getest?

[Reactie gewijzigd door amn op 19 april 2009 17:42]

Vast wel, maar begin zelf maar eens met het (visueel ) definieren van een horizon.

Cordinaat stelsel per punt invoeren, bestaande uit een vector (v,w).
"V" laten we in de richting van de grootste gradient laten wijzen, en W definieren we 90 graden gedraaid ten opzichte van V. Bij een horizon zullen alle vectoren V nu in dezelfde richting wijzen.
Als je langs de rand gaan tellen hoeveel W vectoren er naar dat punt wijzen, is punt waar de meeste vectoren naar wijzen is een goede kanshebber voor een horizon.

UIteindelijk komt het neer op een portie wiskunde op een plaatje loslaten, bepaalde features detecteren en daarmee de rotatie goedkrijgen,

Net als andere captcha zal dit systeem dus weer een tijdje meegaan, en moet er over X aantal jaar weer wat nieuws gevonden worden.

[Reactie gewijzigd door Sgrovert op 19 april 2009 15:50]

Leuke poging, maar nog veel te eenvoudig?

Hoe kansen kunnen keren:

Links, boven en rechts van het flatgebouw waar ik nu naar kijk is er een stuk blauwe lucht te zien. Met jouw definitie komt je er volgens mij nog niet als ik een stukje laat zien van de flat met een stuk blauw ernaast: hoe weet jij welke kant het is?
Daar kan een persoon zich ook nog behoorlijk in vergissen, maar die kan letten op lichtinval, lengte van ramen (meestal verticaal langer dan breed), schimmen achter ramen, de manier waarop zo'n guitige nep-ooievaarsreet aan het raam is bevestigd....

[Reactie gewijzigd door amn op 19 april 2009 17:47]

Zoek even op Hough Transform. Dat is denk ik de techniek die Sgrovert omschrijft.
De output is een overzicht van alle rechte lijnen in een plaatje, en hoe "sterk" die lijnen zijn.

Als je daar nog wat extra regels aan toevoegd, zoals 'de lucht is blauw, en gras is groen, dus bij twijfel doe je blauw boven, en groen onder', dan moet je een heel eind komen.

Maar dat weten zij bij Google ook allemaal, dus ze hebben zelf wat software geschreven om dat te doen, en gekeken op welke plaatjes het niet goed werkt, en die gebruiken ze.

De wetenschapper in mij zou die plaatjes dolgraag hebben. Het lijkt me de perfecte dataset voor de volgende generatie beeldherkenningssoftware.
Waar ik doelde zijn de "gauge coordinates". Deze zijn bedoeld om onafhankelijk van de rotatie van de afbeelding features te vinden. Aangezien Google juist rotatie gaat gebruiken als "bewerkingstechniek" zijn gauge coordinates een goede start om de oorspronkelijke rotatie terug te vinden.

De manier waarop die ik beschreef om de horizon te vinden was dus meer een illustratief voorbeeld van wat je er evt. mee zou kunnen doen. Ik doelde niet op de Hough Transform. Deze is bedoeld om bepaalde vormen in een afbeelding terug te vinden. Met gauge coordinates kan je veel meer doen. Een andere mogelijk toepassing is bv "edge perseverative smoothing". Dit houdt in dat je de afbeelding gaat blurren, maar dat de randen behouden blijven. Dit doe je door in de V richting van een pixel niet te blurren, maar alleen in de W richting te blurren. In dat geval krijg je dus een afbeelding waarin de randen van objecten duidelijk zichtbaar blijven, maar binnen een object minder verschil tussen de pixels is.

Uiteraard is mijn verhaal hierboven niet volledig en geef ik maar een paar mogelijkheden weer die me nu even invallen.
Waar naar mijn idee uiteindelijk de oplossing voor deze captcha's ligt, is in het visueel systeem van de mens zelf. Want waarom kunnen mensen wel de oriëntatie van een afbeelding terug vinden en computers niet?
Momenteel word er veel onderzoek gedaan naar de werking van het visueel systeem van de mens. Er is bv. bekend dat het visueel systeem van de mens niet werkt met de afbeelding zelf, maar alleen met de afgeleiden van de afbeelding. Het oog is namelijk alleen maar in staat om afgeleiden te zien. (dus verschillen tussen vlakken). Zoek maar een op "checkerboard illusion" ed. en je zal zien dat het oog kleuren hetzelfde waarneemt, terwijl het in werkelijk verschillende kleuren zijn.
Hieruit blijkt dat de daadwerkelijke gegevens van een afbeelding niet in de pixels zit, maar in de onderliggende structuren. Het oog verwerkt namelijk allerlei hoge afgeleides van een afbeelding, houdt deze tegen een referentie en bepaald daaruit wat te zien is. Zoek bv. maar een naar de "Thatcher illusion" bekijk de afbeelding snel, en zeg dan welk van de twee gezichten de goede is. Draai daarna in een simpel programma de afbeelding en kijk wat er gebeurd.
Het oog is namelijk alleen maar goed in dingen herkennen waarvan een referentie aanwezig is. En hier schuilt dus ook het grote voordeel van de techniek van google. Aangezien in het menselijk brein een enorme database aan referenties zit, waartegen de afbeelding vergelijken kan worden is er keuze uit heel veel plaatjes. Zolang het een voorwerp is wat iedereen kent, is er een referentie aanwezig.

Echter schuilt hierin dus gelijk ook de oplossing van de captcha. Er moet een manier gevonden worden om "rotatie onafhankelijk" een aantal features te vinden, en deze tegen een database af te zetten waarin referenties staan. Uiteraard ga je hierbij niet plaatjes een op een vergelijken, maar ga je plaatjes terugbrengen naar bv 30 kenmerkende punten, en die in je database vergelijken. Op het moment dat een computer uit kan vinden wat op het plaatje te zien is, ben je ver genoeg om de afbeelding naar de oorspronkelijk rotatie terug te zetten. (bv, als je weet of het een boom / gezicht / auto / huis is, weet je hoe het geörenteerd moet zijn).

Persoonlijk ben ik van mening dat het wetenschappelijk gezien erg interessant is wat google doet. Deze manier van captcha gaat hopelijk leiden tot een hele vracht nieuwe beeldbewerkings technieken en daar gaan we in de toekomst zeker profijt van hebben. Het zou namelijk zomaar kunnen dat er over een jaar of 10 nieuwe functies in fotoshop zitten die nu ontwikkeld zijn om captcha's te ontwijken.
Als je daar nog wat extra regels aan toevoegd, zoals 'de lucht is blauw, en gras is groen, dus bij twijfel doe je blauw boven, en groen onder', dan moet je een heel eind komen.
Lucht is alles tussen blauw, grijs, wit, zwart in en bestaat vaak niet uit een kleur. Denk aan sterren, zon, bewolking. Daarnaast is de zee ook blauw, en dit kan ook verder gaan dan alleen natuurplaatjes. Een luciferdoosje kan ook blauw zijn. Is ook niet per se boven.

En zo moet je met zo veel dingen rekening houden(aangezien het om random plaatjes gaat) dat je een supercomputer nodig zult hebben om een paar van die plaatjes te kunnen kraken, na eerst tienduizenden uren programmeerwerk.

De alogaritmes die hier omschreven worden zijn veel te eenvoudig om zomaar een plaatje recht te kunnen zetten, ik vind het een erg slim idee van google. Simpel maar zeer effectief. Ik was er zelf niet op gekomen.
En daar komt nog eens bij dat mensen met een visuele of verstandelijke handicap of een overgevoeligheid voor bepaalde visuele prikkels hier snoeihard buiten de boot vallen.

Bot gezegd: 84% van de mensen die deze captcha's oplossen is simpelweg TE weinig. Dat zou betekenen dat 16 van de 100 gebruikers een boze mail of telefoon naar je support-afdeling moeten plegen om zich aangemeld te krijgen, tegen die ene bot in 100.000 registraties die je er meer mee afvangt. Totdat dit systeem natuurlijk ook weer gehackt wordt.

Op dit gebied heb ik altijd al de angst gehad dat het altijd nog gekker kan. Straks moet ik een heel formulier in gaan vullen en grote lappen tekst gaan typen om te bewijzen dat ik toch echt een persoon ben die achter een terminal zit, en dan kunnen ze nog altijd niet aantonen dat ik een persoon ben die niet op andere manieren kwaad wil (flamen, trollen, handmatig spammen). Dus ik vraag me af waar ze hier nu mee bezig zijn.
ehm.... je vergeet een dingetje.

bekijk het voorbeeld van de letters en cijfers intikken van nu. Bij elke formulier waar je die letters moet invullen, staat er een knopje naast met "ververs" erop. Als een tekst in zo'n mate onleesbaar is, dat je er niet uitkomt of telkens fout intikt, kun je die refreshen totdat je iets tegenkomt wat je wel goed kunt overtikken.

Met die plaatjes draaien zal het waarschijnlijk hetzelfde verhaal zijn. Als er plaatjes bij staan die je niet snapt en dus niet goed kan zetten, ververs je het gewoon en kijk je of de volgende reeks wel lukt :)

Het is belangrijk dat het percentage mensen dat een reeks in één keer goed draait (in dit geval dus 84%) hoog is zodat niet iedereen iedere keer moet verversen. Maar die 16% die het de eerste keer fout hebben, hebben genoeg kansen om het te proberen. Die 0,1% (ik noem maar wat) van de mensen die er na 30 keer verversen niet uitkomt zal dan wel de klantenservice bellen.
Hoe vaak lukt het je nu dan om een captcha in één keer goed in te vullen? Ik heb vaak wat meer pogingen nodig om erachter te komen hoe een captcha in elkaar zit. (hoofdlettergevoelig, verschil tussen I en l e.d.)
Ik denk dat ik persoonlijk op gemiddeld 3 pogingen zit om een captcha in te vullen. Als je gebruikers meerekent die er niet mee bekend zijn dan zal dat gemiddelde vast nog wel hoger liggen. Dat zou dus uitkomen op een efficiëntie van hooguit 33%.

Jouw vergelijking dat 16 op de 100 mensen de helpdesk moeten bellen is ook erg overtrokken. Dat zou betekenen dat 66 op de 100 mensen met de huidige captcha systemen de helpdesk zouden moeten bellen.
En wat met bergen?
Het is toch zonde dat het idee van recaptcha niet kan worden toegepast. Het nuttig gebruik maken van mensenactiviteiten..

Misschien is het beter om de juiste tag bij een plaatje te zoeken, kan dat tenminste nog gebruikt worden voor taggen van hoop plaatjes.
Anoniem: 215702
@kmf19 april 2009 12:46
Het is bij een captcha natuurlijk wel vereist dat de website weet wat het juiste antwoord is.
Als je mensen plaatjes laten taggen en dat gebruikt puur om te taggen, heeft het imho geen captcha mogelijkheden meer; een bot kan dan ook random dingen gaan taggen. Gezien de website nu niet weet of dat het juiste antwoord is kan die ook geen bots meer tegen houden ...
Recaptcha werkt meestal met 2 teksten, waar OCR niet uitkwam:
- 1 tekst waarvan al de uitkomst bekend is
- 1 tekst die nog geinterpreteerd moet worden

Als je de eerste goed doet, dan wordt de 2e waarde opgeslagen. Als daar vervolgens 5x hetzelfde antwoord uitkomt, dan wordt als nieuwe waarde opgeslagen. Zo zet je dus human OCR in.

Het probleem is nu dat er pornosites schijnen te zijn die een captcha laten zien aan gebruikers om de plaatjes/filmpjes te mogen kijken. Je betaalt dus voor de porno door captcha's van andere websites in te vullen...
Het probleem is nu dat er pornosites schijnen te zijn die een captcha laten zien aan gebruikers om de plaatjes/filmpjes te mogen kijken. Je betaalt dus voor de porno door captcha's van andere websites in te vullen...
dan is de beveiliging van die website met captcha wel erg slecht

overigens dacht ik eerst dat je bedoelde dat die porno sites geld verdienden mbv human ocr. dat zou wel een win-win situatie zijn. help je medemens door porno te kijken.

[Reactie gewijzigd door stefanos1990 op 19 april 2009 13:47]

Nee, dat is niet slecht. Wat MBV bedoelt, is dat er een bot achter de pornosite hangt, die graag een formulier wil spammen van een andere site, maar niet verder komt door die captcha. Door nou diezelfde captha, waar hij over struikelt, te laten zien op een pornosite en daarmee een gratis filmpje te verschaffen, vult de pornowebsitebezoeker dus een captcha in, om een andere site te spammen. In zo'n geval is het dus heel goed mogelijk om een willekeurig en fout antwoord te geven op zo'n pornosite, omdat die niet kan verifieren of het antwoord goed is of niet. Je filmpje krijg je dan toch wel! :P
... en zo is het natuurlijk ook gruwelijk makkelijk om said pornosite (en de captcha-bot) een groot oor aan te draaien door de site geautomatiseerd te siterippen! ;)
jah, ik weet dat hij dat bedoelt, maar jij weet niet wat ik bedoel. ik bedoel de originele website waar de captcha opstaat. niet de porno site.

die originele site kan toch voorkomen dat die captcha op een andere website wordt weergeven met bijvoorbeeld deeplink beveiliging.
Nog nooit van Luis von Ahn gehoord zeker? :p De gast van de Human Computation lezing.
Op zich is dit redelijk oplosbaar, je zorgt gewoon dat je een aantal plaatjes hebt waarvan je "alle" tags al weet. Vervolgens zorg je dat er in elke set eentje zo'n bekende zit. Als daar een onbekend label op wordt geplakt zit er dus een bot een random woord in te sturen, krijg je een bekend label terug dan heb je waarschijnlijk een mens te pakken.
Wat wel een probleem is, is taal. Voor het rechtzetten van een plaatje maakt het geen bal uit welke taal je spreekt en of je een beetje fatsoenlijk kunt typen ("o w8 ff das zooo 2008"... :s ). Als je om labels gaat vragen dan moet je op zijn minst ook vragen om welke taal het gaat (plus moet je bekende labels in alle mogelijke talen verzamelen) en het is sowieso minder gebruiksvriendelijk omdat mensen er veel meer over na moeten denken.
Anoniem: 236698
@robvanwijk19 april 2009 17:48
Heel erg bedankt voor de met de lezing van Luis Ahn. Ik had al eerder dingen gelezen over gwap (games with a purpose) en deze lezing wijdt op een leuke manier uit over dit concept!
het is bij re-captcha vereist dat de site weet wat het antwoord HOORT te zijn. Stel dat we m'n voorbeeld van taggen neemt.

In het begin (beta-fase) zal het niet betrouwbaar zijn omdat de juiste tag nog niet is toegevoegd. Maar als aan 1 plaatje al 100 of meer keren getagged is, en (stel dat het een plaatje is van een kat) en "kat" komt er 50% keer voor, dan zal het wel een kat zijn.

Om de betrouwbaarheid te vergroten kan je ook net als recaptcha 2 plaatjes voorschotelen. 1 waarvan je al zeker weet wat het is, ander nog nieuw.
Overigens is het nu door Google systeem sowieso al op een punt compromised:

Met die slider kun je maar een beperkt aantal posities instellen, en ik gok dat er een threshold is waarop het antwoord geaccepteerd wordt (zodat je het plaatje niet op de tiende graad nauwkeurig rechtop hoeft te puzzelen).

Ergo, dit is heel makkelijk voer voor een (distributed) brute-force attack.
3 plaatjes per keer en een vrijwel oneindig aantal mogelijke plaatjes. Brute-force? I doubt it.
Ik vind Recaptcha echt een super systeem. Ik heb er nog nooit een fout gedaan en het is nuttig. Waarom dit systeem van Google beter lijkt, is dat de test persoon niet perse handig hoeft te zijn met Latijnse letters of een Engels woord hoeft te kunnen herkennen.

Misshien kan Google wel iets doen in de trend van;
"Welke van deze 6 plaatjes is porno?" Dat zou de kinder-filters van ISP's helpen met herkenning :D
Waarbij je dan weer vergeet dat ook kinderen gebruik maken van google diensten.
Het ziet er ook wel gebruiksvriendelijk uit. Soms werkt het enorm op mijn zenuwen als ik bepaalde letters niet kan lezen en/of een fout maak, omdat letter x zo hard lijkt op letter y...
Mee eens, sommige tekst-captcha's zijn bijna onleesbaar voor mensen.
Het op deze manier ontwikkelde systeem resulteerde in captcha's die in 84 procent van de menselijke proefpersonen werden opgelost, terwijl computers slechts 0,009 procent van de puzzels op konden lossen.
0.009 en 84 is natuurlijk een groto verschil, maar ik vind die 84 eigenlijk vrij laag.
84 % zou betekenen dat je van elke 10 captcha's er 1-2 fout doet.
Klopt, maar je kunt bij een fout de gebruiker een nieuwe geven. Dan is de kans dat je achter elkaar er twee krijgt die je niet op kunt lossen dus maar iets van 2,5%.
Daarbij ga je ervan uit dat de uitkomsten van de twee "experimenten" onafhankelijk zijn en dat de faalkans bij iedereen 16% is. Sommige mensen hebben moeite met dit soort dingen, dus daarbij is de faalkans veel groter dan bij de gemiddelde tweaker.

Sla anders de kansberekening er eens op na.
84 is best acceptabel in vergelijking met de captcha's die nu gebruikt worden. het gebeurd me zeer regelmatig dat ik een captcha opnieuw moet invullen.
Ja het is erg irritant als je er een tegenkomt waarvan de o en 0 op elkaar lijken of de 1, l en i.
Anoniem: 261542
19 april 2009 12:44
de meeste captcha's van tegenwoordig kom ik zelf al niet uit. pas na een aantal pogingen lukt het vaak. met die plaatjes die je recht moet zetten is op zich wel een goed idee maar daar zullen ook wel weer onherkenbare dingen bijzitten die veel tijd nodig hebben om recht te zetten.
Probeer deze eens. :+

Paar keer refreshen... Sommige vraagstukken houden niet alleen bots buiten de deur.

[Reactie gewijzigd door Anoniem: 19339 op 20 april 2009 00:24]

volgens mij is dat juist heel erg makkelijk voor computers. gewoon standaard ocr maar dan met wiskundige symbolen, uitrekenen en klaar.

terwijl het voor de meeste mensen juist weer heel erg verwarrend is.

het zou me zelfs niet verbazen dat het slagingspercentage voor deze "captcha" een stuk hoger is bij computers dan bij mensen.
Nee, computers kunnen de som niet (amper) selecteren omdat het een plaatje is ;)
jah, daarom zeg ik ook dat ze wel ocr moeten gebruiken om het plaatje om te zetten naar wiskundige symbolen die de computer snapt. daar is echt geen ingewikkelde aanvulling voor nodig op een standaard ocr applicatie.

als je reactie grappig bedoelt was dan vind ik het niet erg grappig ofzo....
ik heb de som uitgerekent op mijn windows rekenmachine.... |:( .
Gaaf! :o
Find the least real zero of the polynomial:
p(x) = (x-3) (x+5) (x-4)
Klinkt indrukwekkend, maar ik vermoed dat de doelgroep van deze pagina zonder nadenken weet dat ze hier eigenlijk vragen "welk getal is het kleinst, 3, -5 of 4?".

Hetzelfde geldt voor de vragen over het berekenen van een afgeleide:
d/dx [ 5 sin (2x - pi/2) + 2 cos (7x) ] | x=2pi
Je hoeft alleen even te weten wat de waarden van sin en cos ook alweer zijn bij integer veelvouden van pi. Ook niet bepaald rocket science.

En soms maken ze het gewoon te makkelijk:
d/dx [ 2 ] | x=0
:)
Handig voor het niveau. :)
Zoiets zou tweakers ook moeten doen, maar dan op IT vlak :+
Is geen captcha, maar Q&A... heb ik na het hard falen van captcha op mijn vbulletin/vba site ook maar gedaan. Een vraag stellen die alleen de doelgroep kan beantwoorden.
Zelf denk ik dat dit systeem een flop gaat worden, aangezien sommige mensen niet weten wanneer ze wat moeten omdraaien om een goed zicht te krijgen, het gaat hier ook weer om inzicht wat sommige kinderen/mensen niet hebben. Letters of sommetjes oplossen is geen enkel probleem maar plaatjes roteren...

Ik denk dus toch dat Google eens met iets anders moet komen, alleen moet je nou net weer het idee hebben van wat het moet worden. Alles wat wij maken kan ook weer worden gekraakt, als je maar weet hoe. Als ze het binnenkort zover gaan maken dat je bij het inloggen een "biometrische beveiligingsapparaat" moet gebruiken zou ik weer ja zeggen, dan is het enige probleem nog dat niet iedereen zo'n leuk apparaat heeft.

Ik kan het mezelf wel realiseren dat het nog eens zover gaat komen, dat je je eerst moet registreren (met captcha (letters / nummers)), dat je daarna dusdanig je "handpalm / vingerafruk" moet invoeren en dat hun die naar sha256 omzetten (ik noem maar wat).
Daar zie ik namelijk wel toekomst in om heel eerlijk te zijn, als men nou alleen nog maar wat meer op hun eigen beveiliging gaat letten zou het wel realiseerbaar zijn.
Letters of sommetjes oplossen is juist een groter probleem voor veel mensen. De grens tussen de mogelijkheden van een mens met slecht zicht en goede OCR software ligt erg dicht bij elkaar, zoals je ook in bovenstaande reacties kunt lezen. Het oplossen van sommetjes is juist een hele slechte, want computers kunnen erg goed rekenen en formele talen interpreteren. Een som als 5 * (3 + 5) - 6 kun je gewoon in je Calculator knippen en plakken. Waardeloos als CAPTCHA dus.

Het roteren van plaatjes is iets wat computers gewoon inherent slecht kunnen door hun gebrek aan interpretatie van een plaatje. Mensen reduceren plaatjes tot 'objecten' of omgevingen, terwijl een computer in het beste geval naar een stel pixels staat te kijken die voldoet aan een of andere geautomatiseerde controle (programmaregels). Voorlopig zijn mensen veel en dan ook heel veel beter in het herkennen van alledaagse objecten.

Jouw oplossing met een vingerafdruk of handpalm is alleen maar een extra (onnodige) handeling voor de site waar je je registreert. Of wordt die hash ook nog eens gecontroleerd? En waar staan de hashes dan geregistreerd? En wat gebeurt er als je jezelf even (letterlijk) in de vingers snijdt? Kortom: teveel praktische problemen terwijl ik niet echt zie wat het nu oplost.
Ik neem wel aan dat iedereen sowieso tot 100 kan tellen, als je letters en cijfers combineert. Zo heb je eigenlijk de captcha van nu, elke captcha kan gewoon worden gekraakt, zo simpel is het gewoon. Niets is 100% te beveiligen, wat diegene kan, kan dat andere persoon ook weer en zo krijg je dus eigenlijk een cyclus.

Maar wat nou als het persoon het hele plaatje niet herkent en ga maar door, wat moet je dan? Een email naar de administrator sturen van dat je het niet goed het plaatje kan herkennen en toch toegang wilt hebben? Ik neem aan dat zelfs bots dat dan kunnen doen.

Maar je moest eens weten wat allemaal mogelijk is als je er éénmaal eens goed naar kijkt, zoals ik zojuist ook al redeneerde moet het gewoon mogelijk zijn door middel van je handpalm / fingerprint dat te doen. Zelf denk ik dus dat het geen extra (onnodige) handeling is. Als het bedrijf gewoon goed op hun spullen let, dus ook data, moet het gewoonweg mogelijk zijn. Je kan verschillende dingen combineren naar 1 nieuw geheel en dat bedoel ik dus eigenlijk met mijn verhaal. Je maakt een account aan op de site en als je die hebt bevestigd moet je dus je handpalm / vinger scannen, hetzelfde als wat Digisoft nu ook doet voor Windows Authenticatie (Digisoft = Fingerprint software).

Dan moet het eigenlijk mogelijk zijn om gewoon een uniek systeem te maken. Het bedrijf slaat simpelweg die SHA-256 (plus eigen prefix) op en die checkt die eigenlijk gewoon, precies hetzelfde zoals het nu gaat met login-systemen, die kijken ook alleen of de authstring klopt, die kijkt ook alleen maar of het overeen komt met het origineel.

En om terug te komen op je stelling van als je jezelf in de vinger snijdt, dan moet er natuurlijk altijd een backup vinger zijn lijkt me (zelfde als Digisoft nu ook doet), je hebt 10 vingers, het lijkt mij onmogelijk om in alle 10 vingers een snee te maken.
Ik neem wel aan dat iedereen sowieso tot 100 kan tellen, als je letters en cijfers combineert.
Voor een computer is het kinderspel om de uitgeschreven versie van een cijfer te vervangen voor het cijfer zelf.
Maar wat nou als het persoon het hele plaatje niet herkent en ga maar door, wat moet je dan? Een email naar de administrator sturen van dat je het niet goed het plaatje kan herkennen en toch toegang wilt hebben? Ik neem aan dat zelfs bots dat dan kunnen doen.
Dan ververs je de pagina, of klik je op 'klik hier voor een ander plaatje', tot je een plaatje tegenkomt wat je wel herkent? Je maakt een probleem dat er niet is.
Maar je moest eens weten wat allemaal mogelijk is als je er éénmaal eens goed naar kijkt, zoals ik zojuist ook al redeneerde moet het gewoon mogelijk zijn door middel van je handpalm / fingerprint dat te doen.
Maar hoe weet de website dat de hash die jij overstuurt een hash van een handpalm is? Je hebt het over gegevens die door de doelwebsite onmogelijk te verifiëren zijn! Het idee van een captcha is dat de website waarbij jij de request doet weet wat de goede uitkomst is, zonder dat de gebruiker die eerst aan de website heeft moeten geven. Een captcha met letters werkt omdat de website al weet wat de letters zijn die op het plaatje staan, een captcha met geroteerde plaatjes werkt omdat de website weet hoeveel hij het plaatje heeft geroteerd. Dat wat jij voorstelt is niets meer dan een vervanging voor een wachtwoord. De website kan uit de gegevens van de scan onmogelijk afleiden of de gegevens door een computer of een gebruiker zijn verstuurd.
En om terug te komen op je stelling van als je jezelf in de vinger snijdt, dan moet er natuurlijk altijd een backup vinger zijn lijkt me (zelfde als Digisoft nu ook doet), je hebt 10 vingers, het lijkt mij onmogelijk om in alle 10 vingers een snee te maken.
*Heggenschaar pakt*
Anoniem: 55049
19 april 2009 20:11
Hatelijk zijn die capchas, ze dragen zeker niet bij aan toegankelijkheid.
Ze worden als storend ondervonden.
Mijn inziens moet het gehele systeem omgedraaid worden om bots weg te filteren.
Je moet het de mens niet lastig maken, maar de bots!

Tijdelijk globaal blokeren van IPs op basis van herkennings algorithm is mijn inziens veel effectiever.

Systemen die dan infected zijn met bots moeten dan maar de lucht uit, kan de beheerder of eigenaar zijn systeem eerst desinfecteren alvoor zijn besmettelijk tuig terug online te krijgen.
Weer een stap in de eeuwige beveiliging - kraak - beveiliging - kraak cyclus :)
Met alleen maar toename in gebruikers ongemak.
Het op deze manier ontwikkelde systeem resulteerde in captcha's die in 84 procent van de menselijke proefpersonen werden opgelost, terwijl computers slechts 0,009 procent van de puzzels op konden lossen.
Wat betekend dat 16% aan het worstelen is..

Dat de computer er (nu nog) meer moeite mee heeft zal alleen maar veranderen.

Een makkelijkere, maar tijdrovende test(telefoon?), en dat aan een open authenticatie structuur hangen lijkt me meer in de richting. Voorlopig blijven we wel door hoepels springen

@plankton123
Ik zeg ook niet dat captcha's met text in plaatjes de oplossing zijn, sterker nog ik (probeer) te zeggen dat ik de hele richting niets vind.

Om in te gaan op Herko_ter_Horst hierboven:
Je kan prima het zelfde truukje uit halen als met gezichtsherkenning. Gewoon grote collectie met plaatjes met een horizon. Liniare algbra er op los laten(ik kan het uitleggen maar andere veel, Veel beter - ff googlen) en pats. Nee ik denk dat het probleem er in zit om de context te bepalen en voor al die opties aan een collectie van plaatjes te komen.

Uiteindelijk raken alle 'normale'/'gebruikelijke' opties op omdat die uitgeput raken - en vervolgens schiet de human failure rate (verder) omhoog. ('wat moet dit plaatje voorstellen')

[Reactie gewijzigd door Mr_Light op 19 april 2009 15:07]

Anoniem: 290112
@Mr_Light19 april 2009 13:49
Hmm.. ik vind die woorden vaak nog veel erger.
Je kan het soms met de beste wil van de wereld niet lezen, en dan is het vaak ook niet duidelijk of het nu hoofdletters of niet zijn, en of je er spaties in moet gebruiken etc.

Nee, geef mij dit maar. Zolang de gevoeligheid van die slider niet achterlijk scherp is lijkt me dit een veel beter systeem.
Telefoon vind ik niet echt een handige test, het is wel een manier waarbij je er echt zeker van bent dat het geen bod is, maar ik ben bijvoorbeeld al erg vaak in gebouwen waar ofwel telefoon signalen worden geweerd omdat het nodig is voor het onderzoek dat er word gedaan, of in gebouwen waar er gewoon teveel beton, lood, staal aanwezig is voor de signalen om doorheen te komen.

Ik ben het er verder wel mee eens dat 84% niet erg hoog is, zal zeker irritatie opwekken. Al helemaal wanneer je met zo een slider het ding exact recht moet krijgen.

Verder wel goed dat ze met iets nieuws bezig zijn, want die dingen met letters en cijfers worden ook steeds vaker zo moeilijk te lezen dat ze niet meer goed te doen zijn, bijvoorbeeld een 0 en een o gebruiken.
Zeker en vast maar ze moeten wel opletten dat het voor mensen niet te lastig wordt, heb gisteren nog een nieuwe gmail-account aangemaakt en had echt verschillende keren de captcha mis omdat hij gewoon onleesbaar was voor mij.
Dan ben je niet de enige. Ik heb samen zitten puzzelen met de kinderen om de GMail captcha te ontcijferen, maar de eerste twee waren echt niet te doen. Vooralsnog geef ik de rotatie-techniek het voordeel van de twijfel. Het mooie aan dit systeem is dat er oneindig veel plaatjes te bedenken/maken zijn.

Als de plaatjes met Googles Image Search zijn verzameld, hoe zit het dan met het copyright op die gebruikte plaatjes?
stukje van een plaatje gebruiken is fair use, net als tot 30 seconden van een muzieknummer altijd mag.

Op dit item kan niet meer gereageerd worden.

Tweakers maakt gebruik van cookies

Tweakers plaatst functionele en analytische cookies voor het functioneren van de website en het verbeteren van de website-ervaring. Deze cookies zijn noodzakelijk. Om op Tweakers relevantere advertenties te tonen en om ingesloten content van derden te tonen (bijvoorbeeld video's), vragen we je toestemming. Via ingesloten content kunnen derde partijen diensten leveren en verbeteren, bezoekersstatistieken bijhouden, gepersonaliseerde content tonen, gerichte advertenties tonen en gebruikersprofielen opbouwen. Hiervoor worden apparaatgegevens, IP-adres, geolocatie en surfgedrag vastgelegd.

Meer informatie vind je in ons cookiebeleid.

Sluiten

Toestemming beheren

Hieronder kun je per doeleinde of partij toestemming geven of intrekken. Meer informatie vind je in ons cookiebeleid.

Functioneel en analytisch

Deze cookies zijn noodzakelijk voor het functioneren van de website en het verbeteren van de website-ervaring. Klik op het informatie-icoon voor meer informatie. Meer details

janee

    Relevantere advertenties

    Dit beperkt het aantal keer dat dezelfde advertentie getoond wordt (frequency capping) en maakt het mogelijk om binnen Tweakers contextuele advertenties te tonen op basis van pagina's die je hebt bezocht. Meer details

    Tweakers genereert een willekeurige unieke code als identifier. Deze data wordt niet gedeeld met adverteerders of andere derde partijen en je kunt niet buiten Tweakers gevolgd worden. Indien je bent ingelogd, wordt deze identifier gekoppeld aan je account. Indien je niet bent ingelogd, wordt deze identifier gekoppeld aan je sessie die maximaal 4 maanden actief blijft. Je kunt deze toestemming te allen tijde intrekken.

    Ingesloten content van derden

    Deze cookies kunnen door derde partijen geplaatst worden via ingesloten content. Klik op het informatie-icoon voor meer informatie over de verwerkingsdoeleinden. Meer details

    janee