Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 119 reacties

Websites die de reCaptcha-dienst van Google gebruiken om captcha's aan nieuwe gebruikers te serveren, kunnen er binnenkort voor kiezen om een variant op de captcha te gebruiken waarbij in de meeste gevallen geen code hoeft te worden overgetikt.

In plaats daarvan moeten gebruikers op een knop klikken waarmee ze aangeven geen robot te zijn. Vervolgens wordt onder meer op basis van de interactie met de knop bepaald of de gebruiker inderdaad een mens van vlees en bloed en geen geautomatiseerd script is, schrijft Google, dat reCaptcha in 2009 kocht. Ook het ip-adres wordt meegewogen. Kan de risico-analyse niet betrouwbaar voorspellen of het inderdaad om een mens gaat, dan kan een gebruiker in sommige gevallen alsnog worden gedwongen om zijn menselijkheid te bewijzen.

recaptcha

Volgens Google zijn de nieuwe captcha's beter bestand tegen bots dan de bestaande, die volgens het bedrijf in veel gevallen door bots kunnen worden geraden. ReCaptcha werd geïntroduceerd als captcha-dienst die tevens werd gebruikt om boeken te digitaliseren. Daartoe werden passages uit boeken als captcha gebruikt.

Als gebruikers moeten bewijzen dat ze geen bot zijn, hoeven ze niet altijd meer een code over te typen: Google experimenteert met andere manieren om dat mogelijk te maken, bijvoorbeeld door in een verzameling van negen afbeeldingen alle plaatjes met een kat aan te klikken. Dat zou vooral het gebruik van captcha's op mobiele apparaten makkelijker moeten maken.

Websitebeheerders moeten er zelf voor kiezen om de nieuwe captcha's te implementeren. Internetgebruikers kunnen de nieuwe captcha's in de praktijk zijn tegengekomen: WordPress en de Humble Bundle hebben ze de afgelopen week al aan een groot deel van hun bezoekers geserveerd.

recaptcha

Moderatie-faq Wijzig weergave

Reacties (119)

Echt makkelijker wordt het er niet op als je die afbeeldingen te zien krijgt. Wat tekens overtypen is vaak zo gebeurd, zeker die van reCaptcha. De reden van die plaatjes lijkt me meer erin liggen dat Google zo zijn afbeeldingenzoekmachine verder kan optimaliseren.

[Reactie gewijzigd door ChicaneBT op 3 december 2014 15:57]

Google kan alleen iets leren als jij iets nieuws aan Google vertelt.

Maar in dit geval gaat dat, voorzover ik zie, niet op. Google *controleert* welke plaatjes jij invoert. Om dat te kunnen doen, moet Google dus al precies weten welke plaatjes een kat zijn.

Bij de oude Captcha kon Google ook alleen maar iets leren door 2 plaatjes te serveren: één waarvan Google het antwoord al wist (die was alleen voor controle) en één waarvan Google het antwoord nog níet wist (daar kon je Google dus iets leren).

Zolang Google één Captcha vraagt ("klik exact het aantal plaatjes aan dat een kat is") en ze willen controle kunnen doen, dan moeten ze van die captcha het antwoord al weten, en kunnen ze dus niks nieuws van jou leren.
Wat google zelf zegt:
reCAPTCHA helps solve hard problems in Artificial Intelligence. High quality human labelled images are compiled into datasets that can be used to train Machine Learning systems. Research communities benefit from such efforts that help build the next generation of groundbreaking Artificial Intelligence solutions.
bron

Google wil dit dus gebruiken om AI (verder) te ontwikkelen. Computers die afbeeldingen gaan snappen, zeker nuttig voor de afbeeldingen zoeken functie van Google.

Je hebt nu al vergelijkbaare afbeeldingen bij het zoeken naar een afbeelding. Dit zal dus een significante verbetering te wachten staan.
Nou, dat hangt af van het algoritme dat Google gebruikt. Als Google je bijvoorbeeld 9 plaatjes serveert en je vraagt om alle katten aan te klikken, dan kan het zijn dat 2 van die plaatjes een kat bevatten en 2 absoluut niet (wat Google weet), maar de rest niet.

Het is dan aan jou om die 2 katten aan te klikken (maar die 2 niet-katten niet), als dit klopt worden je andere keuzes aangenomen als zijnde 'ook kat'. Zo kunnen ze bij Google hun beeldherkenningsalgoritmes verbeteren.
Let er wel op dat dit een vrij unieke situatie is, dit zou enkel opgaan als je 9 compleet verse plaatjes zou krijgen.

Heb jij ze eenmaal gecategoriseerd dan weet google wellicht volgens hun eigen zoek-dbase nog niet wat het is, maar volgens hun bezoekers dbase weten ze wel wat vorige bezoekers gekozen hebben.

En als 100.000 bezoekers zeggen dat plaatje 8 een kat is en 2 bezoekers zeggen van niet, dan is het vrij grote zekerheid te zeggen dat het een kat is.
Helemaal als ze dit verder doorzetten naar hun gebruikersprofielen, dan kunnen ze zelfs zeggen dat bezoekers van tech-sites van tussen de 15 en 35 iets anders verstaan onder een muis dan bezoeksters van de viva.
Helemaal juist, dat geeft Google dus juist vrij veel manieren om op een contextgevoelige manier hun plaatjesherkenner te verbeteren :)
De truc is dat het niet alleen hun plaatjesherkenner verbetert maar waarschijnlijk ook hun profielen.

Toon een plaatje van een muis en de gebruikers die computermuizen aanklikken die kan je grofweg in de categorie tech stoppen, de gebruikers die levende muizen aanklikken kan je grofweg in de categorie non-tech stoppen.
De gebruikers die half-half klikken die kan je afkeuren en daarmee dwingen wel een gerichte keuze te maken.

Plus dat als je het een beetje gericht opzet dan kan je er ook nog eens hele onderzoeken mee doen die je weer kan doorverkopen.
Toon een grote gele M en toon geselecteerde plaatjes, als je 100.000 clicks hebt dan stap je naar McDonalds toe met de mededeling dat je informatie hebt over wat mensen associeren met dat merk (is McDonalds vast bereid om voor te betalen als het doorgekoppeld is met profielen zodat je het kan segmenteren op leeftijd / land etc).

Met een beetje creativiteit kan je er zo een plaatjes enquete machine van maken en iedereen vult hem maar braaf in.

Betere plaatjesherkenner is slechts het topje van de ijsberg van wat je hier commercieel mee kan
Uh, misschien een beetje te specifiek op je voorbeeld, maar er staat niet het woord 'muis' maar een afbeelding van een 'dier muis' of 'computer muis'. En welke groep gebruikers zou daar dan geen onderscheid in kunnen maken?
Voor de plaatjesherkenningsalgoritmes daarentegen is het wel er nuttige data.

Met de reikwijdte die Google heeft met Recaptcha is het inderdaad een prachtig onderzoeksinstrument.

En je hebt gelijk dat het belangrijk is het privacy-aspect niet uit het oog te verliezen. Maar om nu bij voorbaat al het ergste te verkondigen.
Ik denk dat er zonder semi-illegale verkoop acties en extreem uitgebreide profielen al erg veel mogelijkheden zijn om deze herkenningsalgoritmes te gebruiken in de weergave van reclame bij zo relevant mogelijke content.
Bovenstaande reacties lijken me een goede uitleg :). Het meerderheidsprincipe wordt hier toegpast: als genoeg mensen het eens zijn over een feit, kan deze mening even accuraat zijn als die van een 'expert'. Vraag 10000 mensen het gewicht van een koe, en ze zitten waarschijnlijk ook heel dicht bij het gemiddelde.
Helaas, dat gaat lang niet altijd op. Voor sommige dingen wel, waar foutjes en randomiteit veel bepalen (de volgende uitslag van de voetbalwedstrijd bijvoorbeeld), maar als je 10000 mensen naar iets als het gewicht van de zon vraagt zul je toch flink verkeerd uitkomen. Idem met vragen naar welk autobedrijf het grootste is. Voorkennis gaat dan de uitkomst bepalen, en die is niet altijd correct.
Niet noodzakelijk. Waarschijnlijk geven ze je een lijst met afbeeldingen waarvan ze van de meerderheid weten dat het katten zijn, maar van een aantal niet zeker zijn, en een aantal afbeeldingen waarvan ze zeker zijn dat het geen katten zijn.
Als je dan gevraagd wordt om de katten aan te duiden, en je duidt alles aan waarvan Google al weet dat het katten zijn, plus diegene waarvan het niet zeker is, dan zorg je ervoor dat Google weer iets zekerder wordt dat het een kat is (of net geen kat is als je het niet selecteert). Als die afbeelding door een paar honderd mensen dan als kat wordt aangemerkt, dan weet Google dat het effectief een kat is.

Google gaat er van uit in reCAPTCHA dat als je alles aangeeft waarvan het denkt dat het een kat is dat de rest dan ook juist zal zijn.
afbeeldingszoekmachine optimaliseren ? Grote onzin lijkt dat.

Natuurlijk is het eenvoudiger voor een mens om plaatsjes te sorteren.
Er zijn diensten de de captcha scannen en er de code uithalen.

Selecteer kat is al moeilijker. Je moet eerst al;s computer de vraag begrijpen, daarna alle plaatjes scannen en herkennen op welk plaatje een kat staat. Dat is een stuk moeilijker dan een captcha herkennen.

Dit soort systemen is gebruiksvriendelijk en beter bestand tegen automatische systemen die captchas herkennen.
Dat van de kat images betwijfel ik erg omdat Google en Bing reverse image search hebben. Hierbij krijg je ook altijd een term wat het waarschijnlijk voor moet stellen (bijvoorbeeld de kat). Dit even doen voor elke image en je komt waarschijnlijk erg ver. Misschien niet voor elke image maar aangezien je toch regelmatig kan refreshen kom je waarschijnlijk een heel eind.
Dit wilde ik ook zeggen, maar je was me voor. Ik heb het getest met het zoekplaatje van de kalkoen en hier suggereerde google 'Wild turkey' na een reverse image search. Ook heb ik A1 van de kattenmatrix opgezocht en hier kwam 猫 もふもふ uit wat vertaald naar Katten ook Fumofu. Dit is dus ook eenvoudig door robots te doen lijkt het, maar het maakt het wel veel moeilijker. Je moet namelijk de volgende stappen doorlopen:
10 keer reverse image search
X keer google translate als het niet een Engels plaatje is
10 keer 10 stukken tekst vergelijken

En reverse image search en google translate zijn vaak weer niet te benaderen door robots, want als je vaker dan X keer per X seconde een query doet moet je, je raad het al, een captcha invoeren. Verder is door alle handelingen die je moet doen het uiteindelijke doel bereikt: het zo duur maken de beveiliging te omzeilen dat dit omzeilen duurder wordt dan de informatie die je wilt benaderen.
Echter is 9 van de 10x de gebruiker hier de dupe van, en de kwaadwillende komen er uiteindelijk wel doorheen. Nu vink ik deze recaptcha uitbreiding wel mooi, het wordt er mogelijk zelf iets simpeler voor de gebruiker op (een unicum zou ik zeggen).
afbeeldingszoekmachine optimaliseren ? Grote onzin lijkt dat.
Waarom lijkt dat zo dan? Mij lijkt het logisch. Google heeft dit eerder gedaan met het overtypen van moeilijk leesbare cijfers in Street View afbeeldingen: http://techcrunch.com/201...de-street-view-addresses/ Deden ze ook niet een keer zoiets met die digitalisering van kranten van Google? Captcha dient vaak een doel. Dat ze nu met afbeeldingen iets gaan doen en dat Google een afbeeldingenzoekmachine heeft lijkt me geen toeval.
@ChicaneBT
Waarom onzin? Het zoeken naar afbeeldingen (via images.google.com) is moeilijk, precies om de redenen die je zelf al aan geeft: computers kunnen plaatjes niet goed herkennen.

Wanneer plaatjes ge-tagged zijn door users via de reCaptcha's, dan kan google deze tags goed gebruiken om hun zoekmachine te optimaliseren. M.a.w., ze gebruiken waarschijnlijk deze reCaptcha's om hun image tags te crowd-sourcen.

En natuurlijk is google ook bezig met veel automatische beeld herkenning (onlangs aardig wat progressie geboekt met deep learning: http://venturebeat.com/20...fine-thank-you-very-much/), maar ook daarvoor is een golden standard met (door mensen) geannoteerde plaatjes erg belangrijk.

edit: verduidelijking aan wie de reactie was

[Reactie gewijzigd door lrietveld op 3 december 2014 16:49]

Als ik moe uit het werk kom, en ik zit thuis met m'n linkerhand onder m'n kin de standaard riedel websites door te klikken, is het wel prettig om niet naar je toetsenbord te hoeven bewegen ;) Of zo snel mogelijk weer ontspannen te kunnen gaan zitten... ;)
Echt makkelijker wordt het er niet op als je die afbeeldingen te zien krijgt. Wat tekens overtypen is vaak zo gebeurd, zeker die van reCaptcha.
Er bestaan veel te veel sites waarbij de captcha achter je smartphoneklavier verdwijnt en nog eens onleesbaar is op een klein schermpje ook.

De captcha op de League of Legends-forums - aaargh.
Geweldig! Ik had altijd een hekel aan die onleesbare onzin.
10 keer refreshen en het lukt dan nog niet.
Maar die van Google gingen misschien nog wel, maar je komt soms echt onleesbare dingen tegen bij andere.

[Reactie gewijzigd door Soldaatje op 3 december 2014 15:59]

die onleesbare onzin is anders wel mooi gebruikt om OCR (met name op foto's) te verbeteren!

Google zal nu wel voldoende input hebben gehad waardoor het algoritme sterker werd dan het menselijk herkennen herkennen van tekens. Waardoor het nut van deze controle verloren gaat.

[Reactie gewijzigd door downcom op 3 december 2014 16:04]

Zo te zien gaan ze nu over op het analyseren van foto's. Jij als mens mag aanklikken welke foto's op een kat lijken en Google vergelijkt dat met hun eigen resultaten om te zien of hun beeldherkenning goed functioneert. Ik vind het een slimme zet.
Even advocaat van de duivel spelen:

Die katten op foto 2 zijn ok, maar foto 1 is eenvoudig machinaal te kraken. Alle kalkoenen hebben nu eenmaal dezelfde kleur. Een bot kan gewoon de captcha refreshen totdat-'ie een kip of een stuk fruit ofzo krijgt voorgeschoteld en gewoon op kleur kan matchen.

Daarnaast is het aanbod aan topics beperkt, want het moeten herkenbare plaatjes blijven voor elke doelgroep en elk schermformaat. Een brute force-benadering kan zich specialiseren in het herkennen van katten en tienduizend keer inloggen tot de captcha over katten gaat.
ja daag,
mag jij eerst even uitleggen aan de computer welk deel van de foto de kalkoen betreft ;) nee zo makkelijk is dit niet sterker nog computer vision is een van de moeilijkste problemen met computers op het moment.
Why so difficult?

Wat er nu al bestaan zijn gewoon diensten waar je als bot een captcha kan uploaden, de dienst toont hem aan xxx gebruikers van bijv pronsites / cracksites / hacksites en die bezoeker vult hem in, de dienst geeft het antwoord door aan de bot en de bot retourneert weer aan de dienst of het klopt of niet

Verander de dienst zo dat er ook een api komt waar je 9 +1 images kan uploaden en het kan weer door zoals gebruikelijk.
En het 10.000 keer inloggen valt niet op? Sterker nog, je kunt zelfs gaan timen hoe snel en in welke volgorde de keuzes worden gemaakt. Het idee is dat de AI mensen te goed moet imiteren, en de exacte keuze is maar 1 aspect.
Je hebt helemaal gelijk.
Google zelf zegt dit erover:
reCAPTCHA helps solve hard problems in Artificial Intelligence. High quality human labelled images are compiled into datasets that can be used to train Machine Learning systems. Research communities benefit from such efforts that help build the next generation of groundbreaking Artificial Intelligence solutions.
bron
Hoe gaat dat dan?

X1
A1, A2, A3
B1, B2, B3
C1, C2, C3

De software verwacht toch dat bijvoorbeeld dat als plaatje X1 getoond wordt, plaatjes A1, A2, B2, B3 en C2 aangeklikt worden (Kalkoen voorbeeld). De plaatjes die op deze posities getoond worden komen dus overeen met X1 de andere posities niet.
Maar dan weet de software dus al dat X1 menselijk gezien overeenkomt met A1, A2, B2, B3 en C2. Het is immers door de software zelf zo afgebeeld.

Dan leert de software toch niks?
En vervolgens doe je op de andere posities plaatjes waarvan je niet geheel zeker bent. Ze verwachten minimaal de bekende resultaten, en als 10000 mensen constant ook hetzelfde onbekend plaatje aanklikken bij de vraag klik kalkoenen, is de kans erg groot dat onbekend plaatje waarschijnlijk iets met kalkoen te maken heeft.

Precies dus als hoe het oude systeem werkte met een controle woord en onbekend woord. Wanneer x aantal mensen het onbekende woord als pietje beschrijven zal er heel waarschijnlijk wel pietje staan,
Ik mag toch aannemen dat als je teveel goede antwoorden aanvinkt het niet authoriseert. Want dan zou een bot gewoon alles aanvinken.

Het oude systeem werkte met een controle woord, wat feitelijk dezelfde test nog een keer was. In dit voorbeeld zouden ze dus eigenlijk 2 testen moeten doen, of bijvoorbeeld een marge van 1 foto die bij hen zelf onzeker is.
Je gebruikt natuurlijk positieve, negatieve en onbekende antwoorden. Positief/negatief moet de gebruiker goed doen en de onbekende wordt geleerd.
Niet juist. De onleesbare onzin was om te kijken of je een mens was, het tweede deel dat wél leesbaar was diende als OCR. Maar die kon je juist lekker fout typen.... Dat woord valt namelijk niet te controleren.
Dat was bij recaptcha juist zo goed, dat was (voor de gebruiker) onbekend / afwisselend.

Google heeft er ook genoeg doorheen geduwd waar ze exact wisten wat ze alletwee waren maar bijv 1 foute nog steeds goedkeurden als het paste binnen het verwachte profiel van die gebruiker.

Recaptcha had voor google als voordelen :
- OCR herkenning
- Maar ook bot-herkenning / profiel uitbreiding
De meeste punten die je hier maakt klinken voor mij als waarschijnlijk.
Maar waarom denk je dat er ook een gebruikersprofiel aan gekoppeld was?
Ik zou eerder verwachten dat er een deel van de fouten geaccepteerd worden om juist statistisch moeilijk of op meerdere manieren leesbare situaties er uit te kunnen filteren. En misschien ook wel om iets vergevensgezinder te zijn richting de gebruikers bij moeilijke combinaties. Wat toch een groot probleem is bij captcha diensten.

Dus, heb je een bron voor die 'profiel uitbreiding', voor menselijke gebruikers, of is dit jou aanname?
En buiten het über-gluurder verhaal, wat zouden ze dan met die informatie doen?
De meeste punten die je hier maakt klinken voor mij als waarschijnlijk.
Maar waarom denk je dat er ook een gebruikersprofiel aan gekoppeld was?
De grotere vraag voor mij is dan weer : Waarom denk je dat het niet gebeurt?
Google haalt zijn winst uit de profielen waarmee ze ads kunnen targetten.
Het koppelen van het invullen van een captcha aan een profiel is zo goed als gratis te realiseren (de hele werkwijze van : Als je een cookie van doubleclick hebt en / of ingelogd bent bij google / google+ als... etc dan ben je gebruiker x en daar hoort profiel y bij staat al het is alleen maar aanzetten voor recaptcha)

Oftewel als jij als commercieel bedrijf je core product (je profielen) kan verbeteren zonder kosten waarom zou je het niet doen?

Ik vind het een logische stap, waarom zou jij denken dat een commercieel bedrijf dat niet zou doen (helemaal als de profielen zelf beschermd zijn).
En buiten het über-gluurder verhaal, wat zouden ze dan met die informatie doen?
Dat is imho de verkeerde vraag, bij big data is het meer : Eerst opslaan en daarna uit de data halen wat nuttig is.
Maar een mogelijke toepassing kan bijv zijn dat als iemand 999 vd 1000 recaptcha's fout heeft dat je je dan kan afvragen of je die persoon wel advertenties wil voorschotelen.
Want een adverteerder zit er niet op te wachten om te moeten betalen om getoond te worden aan bots en dan kan de recaptcha data bijv dienen als ondersteuning om te bepalen of iemand een bot is.
Ahhh, dus het had een reden dat die gekke getalletjes en letters werden gebruikt. Dat had ik nooit geweten! Ik heb wel het gevoel gehad dat ik er een paar 2x heb ingetypt, dus het kan zijn dat ze die dingen vaker gebruiken zodat ze vergelijkingsmateriaal hebben voor hun algoritmes.
Helaas bijt het daarbij wel in zijn eigen staart: Die verbeterde ocr wordt door de robots gebruikt om de capcha in te vullen :? |:( 8)7 ;(
De laatste tijd kreeg ik sowieso enkel nog simpele re-captcha's, waarbij de meesten mij aan foto's van voordeuren met huisnummers deden denken.
Imageshack heeft vreemde Captcha's die gewone woorden zijn waarvan de letters een beetje zijn verschoven. Ik kan me niet inbeelden dat dit enig effect sorteert.

Wellicht heeft men het gewoon opgegeven.
Dat is sowieso niet het geval bij ReCaptcha, als de bots op een gegeven moment de huidige methode kraken, slingert Google gewoon iets compleets anders aan. Daarmee zijn de bot-makers weer pozen zoet, en ondertussen helpt de hele wereld weer de plaatjesherkenning van het dan gekozen doel :)
En het antwoord daarop was weer dat men veelal stopte met bots die zochten naar oplossingen voor captcha's en ze gewoon ging doorzetten op sex-sites etc.
Zodat random strangers ze gingen oplossen en de bot ze gewoon menselijk opgelost terugkreeg.

Momenteel weet ik nog wel een paar diensten waar ze gewoon een api hebben dat je een image van een captcha kan uploaden en dat je binnen 5 of 10 seconden een antwoord krijgt van een mens die hem gewoon voorgeschoteld heeft gekregen op een random site.
Bots die mensen aan het werk zetten om voor hun te bewijzen dat ze een mens zijn, mooi is dat toch... Zoiets als de ID van je oudere broer lenen om een cafe in proberen te komen. Al vind ik de techniek en de creativiteit geweldig, het is jammer waarvoor het gebruikt wordt.
Dat had weer iets te maken met Google Maps en Streetview. Dus min of meer het zelfde als het gebruik van Captcha's voor het digitaliseren van boeken.
die gebruikte googel volgens mij om huisnummers in streetview te herkennen
Klopt waren voordeuren, leuk he? Tot je je eigen voordeur tegenkomt natuurlijk. Dan is nie meer leuk!
Alle voordeuren die aan een straat zitten waar een Google streetview auto doorheen heeft gereden staan op streetview. Is dat een probleem? Ik denk van niet want alle huizen zijn ook te zien doormiddel van satellietbeelden. Of is dat ook een probleem?
Mocht dat een probleem voor je zijn dan hoop ik niet dat je vaak gebruik maakt van navigatiesoftware of Google maps. Dat zou wel een beetje hypocriet zijn, denk je niet?
Mijn huisnummer is 17 en nu weet iedereen het! Ik vind het nog steeds leuk!
En dat is al meer info dan zo n Captcha. Ik heb je nick en je huisnummer,via google en wellicht je tweakersprofielkan ik gaan uitzoeken waar je woont 😊

Een foto van een voordeur bevat minder info...
Tenzij het een digitale foto is waar GPS informatie aan werd toegevoegd door de camera...
Wat is dan nog het nut van het zien van je huisnummer?
Want? Het hebben van een voordeur is niet leuk? Jij klimt liever door het raam? Alsof iemand weet dat het jou huis is...
en ook wel grappig dat je de 2e captcha gewoon fout kan typen :P
Willekeurig feit: Recaptcha IS van Google (Wacht waarom kan je die van Google dan wel? Zou dat dan niet dezelfde zijn?)

Verder: Yay! Niet typen maar plaatjes van katten en kalkoenen aantikken. Maar hoe werkt dat dan? Halen ze afbeeldingen uit een database die de plaatjes categoriseert als jam/cranberrys/museli/honden/katten/kalkoenen/planten/broodjes? En hoe werkte het vroeger eigenlijk? Staat het antwoord in de bestandsnaam van de afbeelding of zit er meer achter?
De oude CAPTCHA had ook meerdere varianten. De "gewarpte" woorden en de cijfers. De cijfers en woorden waren server-side opgeslagen en werden dmv manipulatie door tekst en afbeeldingsfilters weergegeven op de pagina. Bij het submitten keek CAPTCHA gewoon dom naar de database of de invoer matched. Vaak is het zo dat bij deze manier de gewarpte figuren onherkenbaar zijn (letters die over elkaar heen liggen of te klein zijn geworden, een uitgerekte 1 die misschien toch een 7 is), en je 10x achter elkaar loopt te raden.
Verder: Yay! Niet typen maar plaatjes van katten en kalkoenen aantikken. Maar hoe werkt dat dan? Halen ze afbeeldingen uit een database die de plaatjes categoriseert als jam/cranberrys/museli/honden/katten/kalkoenen/planten/broodjes? En hoe werkte het vroeger eigenlijk? Staat het antwoord in de bestandsnaam van de afbeelding of zit er meer achter?
Erg simplistisch gezegd zullen ze waarschijnlijk gewoon de 1e 4 resultaten van google image search pakken op dat woord. Als dan 100.000 mensen slechts 3 van de 4 aanklikken als gerelateerd aan dat woord dan kan het 4e plaatje in google image search naar beneden want het is blijkbaar toch niet relevant.

Pak daarbij nog 1 twijfelplaatje, nog 4 dingen die totaal niet gerelateerd zijn (dit kan je ook bijstellen aan de hand van de resultaten) en je hebt je 9 plaatjes.
En de mensen controleren vrijwillig of jouw image search ranking klopt of dat die aangepast moet worden.
Ik geef je daarin 100% gelijk. Met sommige sites zijn ze veel moeilijker dan bij andere. Ik heb ook wel eens gehad inderdaad dat ik gewoon 10 x minimaal moest refreshen voordat ik het kon lezen. Of ik had het fout gelezen en ingetypt.
Stel je hebt bijvoorbeeld een torrent site waar gebruikers alleen de torrent kunnen downloaden als ze een captcha van een andere site oplossen. Op die manier zou je captcha beveiliging alsnog kunnen omzeilen.
Dat is inderdaad wel gebeurd.
Zo kun je oneindig veel oplossingen bedenken. Wil je niet dat robots iets kunnen doen op je website, moet je het er simpelweg niet opzetten :9
apart dat ze dit lanceren terwijl ze net ook bezig waren met geavanceerde beeldherkenning? (kan het juiste artikel even niet meer vinden)
Betekent dit niet dat bots juist al heel snel dit soort foefjes zelf kunnen uitvoeren?

-EDIT-
Ik meende dat op tweakers hier een artikel over was geschreven, maar kan hem niet vinden, daarom bij deze een link naar de officiële Google pagina erover

[Reactie gewijzigd door striner op 3 december 2014 16:13]

Google kennende is dit gewoon deel van hun beeldherkenningsprogramma, net zoals de vorige versie van Recaptcha. Ze laten hun eigen computers beelherkenning doen en de plaatjes die (te) moeilijk zijn voeren ze aan Recaptcha. Een mens vertelt de computer dan wat het juiste antwoord is. Met die informatie verbeteren ze hun beeldherkenning weer.
Bijkomend voordeel is dat ze weten dat de plaatjes te moeilijk zijn voor robots. Als ze makkelijk waren dan hadden hun eigen systemen ze wel herkend.
Een mens vertelt de computer dan wat het juiste antwoord is. Met die informatie verbeteren ze hun beeldherkenning weer.
Maar hoe moet Google dan weten of je het goede antwoord hebt ingetypt? Kies uit de onderliggende plaatjes de kalkoenen (ik zeg maar iets). Dus jij klikt 3 plaatjes, maar als Google niet weet of dat kalkoenen zijn of niet kan Google toch ook niet zeggen dat je voor je captcha geslaagd bent?
Als 100 mensen dezelfde combinatie ingeven en jij geeft een andere in dan is die van jou fout.
Gewoon hetzelfde plaatje aan, pak em beet, 100 mensen tonen. Het antwoord met het hoogste aantal is het juiste.
Eigenlijk is het heel logisch.

Je hebt een basis plaatje, de kat. Deze is vastgesteld als een kat door google.
Dan heb je negen willekeurige plaatjes. Zes plaatjes zijn er herkend door google, waarvan bijvoorbeeld drie wel katten en drie niet katten. Vul je deze 6 correct in dan "pass" je de captcha.

De data van de overige drie, dat is jouw input of ze wel of niet een kat zijn. Daarmee kan de google image scanners nieuwe regels mee aanmaken om hun dienst te verbeteren. Waarmee ze de volgende keer wel alle plaatje kunnen herkennen of ze een kat zijn of niet, waardoor je daarna alleen honden foto's ga ontvangen (bijvoorbeeld).

Wat Stimpke zegt kan natuurlijk ook, maar dat lijkt me zeer onwaarschijnlijk. Want dan zouden de eerste 100 mensen altijd slagen, wat niet erg handig is voor een systeem dat bots moet buiten houden, en google niks aan die data dan heeft.
Ik dacht altijd dat ik geluk had bij die captcha's, vaak was het beetje gokken welke letter/woord er nu precies stond en daarna toch gewoon inloggen :P

1 van de US Impreza forums had al zo'n systeem, moest je uit aantal plaatjes aangeven wat een impreza was (zeer herkenbaar natuurlijk tussen de audi's en fords :P).
Meestal bestonden die captcha's uit 2 delen waarvan je slechts 1 deel volledig correct moest hebben. Het andere deel was vaak een scan uit een boek dat je door de captcha in te vullen hielp digitaliseren.
.. wow.. heb ik dus nooit geweten. :D Ik maar steeds m'n best doen, desnoods nieuwe opvragen, om maar zo goed mogelijk in te vullen.
Ja, was wel lachen, je kon altijd een deel (het deel uit een boek, of huisnummers) uit je nek lullen.

Ik deed meestal 1337 =) (wat een leuk algoritme zou gekweekt hebben hoop ik)

[Reactie gewijzigd door egnappahz op 3 december 2014 16:41]

Ik blijf het hele concept nog steeds niet begrijpen.. Al JAREN gebruik ik een stukje javascript code wat robots weert van onze formulieren.
Alle pogingen worden met inhoud gelogd, je weet niet van je overkomt zoveel onzin men automatisch post. Echter, niet een die er doorheen komt.
Wil je dat stukje javascript met ons delen of ga je het verkopen aan Google.com ?
O zeker, het stelt geen drol voor en heb het niet zelf verzonnen.
Ik gebruik het zelfs om mijn eigen honeypot database te vullen, tikt lekker aan en nu moet ik alleen nog een stukje intelligentie schrijven om diverse IP's van klasse te gaan veranderen zodat ik complete blokken kan weren. (als ik tijd en zin heb)

http://webdesignfromscrat...m-validation-check-trick/
Deze manier van robots vermijden is al lang achterhaald.
Als het nog werkt lijkt het me een uitstekende eerste barriere...
Zeker als een eerste barrière, maar om de echte jongens te stoppen zul je toch met iets beter moeten komen, wat recaptcha dus redelijk goed heeft gedaan.
Kennelijk niet voor het gros aan onzin uit China, Rusland, Brazilië, Amerika en overige Oostblok landen waar plenty servers onze "simpele" website bestoken.
Het zal vast wel simpel te omzeilen zijn, maar gelukkig zijn we de moeite nog niet waard :D

Dank voor de tip, dan ben ik alvast voorbereid!
Het is zeker de moeite waard als eerste barrière, maar dat kan niet volledig captchas vervangen. Waar jij last van hebt zijn outdated bots die paginas door middel van footprints vinden en automatisch berichten proberen te plaatsen.

Als je bijvoorbeeld KeyCAPTCHA voor een week zou testen, zul je zien dat geen bot er doorheen komt.
Als je bijvoorbeeld KeyCAPTCHA voor een week zou testen, zul je zien dat geen bot er doorheen komt.
Als die Demo een goede implementatie is van het systeem dan voorspelt dat niet veel goeds. Met een scripttaaltje als AutoItScript is de methode vanuit de demo zo om zeep te helpen.
Dat blijkt dus niet het geval, nog geen bot gezien die er doorheen komt.
Dat blijkt dus niet het geval, nog geen bot gezien die er doorheen komt.
Goed dat je er tevreden over bent. Ik schat dat ik 15 minuten nodig ben om een scriptje te schrijven die een succesrate van 50% kan halen.
Het grootste "probleem" is dat je een windowsmachine nodig bent met een geopende browser en autoitscript om je muis te simuleren. Het simpelweg te omslachtig om dit op grote schaal breed in te zetten. Als er voldoende te halen valt bij sites die dit gebruiken wordt het vanzelf interresant om wel een keer op te zetten.
In 15 minuten gaat dit je helaas niet lukken, er zijn te veel mogelijke combinaties.
Die 15 minuten is een ruwe schatting. Zou ook prima een half uur kunnen zijn.
Zelfs dan wordt het lastig, alle puzzels zijn willekeurig + x aantal unieke puzzels.
Wat als javascript uitgeschakeld is vraag ik me dan af?
De meeste robots maken geen gebruik van JavaScript en posten direct naar de server. Ik ben benieuwd wat jouw stukje JavaScript precies doet. Ik gebruik zelf een honey pot, wat overigens niet altijd goed werkt ;)
Als het javascript niet zo heel geavanceerd is kunnen bots het ook meenemen, ze moeten er enkel op geprogrammeerd zijn. Als je een kleine website bent wat de moeite niet waard is, is het effectief. Integreer je het echter in een CMS of dienst of heb je een grote website, moet je er rekening mee houden dat de bot eigenaren actief kijken hoe ze je captcha oplossing kunnen omzeilen.
Ik ben blij dat ze dat eindelijk aan gaan passen. Wat zijn die dingen verschrikkelijk K*T. Verschil in hoofdletters is vaak niet te zien. Hoofdletter O of een 0. Een hoofdletter I of een l. 8)7 :'(
Na tien keer proberen begin je bijna te twijfelen. Ben ik misschien een robot?...
Ik denk dat een robot minder problemen heeft met die dingen, die scant dat vast allemaal veel sneller en nauwkeuriger :+

Maar nu dus captcha's met katten! _/-\o_
Ik had soms wel eens dat ik enkel op vinkje moest klikken: I`m not a robot , en klaar.
Maar helaas achteraf kwamen ze er toch achter dat ik een robot was.... :9

Waarom bied Google dit eigenlijk gratis aan, kost hun alleen maar geld toch ?

[Reactie gewijzigd door walkstyle op 3 december 2014 16:14]

Waarom bied Google dit eigenlijk gratis aan, kost hun alleen maar geld toch ?
Ze krijgen ontzettend veel informatie over hoe internet gebruikt wordt. Ze kunnen enorm veel sites en gebruikers tracken met dit systeem.
Ten tweede helpt het hun om hun beeldherkenning te verbeteren, de mensen dienen als corrector voor de computer.
Ten derde is het in het belang van Google om internet zo groot mogelijk te maken. Hoe meer er via internet loopt, hoe meer kansen voor Google om er iets aan te verdienen.
Het blijft een hamer gebruiken om een noot te kraken.

De beste captcha is nog altijd een die vooral lastig is voor bots. Want "bewijzen dat je een mens bent", waar gaat dat heen? Dan hebben robots dus op voorhand al gewonnen! Het zou moeten zijn "bewijzen dat je geen robot bent", bijv door een vraag te stellen die alleen een robot fout beantwoordt en waar mensen niet eens over na hoeven denken.

Simpel voorbeeld:
Vul hier niets in: [ ]

En dat hiden met css. Een spambot plempt nml data in alle velden en gaat gewoon proberen.
Dat wordt nu al vaak gedaan. 2 checkboxen:

[x] ik ben een robot
[ ] ik ben een mens

De robots wijzigen de checkbox meestal niet en zo vang je ze op. Alleen werkt dit niet voor diensten met miljoenen gebruikers waar je de oplossing 1 keer oplost en dan automatiseert. Maar voor je eigen prive of kleine site is het prima.
Ook gewone vaste vragen houden al heel wat tegen. Ook al omdat spammers geen nederlands kennen. Vraag: wat is de naam van de beroemdste tv-kabouter op dit moment (plop).
Mooi! Ga er gelijk mee aan de slag. Vond het lettertjes overtypen toch altijd zo'n grote grens dat ik ze met tegenzin inbouwde.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True