Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 48 reacties

Google werkt momenteel aan methodes om automatisch teksten op webformulieren in te vullen. Het bedrijf wil zo pagina's naar boven halen waar zijn webcrawlers normaal gesproken niet bij kunnen.

Dat maakte de zoekgigant onlangs bekend op het Webmaster Central Blog van het bedrijf. De experimenten om meer content te ontsluiten beperken zich vooralsnog tot sites van 'hoge kwaliteit', aldus Jayant Madhavan en Alon Halevy van Googles Crawling and Indexing Team. Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden ge´ndexeerd, worden gerespecteerd. Met de tests wil het bedrijf naar eigen zeggen een stap dichter bij het vervullen van zijn mission statement komen: het organiseren en beschikbaar maken van informatie.

The Invisible Web (boek) Voor menu's en check- en radiobuttons kunnen de algoritmes, om het zogeheten invisible web zichtbaar te maken, door de beschikbare keuzes heenlopen. In textboxen worden woorden ingevoerd die voorkomen op de site waar het formulier wordt aangetroffen.

Een voormalig collega van Halevy, Anand Rajaraman, schrijft op zijn eigen weblog dat de gebruikte technologie afkomstig is van het bedrijf Transformic, dat in 2005 door Google werd overgenomen. Voordat dit bedrijf werd opgestart, werkten Halevy en Rajaraman op de universiteit van Washington samen aan het probleem van het automatisch bepalen van textbox-invoer.

Moderatie-faq Wijzig weergave

Reacties (48)

Het lijkt mij (als eigenaar/programmeur van een profielen site) erg vervelend. Dat google alles "achter de schermen" indexeert lijkt me het probleem nog niet zo zeer (in ons geval) maar dan heb je straks dus dat iedere zoekmachine een account gaat maken oid om verder te crawlen (nog even misbruik ervan daar gelaten).

Verder lijkt mij (in het geval van profielen sites) het ook vrij nutteloos om de meeste dingen achter de schermen te indexeren. Je kan een profiel zowiezo wel bekijken, maar wat hebben ze aan links naar het beheren van je profiel content of de fotoupload mogelijkheid? Zo een bot zou daar alleen maar "eigen" content kunnen vinden/indexeren.

Ook vraag ik me af hoe ik robots.txt vertel dat hij het formulier niet laat invullen, ik wil namelijk wel de registratie pagina geindexeerd hebben dus kan de toegang daartoe niet ontzeggen toch?

Gelukkig hebben de meeste sites ook een email confirmatie wat inhoud dat (hopelijk) de bot toch niet verder komt omdat de accoutn niet is geactiveerd.

[Reactie gewijzigd door ultimasnake op 15 april 2008 10:47]

Die content zit als het goed is achter meerdere POST formulieren: Signup is POST, inloggen is ook POST, en misschien moet je nog wel je account activeren in een e-mail.

Google gaat dus helemaal geen profielen aanmaken, op zoek naar andere gevoelige data. Als het goed is heb je geen privacy-gevoelige data achter een simpel GET formuliertje, want dan kan iedere sjaak er heel eenvoudig bij.

Ik denk dat je eerder moet denken aan het indexeren van zoekresultaten van interne zoekmachines op websites, en andere websites die formulieren gebruiken als navigatie.

Een voorbeeld dat laatste is Last.fm. Deze site heeft zoveel content dat er geen "traditionele" navigatie met links is. De navigatie bestaat uit zoekvelden, en zonder te zoeken kan je niet op de pagina van artiest X, of profiel van user Y komen.
Nog veel vervelender vind ik het voor de eindgebruiker. Die wil namelijk geen informatie terugkrijgen waarvoor eerst een heel formulier ingevuld moet worden. Ze zouden juist alleen de openbare gedeeltes moeten indexeren. Net als dat ze websites hard moeten aanpakken die Google een andere pagina voorschotelen dan de gebruiker.

Dan ben je bijvoorbeeld op zoek naar een nieuwsartikel, klik je op een resultaat in google en krijg je vervolgens een Login scherm met de melding dat je wel ff lid kan worden voor een x aantal euro.

Voor de rest lijkt het me gelukkig niet zo dat Google ineens allerlei willekeurige informatie gaat submitten op je website. Dan kunnen ze zelfs straks rechtszaken aan de broek krijgen omdat sites in hun regelement hebben staan dat bijvoorbeeld een account aanmken alleen voor mensen is.
Eerlijk gezegd denk ik dat de eindgebruiker er juist alleen maar baat bij heeft. Voorheen konden alleen publieke pagina's bezocht worden (aangezien alleen die door Google ge´ndexeerd werden), maar op deze manier kunnen dus ook pagina's ge´ndexeerd worden waarvoor normaal gesproken een formulier ingevuld had moeten worden en waar wellicht tˇch interessante informatie op te vinden is.

De eindgebruiker kan m.b.v. Google cache in ÚÚn klik de juiste pagina bekijken zonder ook maar ÚÚn formulier in te hoeven vullen. Voor website eigenaren is dat echter weer een gigantisch nadeel, want zo'n formulier zat er natuurlijk niet voor niets tussen.

't Zijn dus niet de eindgebruikers waarvoor het vervelend is, maar de webmasters. Ook al zou het in principe mogelijk moeten zijn natuurlijk om die pagina's m.b.v. de robots.txt uit te laten filteren, maar dat brengt weer extra gedoe met zich mee.

[Reactie gewijzigd door BartB. op 15 april 2008 15:25]

hmmm... dus het is handig omdat voor informatie waar jij wou dat je weet wie het heeft nu iedereen het kan zien...

lijkt mij juist niet ideaal voor bedrijven die zo wat informatie willen delen maar onder voorwaarden
Als je de bron leest dan zie je dat enkel formulieren die d.m.v. een GET request worden verzonden worden gecrawled en niet formulieren met de POST methode.

De eerste wordt traditioneel gebruikt voor het opvragen van informatie a.d.h.v. parameters en de tweede voor het versturen van "persoonlijke" informatie. Als webdevelopers hier gewoon rekening mee houden lijkt me niets aan de hand.
Als, als als.. Als iedereen zich aan de afgesproken standaarden zou houden, dan was de duurzame wereldvrede niet ver meer.

Het is kansloos om te verwachten dat webdevelopers dat goed toepassen. Moest Google ook niet ooit een cache-programmaatje offline halen omdat die van dezelfde veronderstelling uitging? Bleek dat in allerlei webapplicaties delete-acties e.d. ook achter een GET-request zitten en dat programma ging die requests alvast voor je uitvoeren. Waren de items al verwijderd voordat je op het knopje drukte!

Edit: ik bedoelde Google Web Accelerator. Het is nog wel gewoon te downloaden
Hier een kritisch verhaal.

[Reactie gewijzigd door DJ Henk op 15 april 2008 09:54]

Als, als...
Maar toch zou het fijn zijn en erg handig als men, in dit geval de webontwikkelaars, zich wat meer aan de standaarden zou houden - in zo'n geval hadden zoekmachines de diverse GET formulieren al veel eerder kunnen indexeren...

Echter, in hoeverre dat indexeren wenselijk is, dat blijft een vraag waar ik niet direct een instemmend antwoord op kan geven...

Over Google Web Accelerator:
Bleek dat in allerlei webapplicaties delete-acties e.d. ook achter een GET-request zitten (...)
Deze actie is compleet anders dan GWA, zo zal men zich hier niet voordoen als een ingelogde gebruiker - hetgeen bij gebruik van GWA (vaak) wel het geval was...
Lijkt me niet erg prettig voor de eindgebruiker, wanneer je via google naar een onbekende site gaat en eerst een registratie oid moet doorlopen om de informatie te zien. In de meeste gevallen zou ik gelijk overstappen op het volgende resultaat.
In dat geval is het juist handig omdat je met Google cache de website kunt bekijken zonder je eerst te hoeven registreren.
Mischien wil je wel dat mensen akkoord moeten gaan voordat ze het mogen inzien.
Dan kan je dat omzeilen met google cache
Klopt, voor de website beheerder is het dan niet zo fijn. Maar voor de eindgebruiker natuurlijk wel :)
Klinkt een beetje alsof ze workarounds willen maken voor het indexeren van websites die accessibility richtlijnen niet naleven. Een formulier behoort normaliter niet voor navigatie gebruikt te worden, en zo wordt het volgens mij hier toch echt ge´nterpreteerd.
wij blokkeren juist allerlei polls met javascript en forms om die vervelende votes door zoekmachines onmogelijk te maken. Maar als ze de robots.txt respecteren, kun je wel mooie dingen doen.
Dat wordt nog wat wanneer je een submit form hebt waarin men zich kan opgeven voor een mailinglist... Moet nu iedereen zijn website gaan beschermen met een captcha?!?
Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden ge´ndexeerd, worden gerespecteerd.

Zelf weet ik niet of het nou een goed of slecht iets is want ik ben benieuwd hoe lang en hoe goed ze bovenstaande naleven....
Oftewel ze houden er een opt-out policy op na. Ik zie het liever andersom. Dat je in je de robots.txt een regel zet die aan geeft dat het wel mag. Staat dat er niet dan moet die googlebot er gewoon weg blijven.
Volledig akkoord. Het lijkt tegenwoordig normaal dat een vreemdeling je data komt doorsnuffelen, vervolgens in hun eigen cache gaat opslaan op hun servers en dat ze het vervolgens hun data noemen.
In de echte wereld moet je ook wel beveiligen of je kan een boete krijgen maar de dief is een dief. Al dan niet met aanwezige beveiliging.
Ik denk dat indexeren gewoon 'part of the game is'. Als je niet wilt dat een vreemdeling in je data snuffelt, waarom zet je het dan online?
Ehm...

Is dat niet altijd het geval standaard laat je niets toe, en als je vind dat bijvoorbeeld de main page best wel in de google rankings mag komen dan laat je ze die door zoeken en niets anders.
Zo kun je per pagina besluiten of die wel of niet bekeken mag worden.

Het is het zelfde idee als een net werk beveiligen, deny all, en dan als er een duidelijke rede is, en de machine die wel naar binnen/buiten moet kunnen veilig genoeg is om dit ook te mogen doen dan laat je die machine toe een verbinding te maken. Op die manier kun je met heel veel zekerheid zeggen wie, wat en waarom uitzonderingen nodig hebben.
Zo werkt de robots niet. Als je geen robots hebt gaat hij alles doorzoeken en anders moet je zeggen wat hij niet mag doen. Wil je dus enkel de index laten doorkijken moet je al de rest toevoegen in de robots en zeggen dat het niet mag.
Tot nu toe lijkt eerder het omgekeerde het geval te zijn in geval van bv Jaap.nl die zich volledig liet indexeren door een robot van een concurrent en daarna richting de rechter ging om dit tegen te gaan. Daarintegen heb ik nog nooit gehoord dat Google of welke spider dan ook meer indexeerde dan deze daadwerkelijk mocht doen zolang robots maar goed opgesteld is.
Ik vraag me eigenlijk af waarom men niet een shadow pagina opstelt als deze informatie interessant kon zijn voor de spiders. Zo kunnen webbuilders hun informatie delen en krijgt google of wie dan ook eenvoudig zijn informatie.
Het lijkt mij dat google ook daar doorheen wil prikken?
En ooit een contact formulier zonder captcha geinstalleerd, binnen no-tim hang je vol met spam...

Vraag me af hoe het zit met inlog formulieren, bijv voor een forum.
Lijkt mij niet dat google dan automatisch overal een account gaan aanmaken om zo te kunnen inloggen en de content van het achterliggende forum te indexen.
Lijkt mij ook een schending van 'privacy', 't zit tenslotte niet voor niets achter een inlog formulier.

[Reactie gewijzigd door Derice op 15 april 2008 09:00]

Lijkt mij ook een schending van 'privacy', 't zit tenslotte niet voor niets achter een inlog formulier.
Niet waar, registraties worden meestal gedaan om spambots te weren. Wil je dat google r niet langskomt volstaat een robots.txt
daarentegen leer je op de hackers school dat de robots.txt de simpelste manier is om privacy gevoelige informatie op een site te analyseren.
Ik heb geen captcha op mijn contactformulier en ik heb geen last van spam, dat ding is alweer een halfjaar online. Ik denk niet dat dat altijd op gaat. Hij staat ook gewoon geindexeerd bij Google e.d.

[Reactie gewijzigd door Swelson op 15 april 2008 17:35]

Uiteraard moet je website wel bezocht worden, en gelinkt staan ;)
Mijn site heeft een hoop bezoekers (+- 7 miljoen pageviews per maand) en ik krijg geregeld spam contact requests. Initieel stond m'n forum ook vol van die dingen, maar dat heb ik verholpen intussen. Is gewoon ongelooflijk wat je tegenwoordig moet uitspoken om gevrijwaard te blijven van die rommel.
Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden ge´ndexeerd, worden gerespecteerd.
Lijkt me duidelijk genoeg toch hoe je het kunt voorkomen?
Ik neem aan dat Google alleen formulieren die via de GET-method submitten zal gaan indexeren. GET is namelijk volgens de HTTP-specificatie ‘safe’ en wordt alleen gebruikt om informatie op te vragen, en als sites zich daaraan houden (wat als ze dat niet doen sowieso al een security-probleem is) dan kan je die gewoon opvragen. POST-formulieren, die gebruikt worden om informatie te wijzigen, zullen zeer waarschijnlijk worden overgeslagen.
Of bij een reactie formulier, of een shoutbox...

Komen daar dan berichten van google tussen te staan :+
Er komen geen berichten van google tussen te staan, het gaat over het indexeren van het web. Niet het volspammen van het net, daar zijn andere bedrijven 24/7 mee bezig ;)
Dan moet Google wel weten wat een bepaald form doet. Als ze dat niet weten, dan vullen ze een shoutbox ook gewoon in.

Kortom, ik zie er meer na- dan voordelen in. Als Google dit kan/mag waarom zouden andere crawlers dat niet mogen? Als website beheerders/ontwikkelaars dit toelaten, dan kunnen ze straks niet meer zien of er een crawler of een human visitor zich opgegeven hebben voor een real life event via een site.

Edit: Idd voor en na verwisseld.

[Reactie gewijzigd door Danot op 15 april 2008 13:08]

Aan de rest van de tekst zou je zeggen dat je juist meer na- dan voordelen ziet.
Kortom, ik zie er meer voor- dan nadelen in.
Eigenlijk zal je dan een soort xml like bestandje in je root moeten neerzetten waarin je je form velden zet en de waarden die de crawler mag invullen.

Het lijkt me niet echt de bedoeling dat er zomaar en overal waarden ingevuld mogen worden, alleen met het doel verder te geraken?
Hehe en jij en ik weten dan waar dat bestand staat en kunnen dan inloggen en alle beschikbare info bekijken terwijl een persoon die dat niet weet zich moet registreren...

Vind het dan ook geen goede actie!
Dat lijkt me niet echt handig, hoe weet google nou of het formulier wordt gebruikt om informatie op te zoeken, of informatie op te slaan / weergeven op de site? Dan krijg je allemaal vreemde google teksten bijvoorbeeld op je site.
Dat wordt nog lachen, bij Wikipedia :+
Wat dacht je van iets als deze waarbij google al voor 20.000 aan artikelen in zijn boodschappenmandje heeft zitten :)
In dit geval lijkt het me meer een foutje in het webformulier...

[Reactie gewijzigd door kzin op 15 april 2008 13:21]

Ga ik nu nog meer zoekresultaten krijgen waar ik niets aan heb omdat ik een account nodig heb voor de betreffende website?

Ik vind dat er nu al ernstig veel van die rommel tussen mijn zoekresulaten komt.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True