Google wil webpagina's achter formulieren indexeren

Google werkt momenteel aan methodes om automatisch teksten op webformulieren in te vullen. Het bedrijf wil zo pagina's naar boven halen waar zijn webcrawlers normaal gesproken niet bij kunnen.

Dat maakte de zoekgigant onlangs bekend op het Webmaster Central Blog van het bedrijf. De experimenten om meer content te ontsluiten beperken zich vooralsnog tot sites van 'hoge kwaliteit', aldus Jayant Madhavan en Alon Halevy van Googles Crawling and Indexing Team. Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden geïndexeerd, worden gerespecteerd. Met de tests wil het bedrijf naar eigen zeggen een stap dichter bij het vervullen van zijn mission statement komen: het organiseren en beschikbaar maken van informatie.

The Invisible Web (boek) Voor menu's en check- en radiobuttons kunnen de algoritmes, om het zogeheten invisible web zichtbaar te maken, door de beschikbare keuzes heenlopen. In textboxen worden woorden ingevoerd die voorkomen op de site waar het formulier wordt aangetroffen.

Een voormalig collega van Halevy, Anand Rajaraman, schrijft op zijn eigen weblog dat de gebruikte technologie afkomstig is van het bedrijf Transformic, dat in 2005 door Google werd overgenomen. Voordat dit bedrijf werd opgestart, werkten Halevy en Rajaraman op de universiteit van Washington samen aan het probleem van het automatisch bepalen van textbox-invoer.

IT-banen

Reacties (48)

ultimasnake 15 april 2008 10:46

Het lijkt mij (als eigenaar/programmeur van een profielen site) erg vervelend. Dat google alles "achter de schermen" indexeert lijkt me het probleem nog niet zo zeer (in ons geval) maar dan heb je straks dus dat iedere zoekmachine een account gaat maken oid om verder te crawlen (nog even misbruik ervan daar gelaten).

Verder lijkt mij (in het geval van profielen sites) het ook vrij nutteloos om de meeste dingen achter de schermen te indexeren. Je kan een profiel zowiezo wel bekijken, maar wat hebben ze aan links naar het beheren van je profiel content of de fotoupload mogelijkheid? Zo een bot zou daar alleen maar "eigen" content kunnen vinden/indexeren.

Ook vraag ik me af hoe ik robots.txt vertel dat hij het formulier niet laat invullen, ik wil namelijk wel de registratie pagina geindexeerd hebben dus kan de toegang daartoe niet ontzeggen toch?

Gelukkig hebben de meeste sites ook een email confirmatie wat inhoud dat (hopelijk) de bot toch niet verder komt omdat de accoutn niet is geactiveerd.

[Reactie gewijzigd door ultimasnake op 23 juli 2024 19:05]

Blaise @ultimasnake • 15 april 2008 14:19

Die content zit als het goed is achter meerdere POST formulieren: Signup is POST, inloggen is ook POST, en misschien moet je nog wel je account activeren in een e-mail.

Google gaat dus helemaal geen profielen aanmaken, op zoek naar andere gevoelige data. Als het goed is heb je geen privacy-gevoelige data achter een simpel GET formuliertje, want dan kan iedere sjaak er heel eenvoudig bij.

Ik denk dat je eerder moet denken aan het indexeren van zoekresultaten van interne zoekmachines op websites, en andere websites die formulieren gebruiken als navigatie.

Een voorbeeld dat laatste is Last.fm. Deze site heeft zoveel content dat er geen "traditionele" navigatie met links is. De navigatie bestaat uit zoekvelden, en zonder te zoeken kan je niet op de pagina van artiest X, of profiel van user Y komen.

BarôZZa 15 april 2008 11:29

Nog veel vervelender vind ik het voor de eindgebruiker. Die wil namelijk geen informatie terugkrijgen waarvoor eerst een heel formulier ingevuld moet worden. Ze zouden juist alleen de openbare gedeeltes moeten indexeren. Net als dat ze websites hard moeten aanpakken die Google een andere pagina voorschotelen dan de gebruiker.

Dan ben je bijvoorbeeld op zoek naar een nieuwsartikel, klik je op een resultaat in google en krijg je vervolgens een Login scherm met de melding dat je wel ff lid kan worden voor een x aantal euro.

Voor de rest lijkt het me gelukkig niet zo dat Google ineens allerlei willekeurige informatie gaat submitten op je website. Dan kunnen ze zelfs straks rechtszaken aan de broek krijgen omdat sites in hun regelement hebben staan dat bijvoorbeeld een account aanmken alleen voor mensen is.

BartB. @BarôZZa • 15 april 2008 15:24

Eerlijk gezegd denk ik dat de eindgebruiker er juist alleen maar baat bij heeft. Voorheen konden alleen publieke pagina's bezocht worden (aangezien alleen die door Google geïndexeerd werden), maar op deze manier kunnen dus ook pagina's geïndexeerd worden waarvoor normaal gesproken een formulier ingevuld had moeten worden en waar wellicht tóch interessante informatie op te vinden is.

De eindgebruiker kan m.b.v. Google cache in één klik de juiste pagina bekijken zonder ook maar één formulier in te hoeven vullen. Voor website eigenaren is dat echter weer een gigantisch nadeel, want zo'n formulier zat er natuurlijk niet voor niets tussen.

't Zijn dus niet de eindgebruikers waarvoor het vervelend is, maar de webmasters. Ook al zou het in principe mogelijk moeten zijn natuurlijk om die pagina's m.b.v. de robots.txt uit te laten filteren, maar dat brengt weer extra gedoe met zich mee.

[Reactie gewijzigd door BartB. op 23 juli 2024 19:05]

Verwijderd @BartB. • 15 april 2008 15:53

hmmm... dus het is handig omdat voor informatie waar jij wou dat je weet wie het heeft nu iedereen het kan zien...

lijkt mij juist niet ideaal voor bedrijven die zo wat informatie willen delen maar onder voorwaarden

Venga AB 15 april 2008 09:11

Als je de bron leest dan zie je dat enkel formulieren die d.m.v. een GET request worden verzonden worden gecrawled en niet formulieren met de POST methode.

De eerste wordt traditioneel gebruikt voor het opvragen van informatie a.d.h.v. parameters en de tweede voor het versturen van "persoonlijke" informatie. Als webdevelopers hier gewoon rekening mee houden lijkt me niets aan de hand.

DJ Henk @Venga AB • 15 april 2008 09:48

Als, als als.. Als iedereen zich aan de afgesproken standaarden zou houden, dan was de duurzame wereldvrede niet ver meer.

Het is kansloos om te verwachten dat webdevelopers dat goed toepassen. Moest Google ook niet ooit een cache-programmaatje offline halen omdat die van dezelfde veronderstelling uitging? Bleek dat in allerlei webapplicaties delete-acties e.d. ook achter een GET-request zitten en dat programma ging die requests alvast voor je uitvoeren. Waren de items al verwijderd voordat je op het knopje drukte!

Edit: ik bedoelde Google Web Accelerator. Het is nog wel gewoon te downloaden
Hier een kritisch verhaal.

[Reactie gewijzigd door DJ Henk op 23 juli 2024 19:05]

Little Penguin @DJ Henk • 15 april 2008 10:10

Als, als...

Maar toch zou het fijn zijn en erg handig als men, in dit geval de webontwikkelaars, zich wat meer aan de standaarden zou houden - in zo'n geval hadden zoekmachines de diverse GET formulieren al veel eerder kunnen indexeren...

Echter, in hoeverre dat indexeren wenselijk is, dat blijft een vraag waar ik niet direct een instemmend antwoord op kan geven...

Over Google Web Accelerator:

Bleek dat in allerlei webapplicaties delete-acties e.d. ook achter een GET-request zitten (...)

Deze actie is compleet anders dan GWA, zo zal men zich hier niet voordoen als een ingelogde gebruiker - hetgeen bij gebruik van GWA (vaak) wel het geval was...

merlijn85 15 april 2008 09:00

Lijkt me niet erg prettig voor de eindgebruiker, wanneer je via google naar een onbekende site gaat en eerst een registratie oid moet doorlopen om de informatie te zien. In de meeste gevallen zou ik gelijk overstappen op het volgende resultaat.

-Paul- @merlijn85 • 15 april 2008 09:10

In dat geval is het juist handig omdat je met Google cache de website kunt bekijken zonder je eerst te hoeven registreren.

neothor @-Paul- • 15 april 2008 09:38

Mischien wil je wel dat mensen akkoord moeten gaan voordat ze het mogen inzien.
Dan kan je dat omzeilen met google cache

-Paul- @neothor • 15 april 2008 09:39

Klopt, voor de website beheerder is het dan niet zo fijn. Maar voor de eindgebruiker natuurlijk wel

Michali 15 april 2008 09:03

Klinkt een beetje alsof ze workarounds willen maken voor het indexeren van websites die accessibility richtlijnen niet naleven. Een formulier behoort normaliter niet voor navigatie gebruikt te worden, en zo wordt het volgens mij hier toch echt geïnterpreteerd.

Verwijderd @Michali • 15 april 2008 19:19

wij blokkeren juist allerlei polls met javascript en forms om die vervelende votes door zoekmachines onmogelijk te maken. Maar als ze de robots.txt respecteren, kun je wel mooie dingen doen.

PrinsEdje80 15 april 2008 08:55

Dat wordt nog wat wanneer je een submit form hebt waarin men zich kan opgeven voor een mailinglist... Moet nu iedereen zijn website gaan beschermen met een captcha?!?

b0On @PrinsEdje80 • 15 april 2008 09:00

Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden geïndexeerd, worden gerespecteerd.

Zelf weet ik niet of het nou een goed of slecht iets is want ik ben benieuwd hoe lang en hoe goed ze bovenstaande naleven....

drZymo

@b0On • 15 april 2008 09:10

Oftewel ze houden er een opt-out policy op na. Ik zie het liever andersom. Dat je in je de robots.txt een regel zet die aan geeft dat het wel mag. Staat dat er niet dan moet die googlebot er gewoon weg blijven.

Verwijderd @drZymo • 15 april 2008 09:21

Volledig akkoord. Het lijkt tegenwoordig normaal dat een vreemdeling je data komt doorsnuffelen, vervolgens in hun eigen cache gaat opslaan op hun servers en dat ze het vervolgens hun data noemen.
In de echte wereld moet je ook wel beveiligen of je kan een boete krijgen maar de dief is een dief. Al dan niet met aanwezige beveiliging.

Rekcor @Verwijderd • 15 april 2008 10:27

Ik denk dat indexeren gewoon 'part of the game is'. Als je niet wilt dat een vreemdeling in je data snuffelt, waarom zet je het dan online?

Rob Coops

Internettoegang

@drZymo • 15 april 2008 09:38

Ehm...

Is dat niet altijd het geval standaard laat je niets toe, en als je vind dat bijvoorbeeld de main page best wel in de google rankings mag komen dan laat je ze die door zoeken en niets anders.
Zo kun je per pagina besluiten of die wel of niet bekeken mag worden.

Het is het zelfde idee als een net werk beveiligen, deny all, en dan als er een duidelijke rede is, en de machine die wel naar binnen/buiten moet kunnen veilig genoeg is om dit ook te mogen doen dan laat je die machine toe een verbinding te maken. Op die manier kun je met heel veel zekerheid zeggen wie, wat en waarom uitzonderingen nodig hebben.

Verwijderd @Rob Coops • 15 april 2008 10:05

Zo werkt de robots niet. Als je geen robots hebt gaat hij alles doorzoeken en anders moet je zeggen wat hij niet mag doen. Wil je dus enkel de index laten doorkijken moet je al de rest toevoegen in de robots en zeggen dat het niet mag.

n4m3l355 @b0On • 15 april 2008 09:18

Tot nu toe lijkt eerder het omgekeerde het geval te zijn in geval van bv Jaap.nl die zich volledig liet indexeren door een robot van een concurrent en daarna richting de rechter ging om dit tegen te gaan. Daarintegen heb ik nog nooit gehoord dat Google of welke spider dan ook meer indexeerde dan deze daadwerkelijk mocht doen zolang robots maar goed opgesteld is.
Ik vraag me eigenlijk af waarom men niet een shadow pagina opstelt als deze informatie interessant kon zijn voor de spiders. Zo kunnen webbuilders hun informatie delen en krijgt google of wie dan ook eenvoudig zijn informatie.

Verwijderd @PrinsEdje80 • 15 april 2008 09:00

Het lijkt mij dat google ook daar doorheen wil prikken?
En ooit een contact formulier zonder captcha geinstalleerd, binnen no-tim hang je vol met spam...

Vraag me af hoe het zit met inlog formulieren, bijv voor een forum.
Lijkt mij niet dat google dan automatisch overal een account gaan aanmaken om zo te kunnen inloggen en de content van het achterliggende forum te indexen.
Lijkt mij ook een schending van 'privacy', 't zit tenslotte niet voor niets achter een inlog formulier.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 19:05]

Blokker_1999

Internettoegang
Internet
Google

@Verwijderd • 15 april 2008 09:25

Lijkt mij ook een schending van 'privacy', 't zit tenslotte niet voor niets achter een inlog formulier.

Niet waar, registraties worden meestal gedaan om spambots te weren. Wil je dat google r niet langskomt volstaat een robots.txt

Verwijderd @Blokker_1999 • 15 april 2008 13:44

daarentegen leer je op de hackers school dat de robots.txt de simpelste manier is om privacy gevoelige informatie op een site te analyseren.

Swelson @Verwijderd • 15 april 2008 09:31

Ik heb geen captcha op mijn contactformulier en ik heb geen last van spam, dat ding is alweer een halfjaar online. Ik denk niet dat dat altijd op gaat. Hij staat ook gewoon geindexeerd bij Google e.d.

[Reactie gewijzigd door Swelson op 23 juli 2024 19:05]

Verwijderd @Swelson • 15 april 2008 10:18

Uiteraard moet je website wel bezocht worden, en gelinkt staan

Verwijderd @Swelson • 15 april 2008 11:21

Mijn site heeft een hoop bezoekers (+- 7 miljoen pageviews per maand) en ik krijg geregeld spam contact requests. Initieel stond m'n forum ook vol van die dingen, maar dat heb ik verholpen intussen. Is gewoon ongelooflijk wat je tegenwoordig moet uitspoken om gevrijwaard te blijven van die rommel.

Bosmonster @PrinsEdje80 • 15 april 2008 14:56

Ze benadrukten daarbij dat instructies in een eventueel robots.txt-bestand, waarmee webmasters kunnen voorkomen dat bepaalde stukken van hun sites worden geïndexeerd, worden gerespecteerd.

Lijkt me duidelijk genoeg toch hoe je het kunt voorkomen?

Grauw @PrinsEdje80 • 16 april 2008 00:16

Ik neem aan dat Google alleen formulieren die via de GET-method submitten zal gaan indexeren. GET is namelijk volgens de HTTP-specificatie ‘safe’ en wordt alleen gebruikt om informatie op te vragen, en als sites zich daaraan houden (wat als ze dat niet doen sowieso al een security-probleem is) dan kan je die gewoon opvragen. POST-formulieren, die gebruikt worden om informatie te wijzigen, zullen zeer waarschijnlijk worden overgeslagen.

WiebeV 15 april 2008 08:59

Of bij een reactie formulier, of een shoutbox...

Komen daar dan berichten van google tussen te staan

b0On @WiebeV • 15 april 2008 09:02

Er komen geen berichten van google tussen te staan, het gaat over het indexeren van het web. Niet het volspammen van het net, daar zijn andere bedrijven 24/7 mee bezig

Danot @b0On • 15 april 2008 09:05

Dan moet Google wel weten wat een bepaald form doet. Als ze dat niet weten, dan vullen ze een shoutbox ook gewoon in.

Kortom, ik zie er meer na- dan voordelen in. Als Google dit kan/mag waarom zouden andere crawlers dat niet mogen? Als website beheerders/ontwikkelaars dit toelaten, dan kunnen ze straks niet meer zien of er een crawler of een human visitor zich opgegeven hebben voor een real life event via een site.

Edit: Idd voor en na verwisseld.

[Reactie gewijzigd door Danot op 23 juli 2024 19:05]

watercoolertje

Google

@Danot • 15 april 2008 09:47

Aan de rest van de tekst zou je zeggen dat je juist meer na- dan voordelen ziet.

Kortom, ik zie er meer voor- dan nadelen in.

Razr 15 april 2008 09:01

Eigenlijk zal je dan een soort xml like bestandje in je root moeten neerzetten waarin je je form velden zet en de waarden die de crawler mag invullen.

Het lijkt me niet echt de bedoeling dat er zomaar en overal waarden ingevuld mogen worden, alleen met het doel verder te geraken?

watercoolertje

Google

@Razr • 15 april 2008 09:49

Hehe en jij en ik weten dan waar dat bestand staat en kunnen dan inloggen en alle beschikbare info bekijken terwijl een persoon die dat niet weet zich moet registreren...

Vind het dan ook geen goede actie!

ZpAz

15 april 2008 09:10

Dat lijkt me niet echt handig, hoe weet google nou of het formulier wordt gebruikt om informatie op te zoeken, of informatie op te slaan / weergeven op de site? Dan krijg je allemaal vreemde google teksten bijvoorbeeld op je site.

bartcramer @ZpAz • 15 april 2008 09:43

Dat wordt nog lachen, bij Wikipedia

kzin

@ZpAz • 15 april 2008 13:17

Wat dacht je van iets als deze waarbij google al voor 20.000 aan artikelen in zijn boodschappenmandje heeft zitten

In dit geval lijkt het me meer een foutje in het webformulier...

[Reactie gewijzigd door kzin op 23 juli 2024 19:05]

Verwijderd 15 april 2008 09:32

Ga ik nu nog meer zoekresultaten krijgen waar ik niets aan heb omdat ik een account nodig heb voor de betreffende website?

Ik vind dat er nu al ernstig veel van die rommel tussen mijn zoekresulaten komt.

Sijmen @Verwijderd • 15 april 2008 10:19

Google cache

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (48)

Sorteer op:

Weergave: