Google kampt met indexeringsproblemen

Google heeft forse problemen met het indexeren van websites, bericht The Register. Nadat het bedrijf in januari nieuwe webcrawlers in gebruik nam, groeide het aantal klachten over de zoekresultaten aanmerkelijk: sommige websites worden wekenlang niet bezocht, en gecachete pagina's worden niet meer bijgewerkt. 'Er zijn sites die 99 procent van hun pagina's niet meer kunnen terugvinden', aldus een post op Webmaster World. Een andere post meldt dat 'Google over een jaar, als het zo doorgaat, alleen nog maar eBay-veilingen en Amazon-advertenties laat zien.'

Opgeblazen Google-logo De problemen zouden voornamelijk veroorzaakt worden door de snelle toename van spamsites, die een zo hoog mogelijke SERP nastreven, zodat er geld met advertenties verdiend kan worden. Google zou veel moeite hebben om het onderscheid tussen 'echte' sites en de door de computer gegenereerde junksites te maken, waardoor de index van Google naar schatting tussen de 20 en 33 procent spamrommel bevat - en dat percentage zou hand over hand toenemen. Google gaf in het eerste kwartaal 345 miljoen dollar aan nieuwe hardware uit, maar het bedrijf is de slag aan het verliezen: 'Die machines zijn inmiddels allemaal vol', zei Google-topman Eric Schmidt', 'we have a huge machine crisis.' Ondanks de zeer forse investeringen zou er weinig anders opzitten dan meer geld tegen het probleem aan te gooien; één analist verwacht dat Google nog minstens een miljard nodig zal hebben om zijn positie als vergaarbak van het internet te bewaren.

Door René Wichers

Eindredacteur

05-05-2006 • 11:17

70

Submitter: eekhoorn12

Bron: The Register

Reacties (70)

70
69
44
16
4
19
Wijzig sortering
Mja, google begint de laatste tijd inderdaad te sucken...

1. Je krijgt veel te veel nederlandse troep terug, ook al stel je in dat je dat niet wil
2. zoek naar reviews van een willekeurig product: je krijgt alleen maar zooi terug over waar je het spul kunt kopen (spam dus..)
3. zo kan ik nog wel even door gaan...
Anoniem: 174149 @voodooless5 mei 2006 13:19
1. Dit is omdat hij er van uit gaat dat je toch een lichte voorkeur hebt voor sites die met Nederland te maken hebben (dat die dus voor jou relevanter zijn). Je bedoelt waarschijnlijk dat je "het Internet" hebt geselecteerd ipv bijvoorbeeld "pagina's in het nederlands" en "pagina's uit nederland". Dit zijn filters. Het bepaalt dus wat je te zien gaat krijgen, niet de volgorde waarin ze verschijnen. Dat wordt eerder bepaald door jouw land van afkomst. Als je geen voorkeur voor Nederlandse sites wilt, moet je http://www.google.com gebruiken, in plaats van .nl (er staat onder aan de google pagina een link "google.com in english". Deze zet een cookie op je PC dat jij voortaan de engelse versie van google wilt gebruiken ipv standaard de Nederlandse)

2. Dit punt is een twijfelgeval inderdaad, of je hier Google verantwoordelijk voor kunt houden. Aan de ene kant kan je zeggen: "Hij returnt de meest populaire sites waarop de woorden die jij zocht staan. bv, logitech mx510 review" en dit zijn toevallig sites die de producten te koop aanbieden en ook een 'review' afdeling op hun pagina hebben.
Aan de andere kant kun je natuurlijk ook zeggen dat Google je intentie had moeten snappen, en aan de hand daarvan had moeten kijken (bv met behulp van hoe mensen linken naar pagina's) of ze met een site te maken hadden die reviews heeft als hoofddoel, of een verkoop site die daarbij nog reviews doet.

Enfin,
Ik denk dat het wel een beetje meevalt met hoe hard Google 'begint te sucken', maar het kan natuurlijk altijd beter ;-)
Als je geen voorkeur voor Nederlandse sites wilt, moet je http://www.google.com gebruiken, in plaats van .nl (er staat onder aan de google pagina een link "google.com in english". Deze zet een cookie op je PC dat jij voortaan de engelse versie van google wilt gebruiken ipv standaard de Nederlandse)
Dat helpt niet hoor :'( heb al veel zitten kloten, maar het levert niks op...
mwah punt 2 ben ik het niet helemaal mee eens.. heel veel verkoop sites bieden een review optie.. of linken naar reviews.. als jij dan zoekt op product+review kom je gewoon op die sites uit.. dat is niet google z'n schuld, moet jij je search maar beter definen (en voor reviews zowiezo bij de bekendere hardware sites zoeken ipv op google)
Al die shit is echt waardeloos! De echte review sites duiken altijd pas paginas verder op. Tuurlijk is er een "oplossing": voeg [/i]-prices[i] toe aan je search. Scheelt al een berg, maar echt netjes is het niet.
Huh? Omgekeerde wereld ofzo? Als ik op zoek ben naar product+reviews dan wil ik reviews krijgen. Dat google's algoritme niet slim genoeg is om dat te begrijpen is hun probleem.

Je kan technische problemen wel op de gebruiker afschuiven, maar het is en blijft een technisch probleem, waar Google een antwoord op moet vinden, want de gebruiker zal dat in ieder geval niet doen. Behalve overschakelen op een zoekmachine die WEL linkt naar de goede reviews als ik intyp "product+reviews".
Nee zo werkt het niet. "Product+review" kan ook inhouden dat jij alleen producten wilt zien waar een review aan gelinkt is op die sites.

De zoekmachine draait wat jij vraagt. Dus als je je vraag te algemeen stelt krijg je ook erg veel hits. Dus moet je je vraag beter stellen. Mensen vergeten vaak dat op een willekeurige vraag erg veel verschillende typen antwoorden mogelijk zijn en nemen maar aan dat aan wie/wat de vraag gesteld wordt wel kan ruiken welk type antwoord de vragensteller verwacht... Dat is natuurlijk onmogelijk in te vullen door een zoekmachine.
Nee zo werkt het niet. "Product+review" kan ook inhouden dat jij alleen producten wilt zien waar een review aan gelinkt is op die sites.
Nee, zo werkt dat niet ;) Ik wil wat ik tiep, een review van een product... niet meer niet minder. geen links. geen prijzen.. een gewoon een review!
Anoniem: 132626 @Bezulba5 mei 2006 11:53
Klopt dan kom je aan bij sites als Kelkoo en Vergelijk.nl. Of je dan uiteindelijk een goed product in huis haalt of hetgeen waar het meest provisie op te behalen valt is de vraag.
Ge hebt wel gelijk hoor, ondervind hier ook last van, maar iets zegt me dat yahoo en msn-search er even hard last van hebben :s.
Je krijgt veel te veel nederlandse troep terug, ook al stel je in dat je dat niet wil
Dit is mij ook al opgevallen de laatste tijd. Maar toch blijf ik Google gebruiken omdat ik toch steeds vind wat ik zoek. Na uch jaar Google gebruik weet je zo langzamerhand wel welke keyword combinaties je moet gebruiken om de beste resultaten te vinden...
Dat van die Nederlandse resultaten viel me ook al op ja, en soms heb ik het gevoel dat die minder relevant zijn maar alleen bovenaan staan omdat ik google gebruik vanuit nederland.
Google is zo groot en veelgebruikt, ik neem aan dat ze dan de 10.000 meest gebruikte zoekwoorden(combinaties) wel met de hand kunnen corrigeren?
Dat lijkt me best rendabel en zo pak je de grootste missers van die nieuwe webcrawlers aan.
Ik zie het aandeel Google hard kelderen vanmiddag.....
Ik niet. Het bericht is al een dag oud en de koers is alleen maar gestegen.
Des te meer reden om voor het te laat is uit de zeepbel te stappen
Anoniem: 145352 5 mei 2006 11:22
Oei, 345 miljoen geïnvesteerd en dan alsnog door SPAM in de wielen gereden worden. Als je dan ook nog een miljard extra moet inleggen, dan vinden investeerders dit geen prettige berichtgeving.

Laat staan de gebruiker die verkeerde hits (naar SPAM sites) voorgeschoteld krijgt, met mogelijk een afname in populariteit en daardoor advertentieopbrengsten.

Al met al een pijnlijk bericht voor Google. :'(
tja het is geen good bericht voor google maar zouden de andere niet met het zelvde probleem kampen ?
Anoniem: 132626 @player-x5 mei 2006 11:47
Uiteraard hebben ook MSN en Yahoo te kampen met dit probleem, maar Google als marktleider het meest. Daarom is het verstandig van Google dat ze (net als de concurrentie) hard bezig zijn geweest aan het ontwikkelen van neven activiteiten.

Waarschijnlijk gaan de SEO spammers het winnen aangezien de sites steeds meer op echte resultaten gaan lijken. Technieken die op dit moment door zoekmachines gebruikt worden kunnen daar helaas niet tegen op.

Toch denk ik dat er mogelijkheden zijn voor de toekomst, bijvoorbeeld een systeem waarbij gebruikers een rol spelen.
Google is juist zo een sterke zoekmachine doordat ze al heel lang een aparte manier van indexeren gebruiken.

Een normale zoekmachine kijkt of een woord op een pagina voorkomt. hoe vaker het gezochte woord op een pagina staat hoe hoger die pagina in de index komt.

Google kijkt daarnaast ook naar andere sites. als bijvoorbeeld 100 andere sites/paginas met het woord tweakers erop linken naar tweakers.net komt tweakers.net hoger uit in de index dan bijvoorbeeld een pagina met 1000x het woord tweakers erop maar waar geen enkele andere site naar linkt.

Verder kijkt google ook naar het surfgedrag van zijn bezoekers. Als er 100 keer gezocht word op tweakers en er wordt 80x als eerst op de 5e link in het resultaat gedrukt zal die link ook een hogere index krijgen.

Door al die trukjes kon google meestal een behoorlijk resultaat genereren.

Nu zijn er een aantal buro's die voor geld wel willen proberen om jouw website hoger in de index te krijgen.
Dit doen ze door een paar honderd bogus sites op te zetten met een link naar jouw site.

In het begin deden ze dat vaak met allemaal dezelfde sites op verschillende domeinnamen. toen google daarachter kwam beloonde ze dat soort sites met een negatieve indexering.

Nu beginnen die zelfde bedrijfjes dus met het automatisch genereren van onzin site met links. Doordat elke site verschillende text bevat (op een paar goed gekozen keywoorden na) wordt het bijna onmogenlijk voor de zoekrobot om dit soort onzin te herkennen.

google heeft er dus meer last van omdat ze nu weer dezelfde onzin gaan tonen die yahoo altijd al gaf :P
Als je kijkt naar Wikipedia. Daar geven gebruikers de invulling en zelfs als er rotte appels tussen zitten, dan komt het over het algemeen wel goed, door de grote sociale controle die er heerst.

Voor Google zou dat ook kunnen worden gebruikt.
Een hoop mensen gebruiken de Google Toolbar.
Als je op zo'n site uitkomt, zou je dus als gebruiker een stem kunnen uitbrengen op die site.
Door nu de tegenstemmers iets zwaarder te laten wegen, zou je volgens mij uit de problemen moeten kunnen komen.

De echt populaire sites zullen namelijk mogelijk door de spammerts worden belaagd met tegenstemmen, maar het aantal welwillende gebruikers is aanzienlijk groter dan het aantal spammers (ik noem ze maar even spammers, ook al sturen ze geen spammail, maar vervuilen ze het internet wel).
Zodoende krijg je dus op de irritante sites veel tegenstemmen van een hoop verschillende adressen en op de niet-spam-sites tegenstemmen van relatief weinig adressen en/of via een virus.
De enkele site waarbij de gebruiker echt blij is dat 'ie de site heeft kunnen vinden, zal ook een afwijkend stemgedrag vertonen.

Op die manier zou Google het dus weer een tijdje van de spammers kunnen winnen.
Marcel V.G. ik denk wel dat andere zoekmachines ook geëvolueerd zijn, de tijd dat het lompe systemen waren die enkel maar naar keywords zochten is al lang voorbij.
@TD-er: Stemmen via de toolbar ?

Mmm, dat klinkt mooi, maar dan gaat ook het fenomeen Bashing een rol spelen. Hoe hoog denk jij dat b.v. de site van Microsoft (een groot slachtoffer van bashing) in de lijst blijft staan na alle bash-kliks ?

Een ander probleem is dat ook robotjes op een knopje in de google toolbaar kunnnen klikken...
Er is al reactie geweest op dit artikel van de the inquirer waarbij blijkt dat de woorden van de google-topman volledig uit context zijn gerukt, artikel is dus vrij waardeloos (zo zijn er wel meer bij the inquirer, maar nu t.net overgenomen is door dezelfde mensen mogen wat dat mss niet meer zeggen ;))
Oordeel zelf maar: http://www.iht.com/articles/2006/04/21/business/GOOGLE.php

Of is de International Herald Tribune ook niet goed genoeg voor je?
Yep zeker, als jij nu ook nog het volledige artikel leest in die context daar en niet zoals de man van the inquirer het interpreteert komt het helemaal goed :)
Dat heb ik uiteraard gedaan, en het bovenstaande artikel vermeldt niet meer en niet minder dan dat Google een capaciteitsprobleem heeft. De gedane investeringen helpen niet tegen de toegenomen spamsites, omdat Google dat capaciteitsprobleem heeft.

Mag jij me uitleggen wat ik uit de context heb 'gerukt'.
Anoniem: 175262 5 mei 2006 12:06
Inderdaad: Google kan best wat handarbeid verrichten om bijv de 100.000 meeste spamsites te bannen.

Maar denk je van dit idee. Een Google-spam-scoresysteem:

Google moet naast elke link een (SPAM) button neerzetten.
> Gebruikers controle, bespaart Google tijd en weet je zeker dat ook alles gefilterd wordt wat nodig

is (want daar komen de gebruikers!!!)
> Google checkt continue de top zoveel van de spam-score-lijst en bant ze.
> Misbruik? Erg kleine kans (IP check etc). Meer spamsites dan echte goede site. Kan alleen maar

beter. Als Google handmatig die scorelijst checkt, moet het goed gaan!

8-) :7
dan huur ik een programmeur ofzo in die automatisch op de spam knop van mijn concurent gaat klikken, et voila: ik sta bovenaan de search results.
Dan zouden ze beter de IP adressen bijhouden waarvan al is gestemd. Kost ze alleen bergen ruimte.
Ik denk dat je het beter met Gmail accounts aan kan pakken, als Gmail gebruiker kun je 1x stemmen op een bepaalde zoeklink, dan krijg je al geen dubbleclicks.
Ze moeten een nieuwe versie van Google toolbar uitbrengen die rotzooipagina's markeerd. Misschien wel meerdere buttons om aan te geven wat er mis is.
Ik zie wel wat in een "Niet wat ik wil" button. Als je die buton klikt, krijg je het volgende resultaat. Dit is niet zo resoluut en sluit aan bij het gedrag van de gebruiker. Bij 1000-10000 kliks ofzo is t spam...
Anoniem: 132626 @darkfader5 mei 2006 13:39
Leuk tooltje voor weblogs als Geenstijl }:O
DAT is juist het probleem! Google kan de slechte sites (spam) niet meer van de goede sites onderscheiden. Als ze zouden weten wat rotzooi is, dan zouden ze dat natuurlijk nooit laten zien, hè.
Inderdaad: Google kan best wat handarbeid verrichten om bijv de 100.000 meeste spamsites te bannen.
Zelfs je grootste vijand wens niet je zo'n klote baan toe.. toch? ;(
en wat staat bovenaan de google.com zoekresultaten ?
''New! Google finds the search results most relevant to you, based on your search history.''

en als we dan de link volgen:
http://www.google.com/sup...wer.py?answer=26651&hl=en

is dat dan gewoon een zoethoudertje ?
of een verkapte oplossing?
Het werkt toch gewoon, volg de sign up for this service link en meld je aan bij Google.
Beetje apart dat dit kan gebeuren na het in gebruik nemen van nieuwe software. Kunnen ze dan niet beter terug vallen op de oudere en deze enkel uittesten en bijwerken totdat het wel goed werkt? Op deze manier kan Google namelijk heel veel markt verliezen.
Ik denk zelf dat die nieuwe software strenger is op search engine spam websites, maar daardoor het onderscheid tussen spam en legitieme sites niet goed meer kan zien. Dat is het grootste probleem denk ik.
Je kan tegenwoordig ook sitemaps aanleveren. Deze maak je op een paar minuten met bv. GSiteCrawler. Zo gaat Google je site veel beter indexeren 8-)
Dat is niet helemaal waar, Google gebruikt het als een _hulpmiddel_ om een beter beeld te krijgen van je site. Maar het is absoluut niet de manier om je site opeens gespiderd te krijgen ;)
Helaas is nog nooit gebleken, dat zo'n sitemap werkelijk helpt. Alleen als bepaalde links onbereikbaar zijn vanaf de homepage (zoals javascript- of flashlinks), heeft het zin.
2,5 jaar geleden heeft google al een soortgelijk probleem gehad, nog niet van de fouten geleerd?

http://www.theregister.co...gle_bug_blocks_thousands/
Ja, maar in die tijd is de hoeveelheid geindexeerde data (of nog-te-indexeren data) bij Google niet rechtlijnig maar exponentieel' omhoog gegaan. Hun computer capaciteit is die lijn gaan volgen en niet vooruit aan het streven, dat is hun misser.

edit: ja bedoelde exponentieel (onvoldoende koffie is de oorzaak).
Overigens wel grappig dat dit 'grappig' is gemod, het was vrij serieus en volgens mij erg waarheidsgetrouw aan de ontwikkelingen.
Parabolisch ja. Ik denk dat je exponentioneel bedoelt :>
Anoniem: 38034 @TheLunatic5 mei 2006 15:34
Omdat je geen exacte cijfers hebt is parabolisch waarschijnlijk symbolisch bedoeld, en in dat geval zijn exponentioneel en parabolisch allebei goed, al had hij dan beter kwadratisch kunnen gebruiken.

Op dit item kan niet meer gereageerd worden.