Hoofdcategorieën
Device Settings

Google kampt met indexeringsproblemen

Door René Wichers, vrijdag 5 mei 2006 11:17
Bron: The Register, submitter: eekhoorn12, views: 29.066

Google heeft forse problemen met het indexeren van websites, bericht The Register. Nadat het bedrijf in januari nieuwe webcrawlers in gebruik nam, groeide het aantal klachten over de zoekresultaten aanmerkelijk: sommige websites worden wekenlang niet bezocht, en gecachete pagina's worden niet meer bijgewerkt. 'Er zijn sites die 99 procent van hun pagina's niet meer kunnen terugvinden', aldus een post op Webmaster World. Een andere post meldt dat 'Google over een jaar, als het zo doorgaat, alleen nog maar eBay-veilingen en Amazon-advertenties laat zien.'

Opgeblazen Google-logo De problemen zouden voornamelijk veroorzaakt worden door de snelle toename van spamsites, die een zo hoog mogelijke SERP nastreven, zodat er geld met advertenties verdiend kan worden. Google zou veel moeite hebben om het onderscheid tussen 'echte' sites en de door de computer gegenereerde junksites te maken, waardoor de index van Google naar schatting tussen de 20 en 33 procent spamrommel bevat - en dat percentage zou hand over hand toenemen. Google gaf in het eerste kwartaal 345 miljoen dollar aan nieuwe hardware uit, maar het bedrijf is de slag aan het verliezen: 'Die machines zijn inmiddels allemaal vol', zei Google-topman Eric Schmidt', 'we have a huge machine crisis.' Ondanks de zeer forse investeringen zou er weinig anders opzitten dan meer geld tegen het probleem aan te gooien; één analist verwacht dat Google nog minstens een miljard nodig zal hebben om zijn positie als vergaarbak van het internet te bewaren.

Volgende 12:00 Xs4all wil meer controle op aftappen internetverkeer
Vorige 10:24 'Koeling met kokend water mogelijk'
Advertentie

Reacties

«  1  2  3  »

heb je daar net 4 GB aan data..
krijg je "lost files"

Lekker.

Ik zie het aandeel Google hard kelderen vanmiddag.....

Ik niet. Het bericht is al een dag oud en de koers is alleen maar gestegen.

Des te meer reden om voor het te laat is uit de zeepbel te stappen

Oei, 345 miljoen geïnvesteerd en dan alsnog door SPAM in de wielen gereden worden. Als je dan ook nog een miljard extra moet inleggen, dan vinden investeerders dit geen prettige berichtgeving.

Laat staan de gebruiker die verkeerde hits (naar SPAM sites) voorgeschoteld krijgt, met mogelijk een afname in populariteit en daardoor advertentieopbrengsten.

Al met al een pijnlijk bericht voor Google. :'(

tja het is geen good bericht voor google maar zouden de andere niet met het zelvde probleem kampen ?

Uiteraard hebben ook MSN en Yahoo te kampen met dit probleem, maar Google als marktleider het meest. Daarom is het verstandig van Google dat ze (net als de concurrentie) hard bezig zijn geweest aan het ontwikkelen van neven activiteiten.

Waarschijnlijk gaan de SEO spammers het winnen aangezien de sites steeds meer op echte resultaten gaan lijken. Technieken die op dit moment door zoekmachines gebruikt worden kunnen daar helaas niet tegen op.

Toch denk ik dat er mogelijkheden zijn voor de toekomst, bijvoorbeeld een systeem waarbij gebruikers een rol spelen.

Google is juist zo een sterke zoekmachine doordat ze al heel lang een aparte manier van indexeren gebruiken.

Een normale zoekmachine kijkt of een woord op een pagina voorkomt. hoe vaker het gezochte woord op een pagina staat hoe hoger die pagina in de index komt.

Google kijkt daarnaast ook naar andere sites. als bijvoorbeeld 100 andere sites/paginas met het woord tweakers erop linken naar tweakers.net komt tweakers.net hoger uit in de index dan bijvoorbeeld een pagina met 1000x het woord tweakers erop maar waar geen enkele andere site naar linkt.

Verder kijkt google ook naar het surfgedrag van zijn bezoekers. Als er 100 keer gezocht word op tweakers en er wordt 80x als eerst op de 5e link in het resultaat gedrukt zal die link ook een hogere index krijgen.

Door al die trukjes kon google meestal een behoorlijk resultaat genereren.

Nu zijn er een aantal buro's die voor geld wel willen proberen om jouw website hoger in de index te krijgen.
Dit doen ze door een paar honderd bogus sites op te zetten met een link naar jouw site.

In het begin deden ze dat vaak met allemaal dezelfde sites op verschillende domeinnamen. toen google daarachter kwam beloonde ze dat soort sites met een negatieve indexering.

Nu beginnen die zelfde bedrijfjes dus met het automatisch genereren van onzin site met links. Doordat elke site verschillende text bevat (op een paar goed gekozen keywoorden na) wordt het bijna onmogenlijk voor de zoekrobot om dit soort onzin te herkennen.

google heeft er dus meer last van omdat ze nu weer dezelfde onzin gaan tonen die yahoo altijd al gaf :P

Als je kijkt naar Wikipedia. Daar geven gebruikers de invulling en zelfs als er rotte appels tussen zitten, dan komt het over het algemeen wel goed, door de grote sociale controle die er heerst.

Voor Google zou dat ook kunnen worden gebruikt.
Een hoop mensen gebruiken de Google Toolbar.
Als je op zo'n site uitkomt, zou je dus als gebruiker een stem kunnen uitbrengen op die site.
Door nu de tegenstemmers iets zwaarder te laten wegen, zou je volgens mij uit de problemen moeten kunnen komen.

De echt populaire sites zullen namelijk mogelijk door de spammerts worden belaagd met tegenstemmen, maar het aantal welwillende gebruikers is aanzienlijk groter dan het aantal spammers (ik noem ze maar even spammers, ook al sturen ze geen spammail, maar vervuilen ze het internet wel).
Zodoende krijg je dus op de irritante sites veel tegenstemmen van een hoop verschillende adressen en op de niet-spam-sites tegenstemmen van relatief weinig adressen en/of via een virus.
De enkele site waarbij de gebruiker echt blij is dat 'ie de site heeft kunnen vinden, zal ook een afwijkend stemgedrag vertonen.

Op die manier zou Google het dus weer een tijdje van de spammers kunnen winnen.

Marcel V.G. ik denk wel dat andere zoekmachines ook geëvolueerd zijn, de tijd dat het lompe systemen waren die enkel maar naar keywords zochten is al lang voorbij.

@TD-er: Stemmen via de toolbar ?

Mmm, dat klinkt mooi, maar dan gaat ook het fenomeen Bashing een rol spelen. Hoe hoog denk jij dat b.v. de site van Microsoft (een groot slachtoffer van bashing) in de lijst blijft staan na alle bash-kliks ?

Een ander probleem is dat ook robotjes op een knopje in de google toolbaar kunnnen klikken...

en wat staat bovenaan de google.com zoekresultaten ?
''New! Google finds the search results most relevant to you, based on your search history.''

en als we dan de link volgen:
http://www.google.com/sup...wer.py?answer=26651&hl=en

is dat dan gewoon een zoethoudertje ?
of een verkapte oplossing?

Het werkt toch gewoon, volg de sign up for this service link en meld je aan bij Google.

Beetje apart dat dit kan gebeuren na het in gebruik nemen van nieuwe software. Kunnen ze dan niet beter terug vallen op de oudere en deze enkel uittesten en bijwerken totdat het wel goed werkt? Op deze manier kan Google namelijk heel veel markt verliezen.

Ik denk zelf dat die nieuwe software strenger is op search engine spam websites, maar daardoor het onderscheid tussen spam en legitieme sites niet goed meer kan zien. Dat is het grootste probleem denk ik.

Maar goed het probleem van SPAM in de zoekresultaten heeft natuurlijk leke zoekmachine last van. Dat Google er zoveel last van heeft betekend alleen maar dat zij er echt wat aan doen dus het een competetive advantage heeft. Kwaliteit kost geld ...

Er is al reactie geweest op dit artikel van de the inquirer waarbij blijkt dat de woorden van de google-topman volledig uit context zijn gerukt, artikel is dus vrij waardeloos (zo zijn er wel meer bij the inquirer, maar nu t.net overgenomen is door dezelfde mensen mogen wat dat mss niet meer zeggen ;))

Oordeel zelf maar: http://www.iht.com/articles/2006/04/21/business/GOOGLE.php

Of is de International Herald Tribune ook niet goed genoeg voor je?

Yep zeker, als jij nu ook nog het volledige artikel leest in die context daar en niet zoals de man van the inquirer het interpreteert komt het helemaal goed :)

Dat heb ik uiteraard gedaan, en het bovenstaande artikel vermeldt niet meer en niet minder dan dat Google een capaciteitsprobleem heeft. De gedane investeringen helpen niet tegen de toegenomen spamsites, omdat Google dat capaciteitsprobleem heeft.

Mag jij me uitleggen wat ik uit de context heb 'gerukt'.

spam sites met reclame, uh was het nu ook weer niet google die met reclame banners via spam sites ook geld aan het verdienen is.

Lijkt een beetje dat ze zelf een rondje aan het lopen zijn. Hoe groter dat ze worden hoe meer spamsite hoe meer advertentieinkomsten tot je het punt bereikt zoals nu een beetje dat mensen ontevreden worden over je zoekresultaten.

Google is zo groot en veelgebruikt, ik neem aan dat ze dan de 10.000 meest gebruikte zoekwoorden(combinaties) wel met de hand kunnen corrigeren?
Dat lijkt me best rendabel en zo pak je de grootste missers van die nieuwe webcrawlers aan.

Mja, google begint de laatste tijd inderdaad te sucken...

1. Je krijgt veel te veel nederlandse troep terug, ook al stel je in dat je dat niet wil
2. zoek naar reviews van een willekeurig product: je krijgt alleen maar zooi terug over waar je het spul kunt kopen (spam dus..)
3. zo kan ik nog wel even door gaan...

mwah punt 2 ben ik het niet helemaal mee eens.. heel veel verkoop sites bieden een review optie.. of linken naar reviews.. als jij dan zoekt op product+review kom je gewoon op die sites uit.. dat is niet google z'n schuld, moet jij je search maar beter definen (en voor reviews zowiezo bij de bekendere hardware sites zoeken ipv op google)

Klopt dan kom je aan bij sites als Kelkoo en Vergelijk.nl. Of je dan uiteindelijk een goed product in huis haalt of hetgeen waar het meest provisie op te behalen valt is de vraag.

Al die shit is echt waardeloos! De echte review sites duiken altijd pas paginas verder op. Tuurlijk is er een "oplossing": voeg [/i]-prices[i] toe aan je search. Scheelt al een berg, maar echt netjes is het niet.

Huh? Omgekeerde wereld ofzo? Als ik op zoek ben naar product+reviews dan wil ik reviews krijgen. Dat google's algoritme niet slim genoeg is om dat te begrijpen is hun probleem.

Je kan technische problemen wel op de gebruiker afschuiven, maar het is en blijft een technisch probleem, waar Google een antwoord op moet vinden, want de gebruiker zal dat in ieder geval niet doen. Behalve overschakelen op een zoekmachine die WEL linkt naar de goede reviews als ik intyp "product+reviews".

Nee zo werkt het niet. "Product+review" kan ook inhouden dat jij alleen producten wilt zien waar een review aan gelinkt is op die sites.

De zoekmachine draait wat jij vraagt. Dus als je je vraag te algemeen stelt krijg je ook erg veel hits. Dus moet je je vraag beter stellen. Mensen vergeten vaak dat op een willekeurige vraag erg veel verschillende typen antwoorden mogelijk zijn en nemen maar aan dat aan wie/wat de vraag gesteld wordt wel kan ruiken welk type antwoord de vragensteller verwacht... Dat is natuurlijk onmogelijk in te vullen door een zoekmachine.

Nee zo werkt het niet. "Product+review" kan ook inhouden dat jij alleen producten wilt zien waar een review aan gelinkt is op die sites.
Nee, zo werkt dat niet ;) Ik wil wat ik tiep, een review van een product... niet meer niet minder. geen links. geen prijzen.. een gewoon een review!

Ge hebt wel gelijk hoor, ondervind hier ook last van, maar iets zegt me dat yahoo en msn-search er even hard last van hebben :s.

Je krijgt veel te veel nederlandse troep terug, ook al stel je in dat je dat niet wil
Dit is mij ook al opgevallen de laatste tijd. Maar toch blijf ik Google gebruiken omdat ik toch steeds vind wat ik zoek. Na uch jaar Google gebruik weet je zo langzamerhand wel welke keyword combinaties je moet gebruiken om de beste resultaten te vinden...

Dat van die Nederlandse resultaten viel me ook al op ja, en soms heb ik het gevoel dat die minder relevant zijn maar alleen bovenaan staan omdat ik google gebruik vanuit nederland.

1. Dit is omdat hij er van uit gaat dat je toch een lichte voorkeur hebt voor sites die met Nederland te maken hebben (dat die dus voor jou relevanter zijn). Je bedoelt waarschijnlijk dat je "het Internet" hebt geselecteerd ipv bijvoorbeeld "pagina's in het nederlands" en "pagina's uit nederland". Dit zijn filters. Het bepaalt dus wat je te zien gaat krijgen, niet de volgorde waarin ze verschijnen. Dat wordt eerder bepaald door jouw land van afkomst. Als je geen voorkeur voor Nederlandse sites wilt, moet je http://www.google.com gebruiken, in plaats van .nl (er staat onder aan de google pagina een link "google.com in english". Deze zet een cookie op je PC dat jij voortaan de engelse versie van google wilt gebruiken ipv standaard de Nederlandse)

2. Dit punt is een twijfelgeval inderdaad, of je hier Google verantwoordelijk voor kunt houden. Aan de ene kant kan je zeggen: "Hij returnt de meest populaire sites waarop de woorden die jij zocht staan. bv, logitech mx510 review" en dit zijn toevallig sites die de producten te koop aanbieden en ook een 'review' afdeling op hun pagina hebben.
Aan de andere kant kun je natuurlijk ook zeggen dat Google je intentie had moeten snappen, en aan de hand daarvan had moeten kijken (bv met behulp van hoe mensen linken naar pagina's) of ze met een site te maken hadden die reviews heeft als hoofddoel, of een verkoop site die daarbij nog reviews doet.

Enfin,
Ik denk dat het wel een beetje meevalt met hoe hard Google 'begint te sucken', maar het kan natuurlijk altijd beter ;-)

Als je geen voorkeur voor Nederlandse sites wilt, moet je http://www.google.com gebruiken, in plaats van .nl (er staat onder aan de google pagina een link "google.com in english". Deze zet een cookie op je PC dat jij voortaan de engelse versie van google wilt gebruiken ipv standaard de Nederlandse)
Dat helpt niet hoor :'( heb al veel zitten kloten, maar het levert niks op...
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 12:00 Xs4all wil meer controle op aftappen internetverkeer
Vorige 10:24 'Koeling met kokend water mogelijk'
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011