Kijkje in de keuken van Google's query-optimizerafdeling

Google lanceert de ene dienst na de andere, maar is groot geworden met zijn zoekmachine. En het stelt alles op alles om de eerste en de beste te blijven. The New York Times nam een kijkje in de keuken.

Google kantoren Ondanks de vaak doeltreffende zoekresultaten, heeft Google het niet altijd bij het rechte eind. Om de zoekmachine zoveel mogelijk juiste resultaten uit te laten spuwen, wordt achter de schermen door een team ontwikkelaars continu nagedacht over betere algoritmes en, wanneer nodig, gesleuteld aan het achterliggende mechanisme. Een van hen is Amit Singhal, werkzaam voor de afdeling 'zoekkwaliteit' en de baas over het 'ranking algorithm'. Dit algoritme - door velen beschouwd als Google's kroonjuweel - moet bepalen wat het beste antwoord is op de vraag van de gebruiker.

Hoewel Google groot is geworden door zijn PageRank-systeem, wordt elke webpagina tegenwoordig aan de hand van meer dan tweehonderd verschillende criteria beoordeeld. Steeds belangrijker daarbij is de database met ingegeven zoekopdrachten van de gebruikers. Google slaagt er volgens Singhal in toenemende mate in om uit deze enorme berg aan informatie nieuwe patronen te filteren, waarmee de resultaten zijn te verbeteren. Door gebruik te maken van individuele karakteristieken, kan bijvoorbeeld een ingelogde gebruiker van Gmail potentieel betere resultaten verwachten, mede omdat zijn zoekhistorie bekend is. Daarnaast werkt het team van Singhal aan algoritmes die actuele onderwerpen op blogs en andere webpagina's herkennen en laat meewegen in de zoekresultaten.

De kwaliteitsbewaking van Google en het continu sleutelen aan de zoekmechanismes zijn van levensbelang voor de zoekgigant. Indien een gebruiker na het ingeven van een vraag niet direct de goede antwoorden krijgt, loopt het bedrijf de kans dat hij wegloopt naar de concurrentie, misschien wel voorgoed. Een inmiddels bekende methode om de gebruiker toch vast te houden, is de suggestie die verschijnt na verkeerd of incomplete zoektermen. Hoewel Google logischerwijs zijn geheimen ook tegenover The New York Times goed bewaakt, blijkt uit het artikel van de krant dat het bedrijf zichzelf continu moet uitdagen om scherp te blijven, wetende dat het elke dag ingehaald kan worden door een onderneming die inventiever is. Het is Google immers op identieke manier gelukt om de top te behalen.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Dimitri Reijerman

Redacteur

Feedback • 05-06-2007 17:26
45 • submitter: oscardt

05-06-2007 • 17:26

Submitter: oscardt

Bron: The New York Times

Lees meer

Opensource-zoekmachine Wikia van start gegaan Nieuws van 7 januari 2008

Google verlaagt PageRank van groot aantal websites Nieuws van 25 oktober 2007

Wikia-zoekmachine in stroomversnelling na overname webcrawler Nieuws van 28 juli 2007

Ask.com presenteert anonieme zoekmachine Nieuws van 21 juli 2007

Google breidt online vertaaldiensten uit met woordenboek Nieuws van 23 juni 2007

'Topresultaten zoekmachines steeds verder uiteen' Nieuws van 18 juni 2007

Google integreert zoekresultaten Nieuws van 18 mei 2007

Google loopt vooruit op dataopslagwetgeving Nieuws van 16 mei 2007

Google stort zich op wireless-markt Nieuws van 3 mei 2007

Google's persoonlijke zoekdienst heet voortaan iGoogle Nieuws van 1 mei 2007

Google presenteert Mac-versie Google Desktop Nieuws van 4 april 2007

Google bevestigt aankoop gameadverteerder AdScape Nieuws van 19 maart 2007

Google komt met patentenzoekmachine Nieuws van 14 december 2006

Google legt 'Answers'-dienst stil Nieuws van 29 november 2006

Meer producten en artikelen

Internettoegang Google Zoekmachines

IT-banen

Meer vacatures

Reacties (45)

-Moderatie-faq

Wijzig sortering

EfBe 5 juni 2007 18:31

Nou, er mag nog wel wat aan verbeterd worden. Wat voornamelijk op gaat spelen is de semantische waarde van de zoekterm en de geboden resultaten en dat die eigenlijk niet in verhouding staan.

Bv. als je intikt bij Google 'Frans' (mijn voornaam) staat mijn blog op no 2. van de results. Mij hoor je niet klagen

, maar het rare is dat ik natuurlijk lang niet zo bekend ben als andere naamgenoten (ik ken een zekere olijke zanger uit het zuiden des lands, het is mn muziek niet, maar die is bekender dan ik), en dus is het voor de hand liggend dat men juist naar DIE mensen op zoek is ipv naar yours truly.

Ik denk dat de volgende stap in zoekengine technologie ervoor moet gaan zorgen dat de results wel in verhouding staan tot wat men zoekt, dus wanneer men op 'Eric' zoekt, dat je dan niet Eric Sink's weblog boven de officiele Eric Clapton's site ziet staan, want ookal is Sink een beste kerel, meneer Clapton is veel bekender, en dus is het veel waarschijnlijker dat men DIE link zou willen en niet Sink's weblog.

DaMayan @EfBe • 5 juni 2007 18:41

Bv. als je intikt bij Google 'Frans' (mijn voornaam) staat mijn blog op no 2. van de results.

Ooit gedacht dat dat alleen voor jouw is door jouw history te analyseren?
Ik krijg een digischool voor frans op 2, behalve als die van jouw is en je dat als je blog beschouwt krijg ik dus andere resultaten.

Werkt meestal goed maar soms wil je juist een "eerlijker" of algemene search doen en niet alleen relevante informatie, geleerd van jouw history, zien. Al die nederlandse sites vind ik soms irritant bij een engelse zoekterm bijvoorbeeld. Ook voor bedrijven die hun ranking willen zien en denken dat ze veel hoger staan dan dat ze in werkelijkheid staan.

g4wx3 @DaMayan • 5 juni 2007 20:09

als je dus niet gepersonaliseerd wilt zoeken, gebruik je dus scroogle.org/. deze werkt op google, maar stuurt geen enkele persoons-info door

edt: scroogle.com is ook niet mis...

[Reactie gewijzigd door g4wx3 op 23 juli 2024 03:40]

Verwijderd @EfBe • 5 juni 2007 18:49

@Efbe

Volgens mij heb je het niet begrepen: je krijgt gepersonaliseerde zoekresultaten.

Jij bezoekt vaak jouw blog en dat van Eric Sink. Daarom staan ze hoog.

Als ik zoek op 'Frans' en 'Eric' staan bovengenoemde sites waarschijnlijk niet in de top 1000.

graey @Verwijderd • 5 juni 2007 22:23

Nouja, toen ik op frans zocht (google.com, niet nl) kreeg ik deze als tweede: ttp://weblogs.asp.net/fbouma/, en dat lijkt mij niet die van vriend bauer, en vriend bauer komt niet in de lijst voor...
EDIT: en nee, ik ben nog nooit eerder op dat blog geweest...

[Reactie gewijzigd door graey op 23 juli 2024 03:40]

EfBe @Verwijderd • 5 juni 2007 21:20

hey cool, dat wist ik niet. Verklaard inderdaad waarom ik van die skewed resultaten krijg.

posttoast @EfBe • 5 juni 2007 18:37

Ik ken het adres van je weblog niet, maar als ik zoek naar Frans staat ie er volgens mij niet tussen. Meneer Bauer wel trouwens.

truegrit @posttoast • 5 juni 2007 19:21

als je op google.com post, dus niet .nl, krijg je wel zijn blog. En ik ben daar nog nooit geweest, dus het zal niet veel met gepersonaliseerde zoekresultaten te maken hebben.

http://www.google.com/sea...d=opera&ie=utf-8&oe=utf-8

BikkelZ 5 juni 2007 18:50

Ik baal al een tijdje op Google, heb zelfs op GoT eens een draadje geopend of er niks anders was te vinden. Kijk, vroeger tikte je in av.com (het zit nog steeds in mijn spiergeheugen

) in:

"zoekterm()"

En dan kwam hij dus alleen terug met pagina's waarin het woord "zoekterm()" als "zoekterm()" was geschreven, en niet als "zoekterm" of "zoek term" of bedoelde ik misschien "suck them" of wat ze er ook van maken tegenwoordig. Buitengewoon lastig als je programmeervoorbeelden zoekt van bijvoorbeeld een edit() functie uit een programmeertaal en je zoekmachine weigert te zoeken naar je exacte string.

Helaas is het zo dat av.com en consorten zo veel mogelijk op Google zijn gaan lijken, en ik dus nergens meer de functionaliteit heb die ik in 1998 had. Tja

Sibylle @BikkelZ • 5 juni 2007 19:07

ja, ik herken dit precies.

Zoo ongeloofelijk irritant. Google denkt slim te zijn door de haken, of andere niet veel voorkomende leestekens weg te laten...
Ik zoek geregeld naar termen met deze tekens erin, en ik moet altijd meer moeit doen dan nodig.
Dit is een grove fout vind ik, omdat de optie niet eens uit te zetten is...

BikkelZ @Sibylle • 5 juni 2007 19:40

Nou ik ben blij om te horen dat ik niet de enige ben in ieder geval

Ik denk zelf dat het er ook mee te maken heeft hoe Google websites opslaat in zijn zoekindex. Woorden worden gegroepeerd, meerdere schrijfwijzes zijn mogelijk en allemaal geldig, maar wat er nou EXACT op die pagina staat dat kun je helemaal niet meer in de zoekindex terug vinden.

Die stukjes tekst die je bij de zoekresultaten ziet dat is natuurlijk ook wel opgeslagen door Google, maar dat is niet de tekst waarin gezocht wordt.

Toch vind ik het heel slecht dat Google slechter dan oldschool av.com scoort als zoekmachine voor programmeertalen.....ik hoef jullie denk ik al helemaal niet uit te leggen welke horror je moet ondergaan als je op ASP, JSP of nog erger PHP dingen gaat zoeken met een redelijk schrijftaalachtige term er in......en dat terwijl Google zou moeten weten dat .jsp, .php of .asp echt geen reet te maken heeft met de inhoud.....

[Reactie gewijzigd door BikkelZ op 23 juli 2024 03:40]

oscardt @BikkelZ • 5 juni 2007 22:03

Uit het artikel:

These formulas have grown better at reading the minds of users to interpret a very short query. Are the users looking for a job, a purchase or a fact? The formulas can tell that people who type “apples” are likely to be thinking about fruit, while those who type “Apple” are mulling computers or iPods. They can even compensate for vaguely worded queries or outright mistakes.

“Search over the last few years has moved from ‘Give me what I typed’ to ‘Give me what I want,’ ” says Mr. Singhal, a 39-year-old native of India who joined Google in 2000 and is now a Google Fellow, the designation the company reserves for its elite engineers.

Vooral de 2e alinea vond ik erg interessant, en ja, als je erg specifieke zoekquery's gebruikt wil het met de "nieuwe google techniek" een stuk minder goed dan vroeger.

McRubz @Sibylle • 5 juni 2007 19:41

Het is gedeeltelijk te omzeilen door de zoekterm tussen haakjes te zetten. "Tweede hands" levert andere resultaten op dan "Tweedehands"

EdwinG @BikkelZ • 5 juni 2007 20:34

Als je een stuk code zoekt, geschreven in een specifieke taal, gebruik dan Google codesearch, die is daar juist voor opgezet.

Een leuk alternatief (ondanks de naam geen rip-of, juist veel uitgebreider: Krugle

BikkelZ @EdwinG • 5 juni 2007 21:18

En waarom wist ik dit nog niet? Ik heb toch wel redelijk vaak in de achterkamertje van Google gespit

Wel jammer dat er geen tutorials met die term er in te vinden zijn maar je echt alleen voor rauwe code kunt kiezen.

[Reactie gewijzigd door BikkelZ op 23 juli 2024 03:40]

engibenchi @BikkelZ • 5 juni 2007 19:54

Is een site/tool als http://www.koders.com/ niet iets wat je zoekt.?
Zelf gebruik ik het niet Google voldoet meestal in mijn behoefte, maar het lijkt te doen wat jij mist.

edit typo en kleine aanvulling

[Reactie gewijzigd door engibenchi op 23 juli 2024 03:40]

cxavier @engibenchi • 5 juni 2007 21:59

Met een simpele zoekopdract naar system() in C++ levert een error op over niet geldige tekens

Benedykt @BikkelZ • 5 juni 2007 19:07

Ja dat vind ik eigenlijk ook erg irriterend aan Google..

Waarom hebben ze niet een functie waardoor je echt precies in kunt vullen wat je zoekt, zonder allerlei andere woorden er van te maken?

PanMan 5 juni 2007 22:23

Wat ik wel een mooie analyse vond, die ik ergens las: Links waren (vrijwel) waardeloos, voor de komst van Google (als in dat ze geen waarde vertegenwoordigden). Door Google hebben links een waarde gekregen, omdat ze zorgen dat je hoger in de rankings staat. Als je iets dat gratis te maken is (een link), een waarde geeft (hogere indexering), dan vraag je er om dat er met dat systeem gefraudeerd gaat worden. Daarom gaf Google vroeger betere resultaten: Toen waren er nog niet zo veel technieken om zo hoog mogelijk in Google te eindigen.

cxavier @PanMan • 6 juni 2007 00:02

En het internet was ook nog eens een stuk kleiner, waardoor je gemakkelijker een bepaalde pagina (terug) kon vinden.

TD-er

5 juni 2007 17:38

Wat ik eigenlijk nog mis, naast de optie van "bedoelde u mischien bladiebla", is om een beetje sturing aan het zoekresultaat te kunnen geven.
Sommige zoektermen zijn bijvoorbeeld vaak in een beperkt aantal categorieen onder te verdelen.

Bijvoorbeeld:
'asterisk'
kan zijn over het stripfiguurtje (verkeerde spelling), maar ook over taalkundige zaken zoals * en ook een opensource telefooncentrale.
Dit zou je kunnen aanduiden door bijvoorbeeld een labeltje "literature", "language" of "tech" oid mee te kunnen geven naast het linkje "bedoelde u mischien ..."
Het lijkt me dat je op die manier de gebruiker veel sneller van dienst kunt zijn en aangezien ze toch al de bezoeker profilen zal een volgende zoekopdracht mogelijk ook in diezelfde richting zijn.

[Reactie gewijzigd door TD-er op 23 juli 2024 03:40]

PolarBear @TD-er • 5 juni 2007 17:40

Goed voorbeeld, je achterliggend verhaal klopt.

Alleen, Asterix (stripfiguur) is met een X

Er was volgens mij trouwens wel een zoekmachine die zoekresultaten groepeerde. Bijvoorbeeld WiseNut doet zoiets. Verder heb je inderdaag Clusty.com en Exalead.

[Reactie gewijzigd door PolarBear op 23 juli 2024 03:40]

bartvb

@PolarBear • 5 juni 2007 17:48

Asterisk is iig de Open Source VoIP telefooncentrale

Ik denk dat je Clusty.com bedoeld, deze clustert de zoekresultaten.

Verwijderd @PolarBear • 6 juni 2007 14:42

grappige is dat soundex algoritmes zo ingericht zijn dat ze asteriks, asterisk en asterix allen als hetzelfde resultaat (of zoekvraag) beschouwen.
Het probleem zit 'm ook niet in het vergelijkingsalgoritme, maar in het feit dat iemand handmatig al die "tags" moet toekennen aan het zoekresutlaat. Dat kan (bijna) niet automatisch dus is het een heidense klus. Contextgericht zoeken valt of staat met de kwaliteit van de metadata, ofwel de tags die je definieert alswel de tags die je ergens aan toekent. Dát is de grote uitdaging!

Blaise @TD-er • 5 juni 2007 18:04

Dat doen ze al tot op zekere hoogte, en waarschijnlijk zijn ze er druk mee bezig. Zoek bijvoorbeeld eens op climate, dan zie je onderaan de zoekresultaten al een aantal suggesties:

Searches related to: climate
types of climate climate zones climate regions global warming

[Reactie gewijzigd door Blaise op 23 juli 2024 03:40]

Shuisman @TD-er • 5 juni 2007 23:10

Ooit google suggest gebruikt ?

http://www.google.com/webhp?complete=1&hl=en

Vult je zoek resultaten aan, superhandig

chielsen 5 juni 2007 18:27

Ik denk ook vooral dat als je op een linkt klikt bij een bepaald zoekwoord, deze hoger komt bij dat woord. Dat is iets wat je nooit kan vervalsen dus zal google wel veel waarde aan hechten.

Quakie 5 juni 2007 17:36

Persoonlijk vind ik het juist iets achteruit gaan met Google.
Waar je "vroeger" eigenlijk doodgewoon iets inklopte moet je nu logischer je zoekopdracht defineren.. met andere woorden laat bijv woordje review weg als je niet alle nuteloze pages zoals ciao-shopping, etc. wilt zien.

Verwijderd @Quakie • 5 juni 2007 17:40

Het internet is dan ook een tikkeltje groter geworden tov vroeger

Iets meer mogelijke resultaten en veel sites die bewust proberen misbruik te maken om hoger in de ranking te komen etc. Dat had je vroeger veel minder. M.i. leveren ze nog steeds excellente resultaten, als je maar goed zoekt (ie de correcte kernwoorden)

Patriot @Quakie • 5 juni 2007 17:51

Waarom is ciao-shopping nutteloos als je op zoek bent naar reviews? Ze bieden daar reviews, de kwaliteit valt vast te betwisten maar zo diep gaat google niet in op de inhoud.

Het logischer moeten indelen van zoekqueries is een bijproduct van de verbeterde zoekalgorithmes. De resultaten zijn tegenwoordig gewoon relevanter tegenover de ingevoerde woorden, als daar een woord (of meerdere) bij zit dat in mindere mate relevant is voor het beoogde zoekresultaat, kan het uiteindelijke resultaat ook minder relevant lijken voor de gebruiker.

FabianNL @Patriot • 5 juni 2007 19:48

Het probleem daarbij vind ik juist meestal is dat er nog geen reviews zijn door gebruikers. Dus dat er alleen doodleuk staat "Stuur je eigen review in!" of "Nog geen gebruikers reviews gevonden". Tja, daar heb je dan vervolgens dus ook echt helemaal niks aan, netjes gezegd...

Verwijderd @Patriot • 5 juni 2007 19:19

Ze zouden dat soort sites een lagere ranking moeten geven en de "echte" reviewsites bijvoorbeeld hoger, want zulke sites hebben enkel user reviews terwijl als je echt iets wilt weten over het product je eigenlijk toch professionele reviews moet hebben.

mcdronkz @Quakie • 5 juni 2007 18:34

Je kunt toch

zoekopdracht -ciao-shopping

doen

praseodymium @mcdronkz • 5 juni 2007 20:32

Dat is precies het punt, je moet je zoekopdracht aanpassen om dergelijke sites niet te zien.

danielsrje @Quakie • 6 juni 2007 10:08

Dat komt ook omdat veel sites bruutweg op hits jagen, en allerlei niet ter zake doende trefwoorden en teksten in pagina's zetten, alleen maar om in Google te komen. Zo verzeil je soms op pagina's die echt helemaal niks te maken hebben met waarnaar je aan het zoeken bent.

Een mooie optie zou zijn om dat soort sites zelf te kunnen blacklisten!

Rex 5 juni 2007 17:45

Wat ik me toch afvraag is wat die 200 criteria zijn waardoor je kunt stijgen in de rankings.
Jaja, sommige criteria kent iedereen, maar wat zijn dan die overige 190 criteria?

Atomsk @Rex • 5 juni 2007 18:11

Als je dat wist, kon je een eigen bedrijfje beginnen voor ranking optimalisatie en was je in no time miljonair. Die criteria zijn net zoiets als de recepten voor voedselfabrikanten, die worden ook strikt geheim gehouden uiteraard.

Vroeger was Google nog gemakkelijk te manipuleren. Logisch dat ze dat in de loop der tijd steeds ingewikkelder gemaakt hebben. Anders kreeg je alleen maar spamsites als resultaten en was Google nu niks meer waard.

newpegasus 5 juni 2007 18:35

Maar dat is nogal een subjectief iets, wie zegt dat ik Sink niet veel interessanter vind dan Clapton?

Ik ben het met je eens dat de meeste mensen eerder voor Clapton zouden kiezen, dus dat het wel een nuttige feature kan zijn.

Garyu 5 juni 2007 17:37

Hoewel Google logischerwijs zijn geheimen ook tegenover The New York Times goed bewaakt, blijkt uit het artikel van de krant dat het bedrijf zichzelf continu moet uitdagen om scherp te blijven, wetende dat het elke dag ingehaald kan worden door een onderneming die inventiever is.

Duh. Dit geldt vziw voor elk bedrijf, dus om dit nou een kijkje in de keuken te noemen.

De rest wat ik in dit artikel lees is net zoveel blabla. Ik hoop niet dat de vooruitgang in de frontpagelayout resulteert in een achteruitgang van de content

InFrA-WiZ @Garyu • 5 juni 2007 18:22

Bekijk het eens positief

Chip. @InFrA-WiZ • 5 juni 2007 18:55

Inderdaad vind die reactie echt nergens opslaan...

Verwijderd 6 juni 2007 13:06

Door gebruik te maken van individuele karakteristieken, kan bijvoorbeeld een ingelogde gebruiker van Gmail potentieel betere resultaten verwachten, mede omdat zijn zoekhistorie bekend is.

ik weet niet of dit nou wel een voordeel is

thegve @Verwijderd • 6 juni 2007 20:00

Dit is een voordeel. Privacy issues is een ander topic.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (45)

Sorteer op:

Weergave: