Google neemt nieuw indexeringssysteem Caffeine in gebruik

Google heeft zijn indexeringstechnologie Caffeine in gebruik genomen. Volgens de zoekgigant maakt Caffeine een zoekindex aan die tot vijftig procent couranter is dan de vorige, omdat het continu nieuwe informatie van het web inzamelt.

Het oude indexeringsmechanisme wordt door Google beschreven als een gelaagd geheel, waarbij bepaalde informatielagen slechts om de paar weken werden bijgewerkt. Hierdoor kon het enige tijd duren voordat bepaalde informatie via Google was te vinden. Bij Caffeine zou dit gelaagde model overboord zijn gegooid, omdat de informatiestromen op het web in de afgelopen jaren aanzienlijk dynamischer zijn geworden.

De indexeringstechnologie, die vorig jaar al kon worden getest, verzamelt informatie in kleine brokjes. Dit proces zou de zoekindex continu blijven bijwerken en het mogelijk maken om veel meer webpagina's te indexeren. Google geeft aan dat de totale indexgrootte van Caffeine circa 100 petabyte bedraagt, terwijl daar dagelijks honderden gigabytes nieuwe data aan wordt toegevoegd.

Google stelt dat het Caffeine heeft gebouwd om in de toekomst sneller actuelere zoekresultaten te kunnen leveren. Ook zouden op basis van de indexeringstechnologie nieuwe zoektechnieken mogelijk moeten worden. Hoelang het duurt voordat Google zijn Caffeine-technologie heeft uitgerold, is onbekend.

Google Caffeine

IT-banen

Reacties (79)

abbastijn 9 juni 2010 17:27

Wat me altijd stoort bij Google is dat ik recente informatie moeilijk van verouderde kan onderscheiden. Als ik bijvoorbeeld zoek op een evenement dat jaarlijks plaatsvindt, krijg ik nog een hoop zooi van voorgaande jaren, terwijl dat niet meer zo relevant is natuurlijk.

Maar ik neem aan dat daar niets aan verandert met dit nieuwe systeem, alleen de informatie die getoond kan worden is actueler... maar het zou interessant zijn om te weten wat die "nieuwe zoektechnieken" precies inhouden.

[Reactie gewijzigd door abbastijn op 1 augustus 2024 08:40]

ZpAz

@abbastijn • 9 juni 2010 17:32

Als iets 'heel nieuw' is (zoek bijvoorbeeld op Google: Nieuw) dan hebben sommige resultaten er achter staan hoelang het geleden is dat google er langs is geweest.

Waarom dit met 'oudere' resultaten er niet bij staat, geen idee.

[Reactie gewijzigd door ZpAz op 1 augustus 2024 08:40]

abbastijn @ZpAz • 9 juni 2010 17:37

Ah, dat is een feature die ik eigenlijk alleen kende van http://news.google.com...

Oentje13 @ZpAz • 9 juni 2010 21:15

Misschien is dat zo, omdat dat alleen bij de nieuwe geïndexeerde pagina's gebeurd. Het lijkt me namelijk lastig te achterhalen van wanneer een pagina is. Ervan uitgaande dat Google nu redelijk snel indexeert (zeker bij nieuwssites), is het geven van een footprint waar de datum wanneer hij geïndexeerd is in staat redelijk accuraat. Ik weet alleen niet of dat zo gebeurt.

Bonez0r @abbastijn • 9 juni 2010 18:56

Het is ook een beetje een kunst om goed te zoeken natuurlijk. Typ er het actuele jaartal bij en ik denk niet dat je nog resultaten van voorgaande jaren krijgt. Een beetje moeite van de gebruiker mag wel verwacht worden.

YopY @Bonez0r • 9 juni 2010 19:19

Een beetje moeite van de gebruiker mag wel verwacht worden.

Dat is nu juist contra-intuitief aan het worden bij Google - bij veel zoekopdrachten 'weet' hij namelijk al waar je naar op zoek bent.

Het zou natuurlijk wel prettig zijn als je nog wat meer voorkeuren aan zou kunnen geven - bijvoorbeeld als je zoekt naar iets uit de Java bibliotheek zou ik graag de 1.5 of 1.6 versie willen doorzoeken, maar Google vindt (zelfs jaren nadat 1.5 uitgekomen is) nog steeds de oude 1.4.2 documentatie.

Zoop @YopY • 10 juni 2010 09:10

Ik ken dat, ik werk met een PHP-Framework genaamd Symfony. Als je googled naar documentatie krijg je altijd en eeuwig de oude meuk, niet het nieuwe (wat heel erg irritant is, als bepaalde dingen jn oudere versie deprecated zijn geraakt).

I-King

@abbastijn • 9 juni 2010 17:30

Je kan tegenwoordig heel snel aangeven in welke tijdspanne hij moet zoeken, dat gebruik ik tegenwoordig veel. Bijvoorbeeld vragen op het forum of actuele ontwikkelingen zet ik deze gewoon op afgelopen maand.

DayteX @abbastijn • 9 juni 2010 17:32

Uiteraard,

wanneer er een nieuw evenement plaatsvindt, houdt dit concreet ook in dat er veel meer berichtgeving aan het komende evenement gespendeerd wordt dan van de afgelopen paar jaren. Zodoende zal met Cafeïne automatisch de meest recente berichtgeving worden getoond

J.J.J. Bokma @abbastijn • 9 juni 2010 19:24

Geavanceerd zoeken, daar kan je al jaar en dag (vzviw) aangeven hoe recent de resultaten moeten zijn.

Je kan ook een aantal keymarks maken (zie: http://johnbokma.com/firefox/keymarks-explained.html voor Firefox, werkt ook in Opera en Chrome) en achter de URL zetten:

&as_qdr=y voor jaar (b.v. keyword gj)
&as_qdr=m voor maand (b.v. keyword gm)
&as_qdr=d voor dag (b.v. keyword gd)

In de nieuwe interface van Google kan je ook "Meer opties" openklappen, en dan de periode kiezen. Je kan zelfs een datum bereik opgeven.

PerfectLight 9 juni 2010 17:25

Jaaaaja, en dit gebeuren is dus een ENORM serverpark ofzo?

Verwijderd @PerfectLight • 9 juni 2010 17:41

Volgens mij staat een paar keer Googlen gelijk aan het verwarmen van een kop koffie ofzo?.
Stond dat niet een keer op Tweakers?

OT,
Servers heeft Google genoeg hoor.En dat wordt alleen maar meer. Google wordt alleen maar groter.Alles wat ze aanbieden is gebruiksvriendelijk. Zet je pc aan en gaan.

henkvdvelden @Verwijderd • 9 juni 2010 17:48

is al weerlegt: http://news.cnet.com/8301-11128_3-10140142-54.html

Verwijderd @henkvdvelden • 9 juni 2010 18:22

@henk,

En toch zal Google zoveel meer power moeten genereren dan nodig om snel te kunnen blijven. Het zijn serverparken, waar je een leuk Nederlands dorp met energie kan voorzien.
Ik ben schuldig, net zoals jij dat het internet heel veel energie kost.
Ik heb ook wel eens dagen dat ik op een druilerige dag weinig te doen heb en dan zomaar ff er op los Google.......Wellicht, en laat ik nou eens de hand in eigen boezem steken, moeten we ons beseffen dat het toch erg veel resources verbruikt.

merethan @Verwijderd • 9 juni 2010 21:02

Is het een probleem dat je veel resources gebruikt?

(Antwoord: Nee. Het probleem is waar onze energie vandaan komt, niet dat we er weinig of veel van verstoken.)

Takenzo @merethan • 10 juni 2010 00:32

Dit is natuurlijk een beetje kort door de bocht, het is wel degelijk belangrijk hoeveel energie we gebruiken, zolang niet ALLE energie die we gebruiken duurzaam is.

Aangezien het nog wel een tijdje duurt voordat dat zo is is er nog altijd een schaarste aan duurzame energie, en maakt het wel uit hoeveel je gebruikt en waar die energie vandaan komt.

[Reactie gewijzigd door Takenzo op 1 augustus 2024 08:40]

Verwijderd @merethan • 10 juni 2010 02:33

Meer kerncentrales bouwen is de oplossing.

stresstak @Verwijderd • 10 juni 2010 17:52

Hoewel daaraan ook een maximum schijnt te zijn. Los van de levertijd.

Maar er zal altijd wel weer iets verslijten of op raken. Duurzaam is zo'n overhyped jeukwoord. Daar waar het energieverbruik betreft, ik betaal ervoor dus ik kan er niet te makkelijk te veel van gebruiken. Er is nauwelijks een limiet; als ik maar betaal.
Dertig groepen in de meterkast, nou en ? In alle kamers plasma heelbreedtelevisie ?

Elkpetluttig dingetje opzoeken doe ik nu ook niet, maar rekening houden met Google's energieverbruik zou mij zeker niet weerhouden. Gemak dient de mens.

Verwijderd @stresstak • 10 juni 2010 22:33

True. Een hoop 'duurzame' oplossingen zijn ook helemaal niet duurzaam. Windmolens zijn enorm duur en leveren heel weinig energie. Als je het bouwen van die dingen en de levensduur meeneemt in het 'duurzaamheidsplaatje', valt het heel erg tegen.

En inderdaad, als je ervoor betaalt, heb je er recht op. Moraalridders kunnen het heen en weer krijgen. Ik rijd in een auto met een sterke motor omdat ik het leuk vind. Ik heb een grote plasma tv omdat ik het mooier vind dan een LCD scherm. Ik betaal er netjes voor en ik betaal al mijn belastingen, einde discussie.

Google searches doe ik ook heel de dag, maar die zijn gratis

lenn2l @Verwijderd • 10 juni 2010 21:20

Wat dacht je van meer aandacht besteden aan kernfusie? ^^

Verwijderd @lenn2l • 10 juni 2010 22:29

Dat zou helemaal prachtig zijn en reken maar dat ze daar druk mee bezig zijn. Het is alleen erg moeilijk nog om het stabiel te krijgen en zo.

stefanos1990 @Verwijderd • 9 juni 2010 19:28

nog altijd een stuk minder resources dan wanneer je naar de bieb zou moeten gaan om de informatie die je nu allemaal googled op te zoeken. Ja, ook als je op de fiets gaat, want die energie moet ook ergens vandaan komen.

Proxx @stefanos1990 • 10 juni 2010 08:40

weer een loze vergelijking. je googled veel meer omdat het zo toegankelijk is. geloof maar niet dat jij voor elke vraag direct naar de bib rijd.

al zou je voor elke piet lullige vraag naar de bib fietsen kun je nog wel eens gelijk hebben. maar dat betwijfel ik eigenlijk ook.

[Reactie gewijzigd door Proxx op 1 augustus 2024 08:40]

stefanos1990 @Proxx • 11 juni 2010 10:15

helemaal geen loze vergelijking. Waar het om gaat is dat googlen een stuk efficienter is dan andere manieren van informatie vergaren. Dat er door die efficientie meer informatie wordt vergaard is alleen maar een positief gevolg. En uiteindelijk kan het best zijn dat door die toegankelijkheid er toch net zoveel energie wordt verbruikt, maar je krijgt er veel meer voor terug.

GamingZeUs @Verwijderd • 10 juni 2010 08:26

Een enkele search is nouw niet bepaald energie onvriendelijk. Vervoer, !voedsel! en de electronica waarmee je surft zijn allemaal velen malen minder energy vriendlijk.

Patriot @Verwijderd • 11 juni 2010 01:23

@henk,

En toch zal Google zoveel meer power moeten genereren dan nodig om snel te kunnen blijven. Het zijn serverparken, waar je een leuk Nederlands dorp met energie kan voorzien.

In hoeverre is dat relevant? Relatief ten opzichte van het aantal mensen dat ze bedienen zou het me niet verbazen als Google juist relatief zuinig is omdat ze zoveel mogelijk willen besparen op hun stroomverbruik.

Ik ben schuldig, net zoals jij dat het internet heel veel energie kost. Ik heb ook wel eens dagen dat ik op een druilerige dag weinig te doen heb en dan zomaar ff er op los Google.......

Nou en? Het is niet zo dat alleen Googlen ervoor zorgt dat je van energieverbruikende techniek gebruik maakt. Als je echt energie wilt besparen dan zet je je PC gewoon uit, je stopt niet met Googlen.

Wellicht, en laat ik nou eens de hand in eigen boezem steken, moeten we ons beseffen dat het toch erg veel resources verbruikt.

Ja, de landbouw ook, moeten we daar ook maar mee stoppen?

MichaMichaMicha @Verwijderd • 9 juni 2010 21:40

Het is niet alsof het meer energie kost als mensen Google meer gebruiken. Het standaard indexeer-proces kost gewoon enorm veel energie, dus in vergelijking zal het, als Google nog meer gebruikt wordt, minder energie kosten per zoekopdracht.

grol4 @PerfectLight • 9 juni 2010 17:28

Google heeft al gigantische serverparken, dus antwoord = ja.

Stampertje @grol4 • 10 juni 2010 09:27

Die ze zelf ook nog eens in elkaar schroeven. Wat veel mensen niet weten is dat Google op 2 na de grootste serverproducent ter wereld is. (Na HP en Dell)

lenn2l @PerfectLight • 9 juni 2010 17:28

Dacht je dat google het bij enkele tientallen servers houdt dan? Niet dus...

Damic @lenn2l • 9 juni 2010 17:42

Ja per node

en ik weet niet hoeveel nodes ze hebben

Verwijderd @Damic • 9 juni 2010 20:10

Een tijdje terug stond hier een artikeltje over op Slashdot. Google gaat richting de 1 miljoen servers, verdeeld over verschillende centra wereldwijd natuurlijk.

Gigantische serverparken is dus nog een understatement ;-)

Toettoetdaan @PerfectLight • 9 juni 2010 19:21

Slechts 20% van alle servers in de wereld

afraca 9 juni 2010 17:22

De visualisering van Caffeine doet het niet echt professioneel lijken, maar het klinkt uitstekend. Google heeft al met de betere integratie van twitter bijvoorbeeld meer aandacht geschonken aan het "dynamische web" , en hiermee gaat het nog een stap verder. Het was overigens niet echt dramatisch lang, de "wachtperiode" , maar een uitstekende ontwikkeling.

Verwijderd @afraca • 10 juni 2010 09:13

Dat is nou het mooie van Google, ze hoeven hun professionaliteit niet te bewijzen door sobere visualisaties. Als ze dus het meest kinderachtige tekeningetje willen gebruiken om een concept over te brengen, dan maakt dat niets uit voor hun imago.

arjankoole

Bedrijfsnieuws
Internettoegang

@afraca • 9 juni 2010 21:06

De visualisering van Caffeine doet het niet echt professioneel lijken

hoe 't oogt zal me weinig boeien, als 't maar goed werkt.

ClementL @arjankoole • 9 juni 2010 21:18

Hij heeft het over het plaatje.

arjankoole

Bedrijfsnieuws
Internettoegang

@ClementL • 10 juni 2010 06:57

Hij heeft het over het plaatje.

Dat weet ik.
That's kinda the point.

n4m3l355

Bedrijfsnieuws
Zoekmachines

9 juni 2010 18:34

Ik vraag me eigenlijk af in hoeverre het wenselijk is dat Google zoveel data genereerd? Voor een kleine website is het natuurlijk minimaal maar neem bijvoorbeeld Wikipedia en Google zou al die pagina's frequent indexeren kan ik me voorstellen dat de desbetreffende opeens toch wel veel extra te verwerken krijgt. Zeker als je zoiets op een globaal niveau bekijkt zoals Google opereerd. Ik zou haast zeggen zou het niet practischer zijn om robots.txt de optie te geven om ipv indexeren dat een host indien gewenst zelf een cluster aan informatie verzameld en deze zelf doorzet. Zodoende kan je makkelijk bepalen welke informatie wordt geindexeerd en kan die ook nog bepalen wanneer dit gebeurd.

SecondReality @n4m3l355 • 9 juni 2010 19:11

in webmastertools van Google kun je al jaren aangeven dat je wilt dat er minder geindexeerd wordt ivm bandbreedte op je website.

watercoolertje

Google
Zoekmachines

@n4m3l355 • 9 juni 2010 19:40

Nee dat werkt niet, google doorzoekt een pagina 'subjectief' als ik me eigen site door moet geven met info is dat zeer objectief en zou ik zeker zeggen dat er meer info is dan er daadwerkelijk is

(wat zich in bezoekers uitbetaald)

[Reactie gewijzigd door watercoolertje op 1 augustus 2024 08:40]

teek2

9 juni 2010 18:41

Werd tijd, als je nu zoekt op tussenstand verkiezingen gaat alles over de gemeenteraadsverkiezingen

, meestal zocht ik tegenwoordig maar op Twitter voor actuele info.

SecondReality @teek2 • 9 juni 2010 19:12

in die linkerbalk onder 'meer opties' kun je toch gewoon aangeven 'laatste 24 uur' of 'meest recent' ?

Bij de laatste krijg je info van minuten geleden. Sterker nog: als je de pagina open laat staan ververst het automatisch. Lijkt me sterk dat dit puur door dit nieuwe systeem komt, aangezien het al een paar maanden zo werkt.

Veel populaire nieuwssites, blogs, fora en sociale media sites worden overigens al jarenlang binnen seconden of minuten gecrawled (die bovenste layers).

[Reactie gewijzigd door SecondReality op 1 augustus 2024 08:40]

JOfferijns 9 juni 2010 17:56

Misschien wel interessant, een vergelijking van de nieuwe zoekresultaten:

http://mashable.com/2009/08/10/google-caffeine/

If you’re wondering about Bing, it didn’t even bring up my personal website.

Verwijderd 9 juni 2010 19:39

Voor forum,blog,twitter.. is deze een meerwaarde. Hoever staan eigenlijk andere zoek robots. Was er vroeger geen sprake van een Europese zoek robot. Heb er verschillende gebruikt zoals Yahoo, Bing, Ixquick, Cuil, Duckduckgo, Arledia, dogpile. Yahoo search en Google nog altijd mijn favoriet.

Verwijderd 9 juni 2010 21:57

Ik vraag me af hoe Google zijn data eigenlijk opslaat en wat voor hardware ze daar voor gebruiken en hoe die data toegankelijk wordt gemaakt. (Voor wat betreft de zoekmachine)

Zijn er een aantal centrale storage pools (inclusief redundante pools) of is het een distributed storage model, waarbij de data op heel veel verschillende plekken wordt opgeslagen en toegankelijk wordt gemaakt.

Tevens vraag ik me af hoe google de zoekresultaten zo snel kan weergeven.
Er wordt natuurlijk een deel van index gecachet, maar hoe zit het met de niet zoveel gebruikte zoekwoorden?

nalufrank @Verwijderd • 10 juni 2010 08:49

Voor zover ik weet staat er in america een datapark ter grootte van de provincie utrecht. Maar deze dataparken hebben ze over de hele wereld (ook in NL). Vaak sprokkelen ze oude pc's oude servers en oude hardware bij elkaar voor in het datapark om de gegevens op te slaan. Deze zitten volgens mij vast aan een internationaal netwerk waar al deze dataparken aan verbonden zijn.

Omdat Google in NL ook zo'n park heeft net als in verschillende landen heeft dat ook veel te maken met de positionering van websites. Als een bepaalde site hier een positie van #5 heeft dan zal dat in america bijvoorbeeld kunnen afwijken tot een slechtere of betere positie. Dat komt omdat wij op internet in NL eerst door het Nederlandse datapark komen van google. Zoals amerikanen dat zouden hebben in amerika.