Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 50 reacties
Bron: AnandTech, submitter: G_M_C

Op AnandTech is een interessant artikel verschenen over de migratie van hun zoekmachine naar Google Mini, een complete combinatie van hard- en software die functioneert als een persoonlijke Google.com. Na tegen de grenzen van ColdFusion Verity en de full text indexing features van Microsofts SQL Server aan te zijn gelopen werd besloten om over te stappen op het product van 's werelds meest populaire zoekmachine. Het drieduizend dollar kostende instapmodel is een 1U rackmounted serverbarebone, oorspronkelijk gebouwd door Gigabyte en voor de gelegenheid voorzien van een helblauw jasje. Aan de binnenkant is geen bijster krachtige hardware te vinden: twee Intel Pentium III-S-processors op 1,26GHz, een 120GB harde schijf van Seagate en 2GB geheugen van Dell. Het is duidelijk niet de bedoeling dat klanten zelf met de configuratie van het apparaat rommelen; op het BIOS zit een wachtwoord en het instellen van de zoekmachine gebeurt via een webinterface.

Het apparaat indexeert maximaal 100.000 documenten, wat zowel webpagina's als een van de 220 ondersteunde bestandsformaten kunnen zijn. Via de webinterface kunnen indexes en sub-indexes worden aangelegd, waarbij opties geboden worden om de manier waarop de zoekmachine de site of mappen doorloopt aan te passen. Ook kunnen er synoniemen en afkortingen worden opgegeven waar het apparaat rekening mee moet houden, iets wat erg handig is om met de terminologie van een specifiek vakgebied om te kunnen gaan. Het integreren van de Google Mini in een bestaande website kan op twee manieren. Er zit een eenvoudige html-editor ingebakken om bijvoorbeeld een header en footer aan de basislayout toe te voegen, maar technisch verder gevorderde mensen kunnen ook XSLT gebruiken om de XML volledig naar hun eigen smaak te kneden. AnandTechs nieuwe search - waar ze zelf in ieder geval erg tevreden over zijn - is hier te bewonderen.

Google in een doos
Moderatie-faq Wijzig weergave

Reacties (50)

Nu vraag ik mij toch af wat het verschil is met deze optie en de zoekresultaten van google als je de optie site:www.anandtech.com toevoegd in Google.
Die laatste is gratis en zoals iedereen wel weet is Google érg snel.

Behalve het veranderen van de layout, zou het nog andere voordelen hebben?
Dit werkt ook op het intranet, en je hebt niet altijd het internet aan je intranet gekoppeld.
Ik hoop nooit, anders is het geen intranet maar gewoon internet ;)

d;r moet toch op z'n minst een firewall of gateway tussen hangen
Dus als ik op mn intranet een tickertje neerzet die wat gegevens van internet afhaalt is mn intranet ineens geen 'intranet' meer? :P
Je kunt eigen documenten invoeren, die bij Google niet geïndexeerd zijn.
Deze kun je ook in een intranet hangen om je vreselijke collectie worddocumenten doorzoekbaar te maken. In menig bedrijf een enorme aanwinst waarmee je die $3000 in een paar maanden weer terugverdient hebt.
$2 995 voor een 1U server met een Pentium III 1,2GHz en 4 x 512 Reepjes SDRam geheugen van Dell.

Ik persoonlijk vind het misschien wat veel voor een server met deze specs.

Zou het niet zo zijn dat ze gewoon een grote oude voorraad hebben opgekocht en daar wat leuks omheen gebouwd hebben?

Jammergenoeg is het me niet echt duidelijk hoe of wat betreft het OS. Hardwarematig iig is het heel erg gemakkelijk te repliceren voor een fractie van de prijs.
Echter hoe staat het qua software?

@BikkelZ, daarom zeg ik ook dat het jammer is dat het me nog niet geheel duidelijk is qua os.
Qua hardware is het supercheap te repliceren. Echter hoe is het qua software :\.
Je koopt technologie, geen hardware.
Sterker nog, je hebt een probleem, en daarvoor koop je een oplossing. En als die oplossing werkt voor een redelijke prijs en ook goed is te beheren, dan boeit het niet wat er onder draait. Je kan toch niet bij het OS, (daar heb je toch niets te zoeken) dus maakt het ook niet uit wat voor OS er onder draait. Al zou het Win 3.11 zijn.
Tja, maar stel jij betaald werknemers 60 euro per uur (grote gok), en ze zijn per dag 30 minuten korter bezig met zoeken na het aanschaffen van een Google Mini. Bij 30 medewerkers krijg je dan: ¤60x0,5x30=900 euro per dag. En dan maak je "winst" na vier dagen. Tuurlijk, het duurt wat langer (mensen besparen echt geen 30 minuten per dag, maar ik moest toch wat invullen).
En buiten dat, als dit betekent dat bezoekers ook nog beter kunnen zoeken op je website, daardoor beter hun artikel kunnen vinden en daardoor een hogere tevredenheid... Dit betekent een hogere ratio terugkomende bezoekers en dit kan weer meer reclameinkomsten opleveren.
Dat is niet niks een paar 1000 euri!
Soms, en nu ook weer, erger ik me zo aan zulke fipos. Zeg dan niks.
En ja, ik heb hier wel een -1 overbodig voor over.
ik neem aan dat hier linux op draait, met een database, apache, enz.

Ze zijn dan ook verplicht de GPL sources ter beschikking te stellen! Gebruikten ze op hun eigen zoek-farm niet een zwaar gemodificeerde linux-kernel? als die ook op deze machine draait zijn ze verplicht hun aanpassingen openbaar te maken!

reactie op Ethnocentrix:
zeker wel, als je binaries waar GPL code inzit levert, moet je mensen ook de mogelijkheid geven de sources te krijgen.

reactie op ritch:
ik heb het over de GPL sources, oftewel die software die onder de GPL valt en op dat ding staat. Ik noem nergens code die zij zelf geschreven hebben en niet onder de GPL hebben geleverd. Linux kernel, MySQL, php, enz. vallen onder de GPL, en dus zijn ze verplicht ook hun wijzigingen onder de GPL uit te brengen.
Ze draaien hierop natuurlijk hun eigen Google OS ;)
Als ze gewoon een standaard kernel gebruiken, dan hoeven ze echt niet de source vrij te geven hoor, en al helemaal niet de source van hun zoek software.
Lees de GPL nog es een paar keer aub. Als je software ontwikkelt dat draait op linux hoeft dat niet GPL te zijn. Tenzij je linkt naar GPL software (meeste libraries zijn LGPL, dus dat hoeft ook niet) of code van GPL project gebruikt in je software.
We hebben hem hier sinds kort ook staan voor een projekt. De Google Mini draait RedHat [versie ontschiet me even op het moment, zal het eens opzoeken zo].

Ik moet zeggen: ik ben erg tevreden! Hij is goed configureerbaar [schedules voor crawling, welke URLs wel/niet mee moeten in een crawl, ladingen parameters en last but not least de volledige XSLT die ik op dit moment flink aan het verbouwen ben om binnen de look en feel van een website te hangen]. De echte test moet straks nog komen bij het live gaan van het projekt [en dus beduidend meer bezoekers/searches], maar mijn gevoel zegt dat dat wel goed gaat komen. Anders is een switch naar Google Enterprise wellicht noodzakelijk.
Maar ik bedoel voor de hardware, 2 keer een pentium 3 is neit veel, een kleine HD..

Toch best raar, als ze het echt willen verkopen, verkoop tegen minimaal bedrag, maar laat ze maandkosten betalen, voor huur...
Maar ik bedoel voor de hardware, 2 keer een pentium 3 is neit veel, een kleine HD..
Het ding kan toch niet sneller indexeren dan het netwerk breed is. En hoeveel zoekopdrachten per seconde verwacht je op een intranet?
Wat de HD betreft, 120GB voor 100000 documenten is ruim 1 MB indexruimte per document. Dat lijkt me ruim voldoende.
Ik begrijp niet waarom ze voor dual p3 gaan en niet gewoon voor één losse krachtpatser. Nu is het een dik duur moederbord... ipv daarvan had een dure 15k rpm schijf mooier geweest.
Overigens wel stom dat je niet zelf aan het apparaat mag sleutelen :/
Het product wordt als een kant en klaar oplossing aangeboden. Dit is dus hetzelfde als je mobiele telefoon/dvdspeler/XBox/router, bij het aanpassen van de soft en/of hardware van die beesten vervalt de garantie. Bij dit apparaat zal het waarschijnlijk niet anders zijn.
Ik vind 100.000 documenten wel wat weinig, een beetje groot bedrijf zal absoluut geen moeite hebben om dat te halen.
Google mini (mini zegt het al!) is bedoelt als instapmodel.. wil je meer, dan kun je ook meer krijgen:
http://www.google.com/enterprise/gsa/product_models.html
tot zo'n 15 miljoen documenten dus...

just my 2 cents (8>
Wij gebruiken Verity ism Coldfusion, alleen niet de ingebouwde versie die Anandtech gebruikte.

Wij hebben een full Verity K2 searchengine. Er zit een COM en java class api bij zodat je het kan gebruiken ism Coldfusion, JSP, ASP etc. Indexeren kan naar spideren ook op het filesysteem en via een ODBC gateway.

Maarja.. verity K2 is wel duurder dan google mini, en dan heb je alleen de software, maar goed, het heeft wel veel meer mogelijkheden (taxonomieen, search profiles, ODBC indexing, parametric indexen enz.) en ook de query parser is configureerbaar.

Ik vind trouwens 100.000 documenten wel weinig.. de lite versie van Verity K2 in Coldfusion kan al 200.000.
De CF sotware alleen is al duurder, komt de hardware nog bij om CF te laten draaien :/
En persoonlijk vind ik 100.000 best wel veel. Het is natuurlijk niet gemaakt om MP3s in je intranet te indexen :)
Als Anandtech het alleen al voor zijn nieuwsberichten gebruikt is 100.000 documenten ruim voldoende.

Stel:
T.net heeft gemiddeld 10 nieuwsberichten per dag, dan komt dat op minder dan 4.000 nieuwsberichten per jaar.

Reken verder zelf hoeveel capaciteit 100.000 eigenlijk is voor een site als Anandtech . . .
Jammer dat ze alleen naar de hardware kijken, en niet naar de software die er op draait. (Linux / Unix / Whatever)
En als ik het goed begrijp staat de hele index op de hdd, is het dan niet handig om op zijn minst een raid area er aan te hangen?
Het is geen backup van je systeem, dus je zou de boel opnieuw kunnen laten indexeren wanneer je een crash hebt.
Nadeel van backup van deze machine is natuurlijk dat je een backup niet meer kunt beschermen en mensen zouden dus kunnen onderzoeken hoe Google de boel indexeert.
Dus als je server crasht is je zoekfunctie een paar uur dood door indexeren (of hoe lang duurt dat)? Lijkt mij vreemd.

Daarnaast kan je ook het geheugen prima debuggen, zodra je fysieke toegang tot het kastje hebt :) Je zal ergens iets van flash-chip kunnen vinden met het OS, toch?
hoe vaak gebeurd dat nou...
Welk gedeelte van "instapmodel" snap je niet helemaal? :P

Je kan ongetwijfeld ook wel machines kopen die alles redundant uitgevoerd hebben, maar als je een goedkope bak wilt, kan je best het risico lopen dat je search er een paar uur uit ligt eens in de zoveel jaar.
Wat dacht je van bakkie open maken HDD er uit halen. HDD in andere bak plaatsen Knoppix booten en je ken op de harde schijf. (Mits dat ook niet allemaal beveiligd is etc)
via xp kun je ook 'owner' worden in admin modus
Gebruik ik nog wel eens om 'gare hardeschijven' van computernoobs weer nieuw leven in te blazen
Ik denk dat er GoogleOS op dit machientje geinstalleerd is...

lol
Het lijkt me toch vreselijk duur... En 100.000 documenten vind ik ook wat tegenvallen. Anderzijds gaat het publiceren van de zoekresultaten ra-zend-snel, dus dat moet echt wel performante software zijn. Hoe hun zoeksysteem werkt is waarschijnlijk een goedbewaard geheim?
dit is ook een van de instapmodellen :) er zijn nog duurdere oplossingen... kijk maar eens op: http://www.google.nl/enterprise/

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True