Google gaat Microsoft Office-documenten indexeren

Tot nu toe zochten zoekmachines op internet nog slechts naar HTML-bestanden, afbeeldingen, audio en video. Google breidde deze lijst een tijdje geleden al uit met bestanden van Adobe's PDF-formaat (Acrobat Reader), maar is nu bezig met weer iets nieuws. Zo zal het binnenkort mogelijk zijn om ook te zoeken naar informatie die vermeld staat in Microsoft Office-documenten die zich op internet bevinden. Het gaat hierbij om bestanden in de formaten van Word, Excel en PowerPoint.

Google is niet de eerste met het idee om dit soort bestanden ook te gaan indexeren. Al eerder onderzocht concurrent AltaVista de mogelijkheden al, waarbij besloten werd om de zoekfunctie niet in te bouwen wegens een te kleine hoeveelheid office-documenten op het web. Google is het hier blijkbaar niet mee eens, want aan het nieuwe onderdeel wordt al druk gewerkt. Wanneer het ingevoerd zal worden is nog niet bekend, aldus een woordvoerder in een gesprek met Voelspriet.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Mark Timmer

Feedback • 03-09-2001 14:42 43

03-09-2001 • 14:42

Bron: Voelspriet

Lees meer

Google geeft toe fouten in software te hebben gehad Nieuws van 13 maart 2002

Google start programmeerwedstrijd voor zoekmachine Nieuws van 8 februari 2002

Google zal voortaan ook zoeken in catalogi Nieuws van 21 december 2001

Google voegt nieuws toe aan zoekresultaten Nieuws van 13 december 2001

Google bezig aan sterke opmars in Nederland Nieuws van 6 november 2001

Altavista komt met afbeeldingen in zoekresultaten Nieuws van 19 september 2001

Google krijgt Webby Award 'best practices' Nieuws van 19 juli 2001

Meer producten en artikelen

Bedrijfsnieuws

IT-banen

Meer vacatures

Reacties (43)

-Moderatie-faq

Wijzig sortering

D-Devil 3 september 2001 14:44

Dat maakt het zoeken van leesverslagen wel veel gemakkelijker op het net.

Ben benieuwd hoe lang een query draait op die database met documenten, lijkt me toch aanzienklijk vervelender dan de header van een website.

RobzQ @D-Devil • 3 september 2001 14:56

Niet veel langer, google maakt waarschijnlijk een full text index aan van de gevonden documenten (en webpagina's).

Aangezien daarin wordt gezocht zal het dus niet langzamer gaan dan nu.

raptorix @RobzQ • 3 september 2001 16:35

Dat denk ik niet, ik meen dat er per woord een aparte table wordt gemaakt, en dat in die table wordt bijgehouden op welke url het betrekking had, waarschijnlijk doet men dan een union select over de tables van de door jou gezochte worden.

Molybdenum @D-Devil • 3 september 2001 14:49

Dat vraag ik me af. Is het niet zo dat tegenwoordig niet alleen naar de header van een html-pagina, maar naar de volledige inhoud van een html-pagina wordt gekeken?
In dat laatste geval zal de query-tijd niet veel langer worden, vermoed ik.

Verwijderd @Molybdenum • 3 september 2001 15:00

Mark Timmer heeft vanmorgen de Spits! gelezen

Tarin

@D-Devil • 3 september 2001 22:38

Niet alleen worden deze verslagen vaak gehtmld (okee, dat hadden Molybdenum en RobzQ al gemeld), maar als er verslagen als worddoc op internet staan zijn ze vaak gezipt.
Kan Google daar dan ook doorheen kijken? Dat lijkt me een hoop extra rekenkracht kosten

sab 3 september 2001 14:54

Zaten er niet allerlei vervelende rechten op .doc bestanden?
Geloof dat dat de reden was waarom er geen Word (-clone) voor linux was.

SkiFan @sab • 3 september 2001 16:04

Er zijn richtlijnen van de EU, welke in de lidstaten dus tot wetgeving getransformeerd zijn, welke het interoperabel maken van software met andere software expliciet toestaan. Als je bij de civiele rechter dus een vordering indient tot schadevergoeding op grond van een onrechtmatige daad, zal de bouwer van het import / exportfilter zich hierop kunnen beroepen. (Het is immers gewoon wetgeving).

Robert

Jelle Niemantsverdriet @sab • 3 september 2001 14:58

Geloof dat dat de reden was waarom er geen Word (-clone) voor linux was.

Zoiets als StarOffice bedoel je?

blaatenator @Jelle Niemantsverdriet • 3 september 2001 22:42

Star Office noem ik geen kloon. Het is een Office pakket. Tsjee, ik wist niet dat de MS dominatie al zover was dat zelfs tweakers elk office pakket dat een andere naam heeft dat MS Office een kloon genoemd wordt!
Het heeft import en export mogelijkheden, net zoals elk ander office pakket.
dus...

Parlor_Inventor @sab • 3 september 2001 15:20

Daar verkoopt Microsoft graag een goedkope licentie voor aan zoekmachines. Als je dan op google zoekt is het min of meer een handicap als je geen Word hebt.....

En met de bekende specs van Word is de text-info er makkelijk uit te filteren. Het crappy gedocumenteerde deel van de bestandsindeling bevat vooral de opmaak enzo.....

Rukapul @Parlor_Inventor • 3 september 2001 22:39

Het is geen handicap hoor als je geen Word hebt. Waarschijnlijk kun je nu net als pdf documenten een plain text versie bekijken die gecached is door Google. Werkt wel zo snel

WheeleE 3 september 2001 14:51

Een erg leuke ontwikkeling voor de jeugdige internetter vind ik. Het maakt inderdaad het zoeken naar verslagen e.d. veel makkelijker, maar of ouders en scholen er zo blij mee zullen zijn weet ik niet. Aan de andere kant, zo kunnen die mensen ook makkelijk voorbeeldverslagen vinden en dus ook makkelijker vergelijken...

Het lijkt me echter wel lastig om ect alles te indexeren, maar het is in ieder geval een leuk initiatief. Ik ben benieuwd wat er van komt...

raptorix 3 september 2001 15:00

Ik denk dat er 1 zeer belangrijk idee vergeten wordt, Google indexeert niet alleen websites maar kan ook ingehuurt worden voor het indexeren van intra/extra netten, en dan is het juist zo interessant dat ook office documenten meegenomen worden. En als deze technologie uit ontwikkelt is voor deze functie dan is het kleine moeite het ook voor het internet te gebruiken.

Verwijderd 3 september 2001 14:50

Lijkt me nog een lastige klus. De extentie .doc, welke gebruikt wordt voor Word-documenten, is ook de extentie die al veel langer wordt gehanteerd voor txt-files met documentatie, in simpele ASCII.

CubicQ @Verwijderd • 3 september 2001 14:56

ik denk dat dat nog wel het kleinste probleem is waar ze mee gezeten hebben. Of iets een text-filetje is of een echt Word document is redelijk snel te achterhalen.

raptorix @Verwijderd • 3 september 2001 15:02

Ik vermoed dat men de headers ook controleert en niet alleen extensief, vergelijk het maar met bijvoorbeeld upload mogelijkheden in webformulieren, daar kan ook serverside gecheckt worden wat het contenttype is, zelfs het vervalsen van de exentensie heeft geen zin.

Parlor_Inventor @Verwijderd • 3 september 2001 15:16

moelluk he als je na de eerste 10 bytes al doorhebt om welk type bestand het gaat..... Jahaa dat is toch wel weer drie hele regels perl-code en maar liefst 1 hele regexp......

oeps : voor perl-hackers maar 1 regel natuurlijk maar ik dacht ik houd het ff netjes door in te springen enzo.... alhoewel....

blaatenator @Parlor_Inventor • 3 september 2001 22:39

Zie hier het commentaar van een lamer denkt te laten zien wat hij weet, en daarbij onthult dat hij eigenlijk een nitwit is.
Correct me if I'm wrong

Parlor_Inventor @blaatenator • 4 september 2001 12:42

Hmm ik was dus niet de enige die vond dat die posting een beetje sneu overkwam. Maar ik had het een halve seconde na het verzenden al door..... Nouja whatever.....

Verwijderd 3 september 2001 18:39

En wederom wordt op de manier weer een duidelijk gemaakt dat Word DE tekstverwerker is. Waarom in Godsnaam? Omdat het zo gemakkelijk integreerd in windows, omdat MS scholen Office goedkoop opdringt.

Maar er wordt weer geen rekening gehouden met het feit dat er ook aardig wat mensen zijn die bijvoorbeeld StarOffice of WP gebruiken. Waarbij het grootste voordeel van WP is dat het zowel onder Windows als onder Linux draait, in tegenstelling tot Word. Dus waarom ook geen formate van WP, CorelDraw, Presentation en Ventura ondersteunen?

Als Google toch eenmaal zezig is, zal dat niet veel meer werk zijn, en met de opkomst van Linux zie ik toch steeds meer mensen van MS Office afstappen.

RobbertC @Verwijderd • 3 september 2001 18:48

Het percentage niet-office gebruikers is waarschijnlijk zo klein dat het voor Google niet interessant is om daar ook in te voegen. Aangezien Google een commercieel bedrijf is, willen ze de kosten voor het ontwikkelen er graag uithalen.

Verwijderd @RobbertC • 3 september 2001 18:54

Op het moment misschien, maar omdat Office alleen onder Windows draait, en bijvoorbeeld WP ook onder Linux, zou het met de opkomst van Linux toch wel eens intressant kunnen worden.

RobbertC @Verwijderd • 3 september 2001 19:01

De opkomst van Linux is nog lang niet groot genoeg om dit interessant te maken. En als linux nog groter gaat worden, zie ik MS nog wel in staat om een office voor linux te maken.

Verwijderd 3 september 2001 15:01

Google is toch wel één van de betere zoekmachine's. Met name voor het zoeken naar wetenschappelijk info en dergelijke. Ik denk dat er aardig wat wetenschappelijke informatie in word documenten op het net gevonden kan worden. Deze wordt dan zo door de "zoeker" ook bereikbaar. Interressante ontwikkeling dus.

Janoz Moderator PRG/SEA @Verwijderd • 4 september 2001 17:26

De meeste wetenschappelijke documenten worden in LateX geschreven, en niet in Word

Verwijderd 3 september 2001 15:04

Word bestanden herkennen door google is heel simpel aangezien "Word.Document.8" staat in elk bestand. Gewoon eens een word-bestand opentrekken in kladblok en je zal wel zien hoe simpel het eigenlijk wel is.

MRic3 3 september 2001 15:19

Ik denk dat het weer een goede zet is van google. De zoekmachine rulede al lang, zelfs het indexeren van .pdf jes is makkelijk en de snelheid levert niet veel in vind ik.
Ik merk wel dat ik zelf al wel de zoek resultaten sorteer van google en als ik een .pdfje zie dat ik liever voor een normale html pagina kies. Eigenlijk zou je dat in moeten kunnen stellen bij google (hoogstwaarschijnlijk zou dat ook wel kunnen of dat komt binnenkort)

Word documenten erbij om te indexeren is alleen maar meer resultaten en dat kan dus ook beter zijn.

Zoals ik al zei, Google Roeluzzzz

SkoolieDie 3 september 2001 16:09

Zou wel eens het begin van een macro-virus epidemie kunnen zijn.

blaatenator @SkoolieDie • 3 september 2001 22:48

snap niet helemaal waarom deze posting 'overbodig' wordt bestempeld. Lijkt me toch een reële mogelijkheid. Wat eerst voornamelijk via email gebeurde (uitwisselen van documenten), kan nu dus ook willekeurige mensen bereiken die zoeken naar een onderwerp.
Kleine moeite om in je document wat populaire woorden op te nemen, te samen met één of ander macro virus.
Tenzij de content dus geindexeerd wordt, en in een andere vorm (HTML) aan de gebruiker wordt gepresenteerd.

Eegee @blaatenator • 4 september 2001 22:48

Beetje offtopic maar als Google toch dat bestand leest, ziet ie ook meteen dat er een macro in zit en dan kan ie er bij zetten (contains macros)

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (43)

Sorteer op:

Weergave: