Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 43 reacties
Bron: Voelspriet

GoogleTot nu toe zochten zoekmachines op internet nog slechts naar HTML-bestanden, afbeeldingen, audio en video. Google breidde deze lijst een tijdje geleden al uit met bestanden van Adobe's PDF-formaat (Acrobat Reader), maar is nu bezig met weer iets nieuws. Zo zal het binnenkort mogelijk zijn om ook te zoeken naar informatie die vermeld staat in Microsoft Office-documenten die zich op internet bevinden. Het gaat hierbij om bestanden in de formaten van Word, Excel en PowerPoint.

Google is niet de eerste met het idee om dit soort bestanden ook te gaan indexeren. Al eerder onderzocht concurrent AltaVista de mogelijkheden al, waarbij besloten werd om de zoekfunctie niet in te bouwen wegens een te kleine hoeveelheid office-documenten op het web. Google is het hier blijkbaar niet mee eens, want aan het nieuwe onderdeel wordt al druk gewerkt. Wanneer het ingevoerd zal worden is nog niet bekend, aldus een woordvoerder in een gesprek met Voelspriet.

Moderatie-faq Wijzig weergave

Reacties (43)

Dat maakt het zoeken van leesverslagen wel veel gemakkelijker op het net.

Ben benieuwd hoe lang een query draait op die database met documenten, lijkt me toch aanzienklijk vervelender dan de header van een website.
Niet veel langer, google maakt waarschijnlijk een full text index aan van de gevonden documenten (en webpagina's).

Aangezien daarin wordt gezocht zal het dus niet langzamer gaan dan nu.
Dat denk ik niet, ik meen dat er per woord een aparte table wordt gemaakt, en dat in die table wordt bijgehouden op welke url het betrekking had, waarschijnlijk doet men dan een union select over de tables van de door jou gezochte worden.
Dat vraag ik me af. Is het niet zo dat tegenwoordig niet alleen naar de header van een html-pagina, maar naar de volledige inhoud van een html-pagina wordt gekeken?
In dat laatste geval zal de query-tijd niet veel langer worden, vermoed ik.
Mark Timmer heeft vanmorgen de Spits! gelezen :P
Niet alleen worden deze verslagen vaak gehtmld (okee, dat hadden Molybdenum en RobzQ al gemeld), maar als er verslagen als worddoc op internet staan zijn ze vaak gezipt.
Kan Google daar dan ook doorheen kijken? Dat lijkt me een hoop extra rekenkracht kosten :?
Zaten er niet allerlei vervelende rechten op .doc bestanden?
Geloof dat dat de reden was waarom er geen Word (-clone) voor linux was.
Er zijn richtlijnen van de EU, welke in de lidstaten dus tot wetgeving getransformeerd zijn, welke het interoperabel maken van software met andere software expliciet toestaan. Als je bij de civiele rechter dus een vordering indient tot schadevergoeding op grond van een onrechtmatige daad, zal de bouwer van het import / exportfilter zich hierop kunnen beroepen. (Het is immers gewoon wetgeving).

Robert
Daar verkoopt Microsoft graag een goedkope licentie voor aan zoekmachines. Als je dan op google zoekt is het min of meer een handicap als je geen Word hebt.....

En met de bekende specs van Word is de text-info er makkelijk uit te filteren. Het crappy gedocumenteerde deel van de bestandsindeling bevat vooral de opmaak enzo.....
Het is geen handicap hoor als je geen Word hebt. Waarschijnlijk kun je nu net als pdf documenten een plain text versie bekijken die gecached is door Google. Werkt wel zo snel :7
Geloof dat dat de reden was waarom er geen Word (-clone) voor linux was.
Zoiets als StarOffice bedoel je? ;)
Star Office noem ik geen kloon. Het is een Office pakket. Tsjee, ik wist niet dat de MS dominatie al zover was dat zelfs tweakers elk office pakket dat een andere naam heeft dat MS Office een kloon genoemd wordt!
Het heeft import en export mogelijkheden, net zoals elk ander office pakket.
dus...
Een erg leuke ontwikkeling voor de jeugdige internetter vind ik. Het maakt inderdaad het zoeken naar verslagen e.d. veel makkelijker, maar of ouders en scholen er zo blij mee zullen zijn weet ik niet. Aan de andere kant, zo kunnen die mensen ook makkelijk voorbeeldverslagen vinden en dus ook makkelijker vergelijken... }>

Het lijkt me echter wel lastig om ect alles te indexeren, maar het is in ieder geval een leuk initiatief. Ik ben benieuwd wat er van komt...
Ik denk dat er 1 zeer belangrijk idee vergeten wordt, Google indexeert niet alleen websites maar kan ook ingehuurt worden voor het indexeren van intra/extra netten, en dan is het juist zo interessant dat ook office documenten meegenomen worden. En als deze technologie uit ontwikkelt is voor deze functie dan is het kleine moeite het ook voor het internet te gebruiken.
Lijkt me nog een lastige klus. De extentie .doc, welke gebruikt wordt voor Word-documenten, is ook de extentie die al veel langer wordt gehanteerd voor txt-files met documentatie, in simpele ASCII.
ik denk dat dat nog wel het kleinste probleem is waar ze mee gezeten hebben. Of iets een text-filetje is of een echt Word document is redelijk snel te achterhalen.
Ik vermoed dat men de headers ook controleert en niet alleen extensief, vergelijk het maar met bijvoorbeeld upload mogelijkheden in webformulieren, daar kan ook serverside gecheckt worden wat het contenttype is, zelfs het vervalsen van de exentensie heeft geen zin.
moelluk he als je na de eerste 10 bytes al doorhebt om welk type bestand het gaat..... Jahaa dat is toch wel weer drie hele regels perl-code en maar liefst 1 hele regexp...... :)

oeps : voor perl-hackers maar 1 regel natuurlijk maar ik dacht ik houd het ff netjes door in te springen enzo.... alhoewel.... :)
Zie hier het commentaar van een lamer denkt te laten zien wat hij weet, en daarbij onthult dat hij eigenlijk een nitwit is.
Correct me if I'm wrong
Hmm ik was dus niet de enige die vond dat die posting een beetje sneu overkwam. Maar ik had het een halve seconde na het verzenden al door..... Nouja whatever.....
En wederom wordt op de manier weer een duidelijk gemaakt dat Word DE tekstverwerker is. Waarom in Godsnaam? Omdat het zo gemakkelijk integreerd in windows, omdat MS scholen Office goedkoop opdringt.

Maar er wordt weer geen rekening gehouden met het feit dat er ook aardig wat mensen zijn die bijvoorbeeld StarOffice of WP gebruiken. Waarbij het grootste voordeel van WP is dat het zowel onder Windows als onder Linux draait, in tegenstelling tot Word. Dus waarom ook geen formate van WP, CorelDraw, Presentation en Ventura ondersteunen?

Als Google toch eenmaal zezig is, zal dat niet veel meer werk zijn, en met de opkomst van Linux zie ik toch steeds meer mensen van MS Office afstappen.
Het percentage niet-office gebruikers is waarschijnlijk zo klein dat het voor Google niet interessant is om daar ook in te voegen. Aangezien Google een commercieel bedrijf is, willen ze de kosten voor het ontwikkelen er graag uithalen.
Op het moment misschien, maar omdat Office alleen onder Windows draait, en bijvoorbeeld WP ook onder Linux, zou het met de opkomst van Linux toch wel eens intressant kunnen worden.
De opkomst van Linux is nog lang niet groot genoeg om dit interessant te maken. En als linux nog groter gaat worden, zie ik MS nog wel in staat om een office voor linux te maken.
Zou wel eens het begin van een macro-virus epidemie kunnen zijn. }>
snap niet helemaal waarom deze posting 'overbodig' wordt bestempeld. Lijkt me toch een rele mogelijkheid. Wat eerst voornamelijk via email gebeurde (uitwisselen van documenten), kan nu dus ook willekeurige mensen bereiken die zoeken naar een onderwerp.
Kleine moeite om in je document wat populaire woorden op te nemen, te samen met n of ander macro virus.
Tenzij de content dus geindexeerd wordt, en in een andere vorm (HTML) aan de gebruiker wordt gepresenteerd.
Beetje offtopic maar als Google toch dat bestand leest, ziet ie ook meteen dat er een macro in zit en dan kan ie er bij zetten (contains macros)
Google is toch wel n van de betere zoekmachine's. Met name voor het zoeken naar wetenschappelijk info en dergelijke. Ik denk dat er aardig wat wetenschappelijke informatie in word documenten op het net gevonden kan worden. Deze wordt dan zo door de "zoeker" ook bereikbaar. Interressante ontwikkeling dus.
De meeste wetenschappelijke documenten worden in LateX geschreven, en niet in Word :).
Mmmm... en hoe zit dat met warez of mp3 bestandjes die bijv. de extensie .doc hebben, die je dan later moet renamen? Volgens mij krijg je dus ook heel veel "troep" in die lijsten...
Zoals ook al eerder vermeld is de extencie niet de enige manier waarop wirdt aangegeven wat voor type een bepaald document is. Alle mp3-tjes die als extencie .doc hebben zullen al bij het lezen van het eerste karakter door de mand vallen.
Word bestanden herkennen door google is heel simpel aangezien "Word.Document.8" staat in elk bestand. Gewoon eens een word-bestand opentrekken in kladblok en je zal wel zien hoe simpel het eigenlijk wel is.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True