Google gaat miljoenen bibliotheekboeken inscannen

Google logo (klein) Op BBC News is te lezen dat Google gaat beginnen met het inscannen van een groot gedeelte van de boeken van vijf bibliotheken. Het gaat om de gehele collectie van de universiteitsbibliotheken van Michigan en Stanford en gedeeltes van de archieven van Oxford, Harvard en de New York Public Library. Op het grootste gedeelte van het ingescande werk zal geen copyright meer rusten, aangezien dat verloopt na 70 jaar en de collecties veel oude werken bevatten. Van de werken waarop nog wel copyright zit, wordt alleen een samenvatting publiek beschikbaar gemaakt. De verwachting is dat alleen al het inscannen van de zeven miljoen boeken in Michigan minimaal 6 jaar in beslag gaat nemen. Op welke manier de ingescande boeken via Google beschikbaar gemaakt gaan worden is nog niet bekend.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Dries Arnolds

Frontpage Admin

Feedback • 16-12-2004 13:23
83 • submitter: Ook

16-12-2004 • 13:23

Submitter: Ook

Bron: BBC News

Lees meer

Google staat downloaden oude boeken toe Nieuws van 30 augustus 2006

Duitse uitgevers komen met eigen online bibliotheek Nieuws van 24 oktober 2005

Franse nationale bibliotheek bezorgd over Google-plannen Nieuws van 22 februari 2005

Google stelt betaversie videozoekdienst voor Nieuws van 25 januari 2005

Google heeft interesse voor ongeëxploiteerde glasvezels Nieuws van 18 januari 2005

Google maant adverteerders tot correct taalgebruik Nieuws van 14 januari 2005

Google introduceert zoekproduct voor MKB Nieuws van 13 januari 2005

Google gaat 1% van zijn winst aan goede doelen geven Nieuws van 4 januari 2005

Microsoft bètatest desktop search als MSN Toolbar Suite Nieuws van 15 december 2004

Google laat veel content links liggen Nieuws van 12 december 2004

Yahoo komt volgende maand ook met desktopsearch Nieuws van 11 december 2004

Google lanceert IntelliText-feature: Google Suggest Nieuws van 10 december 2004

Concurrentie voor Google op het gebied van multimedia Nieuws van 2 december 2004

Tv- en videozoekmachines in ontwikkeling Nieuws van 30 november 2004

Google-bazen bieden aandelen te koop aan Nieuws van 22 november 2004

Google wordt een steeds grotere concurrent voor Microsoft Nieuws van 22 november 2004

Google introduceert 'academische' zoekmachine Nieuws van 20 november 2004

Meer producten en artikelen

Bedrijfsnieuws

IT-banen

Meer vacatures

Reacties (83)

-Moderatie-faq

Wijzig sortering

tweaktubbie 16 december 2004 13:31

Vraag me af wat voor OCR-technieken men gaat gebruiken. Aparte lettertypes, misschien handgeschreven zaken... Mij lijkt pdf-formaat wel 'n optie. Wel apart hoeveel schijfruimte Google kennelijk kan aanschaffen, voor Gmail kan het niet op, en nou dit weer. En de kernvraag blijft: waar gaat g00gle z'n aandeelhouders mee tevreden stellen???

sys64738 Moderator F&V @tweaktubbie • 16 december 2004 13:38

waar gaat g00gle z'n aandeelhouders mee tevreden stellen???

Nieuwe goede feature van Google = meer bezoekers = meer views op de reclamebanners = meer inkomen uit reclame = blije aandeelhouders.

Biermeester @tweaktubbie • 16 december 2004 14:18

Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.

Verwijderd @Biermeester • 16 december 2004 16:10

Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.

Nee, als ze slim zijn dan slaan ze het op in een database. Dan kun je er XML, PDF, TXT, HTML of wat dan ook van maken, plus dat je er door kan zoeken natuurlijk

Als ze OCR gaan gebruiken tenminste!?

Verwijderd @Verwijderd • 16 december 2004 18:04

En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.

Dat zou weer als XML - of een andere zelf bedachte markup language - opgeslagen kunnen worden inderdaad. Als de tekst maar (ook) in een database staat.

Ze kunnen natuurlijk ook eerst PDF ervan maken, of een ander vergelijkbaar formaat. Daarna alle PDF bestanden indexeren met hun eigen zoekmachine techniek. Dan heb je ook alle tekst in de database.

Het lijkt mij in ieder geval wenselijk om de inhoud van een boek in een database bij te houden. Als ze willen kunnen ze de PDF on-the-fly genereren uit XML en JPEG bestanden uiteraard

Ik zou het geniaal vinden, een zoekmachine die in boeken kan zoeken. Het lijkt mij voorlopig echter nog niet mogelijk om echt in alle boeken te zoeken, dus ook Nederlandse boeken.

Verwijderd @Verwijderd • 16 december 2004 17:43

En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.

Verwijderd @Verwijderd • 16 december 2004 21:45

OCR? Nee man, ze gaan het overtypen

Eric Oud Ammerveld @Biermeester • 16 december 2004 14:21

Zal me niets verbazen als het PDF gaat worden.
Dat kan tegenwoordig en zeker met de nieuwere standaard wel meer bevatten dan alleen tekst.
(Je kan d'r films, zip bestanden, text achter een wachtword e.d. in kwijt)

codepriest 16 december 2004 13:32

Er zijn nog een heleboel boeken, van ouder als 70 jaar die ECHT de moeite waard zijn in te scannen.

Helemaal het archief van Oxford. Bijna alle wetenschappelijke doorbraken zijn meer als 70 jaar geleden gebeurd, en het is alleen maar goed dat de hele wereld, en de nu opgroeiende jeugd toegang krijgt tot deze informatie. Anders krijg je inderdaad een generatie die niet verder komt als Lord of the rings alleen maar in de bioscoop te hebben gezien, alleen omdat ze geen tijd hebben gemaakt om te lezen, laat staan geschiedenis boeken.

Om gelijk maar even te reageren op Fire69, de bijbel is nog steeds het best verkochte boek op aarde, dus het lijkt me stug dat er geen mensen zijn die geintresseerd zijn in het lezen van oude vertalingen.

LauPro @codepriest • 16 december 2004 13:55

Reken eens uit hoeveel energie het kost om die boeken in de huidige vorm te verwarmen? Boeken mogen namelijk niet bevriezen in de winter omdat dat ovor wat oudere exemplaren slecht is voor de inkt e.d.

Ik denk dat als je naar het totaal kijkt het goedkoper is om 1 of meerdere 19" serverracks te hebben met daarin in digitale vorm alle boeken ouder dan 70 jaar dan honderden m2 met boeken in kasten e.d.

Daarnaast zijn boeken in digitale vorm veel makkelijker verplaatsbaar. Laat staan dat de inhoud er van niet zal wijzigen. Wat alleen mogelijk is dat er over een jaar of 50 een ander opslagformaat gaat worden gebruikt. Maar dat is dan ook alles.

PanMan @LauPro • 16 december 2004 14:40

Maar dit zijn natuurlijk alleen extra kosten: Echt niet dat die bibliotheken nu alles op de brandstapel gooien omdat ze er toch een digitale kopie van hebben... Juist die oude boeken hebben natuurlijk een enorme waarde, zowel historisch als direct, financieel.

Huupie758 @LauPro • 17 december 2004 09:18

Als we de servers eens bij de boeken plaatsen, worden ze meteen verwarmd. Scheelt ook weer in de kosten

Verwijderd 16 december 2004 13:25

Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???

TD-er

@Verwijderd • 16 december 2004 13:30

Er is wel meer interesants verschenen dan de laatste paar decenia hoor.
Denk alleen al aan de studenten die klassieke talen studeren, of bijvoorbeeld de boekwerken van DaVinchy of boeken uit oude kerken.

Dichters zoals bijvoorbeeld shakespeare zijn ook al zo lang dood dat er geen copyricht meer op zit.

Verwijderd @Verwijderd • 16 december 2004 13:44

Wist je dat de eerste publicatie van Lord of the Rings in 1954 was? Dat boek is dus al 50 jaar oud. Dat wil je wel nog lezen... sommige oude boeken vergaan gewoon niet. Als je nog even zonder tijd zit, laten we zeggen... 20 jaar, dan mag je Lord of the Rings dus van jezelf niet meer lezen.

Ik lees regelmatig boeken uit de 19de eeuw, en zelfs nog van daarvoor. De leeftijd van een boek (of beter gezegd, het verhaal, de inhoud), is een non-argument in de beslissing of je het wel of niet leest.

Zelfs compleet verouderde wetenschappelijke werken zoals je die in universiteitsbibliotheken vindt, zijn nog wel eens leuk om (vluchtig) door te lezen, al ware het maar om te zien hoe ver "men" toen was. Soms zijn er zelfs werken die nu nog actueel zijn (bijvoorbeeld over de relativiteitstheorie enzo), en dan is het wel aardig om een werken uit de begintijd van die theorie te lezen, om zo dicht mogelijk bij de bron te zitten.

Een ontwikkeling begint altijd in het verleden, en gaat door in de toekomst. Alle werken, ook de oudsten, dragen bij aan die ontwikkeling.

TheLunatic @Verwijderd • 16 december 2004 13:30

Niet elk boek is een roman, er zijn ook nog naslagwerken uit die tijd die zeker nog wel interessant zijn.

En dan nog, waarom zou een oud boek minder leuk zijn dan een modern boek als Harry Potter of LotR ? Slaat echt nergens op

Ben toch wel benieuwd hoe ze die boeken gaan scannen. De pagina's losmaken en in een sheetfeeder leggen zal wel niet mogen

Verwijderd @TheLunatic • 16 december 2004 13:48

Fototje maken misschien

Jasper Janssen @TheLunatic • 17 december 2004 03:21

Op het journaal hadden ze beelden van die machines.. ligt een boek, er komt een buis naar benden, die zuigt de rechter pagina iets omhoog, en dan komt er een robotstaafje van rechts naar links langs om de pagina om te slaan. Vervolgens daalt een scanner neer op de linker pagina, scant, gaat weer omhoog, en dan zuigt het buisje weer de rechterpagina aan, etc (ik neem aan dat ze dus twee runs moeten maken om de linker en rechter paginas er alletwee op te krijgen).

Kortom, een geautomatiseerde highspeed-scanner met automatische bladzijomslaanmachine.

fmb @Verwijderd • 16 december 2004 13:31

Hannibal Lecter, Harry Potter, Lord Of The Rings

In universiteitsbibliotheken?
Ik denk niet dat je die daar snel zult vinden, maar wie weet.

Wel ideaal om literatuur op te zoeken over een bepaald onderwerp. Alleen jammer dat de info 70 jaar of ouder is (tegen de tijd dat ze klaar zijn 76 jaar of ouder, kunnen ze meteen nog 6 jaar inscannen).

a.prinsen @Verwijderd • 16 december 2004 13:33

Dit kan heel interessant zijn voor studenten en onderzoekers. De meeste geschiedkundige boeken kunnen inzien. Filosophie boeken etc allemaal op een centrale plek. Tja en als je een student elektrotechniek bent kunnen die samenvattingen als een reuze legenda functioneren.. OH het boek dat ik moet hebben zit in die en die bibliotheek.. mooi dan weet ik waar ik moet zoeken.

Fire69 @Verwijderd • 16 december 2004 13:28

Stel je voor dat iemand de Bijbel zou lezen zeg, da's toch idioot, die is al zeker 1000 jaar oud!

TD-er

@Fire69 • 16 december 2004 13:31

Ja kijk de Bijbel kan ik me wel voorstellen dat je die niet gaat lezen...
Daar had ik nog niet aan gedacht.

whitehouse @Fire69 • 16 december 2004 14:16

never mind

HenkEisDS @Verwijderd • 16 december 2004 18:28

Ik denk persoonlijk dat het hier meer gaat om wetenschappelijke boeken (ken de bib van michican niet.), niet een of andere slechte novel.
Dit zou een hele goede aanvulling worden op google scholar! Sowieso het feit dat op grote schaal boeken ingescand gaan worden bevalt me prima.
Lijkt me leuk als de bibliotheken in Nederland ook zo'n initatief zouden starten. Ik weet alleen niet of daar het geld voor is.

@outofcontrol: de wereld bestaat uit meer boeken dan gewone leesboeken. Echt waar!

ILT @Verwijderd • 16 december 2004 19:44

@ out of control:
Misschien vind je hier wat tussen: http://www.gutenberg.org/catalog/

Zo niet, dan denk ik dat je gewoon niet zoveel op hebt met boeken an sich.

Ontopic: Loopt Google niet een beetje achter ten opzichte van als die sites die Public Domain boeken aanbieden, wat is de meerwaarde dat je intern in die boeken kan zoeken (een andere functie zou zijn ze aan te bieden aan het publiek, maar dat doen zoals gezegd al genoeg sites)?

sko @Verwijderd • 16 december 2004 23:22

LOTR verscheen in 1954/55 en the hobbit in 1937.. lekker modern

magel725 16 december 2004 13:30

De toekomstige aandelen van Google worden zo wel steeds interessanter. Vernieuwend blijft het bedrijf zeker en daarmee krijgen ze toch een steeds groter marktaandeel.

De boeken inscannen vind ik een ruig plan. Lijkt me persoonlijk best mooi om oude encyclopedies te bekijken en zo nog meer van die dingen. Ik vraag me wel af of het zin heeft om alle boeken in te scannen, want er zullen toch ook wel onzinnige boeken tussen zitten?

dmace 16 december 2004 13:39

Denk niet dat er veel ingescand hoeft te worden.
Volgens mij hebben we al een jaartje of 10 Project Gutenberg

Floort

16 december 2004 14:22

Er staan al een aantal boeken online en het ziet er goed uit.
Hoewel het lettertype wel een beetje klein is, is het nog redelijk te lezen.
De gezochte tekst word zelfs gemarkeerd in de pagina's. Jammer dat je de tekst niet kan selecteren, knippen en plakken.

Kijk bijvoorbeeld naar Romeo and Juliet

demartijn @Floort • 16 december 2004 14:35

Hmmm... hier schiet je dus niks mee op... allemaal Gif's

Das nou niet echt een resolutie wat je lekker kan lezen! Dat ze daar nou niet een beetje slimme tekstherkenningssoftware op los hebben gelaten snap ik niet... Als je toch gaat scannen, scan het dan meteen goed! Kan je het altijd opnieuw uitprinten met een ander lettertype.. Enzovoort!

Maargoed, zal ook wel weer software voor zijn die dat gif plaatje in een tekstbestand om kan zetten, weet iemand daar iets van?

Floort

@demartijn • 16 december 2004 14:41

Blijkbaar kan het wel als tekst doorzocht worden: ze markeren namelijk alle "Romeo"'s, "and"'s en "Juliet"'s.
Daar had ik namelijk naar gezocht.

demartijn @Floort • 16 december 2004 14:52

Er zit ook een heeeele slimme beveiliging overheen, tot nu toe biedt bij mij alleen het Printscreen knopje de oplossing om het naar mijn schijf te krijgen als gif bestandje...

Rogier V 16 december 2004 14:31

Op het grootste gedeelte van het ingescande werk zal geen copyright meer rusten, aangezien dat verloopt na 70 jaar en de collecties veel oude werken bevatten.

Als je in de wetboeken kijkt geldt de copyright 70 jaar na de dood van de auteur. Dus er kan werk gecopyeerd worden van tenminste 70 jaar.

Verwijderd 16 december 2004 14:36

Google gaat er volgens mij voor zorgen dat we over een aantal jaren echt ALLES kunnen vinden.. zelfs een zin op pagina 369 van Lord of the Rings (als voorbeeld dan)..

Gevonden op flabber.nl:

EPCI : http://www.robinsloan.com/epic/

leuk om te bekijken... gaat ook over dat google alles er voor over heeft om maar DE informatie voorziener te worden ter wereld..

Verwijderd 16 december 2004 13:30

Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???

lord of the rings is al ruim 30 jaar oud en ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt.

daarnaast zal er veel info in staan die interesant is voor specifieke vakken of interesses. of denk je dat die boeken voor niks in de top universiteiten staan ???

ook kan je denk ik stukjes vinden uit het boek als je zoekt op b.v. een uitvinder of een oude theorie ofzo.

RwD @Verwijderd • 16 december 2004 13:36

Precies.

Ik ben trouwens zelf "Alice's Adventures in Wonderland" aan het lezen, uit 1865 dus bijna 140 jaar oud.

En de bijbel is ook niet het jongste boek meer

Verwijderd @RwD • 16 december 2004 13:44

Wat dacht je van de grootste denkers van de laatste 1000 jaar ofzo?

Plato, Aristoteles, Erasmus..

Maar ook zeker genoeg romans die de moeite waard zijn zin ouder dan 70 jaar. Jules Verne b.v.

Het geeft een aardig beeld van het niveau hier als er meteen gedacht wordt aan Harry potter..

jelvank @Verwijderd • 16 december 2004 14:46

<offtopic>
Laatste 1000 jaar?
Plato: 427-347 v.Chr.
Aristoteles: 384 - 322 v.Chr

Hou ouder hoe beter...
</offtopic>

ATS @Verwijderd • 16 december 2004 14:53

Van de laatste 1000 jaar? De teksten van Plato en Aristoteles zijn ongeveer 2300 jaar oud.

Countess @RwD • 16 december 2004 13:47

En de bijbel is ook niet het jongste boek meer

elke nieuwe vertaling is weer anders, en op die vertaling zal (eventueel) weer copyright zitten.

Verwijderd @Verwijderd • 16 december 2004 15:16

Het laatste drama dat ik gelezen heb is de Draytek vigor manual. ± 2 jaar oud

Verwijderd @Verwijderd • 16 december 2004 14:12

"ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt."

Niet zeggen: DOEN

anandus @Verwijderd • 16 december 2004 15:14

Lord Of The Rings is werd voor het eerst gepubliceerd in 1954, en is daarmee dus zo'n 50 jaar oud.

70 jaar lijkt heel veel, maar dat is het niet, wat dacht je van Dracula, 1984, Edgar Allen Poe, etc.

Een hoop films die nu uitkomen zijn vaak in meer of mindere mate gebaseerd op de wat oudere boeken

Verwijderd 16 december 2004 13:32

Ben eigenlijk ook wel benieuwd hoe/waar (kosten) enz. dat opgeslagen gaat worden. Als 1 boek 1 MB is (als voorbeeld dan, lijkt me in werkelijkheid toch wel wat meer) dan heb je als ik het snel ff bereken al zo'n 6,67 TB aan opslagruimte nodig

TheLunatic @Verwijderd • 16 december 2004 13:38

6,6 terabyte. Wauw. Dat zijn echt niet de kosten waar het Google om te doen is hoor. 50x 250gb harddisks en je hebt de boel gemirrored, da's maar liefst (

) € 32.000... Daar hoeven ze het bij Google niet voor te laten. Wat denk je hoeveel ruimte en processorkracht Google nu al in beslag neemt ? (ik weet het ook niet hoor

)

Denk trouwens sowieso dat het meer kost om het digitaal te krijgen dat om het digitaal te houden

AcouSE @TheLunatic • 16 december 2004 14:09

32.000€ is een boel geld, maar niets vergeleken bij de kosten voor het inscannen van alle boeken. Dat is een full-time baan voor meerdere personen voor een aantal jaar.

Stel dat je op de een of andere manier elke 3 seconde een pagina kan scannen (vraag me niet hoe, maar stel dat) en dat een gemiddeld boek 100 pagina's heeft. Dan doe je dus 5 minuten over een boek. 7 miljoen boeken x 5 mins = 35 miljoen minuten. 60 minuten per uur en 8 werkuur per dag. 200 werkdagen per jaar = 365 manjaren. Geschat wordt dat het 6 jaar gaat duren -> dus ca. 60 personen nodig.

Reken zelf maar uit wat 60 personen fulltime gedurende 6 jaar kost.

Verwijderd @AcouSE • 16 december 2004 15:41

Om te indexeren zal je toch echt eerst echt OCR moeten toepassen...

Remus @AcouSE • 16 december 2004 14:15

En dan vergeet je nog het eventueel proeflezen van de tekst als er geOCRed gaat worden.

Mayco @AcouSE • 16 december 2004 14:33

hmm, ik denk dat je het mag vergeten dat die text geocrt wordt, dat zou echt onmogelijk werk zijn... hoewel, het is en blijft een zoekmachine... dus ze zullen wel op een of anedre manier er toch trefwoorden moeten aan kunnen koppelen...

Verwijderd @AcouSE • 16 december 2004 20:32

3 pagina's per seconde is niet erg snel, eigenlijk heel erg langzaam.

Op mijn werk staan er b.v. scanners die 230 pagina's per minuut er doorheen werken. Deze zijn van Siemens, maar b.v. Fujitsu verkoopt ook van dit soort spul.

Linkje met product informatie (voor als je nog wat geld te spenderen hebt

http://www.scamax.com/pdf/510_eng.pdf

RwD @Verwijderd • 16 december 2004 13:38

Ik heb thuis een halve Terabyte opslagruimte, en ik kan er nog best wel 6 betalen, meer zelfs. Moet voor Google 0 probleem opleveren, tenzij ze krapper bij kas zitten dan ik??

Verwijderd @RwD • 16 december 2004 18:10

Ik verwacht niet dat ze een vergelijkbare opstelling zullen gebruiken

Ik denk dat als er ongeveer 10 TB nodig zou zijn, dat hier voor ongeveer 50k aan opslag apparatuur voor nodig is. Inclusief racks, load balancers, volledig redundante oplossingen enzo

Verwijderd @Verwijderd • 16 december 2004 13:36

Je denkt dat 6,67 TB veel is voor Google?

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (83)

Sorteer op:

Weergave: