Hoofdcategorieën
Device Settings

Google gaat miljoenen bibliotheekboeken inscannen

Door Dries Arnolds, donderdag 16 december 2004 13:23
Bron: BBC News, submitter: Ook, views: 15.070

Google logo (klein)Op BBC News is te lezen dat Google gaat beginnen met het inscannen van een groot gedeelte van de boeken van vijf bibliotheken. Het gaat om de gehele collectie van de universiteitsbibliotheken van Michigan en Stanford en gedeeltes van de archieven van Oxford, Harvard en de New York Public Library. Op het grootste gedeelte van het ingescande werk zal geen copyright meer rusten, aangezien dat verloopt na 70 jaar en de collecties veel oude werken bevatten. Van de werken waarop nog wel copyright zit, wordt alleen een samenvatting publiek beschikbaar gemaakt. De verwachting is dat alleen al het inscannen van de zeven miljoen boeken in Michigan minimaal 6 jaar in beslag gaat nemen. Op welke manier de ingescande boeken via Google beschikbaar gemaakt gaan worden is nog niet bekend.

Volgende 13:41 Abit-directie in Taiwan verdacht van 'creatief boekhouden'
Vorige 12:02 Sony HDPS-M1 voor foto-opslag gearriveerd in Nederland
Advertentie

Reacties

«  1  2  3  »


Leuk voor de stage lopers :P.

weer eens wat anders voor de vakkenvullers in de supermarkt ;) scanners vullen :Y) (no offense tegen de peepz die daar hard werken om hun zuurverdiende geld te verdienen! topwerk leveren jullie :Y)

Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???

Stel je voor dat iemand de Bijbel zou lezen zeg, da's toch idioot, die is al zeker 1000 jaar oud!

|:(

Ja kijk de Bijbel kan ik me wel voorstellen dat je die niet gaat lezen...
Daar had ik nog niet aan gedacht.

Niet elk boek is een roman, er zijn ook nog naslagwerken uit die tijd die zeker nog wel interessant zijn.

En dan nog, waarom zou een oud boek minder leuk zijn dan een modern boek als Harry Potter of LotR ? Slaat echt nergens op :)

Ben toch wel benieuwd hoe ze die boeken gaan scannen. De pagina's losmaken en in een sheetfeeder leggen zal wel niet mogen :P

Fototje maken misschien

Op het journaal hadden ze beelden van die machines.. ligt een boek, er komt een buis naar benden, die zuigt de rechter pagina iets omhoog, en dan komt er een robotstaafje van rechts naar links langs om de pagina om te slaan. Vervolgens daalt een scanner neer op de linker pagina, scant, gaat weer omhoog, en dan zuigt het buisje weer de rechterpagina aan, etc (ik neem aan dat ze dus twee runs moeten maken om de linker en rechter paginas er alletwee op te krijgen).

Kortom, een geautomatiseerde highspeed-scanner met automatische bladzijomslaanmachine.

Er is wel meer interesants verschenen dan de laatste paar decenia hoor.
Denk alleen al aan de studenten die klassieke talen studeren, of bijvoorbeeld de boekwerken van DaVinchy of boeken uit oude kerken.

Dichters zoals bijvoorbeeld shakespeare zijn ook al zo lang dood dat er geen copyricht meer op zit.

Hannibal Lecter, Harry Potter, Lord Of The Rings
:D
In universiteitsbibliotheken?
Ik denk niet dat je die daar snel zult vinden, maar wie weet.

Wel ideaal om literatuur op te zoeken over een bepaald onderwerp. Alleen jammer dat de info 70 jaar of ouder is (tegen de tijd dat ze klaar zijn 76 jaar of ouder, kunnen ze meteen nog 6 jaar inscannen).

Dit kan heel interessant zijn voor studenten en onderzoekers. De meeste geschiedkundige boeken kunnen inzien. Filosophie boeken etc allemaal op een centrale plek. Tja en als je een student elektrotechniek bent kunnen die samenvattingen als een reuze legenda functioneren.. OH het boek dat ik moet hebben zit in die en die bibliotheek.. mooi dan weet ik waar ik moet zoeken.

Wist je dat de eerste publicatie van Lord of the Rings in 1954 was? Dat boek is dus al 50 jaar oud. Dat wil je wel nog lezen... sommige oude boeken vergaan gewoon niet. Als je nog even zonder tijd zit, laten we zeggen... 20 jaar, dan mag je Lord of the Rings dus van jezelf niet meer lezen. :P

Ik lees regelmatig boeken uit de 19de eeuw, en zelfs nog van daarvoor. De leeftijd van een boek (of beter gezegd, het verhaal, de inhoud), is een non-argument in de beslissing of je het wel of niet leest.

Zelfs compleet verouderde wetenschappelijke werken zoals je die in universiteitsbibliotheken vindt, zijn nog wel eens leuk om (vluchtig) door te lezen, al ware het maar om te zien hoe ver "men" toen was. Soms zijn er zelfs werken die nu nog actueel zijn (bijvoorbeeld over de relativiteitstheorie enzo), en dan is het wel aardig om een werken uit de begintijd van die theorie te lezen, om zo dicht mogelijk bij de bron te zitten.

Een ontwikkeling begint altijd in het verleden, en gaat door in de toekomst. Alle werken, ook de oudsten, dragen bij aan die ontwikkeling.

Ik denk persoonlijk dat het hier meer gaat om wetenschappelijke boeken (ken de bib van michican niet.), niet een of andere slechte novel.
Dit zou een hele goede aanvulling worden op google scholar! Sowieso het feit dat op grote schaal boeken ingescand gaan worden bevalt me prima.
Lijkt me leuk als de bibliotheken in Nederland ook zo'n initatief zouden starten. Ik weet alleen niet of daar het geld voor is.

@outofcontrol: de wereld bestaat uit meer boeken dan gewone leesboeken. Echt waar! :P

@ out of control:
Misschien vind je hier wat tussen: http://www.gutenberg.org/catalog/

Zo niet, dan denk ik dat je gewoon niet zoveel op hebt met boeken an sich. ;)

Ontopic: Loopt Google niet een beetje achter ten opzichte van als die sites die Public Domain boeken aanbieden, wat is de meerwaarde dat je intern in die boeken kan zoeken (een andere functie zou zijn ze aan te bieden aan het publiek, maar dat doen zoals gezegd al genoeg sites)?

LOTR verscheen in 1954/55 en the hobbit in 1937.. lekker modern :)

Toegegeven, Google houdt de searchenginemarkt scherp. Een meer dan geniaal idee wat mij betreft...

iemand nog werk nodig ? zit je wel gebakken voor de komende decennia :)

Weet iemand hoe dat werkt? Is er apparatuur die automatisch ook de bladzijden van een boek om kan slaan tijdens het scannen?

@ krimszon
Als je het NOS nieuws van gister gezien zou hebben, had je n huge scanner inclusief bladzijdenomslagmechanisme en boekwisselmechanisme aan het werk kunnen zien.
Werkt met n plateau dat het nieuwe boek eronder
legt, dan een soort schuif die de bladzijde omslaat.volautomatisch dus. duurt niet langer dan n seconde of 2 per 2 bladzijden.
Dus zo ontzettend veel werk levert het dus ook niet op.alsof je daar zin in zou hebben ;) :Z

En controle op de spelling?
Want bij tekst in scannen komen er wel eens fouten.
Of worden er dat plaatjes er van gemaakt?

Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???
lord of the rings is al ruim 30 jaar oud en ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt.

daarnaast zal er veel info in staan die interesant is voor specifieke vakken of interesses. of denk je dat die boeken voor niks in de top universiteiten staan ???

ook kan je denk ik stukjes vinden uit het boek als je zoekt op b.v. een uitvinder of een oude theorie ofzo.

Precies.

Ik ben trouwens zelf "Alice's Adventures in Wonderland" aan het lezen, uit 1865 dus bijna 140 jaar oud.

En de bijbel is ook niet het jongste boek meer :Y)

Wat dacht je van de grootste denkers van de laatste 1000 jaar ofzo?

Plato, Aristoteles, Erasmus..

Maar ook zeker genoeg romans die de moeite waard zijn zin ouder dan 70 jaar. Jules Verne b.v.

Het geeft een aardig beeld van het niveau hier als er meteen gedacht wordt aan Harry potter..

<offtopic>
Laatste 1000 jaar?
Plato: 427-347 v.Chr.
Aristoteles: 384 - 322 v.Chr
;)
Hou ouder hoe beter...
</offtopic>

Van de laatste 1000 jaar? De teksten van Plato en Aristoteles zijn ongeveer 2300 jaar oud.

En de bijbel is ook niet het jongste boek meer
elke nieuwe vertaling is weer anders, en op die vertaling zal (eventueel) weer copyright zitten.

"ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt."

Niet zeggen: DOEN ;)

Lord Of The Rings is werd voor het eerst gepubliceerd in 1954, en is daarmee dus zo'n 50 jaar oud.

70 jaar lijkt heel veel, maar dat is het niet, wat dacht je van Dracula, 1984, Edgar Allen Poe, etc.

Een hoop films die nu uitkomen zijn vaak in meer of mindere mate gebaseerd op de wat oudere boeken :)

Het laatste drama dat ik gelezen heb is de Draytek vigor manual. ± 2 jaar oud ;)

De toekomstige aandelen van Google worden zo wel steeds interessanter. Vernieuwend blijft het bedrijf zeker en daarmee krijgen ze toch een steeds groter marktaandeel. :)

De boeken inscannen vind ik een ruig plan. Lijkt me persoonlijk best mooi om oude encyclopedies te bekijken en zo nog meer van die dingen. Ik vraag me wel af of het zin heeft om alle boeken in te scannen, want er zullen toch ook wel onzinnige boeken tussen zitten?

Vraag me af wat voor OCR-technieken men gaat gebruiken. Aparte lettertypes, misschien handgeschreven zaken... Mij lijkt pdf-formaat wel 'n optie. Wel apart hoeveel schijfruimte Google kennelijk kan aanschaffen, voor Gmail kan het niet op, en nou dit weer. En de kernvraag blijft: waar gaat g00gle z'n aandeelhouders mee tevreden stellen???

waar gaat g00gle z'n aandeelhouders mee tevreden stellen???
Nieuwe goede feature van Google = meer bezoekers = meer views op de reclamebanners = meer inkomen uit reclame = blije aandeelhouders.

Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.

Zal me niets verbazen als het PDF gaat worden.
Dat kan tegenwoordig en zeker met de nieuwere standaard wel meer bevatten dan alleen tekst.
(Je kan d'r films, zip bestanden, text achter een wachtword e.d. in kwijt)

Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.
Nee, als ze slim zijn dan slaan ze het op in een database. Dan kun je er XML, PDF, TXT, HTML of wat dan ook van maken, plus dat je er door kan zoeken natuurlijk :)

Als ze OCR gaan gebruiken tenminste!?

En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.

En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.
Dat zou weer als XML - of een andere zelf bedachte markup language - opgeslagen kunnen worden inderdaad. Als de tekst maar (ook) in een database staat.

Ze kunnen natuurlijk ook eerst PDF ervan maken, of een ander vergelijkbaar formaat. Daarna alle PDF bestanden indexeren met hun eigen zoekmachine techniek. Dan heb je ook alle tekst in de database.

Het lijkt mij in ieder geval wenselijk om de inhoud van een boek in een database bij te houden. Als ze willen kunnen ze de PDF on-the-fly genereren uit XML en JPEG bestanden uiteraard :)

Ik zou het geniaal vinden, een zoekmachine die in boeken kan zoeken. Het lijkt mij voorlopig echter nog niet mogelijk om echt in alle boeken te zoeken, dus ook Nederlandse boeken.

OCR? Nee man, ze gaan het overtypen ;)

Opzicht vind ik dit een heel erg goed idee van hun. Hopelijk gaan ze het ook (gedeeltelijk) gratis aanbieden. Het voordeel hiervan is dat je veel oude literatuur kunt bekijken op je eigen gemak. Boeken lezen via internet is zowiezo de toekomst wat mij betreft.

Ik zelf volg atm CCNA van Cisco, alles wat je moet weten wordt via internet aangeboden, het complete boek staat dus gewoon op internet, en het werkt super wat mij betreft.

Ik ben benieuwd, en ik zal er waarschijnlijk ook nog wel gebruik van gaan maken.

Ben eigenlijk ook wel benieuwd hoe/waar (kosten) enz. dat opgeslagen gaat worden. Als 1 boek 1 MB is (als voorbeeld dan, lijkt me in werkelijkheid toch wel wat meer) dan heb je als ik het snel ff bereken al zo'n 6,67 TB aan opslagruimte nodig :X

Je denkt dat 6,67 TB veel is voor Google?

Ik heb thuis een halve Terabyte opslagruimte, en ik kan er nog best wel 6 betalen, meer zelfs. Moet voor Google 0 probleem opleveren, tenzij ze krapper bij kas zitten dan ik??

Ik verwacht niet dat ze een vergelijkbare opstelling zullen gebruiken ;)

Ik denk dat als er ongeveer 10 TB nodig zou zijn, dat hier voor ongeveer 50k aan opslag apparatuur voor nodig is. Inclusief racks, load balancers, volledig redundante oplossingen enzo :)

6,6 terabyte. Wauw. Dat zijn echt niet de kosten waar het Google om te doen is hoor. 50x 250gb harddisks en je hebt de boel gemirrored, da's maar liefst ( :P) ¤ 32.000... Daar hoeven ze het bij Google niet voor te laten. Wat denk je hoeveel ruimte en processorkracht Google nu al in beslag neemt ? (ik weet het ook niet hoor ;))

Denk trouwens sowieso dat het meer kost om het digitaal te krijgen dat om het digitaal te houden :)

32.000¤ is een boel geld, maar niets vergeleken bij de kosten voor het inscannen van alle boeken. Dat is een full-time baan voor meerdere personen voor een aantal jaar.

Stel dat je op de een of andere manier elke 3 seconde een pagina kan scannen (vraag me niet hoe, maar stel dat) en dat een gemiddeld boek 100 pagina's heeft. Dan doe je dus 5 minuten over een boek. 7 miljoen boeken x 5 mins = 35 miljoen minuten. 60 minuten per uur en 8 werkuur per dag. 200 werkdagen per jaar = 365 manjaren. Geschat wordt dat het 6 jaar gaat duren -> dus ca. 60 personen nodig.

Reken zelf maar uit wat 60 personen fulltime gedurende 6 jaar kost.

En dan vergeet je nog het eventueel proeflezen van de tekst als er geOCRed gaat worden.

hmm, ik denk dat je het mag vergeten dat die text geocrt wordt, dat zou echt onmogelijk werk zijn... hoewel, het is en blijft een zoekmachine... dus ze zullen wel op een of anedre manier er toch trefwoorden moeten aan kunnen koppelen...

Om te indexeren zal je toch echt eerst echt OCR moeten toepassen...

3 pagina's per seconde is niet erg snel, eigenlijk heel erg langzaam.

Op mijn werk staan er b.v. scanners die 230 pagina's per minuut er doorheen werken. Deze zijn van Siemens, maar b.v. Fujitsu verkoopt ook van dit soort spul.

Linkje met product informatie (voor als je nog wat geld te spenderen hebt :)
http://www.scamax.com/pdf/510_eng.pdf
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 13:41 Abit-directie in Taiwan verdacht van 'creatief boekhouden'
Vorige 12:02 Sony HDPS-M1 voor foto-opslag gearriveerd in Nederland
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011