Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 83 reacties
Bron: BBC News, submitter: Ook

Google logo (klein)Op BBC News is te lezen dat Google gaat beginnen met het inscannen van een groot gedeelte van de boeken van vijf bibliotheken. Het gaat om de gehele collectie van de universiteitsbibliotheken van Michigan en Stanford en gedeeltes van de archieven van Oxford, Harvard en de New York Public Library. Op het grootste gedeelte van het ingescande werk zal geen copyright meer rusten, aangezien dat verloopt na 70 jaar en de collecties veel oude werken bevatten. Van de werken waarop nog wel copyright zit, wordt alleen een samenvatting publiek beschikbaar gemaakt. De verwachting is dat alleen al het inscannen van de zeven miljoen boeken in Michigan minimaal 6 jaar in beslag gaat nemen. Op welke manier de ingescande boeken via Google beschikbaar gemaakt gaan worden is nog niet bekend.

Lees meer over

Moderatie-faq Wijzig weergave

Reacties (83)

Vraag me af wat voor OCR-technieken men gaat gebruiken. Aparte lettertypes, misschien handgeschreven zaken... Mij lijkt pdf-formaat wel 'n optie. Wel apart hoeveel schijfruimte Google kennelijk kan aanschaffen, voor Gmail kan het niet op, en nou dit weer. En de kernvraag blijft: waar gaat g00gle z'n aandeelhouders mee tevreden stellen???
waar gaat g00gle z'n aandeelhouders mee tevreden stellen???
Nieuwe goede feature van Google = meer bezoekers = meer views op de reclamebanners = meer inkomen uit reclame = blije aandeelhouders.
Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.
Als ze slim zijn, slaan ze het op in een of ander XML smaakje. Dan kan je er van maken wat je wilt.
Nee, als ze slim zijn dan slaan ze het op in een database. Dan kun je er XML, PDF, TXT, HTML of wat dan ook van maken, plus dat je er door kan zoeken natuurlijk :)

Als ze OCR gaan gebruiken tenminste!?
En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.
En _hoe_ denk je dat ze het op gaan slaan in een database? Een pagina van een encyclopedie bevat niet enkel tekst, dus zul je echt met een markup language moeten werken. Bijvoorbeeld xml/pdf.
Dat zou weer als XML - of een andere zelf bedachte markup language - opgeslagen kunnen worden inderdaad. Als de tekst maar (ook) in een database staat.

Ze kunnen natuurlijk ook eerst PDF ervan maken, of een ander vergelijkbaar formaat. Daarna alle PDF bestanden indexeren met hun eigen zoekmachine techniek. Dan heb je ook alle tekst in de database.

Het lijkt mij in ieder geval wenselijk om de inhoud van een boek in een database bij te houden. Als ze willen kunnen ze de PDF on-the-fly genereren uit XML en JPEG bestanden uiteraard :)

Ik zou het geniaal vinden, een zoekmachine die in boeken kan zoeken. Het lijkt mij voorlopig echter nog niet mogelijk om echt in alle boeken te zoeken, dus ook Nederlandse boeken.
OCR? Nee man, ze gaan het overtypen ;)
Zal me niets verbazen als het PDF gaat worden.
Dat kan tegenwoordig en zeker met de nieuwere standaard wel meer bevatten dan alleen tekst.
(Je kan d'r films, zip bestanden, text achter een wachtword e.d. in kwijt)
Er zijn nog een heleboel boeken, van ouder als 70 jaar die ECHT de moeite waard zijn in te scannen.

Helemaal het archief van Oxford. Bijna alle wetenschappelijke doorbraken zijn meer als 70 jaar geleden gebeurd, en het is alleen maar goed dat de hele wereld, en de nu opgroeiende jeugd toegang krijgt tot deze informatie. Anders krijg je inderdaad een generatie die niet verder komt als Lord of the rings alleen maar in de bioscoop te hebben gezien, alleen omdat ze geen tijd hebben gemaakt om te lezen, laat staan geschiedenis boeken.

Om gelijk maar even te reageren op Fire69, de bijbel is nog steeds het best verkochte boek op aarde, dus het lijkt me stug dat er geen mensen zijn die geintresseerd zijn in het lezen van oude vertalingen.
Reken eens uit hoeveel energie het kost om die boeken in de huidige vorm te verwarmen? Boeken mogen namelijk niet bevriezen in de winter omdat dat ovor wat oudere exemplaren slecht is voor de inkt e.d.

Ik denk dat als je naar het totaal kijkt het goedkoper is om 1 of meerdere 19" serverracks te hebben met daarin in digitale vorm alle boeken ouder dan 70 jaar dan honderden m2 met boeken in kasten e.d.

Daarnaast zijn boeken in digitale vorm veel makkelijker verplaatsbaar. Laat staan dat de inhoud er van niet zal wijzigen. Wat alleen mogelijk is dat er over een jaar of 50 een ander opslagformaat gaat worden gebruikt. Maar dat is dan ook alles.
Maar dit zijn natuurlijk alleen extra kosten: Echt niet dat die bibliotheken nu alles op de brandstapel gooien omdat ze er toch een digitale kopie van hebben... Juist die oude boeken hebben natuurlijk een enorme waarde, zowel historisch als direct, financieel.
Als we de servers eens bij de boeken plaatsen, worden ze meteen verwarmd. Scheelt ook weer in de kosten ;)
Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???
Er is wel meer interesants verschenen dan de laatste paar decenia hoor.
Denk alleen al aan de studenten die klassieke talen studeren, of bijvoorbeeld de boekwerken van DaVinchy of boeken uit oude kerken.

Dichters zoals bijvoorbeeld shakespeare zijn ook al zo lang dood dat er geen copyricht meer op zit.
Wist je dat de eerste publicatie van Lord of the Rings in 1954 was? Dat boek is dus al 50 jaar oud. Dat wil je wel nog lezen... sommige oude boeken vergaan gewoon niet. Als je nog even zonder tijd zit, laten we zeggen... 20 jaar, dan mag je Lord of the Rings dus van jezelf niet meer lezen. :P

Ik lees regelmatig boeken uit de 19de eeuw, en zelfs nog van daarvoor. De leeftijd van een boek (of beter gezegd, het verhaal, de inhoud), is een non-argument in de beslissing of je het wel of niet leest.

Zelfs compleet verouderde wetenschappelijke werken zoals je die in universiteitsbibliotheken vindt, zijn nog wel eens leuk om (vluchtig) door te lezen, al ware het maar om te zien hoe ver "men" toen was. Soms zijn er zelfs werken die nu nog actueel zijn (bijvoorbeeld over de relativiteitstheorie enzo), en dan is het wel aardig om een werken uit de begintijd van die theorie te lezen, om zo dicht mogelijk bij de bron te zitten.

Een ontwikkeling begint altijd in het verleden, en gaat door in de toekomst. Alle werken, ook de oudsten, dragen bij aan die ontwikkeling.
Niet elk boek is een roman, er zijn ook nog naslagwerken uit die tijd die zeker nog wel interessant zijn.

En dan nog, waarom zou een oud boek minder leuk zijn dan een modern boek als Harry Potter of LotR ? Slaat echt nergens op :)

Ben toch wel benieuwd hoe ze die boeken gaan scannen. De pagina's losmaken en in een sheetfeeder leggen zal wel niet mogen :P
Fototje maken misschien
Op het journaal hadden ze beelden van die machines.. ligt een boek, er komt een buis naar benden, die zuigt de rechter pagina iets omhoog, en dan komt er een robotstaafje van rechts naar links langs om de pagina om te slaan. Vervolgens daalt een scanner neer op de linker pagina, scant, gaat weer omhoog, en dan zuigt het buisje weer de rechterpagina aan, etc (ik neem aan dat ze dus twee runs moeten maken om de linker en rechter paginas er alletwee op te krijgen).

Kortom, een geautomatiseerde highspeed-scanner met automatische bladzijomslaanmachine.
Hannibal Lecter, Harry Potter, Lord Of The Rings
:D
In universiteitsbibliotheken?
Ik denk niet dat je die daar snel zult vinden, maar wie weet.

Wel ideaal om literatuur op te zoeken over een bepaald onderwerp. Alleen jammer dat de info 70 jaar of ouder is (tegen de tijd dat ze klaar zijn 76 jaar of ouder, kunnen ze meteen nog 6 jaar inscannen).
Dit kan heel interessant zijn voor studenten en onderzoekers. De meeste geschiedkundige boeken kunnen inzien. Filosophie boeken etc allemaal op een centrale plek. Tja en als je een student elektrotechniek bent kunnen die samenvattingen als een reuze legenda functioneren.. OH het boek dat ik moet hebben zit in die en die bibliotheek.. mooi dan weet ik waar ik moet zoeken.
Stel je voor dat iemand de Bijbel zou lezen zeg, da's toch idioot, die is al zeker 1000 jaar oud!

|:(
Ja kijk de Bijbel kan ik me wel voorstellen dat je die niet gaat lezen...
Daar had ik nog niet aan gedacht.
Ik denk persoonlijk dat het hier meer gaat om wetenschappelijke boeken (ken de bib van michican niet.), niet een of andere slechte novel.
Dit zou een hele goede aanvulling worden op google scholar! Sowieso het feit dat op grote schaal boeken ingescand gaan worden bevalt me prima.
Lijkt me leuk als de bibliotheken in Nederland ook zo'n initatief zouden starten. Ik weet alleen niet of daar het geld voor is.

@outofcontrol: de wereld bestaat uit meer boeken dan gewone leesboeken. Echt waar! :P
@ out of control:
Misschien vind je hier wat tussen: http://www.gutenberg.org/catalog/

Zo niet, dan denk ik dat je gewoon niet zoveel op hebt met boeken an sich. ;)

Ontopic: Loopt Google niet een beetje achter ten opzichte van als die sites die Public Domain boeken aanbieden, wat is de meerwaarde dat je intern in die boeken kan zoeken (een andere functie zou zijn ze aan te bieden aan het publiek, maar dat doen zoals gezegd al genoeg sites)?
LOTR verscheen in 1954/55 en the hobbit in 1937.. lekker modern :)
Er staan al een aantal boeken online en het ziet er goed uit.
Hoewel het lettertype wel een beetje klein is, is het nog redelijk te lezen.
De gezochte tekst word zelfs gemarkeerd in de pagina's. Jammer dat je de tekst niet kan selecteren, knippen en plakken.

Kijk bijvoorbeeld naar Romeo and Juliet
Hmmm... hier schiet je dus niks mee op... allemaal Gif's :? Das nou niet echt een resolutie wat je lekker kan lezen! Dat ze daar nou niet een beetje slimme tekstherkenningssoftware op los hebben gelaten snap ik niet... Als je toch gaat scannen, scan het dan meteen goed! Kan je het altijd opnieuw uitprinten met een ander lettertype.. Enzovoort!

Maargoed, zal ook wel weer software voor zijn die dat gif plaatje in een tekstbestand om kan zetten, weet iemand daar iets van?
Blijkbaar kan het wel als tekst doorzocht worden: ze markeren namelijk alle "Romeo"'s, "and"'s en "Juliet"'s.
Daar had ik namelijk naar gezocht.
Er zit ook een heeeele slimme beveiliging overheen, tot nu toe biedt bij mij alleen het Printscreen knopje de oplossing om het naar mijn schijf te krijgen als gif bestandje...
De toekomstige aandelen van Google worden zo wel steeds interessanter. Vernieuwend blijft het bedrijf zeker en daarmee krijgen ze toch een steeds groter marktaandeel. :)

De boeken inscannen vind ik een ruig plan. Lijkt me persoonlijk best mooi om oude encyclopedies te bekijken en zo nog meer van die dingen. Ik vraag me wel af of het zin heeft om alle boeken in te scannen, want er zullen toch ook wel onzinnige boeken tussen zitten?
Denk niet dat er veel ingescand hoeft te worden.
Volgens mij hebben we al een jaartje of 10 Project Gutenberg
Op het grootste gedeelte van het ingescande werk zal geen copyright meer rusten, aangezien dat verloopt na 70 jaar en de collecties veel oude werken bevatten.
Als je in de wetboeken kijkt geldt de copyright 70 jaar na de dood van de auteur. Dus er kan werk gecopyeerd worden van tenminste 70 jaar.
Google gaat er volgens mij voor zorgen dat we over een aantal jaren echt ALLES kunnen vinden.. zelfs een zin op pagina 369 van Lord of the Rings (als voorbeeld dan)..

Gevonden op flabber.nl:

EPCI : http://www.robinsloan.com/epic/

leuk om te bekijken... gaat ook over dat google alles er voor over heeft om maar DE informatie voorziener te worden ter wereld..
Wie van ons gaat hier nog boeken lezen van 70 jaar geleden??? Kijk.....ik zou gerust een keertje de Hannibal Lecter boeken willen lezen (als ik tijd had) of Harry Potter, Lord Of The Rings, etc.etc. maaruhhm een boek van 70 jaar oud???
lord of the rings is al ruim 30 jaar oud en ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt.

daarnaast zal er veel info in staan die interesant is voor specifieke vakken of interesses. of denk je dat die boeken voor niks in de top universiteiten staan ???

ook kan je denk ik stukjes vinden uit het boek als je zoekt op b.v. een uitvinder of een oude theorie ofzo.
Precies.

Ik ben trouwens zelf "Alice's Adventures in Wonderland" aan het lezen, uit 1865 dus bijna 140 jaar oud.

En de bijbel is ook niet het jongste boek meer :Y)
Wat dacht je van de grootste denkers van de laatste 1000 jaar ofzo?

Plato, Aristoteles, Erasmus..

Maar ook zeker genoeg romans die de moeite waard zijn zin ouder dan 70 jaar. Jules Verne b.v.

Het geeft een aardig beeld van het niveau hier als er meteen gedacht wordt aan Harry potter..
<offtopic>
Laatste 1000 jaar?
Plato: 427-347 v.Chr.
Aristoteles: 384 - 322 v.Chr
;)
Hou ouder hoe beter...
</offtopic>
Van de laatste 1000 jaar? De teksten van Plato en Aristoteles zijn ongeveer 2300 jaar oud.
En de bijbel is ook niet het jongste boek meer
elke nieuwe vertaling is weer anders, en op die vertaling zal (eventueel) weer copyright zitten.
Het laatste drama dat ik gelezen heb is de Draytek vigor manual. ± 2 jaar oud ;)
"ik durf er gif op in te nemen dat die over 40 jaar nog gelezen wordt."

Niet zeggen: DOEN ;)
Lord Of The Rings is werd voor het eerst gepubliceerd in 1954, en is daarmee dus zo'n 50 jaar oud.

70 jaar lijkt heel veel, maar dat is het niet, wat dacht je van Dracula, 1984, Edgar Allen Poe, etc.

Een hoop films die nu uitkomen zijn vaak in meer of mindere mate gebaseerd op de wat oudere boeken :)
Ben eigenlijk ook wel benieuwd hoe/waar (kosten) enz. dat opgeslagen gaat worden. Als 1 boek 1 MB is (als voorbeeld dan, lijkt me in werkelijkheid toch wel wat meer) dan heb je als ik het snel ff bereken al zo'n 6,67 TB aan opslagruimte nodig :X
6,6 terabyte. Wauw. Dat zijn echt niet de kosten waar het Google om te doen is hoor. 50x 250gb harddisks en je hebt de boel gemirrored, da's maar liefst ( :P) ¤ 32.000... Daar hoeven ze het bij Google niet voor te laten. Wat denk je hoeveel ruimte en processorkracht Google nu al in beslag neemt ? (ik weet het ook niet hoor ;))

Denk trouwens sowieso dat het meer kost om het digitaal te krijgen dat om het digitaal te houden :)
32.000¤ is een boel geld, maar niets vergeleken bij de kosten voor het inscannen van alle boeken. Dat is een full-time baan voor meerdere personen voor een aantal jaar.

Stel dat je op de een of andere manier elke 3 seconde een pagina kan scannen (vraag me niet hoe, maar stel dat) en dat een gemiddeld boek 100 pagina's heeft. Dan doe je dus 5 minuten over een boek. 7 miljoen boeken x 5 mins = 35 miljoen minuten. 60 minuten per uur en 8 werkuur per dag. 200 werkdagen per jaar = 365 manjaren. Geschat wordt dat het 6 jaar gaat duren -> dus ca. 60 personen nodig.

Reken zelf maar uit wat 60 personen fulltime gedurende 6 jaar kost.
Om te indexeren zal je toch echt eerst echt OCR moeten toepassen...
En dan vergeet je nog het eventueel proeflezen van de tekst als er geOCRed gaat worden.
3 pagina's per seconde is niet erg snel, eigenlijk heel erg langzaam.

Op mijn werk staan er b.v. scanners die 230 pagina's per minuut er doorheen werken. Deze zijn van Siemens, maar b.v. Fujitsu verkoopt ook van dit soort spul.

Linkje met product informatie (voor als je nog wat geld te spenderen hebt :)
http://www.scamax.com/pdf/510_eng.pdf
hmm, ik denk dat je het mag vergeten dat die text geocrt wordt, dat zou echt onmogelijk werk zijn... hoewel, het is en blijft een zoekmachine... dus ze zullen wel op een of anedre manier er toch trefwoorden moeten aan kunnen koppelen...
Ik heb thuis een halve Terabyte opslagruimte, en ik kan er nog best wel 6 betalen, meer zelfs. Moet voor Google 0 probleem opleveren, tenzij ze krapper bij kas zitten dan ik??
Ik verwacht niet dat ze een vergelijkbare opstelling zullen gebruiken ;)

Ik denk dat als er ongeveer 10 TB nodig zou zijn, dat hier voor ongeveer 50k aan opslag apparatuur voor nodig is. Inclusief racks, load balancers, volledig redundante oplossingen enzo :)
Je denkt dat 6,67 TB veel is voor Google?

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True