KU Leuven en Google gaan meer dan 70.000 boeken digitaliseren

De Vlaamse universiteit KU Leuven gaat samen met Google de komende twee jaar meer dan 70.000 boeken digitaliseren. De digitale exemplaren worden daarna gratis beschikbaar gesteld via Google Books en de bibliotheekcatalogus van de universiteit.

De boeken die gedigitaliseerd worden, zijn volgens de universiteit afkomstig uit vier belangrijke collecties van de KU Leuven, waaronder werken uit de 18e en 19e eeuw. Er zal gebruik worden gemaakt van optical character recognition om de inhoud van scans om te zetten in doorzoekbare tekst.

De bibliotheken van de KU Leuven hebben eerder al samengewerkt met Google. Begin 2022 sloten de KU Leuven Bibliotheken, de Koninklijke Bibliotheek van België en Google een overeenkomst om duizenden historische werken toegankelijk te maken via Google Books en via de catalogi van de bibliotheken zelf.

Door Jay Stout

Redacteur

21-11-2023 • 10:23

40

Reacties (40)

40
40
17
3
0
20
Wijzig sortering
Geek-vraag...
Bestaan daar machines voor om boeken te scannen? Of wordt daar elke bladzijde met de hand op een flatbed scanner gelegt?
:? :? :?
Ja. Er zijn bedrijven in Nederland gespecialiseerd in het scannen van boeken. Ik heb daar 25 jaar geleden een paar maanden bij gewerkt. Wat ik je kan vertellen: bij echt oude boeken komt er veel handwerk bij kijken. Machines helpen om het op een zo uniforme manier in te scannen maar zeker de oude perkamentachtige boeken zijn dusdanig fragiel dat je veel handwerk nodig hebt om het te scannen. Ik heb destijds het stadsarchief van Leiden mogen filmen (destijds ging het nog op microfilm, tegenwoordig digitaal), dat zijn deze boeken. Dat soort boeken moest je zorgvuldig openvouwen en dan zakt er een glasplaat op die het nog platter drukt. Was niet altijd even fijn voor de binding. Later verschenen er digitale scanners met een V-vorm (zie link van Matthijz) waarbij de boeken "vriendelijker" behandeld konden worden.

In dit artikel gaat het om boeken uit de 17e en 18e eeuw en om OCR. Dat betekent dat ze gedrukt zijn, en mijn vermoeden is dat die boeken in betere staat zijn en wellicht met een automatische pageturner gescand kunnen worden. In het bedrijf waar ik destijds werkte moest elke OCR-gescande pagina handmatig nagekeken worden omdat er nog veel fouten in stonden (verschil tussen i, l, 1, I ging bv vaak verkeerd). Ik hoop (en neem aan) dat OCR in de afgelopen 25 jaar echter een stuk vooruit is gegaan.

Wel jammer dat Europese onderwijsinstituten hun heil zoeken bij een hypercommercieel bedrijf als Google voor dit soort projecten.
Er zitten een hoop ouderen boeken tussen ook bijvoorbeeld de "Collectio academica antiqua" en die collectie gaat terug tot begin de jaren 1400. Dacht dat KU Leuven ook bijvoorbeeld de Anjou Bijbel in hun collectie heeft. Denk niet dat deze stukken in aanmerking komen voor een automatische page turner ;)

Denk dat de term "monnikenwerk" wel van toepassing is, zowel voor het inscannen als indertijd het maken van de boeken

Een overzichtje (dat misschien ook wel in het artikel mocht)
  • Collectio academica antiqua of de oude academische collectie uit de Bijzondere Collecties. Belangrijk om weten is dat de collectie volledig online beschikbaar en doorzoekbaar zal zijn tegen het einde van het project in 2025, wanneer ook de viering van de 600ste verjaardag van de Leuvense universiteit plaatsvindt.
  • Een ruime selectie uit de rijke erfgoed- en onderzoekscollecties van de jezuïeten uit Vlaanderen en Nederland, beheerd door de Maurits Sabbebibliotheek.
  • Een selectie van 20.000 boeken uit de 18de en de 19de eeuw, uitgegeven door vooraanstaande en kleinere Belgische uitgevers uit de collectie beheerd door Artes.
  • Een erfgoedcollectie met focus op de geschiedenis van de wiskunde, fysica, landbouw en geografie uit de collectie van Campusbibliotheek Arenberg
Iemand moet het scannen betalen en de software leveren. Aangezien de KU zelf ook een digitale versie behoudt van de ingescande boeken, zie ik geen groot probleem met deze samenwerking. In plaats van fysiek naar de KU te moeten wordt het digitaal beschikbaar voor zowel de KU rechtstreeks als via Google voor de rest van de wereld.
En Google verdient de investering weer terug met reclame bij de zoekresultaten.
nog veel fouten in stonden (verschil tussen i, l, 1, I ging bv vaak verkeerd). Ik hoop (en neem aan) dat OCR in de afgelopen 25 jaar echter een stuk vooruit is gegaan.
OCR gaat dat nooit oplossen, maar LLM's wel.
LLM's kunnen net zoals mensen zien of wat de OCR wel steek maakt of niet, en corrigeren.
Iedereen gebruikt LLM's voor inteligentie uit te halen, maar de sterkte van LLM's ligt voornamelijk in taal constructies. Intelligentie is daar gewoon een bijproduct van.
We kunnen dus aannemen dat een vrij eenvoudige en lichte LLM OCR al zonder probleem zou kunnen corrigeren.
Waarom is het jammer dat ze bij Google gaan voor dit project?
Omdat die geen Nederlands, Frans, Latijn, etc ... kunnen. Omdat dit werkgelegenheid wegneemt van de lokale markt. Omdat google wel Evil doet !!! Etc ...
Sorry voor de late reactie. De motieven van Google zijn niet bepaald nobel meer. Ze loggen alles wat los en vast zit en je hebt nauwelijks grip o pwat ze met die gegevens doen. Wat als er ooit een fout regime Google gaat vragen wie boek X heeft gelezen? Als je ziet waar mensen in Rusland voor achter de tralies verdwijnen is dat geen ondenkbeeldig scenario. Steeds partijen in de semi-overheidhoek zijn al jaren bezig om zich bewust te ontkoppelen van Google (OV, Zorg, Publieke Omroep), ik vind het jammer dat onderwijs daar in dit geval de andere kant op beweegt.
Ik zou me meer zorgen maken over extreme religies die het hier aan het overnemen zijn
In het bedrijf waar ik destijds werkte moest elke OCR-gescande pagina handmatig nagekeken worden omdat er nog veel fouten in stonden (verschil tussen i, l, 1, I ging bv vaak verkeerd). Ik hoop (en neem aan) dat OCR in de afgelopen 25 jaar echter een stuk vooruit is gegaan.
Mja dat hangt van de context af vaak zie ik in gedrukte documenten van rechtzaken van bv de jaren 60-70 dat I (hoofdletter i) gebruikt wordt als 1. Dus I/I/I969 is 1 januari 1969. Ik weet niet of het de job is van de OCR om dat begrijpen/voorspellen ?
Ja die zijn er: https://www.treventus.com/scanner/automatic-book-scanner
Neemt niet weg dat er nog redelijk wat man uren bij komen kijken om boeken klaar te maken voor de scanner. En de gescande pagina's controleren op imperfecties.
Ja, een eerste zoektocht via DuckDuckGo geeft me al https://avas.nl/producten/bookscanners. Maar er bestaan nog veel geavanceerdere. En iets zegt mij dat Google wel eens over dat type zou kunnen beschikken.
Dit is tweakers ;)
https://www.youtube.com/watch?v=kvM-tjrS2-U

Ik kan geen beelden van google's project vinden. Er is wel een heel item over op YT maar dat is puur over het project. Ik verwacht namelijk dat google zelf iets gebouwd kan hebben en ben wel benieuwd of dat zo is en wat het dan is.
Er zijn zowel speciale scanners beschikbaar, als gewoonweg fotocamera's. Bij de Koninklijke Bibliotheek in Den Haag wordt van beide gebruik gemaakt voor eigen digitalisering. Daarnaast heeft de KBNL ook een aantal jaar terug een vergelijkbaar Google project gevolgd. Van beide gedigitaliseerde boeken zijn de scans en OCR via www.delpher.nl te vinden.
Hoe het gebeurt, hangt sterk af van de (historische) waarde van het boek en de toestand ervan.

Bij fysieke exemplaren zonder echte waarde, kunnen ze zelf het boek met een papiermes de rug afsnijden om dan de losse blaren vlot door een automatische scanner te halen. Dat wordt natuurlijk niet met historische manuscripten gedaan, maar bij recentere boeken waar ze toch meerdere fysieke exemplaren hebben, kan het een optie zijn om economisch veel te digitaliseren. Vaak digitaliseert men daar om minder fysieke exemplaren te moeten bijhouden.

Een boek scanner die zelf de bladzijdes omdraait kan ook, maar dan voor boeken waar de waarde er wat tussenin zit. De boeken worden eerst geïnspecteerd om zeker te zijn dat ze voldoende sterk zijn om veilig door de machine gescand te worden.

Voor de meest waardevolle boeken/manuscripten of degene die in een te zwakke staat zijn, gaat men alles nog voorzichtig manueel doen. Wordt dan ook niet gescand, maar eerder gefotografeerd.
Er is zelfs een methode om opgerolde scrolls die zijn verbrand te scanner met MRI en de tekst te detecteren en te ontcijferen. Bladen omslaan. Pfff dat is zo vorige eeuw! :o

https://archeologieonline...-geheimen-dankzij-ct-scan
Ha neen,
Het is geen flatbed zoals we thuis kennen.
Lijk meer een opname apparaat zoal vroeger op de repro werd gebruikt maar dan digitaal.
Een tafel die uit twee stukken bestaat die in hoogte kan worden versteld zodat de rug van het boek recht ligt.
Dan wordt de bladzijde per pagina gefotografeerd, witte handschoentjes aan.
Per KB staat er een of twee van die apparaten dus ja daar gaat wel wat tijd in zitten en veel hand werk.
Waarschijnlijk moeten de teksten ook nog handmatig worden ingevoerd zodat het makkelijker doorzoekbaar word voor onderzoekers. Hoe dit gaat weet ik niet, vermoed dat net als bij de blind en braille bibliotheek dit gedaan wordt door vrijwilligers?
Ja de plaats waar ik nu werk (vrijwilligerswerk - lang verhaal) gebruikt een i2s copibook (https://repromat.nl/product/copibook-open-system/). Dat kost behoorlijk wat geld en je zit best met een supportcontract bij een andere firma.

Ik trachtte scans te maken van boeken uit einde 18de en begin 19de eeuw. Het is verbazingwekkend hoe goed papier bewaard kan blijven maar zorgen dat iedere pagina mooi plat en egaal gescanned wordt, was een vaardigheid die ik na 2-3 maanden proberen toch niet helemaal in de vingers kreeg.
Het lukte mij niet om dit werk naar behoren te doen, dus nu doe ik digitalisering/data entry van oude (begin-midden 20ste eeuw) huwelijkscontracten.

Maar het calligrafisch cursief van het begin midden 20ste eeuw is niet simpel. Dat van de 18, 19de eeuw is voor mij althans quasi onleesbaar en je moet er eigenlijk ook goed en klassiek geschoold voor zijn (latijn, code napoleon, ...). Een boek uit de 15de eeuw. Er staat er toevallig recent 1 ten toon. Ik heb het nog niet bekeken maar als ik cijfers kan herkennen ben ik al heel blij.
Hopelijk scannen ze de boeken op hoogste kwaliteit en maximale resolutie, want heel vroeger hielden ze geen rekening mee dat bijvoorbeeld bij het tonen van de plaatjes op hedendaagse technologie opeens veel kleiner werden, dus je probeert het te vergroten helaas zie je de pixels :')

Dus dat betekent veel werk voor ze, meer vertraging op netwerk, meer opslag nodig, meer hardware nodig, meer personeel nodig, enzovoort. Dus veel succes :P
Mijn ervaring met de Google scans is dat het echt massa is. Van wat ik bij de KBNL scans heb gezien was de kwaliteit relatief laag en waren handen e.d. inbegrepen op de scans. Ik hoop dat het bij dit project beter gaat :).
Waarom nou weer via Google. Kunnen ze hun AI weer lekker trainen.
Nederland of EU kan dooiers toch wel zelf, zonder monopolist? Boekenscanners en OCR
daar hebben we toch enkel voordeel aan? Waar zie jij het probleem?
Zet op usenet en op torrent misschien.
En archive.org. overal eigenlijk waar je het gratis kan 'dumpen' voor latere referentie
Wel veel zeg.. 70000

[Reactie gewijzigd door MrMonkE op 23 juli 2024 13:22]

Valt wel mee hoor 70.000 boeken, is aardig wat meter maar heel behapbaar voor een degelijk digitaliserings bedrijf.
" de eerste zending van 5.000 boeken staat klaar om te verzenden naar Google en integraal te scannen. Gedurende de komende twee jaar zullen meer dan 70.000 boeken in het publieke domein worden geselecteerd en klaargemaakt voor digitalisering. "

2 jaar doorlooptijd. (Zegt natuurlijk niets over de intensiteit van scannnen)
Maar ik dacht eigenlijk dat het hier ook om perkamenten en hele oude dingen ging waar je heel secuur mee om moet gaan omdat ze heel oud zijn en dacht dat dat wel veel tijd zou kosten. Ik maakte ook de denk fout dat ik dacht dat ze daarom vak-studenten boeken uit hun vakgebied zouden laten scannen en beoordelen maar dat is niet te doen besef ik me nu. Kan net zo goed gedaan worden door iemand niet eens kan de taal kan lezen.

Ze zijn ook al een tijdje bezig. (2004 :) )
nieuws: Google gaat miljoenen bibliotheekboeken inscannen

Ik kan niets vinden op jaar basis behalve 'miljoenen' in 2021.
Inderdaad. En George Dyson zei toen (2005) reeds in een Google talk: "We are not scanning all those books to be read by people. We are scanning them to be read by an AI."

Nu, ze kunnen eraan beginnen, de AI is er en ze hebben al vele miljoenen boeken gescand.
Twee jaar (731 dagen voor het gemak), 70.000 boeken. Dat zijn dus ~100 (95,75) boeken per dag om te scannen. Er zitten ook boeken bij uit de periode 1700 - 1899, dat zijn dus uiterst fragiele boeken. Nu snap ik dat men bij Google meerdere apparaten zal hebben om de boeken te scannen en te doen, maar al met al lijkt het mij alsnog een hele flinke klus.
De persoon die mij probeerde op te leiden in het scannen van boeken uit die periode voor het digitaliseringsproject van het rijksarchief deed 4-6 scans/minuut. En bijna iedere scan was 2 pagina's. Die kon tot 2 boeken/dag verwerken in een voormiddag. Ik bleef steken op een 70 tal scans. Want ik kreeg de top, midden, bodem niet glad waardoor de glyphs in de margin er niet waren of de scan was scheef of ... waardoor het kwalitatief niet goed was. Goed geregeld met het juiste volk is dit zeer goed en kwaliteitsvol te doen.
Er zullen wellicht data hoarders zijn die dit verzamelen.

Op zich is dit initiatief wel interessant. Oude boeken kun je niet makkelijk delen maar hiermee maakt men ze wereldwijd beschikbaar. Niet alleen dat, Leuven zou zelfs de optie hebben om een grotere digitale bibliotheek aan te leggen door oude boeken te kopen, digitaliseren en dan de minder noemenswaardige boeken te verkopen. Zelf verzamel ik oude atlassen en oudere prints van voor 1800 kosten snel duizenden zo niet tienduizenden euro's. En vanwege dat ze per pagina (vaak zie je dan een stad/land) meer opbrengen zijn complete atlassen heel moeilijk aan te komen. Dit is ook het geval voor biologie boeken ed.
Hopelijk wordt het gratis beschikbaar. Het zal inderdaad gratis worden.

[Reactie gewijzigd door KKose op 23 juli 2024 13:22]

Dat lijkt er wel op volgens de inleiding:
De digitale exemplaren worden daarna gratis beschikbaar gesteld via Google Books en de bibliotheekcatalogus van de universiteit.
Ah ok, te snel gelezen, dat heb ik gemist
Hopelijk blijft alle gerelateerde data ook gratis.

Bv google photos was gratis tot google voldoende data had en nu moet je wel voor opslag betalen.
De informatie oorlog gaat een nieuwe etappe in. Boeken zijn zeer interessant omdat je zo goed als zeker weet dat het niet geschreven is door een AI. Waardoor je geen lus aan informatie krijgt.
Maak zeer regelmatig gebruik van Google Books. Heb wat interesses waarbij veel waardevol materiaal beschikbaar is tussen 1600-1930 ongeveer, dus ideaal. Enige nadeel vind ik de soms wat bedroevende kwaliteit van de scans. Niet meer helemaal van deze tijd als je het mij vraagt. Wat dat betreft deed Microsoft het beter vroeger. Archive.org is ook altijd een geweldige bron waar je veel hoge kwaliteit van universiteiten e.d. kunt vinden qua boekscans.
Dit wordt interessant als ze het gaan ontsluiten met Linked Open Data, bijv. via Nexus
Gebruiken ze de OCR nog steeds enkel voor het kunnen doorzoeken van de tekst en niet voor het weergeven van de tekst in een document?

Ik heb een tijd geleden wel eens in Google Books naar oude boeken gekeken, maar dan kreeg ik scans van pagina's waar je een redelijk groot scherm voor nodig had om het goed te kunnen lezen. Ik denk dat wanneer via OCR met behoud van stijl omgezet zou worden naar bv. ePub veel toegankelijker zou worden voor een veel groter publiek.

Op dit item kan niet meer gereageerd worden.