Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Amsterdam gaat eeuwenoude handschriften met computer digitaliseren

Het Stadsarchief Amsterdam heeft vijftig kilometer aan historische documenten, waarvan het merendeel met de hand is geschreven. Slechts weinig onderzoekers kunnen die handschriften lezen. Het archief gaat een speciale computer inzetten om de teksten te lezen en digitaliseren.

Het gaat om oude, met de hand geschreven teksten uit de zeventiende en achttiende eeuw. Een computer moet daar miljoenen scans van maken zodat de informatie online doorzoekbaar wordt, zo meldt het Stadsarchief. Dit moet een enorme hoeveelheid nieuwe feiten en gegevens over het verleden opleveren, die vooral voor onderzoekers interessant zijn.

Hiervoor wordt de handschriftherkenningstechnologie van het Transkribus-platform ingezet. Deze technologie is in Europees verband ontwikkeld aan de Universiteit van Innsbruck. Volgens het Stadsarchief kan de ingezette computer met Transkribus de teksten van de zeventiende-eeuwse notaris Hendrik Schaef nu al voor 94 procent foutloos lezen. Er is dus nog een character error rate van 6 procent.

Dit Transkribus-handschriftherkenningsprogramma is een deel van het project. Daarnaast wordt een crowdsourcingsplatform van het Stadsarchief ingezet, genaamd VeleHanden. De computer scant, leest en 'vertaalt' de oude teksten, waarna de vrijwilligers van VeleHanden de documenten kunnen lezen, indexeren en eventuele correcties doorvoeren. De computer moet vervolgens weer leren van die correcties om de foutmarge te verkleinen.

Bij dit project worden eerst de documenten van het Archief van de Amsterdamse Notarissen gebruikt. Dit notarieel archief, dat een door Unesco toegekende, beschermde status heeft, bevat enorm veel teksten met details over allerlei zaken uit het toenmalige dagelijks leven in Amsterdam. Dit archief is volgens Lex Heerma van Voss, directeur van het Huygens Instituut voor Nederlandse Geschiedenis, een 'gigantische goudmijn met nog grotendeels onbekende, historische feiten'.

Door Joris Jansen

Nieuwsredacteur

20-03-2019 • 10:16

33 Linkedin Google+

Reacties (33)

Wijzig sortering
Een foutmarge van 6% is nog best goed leesbaar, zie hier de eerste twee paragrafen van dit stuk:
Het Stadsarchief #msterdam heeft vi#ftig kilometer aa# historische docu#enten, waarvan he# merendeel met de h#nd is geschreven. #lechts weinig ond#rzoekers kunnen d#e handschriften l#zen. Het archief g#at een speciale co#puter inzetten om #e teksten te lezen #n digitaliseren.#

Het gaat om oude# met de hand geschr#ven teksten uit de #eventiende en ach#tiende eeuw. Een c#mputer moet daar m#ljoenen scans van #aken zodat de info#matie online door#oekbaar wordt, zo #eldt het Stadsarc#ief. Dit moet een e#orme hoeveelheid #ieuwe feiten en ge#evens over het ver#eden opleveren, d#e vooral voor onde#zoekers interess#nt zijn.
Hangt er wel vanaf of die errors inderdaad als # worden weergegeven of dat er een andere, verkeerde letter voor in de plaats wordt gezet:
Het Stadsarchief Ambterdam heeft vijrtig kilometer aap historische doculenten, waarvan hey merendeel met de hond is geschreven. Plechts weinig onderzeekers kunnen dip handschriften lozen. Het archief laat een speciale compuker inzetten om me teksten te lezen in digitaliseren.

Het gaat om ouder met de hand geschroven teksten uit de neventiende en achstiende eeuw. Een cimputer moet daar maljoenen scans van raken zodat de infolmatie online doorboekbaar wordt, zo geldt het Stadsarctief. Dit moet een eborme hoeveelheid lieuwe feiten en gezevens over het vermeden opleveren, doe vooral voor ondekzoekers interessunt zijn.
Verdwr zijn de fouten niet per se everedig verdeeld. Het zou zomaar kunnen dat hele woorden onleesbaar zijn of een paar letters consistent verkeerd herkend wordt.
Ja, inderdaad, dat maakt nogal een verschil
Bij de laatste TensorFlow Developer Summit was ook een item over een vergelijkbaar project om het archief van het vaticaan te vertalen.

https://www.youtube.com/watch?v=v-FgOACRgfs
Meer info over het gehele project:
Alle Amsterdamse Akten
Ik probeer dan altijd een idee te schetsen hoe die 1000e documenten worden ingescand.
Is er dan serieus een medewerker/vrijwilliger die iedere bladzijde op een scanner moet plaatsen en moet wachten tot de scan klaar is?
misschien worden dit soort systemen gebruikt?
https://www.youtube.com/watch?v=03ccxwNssmo
het lijkt me dat deze aangepast kunnen worden zodat ze ook met eeuwen oude boeken overweg kunnen
Het ligt uiteraard volkomen aan het bron materiaal en de aard en kwaliteit en dat zal voor 50 kilometer aan documenten aanzienlijk zijn vermoed ik. Dus ik denk van alles wat. O-)
En ook dat dit waarschijnlijk geen losse pagina's zijn, maar in boeken. En denkende dat de pagina's ook niet zo sterk zijn als nu en redelijk scheur gevoelig kunnen zijn. Plus ook dat wellicht als je in scant, het licht van de scanner door het papier gaat, waardoor de scan zelf ook niet al te best is.Ben benieuwd.
Licht door papier los je op met een zwart vel aan de achterkant.
Overigens vermoed ik dat het vroeger gebruikte papier veel dikker is dan wat we nu gebruiken, en dat het enige doorschijnende licht door gaatjes in het papier komt.
Ga er maar vanuit dat hier gewoon een vrijwel automatisch systeem voor is waar minimale menselijke interactie aan te pas komt ;)

Edit: Ik zie dat Rick mij voor is, maar zulke apparaten was ik ook op het spoor gekomen inderdaad :p

[Reactie gewijzigd door sanderth op 20 maart 2019 10:43]

Ik denk dat je je daar vergist. Voor zo'n oud materiaal wordt dit nog handmatig gedaan. Wel met OneShot technologie, waardoor het scannen + verwerken zo'n 20 sec / opname duurt (bv met deze scanners: https://www.i2s.fr/en/range/small-book-scanners-a3-a2). Scanoperatoren zijn nogal vaak studenten of het werk wordt gedaan in beschermde werkplekken.
Ik weet niet hoe ze het in dit geval precies gaan doen maar zeker met unieke boeken is het lastig 100% automatisch te doen, dus ja, handmatig omslaan zal er wel bij komen kijken.

Wel gaat het scannen vaak veel sneller dan ‘vroeger’. Er bestaan nu camera’s die in één fractie van een seconde de pagina fotograferen in plaats van een scan te maken die x seconden duurt. Ook hoef je dan niet steeds om te keren.
Ja, en er zijn zelfs projecten waarbij daarna via crowdsourcing ook, al dan niet handmatig, de vertaling heeft plaats gevonden. Een mooi project is het Jungle Rhytms project:

Er waren Belgische wetenschappers gestationeerd van 1938 tot 1958 in het Yangambi Research Station in wat nu de Democratische Republiek Congo is, in het kader van een onderzoeksproject in de landbouw. In die periode zijn de wetenschappers - om onbekende redenen - ook begonnen met het verzamelen van gedetailleerde waarnemingen over de levenscyclus van bomen in het lokale bos. Die waarnemingen werden bewaard in een reeks notitieboekjes en later samengevat in grote tabellen, die bijna 80 jaar later in een archief onder minder ideale omstandigheden werden ontdekt.

Om te voorkomen dat de gegevens verloren zouden gaan door het afbrokkelen van de pagina's zijn de tabellen gedigitaliseerd in de hoop met behulp van computers de gegevens automatisch vast te leggen, maar al snel werd gerealiseerd dat teksten vaak te zwak waren voor herkenning. Zij hebben uiteindelijk besloten om dit via crowdsourcing op te pakken en te digitaliseren.

http://junglerhythms.org/

Goed om te horen dat steeds meer van zulke projecten van de grond komen om de data te bewaren. Hopelijk zal dit dan ook vrij te doorzoeken zijn.

[Reactie gewijzigd door jdh009 op 20 maart 2019 10:50]

Daar heb je studenten voor. Ik hoorde net de "Onbehaarde Apen" podcast van het NRC, die gaat onder andere over 3 brieven van Einstein die in Museum Boerhaave gevonden zijn. Deze waren al wel gedigitaliseerd door studenten en zelfs een beetje gecategoriseerd door hen, maar de inhoud was volledig onbekend. Blijkbaar had een student ze netjes verwerkt bij de digitalisering van het archief, maar had deze ook niet verder gekeken dan de to: en from: voor de metadata.

En nee, machines werken niet bij oude documenten. Dat wat je wil scannen is altijd van complex gevouwen, fragiel en ingebonden papier.

Studenten, goedkoper arbeidskrachten vind je niet en ze doen hun best, want ze weten dat ze van hun werkgever afhankelijk zijn voor cijfers en referenties :-)
Bij de Atlassen en kaartenscanner bij ons gaat inderdaad boek voor oek, pagina voor pagina. Bij oudere werken zelfs heel voorzichtig.
Tot nu toe met de hand. Ik ben veel bezig met het Amsterdams Archief voor mijn eigen familieonderzoek en duik dus vaak in de doorzoekbare indexen die zij al hebben. Er staat al eindeloos veel ingescand online maar ze vertelden mij daar eens dat ze op 250 meter zaten van de 50 km.

Ben dus erg benieuwd, want inderdaad had ik daar tot nu toe regelmatig de pro’s nodig om stukken te vertalen. Wat ze daar trouwens graag voor je doen als je een leuk lijntje hebt gevonden.
Kijk bijvoorbeeld naar https://www.youtube.com/watch?v=jkKVpU2NIs0

https://picturae.com/nl/digitaliseren is een NL bedrijf dat voor veel global instanties digitaliseren, en ook https://velehanden.nl/ gemaakt heb.
Er zullen ook wel meerdere mensen aan te pas komen. En het zullen ook wel mensen zijn die er een interesse in hebben waardoor het al minder erg lijkt. Zou denk ik dan weer anders zijn als ze bijvoorbeeld zoveel belastingpapieren zouden moeten scannen. Maar je kan het werk eigenlijk ook zien als lopende band werk. Ook vaak eentonig maar mensen doen het toch. En dan denk ik dat in dit geval er toch wel aardig mee verdient wordt aangezien je toch wel gespecialiseerde mensen nodig heb die met zulke oude documenten omgaat (tenminste dat verwacht ik). Dat motiveert natuurlijk ook wel. Maar het blijft inderdaad een grote saaie klus, tenminste dat zou ik het vinden.

En printers hebben tegenwoordig natuurlijk ook ADF en OCR wat het werkt natuurlijk ook al makkelijker maakt ;)
Ben benieuwd hoe ze crowdsourcing gaan inzetten.
Nederlands uit de 17e en 18e eeuw lezen is niet bepaald een algemene vaardigheid, en handschrift al helemaal niet.
Dit project gaat over teksten uit de 17e en 18e eeuw. Dat is redelijk specialistisch werk. Er zijn nog veel meer projecten op VeleHanden: https://velehanden.nl/ waar je je als vrijwilliger voor in kunt zetten.
Ik heb bijvoorbeeld meegedaan aan een project waar oud kaartmateriaal geprojecteerd wordt op een kaart van nu. Je geeft daarbij een aantal gelijke punten in de oude en de huidige kaart en de rest wordt geïnterpoleerd. Dat is een mooie manier om oud kaartmateriaal te ontsluiten: https://velehanden.nl/projecten/bekijk/details/project/gra_kaarten.
De tak van de wetenschap die zich met het lezen van oude (hand)schriften bezighoudt heet paleografie, en daar zijn nog genoeg beoefenaars van. Zelfs voor genealogen die stambomen maken als hobby zijn er cursussen paleografie.

Een grotere uitdaging dan het herkennen van de schrifttekens is overigens het raden naar het juiste woord. Als in die tijd een woord te lang was, werd er vaak alleen een aantal letters geschreven met daarboven dan een lange streep. Er werd van de lezer dan verwacht dat hij wel zou weten welk woord bedoeld wordt, maar een computer heeft daar natuurlijk (nog) geen idee van.
Heel mooi project dit. Gelukkig wordt er (nog) niet moeilijk gedaan over de privacy van de betrokkenen. :X
Als betrokkenen meer dan 110 jaar geleden geboren zijn, dan vervalt die privacy. Zo wordt er ook onderzoek gedaan naar stambomen, door databases van de provincies aan elkaar te koppelen, en te zien welke genealogische verbanden gevonden kunnen worden. Alleen personen van voor 110 jaar terug zitten daar in.
Amsterdam gaat eeuwenoude handschriften met computer digitaliseren
Toch wel fijn dat dat niet meer met de hand hoeft dan, dat digitaliseren...

(of was het stiekem toch een pleonasme? :+)
Grappig, met het vak Handwriting Recognition ook (getracht :+) te doen met oude tektsten. Als ik me goed herinner waren dat notulen van "De Staaten Generaal".

Sloot steeds af met "Besluiten fiat".
Als de output goed gedigitaliseerd is, is het nog steeds lastig om de stukken te lezen, laat staan om er mee natural language processing operaties mee uit te voeren. Nederlands was eeuwen geleden niet gestandaardiseerd; syntactisch, semantisch en pragmatisch verschilt het enorm van tijd tot tijd, van plaats tot plaats (oke, alleen Amsterdam hier, maar wellicht bevindt zich ook correspondentie met andere steden) en helemaal al met nu.
Dus het vergt dadelijk nog steeds mensen denkwerk om bevindingen mee uit te halen. Wel gaaf dat het hiermee wel toegankelijker wordt voor de menschen in t'lant.
vijftig kilometer aan historische documenten
Sinds wanneer is de meter een maateenheid om hoeveelheden documenten aan te duiden?

Krijgen we morgen vanuit Rotterdam 50 kilokelvin aan historische documenten?
Dat is heel normaal hoor. Vanaf een bepaald aantal banden gaat het altijd over meters. Zo heb ik bij mijn vorige verhuizing tien meter boeken op laten halen door een tweedehands boekhandelaar omdat in mijn nieuwe huis maar plaats was voor iets van twintig meter.
Al heel lang. Bladzijdes en kaften kunnen dik of dun zijn, dus de makkelijkste manier om de grootte van een archief te meten is om de totale lengte van de ingenomen plankruimte te berekenen. Er is natuurlijk niet vanaf de middeleeuwen een inventaris met per band het aantal bladzijdes bijgehouden. ;)
[...]

Sinds wanneer is de meter een maateenheid om hoeveelheden documenten aan te duiden?
Sinds altijd, dat is de gebruikelijke aanduiding als je het over archieven hebt. Bel jij maar eens naar een verhuisfirma met de mededeling dat je een archief van 5.890.237 boeken en documenten wilt verhuizen, die willen echt liever weten hoe groot en lang en zwaar de rekken zijn. Als je op je nieuwe locatie nieuwe rekken wilt installeren, kun je ook maar beter zeker zijn dat je voldoende ruimte hebt zodat je archief erin past. Dan rekent kilometers echt een stuk makkelijker dan aantal boeken/documenten.

Het rijksarchief in België heeft overigens meer dan 315 kilometer documenten, hoop dat ze dat ook ooit eens helemaal inscannen.

Google verder maar eens op "archief + kilometer".
Sinds eeuwen. Bibliotheken gaven daarmee aan hoeveel documenten ze ongeveer konden houden. Alhoewel we in het verleden ook in Libraries of Congress maten, als we bijvoorbeeld de grootte van een harddisk wilden weergeven.

Op dit item kan niet meer gereageerd worden.


OnePlus 7 Microsoft Xbox One S All-Digital Edition LG W7 Google Pixel 3 XL OnePlus 6T (6GB ram) FIFA 19 Samsung Galaxy S10 Sony PlayStation 5

Tweakers vormt samen met Tweakers Elect, Hardware.Info, Autotrack, Nationale Vacaturebank, Intermediair en Independer de Persgroep Online Services B.V.
Alle rechten voorbehouden © 1998 - 2019 Hosting door True