Nederlands Nationaal Archief brengt handschrifttranscriptietool opensource uit

Het Nederlandse Nationaal Archief en het KNAW hebben hun transcriptiesoftware Loghi opensource beschikbaar gesteld op Github. Met Loghi kunnen onderzoekers oude handschriften transcriberen om zo bijvoorbeeld historische documenten doorzoekbaar te maken.

Loghi is een machinelearningtool die in twee stappen handgeschreven teksten transcribeert. Eerst bepaalt de tool op welke lijn een regel loopt, om zo te weten welke zinnen bij elkaar horen. Daarna zet de tool de afbeelding van de tekst om naar digitale tekst. Door het gebruik van deze twee stappen kan de software onder meer aantekeningen in de kantlijn en tussen regels tekst lezen. Ook verticale teksten en tabellen kunnen met Loghi getranscribeerd worden.

Bij het scannen van een digitaal document breekt Loghi de scan op in plaatjes van verschillende niveaus, zegt ontwikkelaar Rutger van Koert. Van Koert ontwikkelde de tool de afgelopen zes jaar vanuit het Humanities Cluster van de Koninklijke Nederlandse Akademie van Wetenschappen. Die scanniveaus zijn bijvoorbeeld van pixels van letters en zinnen, tot aan scans van hele paragrafen. "De software vat stapsgewijs, steeds op een iets hoger niveau, samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de waarschijnlijkste letter." De software kan verder doorhalingen en beschadigingen negeren.

De getranscribeerde teksten zijn niet alleen eenvoudiger door gebruikers te lezen, maar zijn ook beter doorzoekbaar met zoekmachines. "Het vinden van alle vermeldingen van bijvoorbeeld 'suiker' in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren", schrijft het Nationaal Archief. De software werkt bijvoorbeeld met zeventiende-eeuwse handschriften of teksten uit de Tweede Wereldoorlog.

De tool kan volgens het Nationaal Archief 'tot wel' 96 procent correcte transcripties van handgeschreven, getypte en gedrukte teksten geven. Van Koert zegt dat die betrouwbaarheid omhoog kan worden gebracht als de software is getraind op een specifieke collectie. Met het opensource beschikbaar stellen op Github hopen de makers bovendien dat andere ontwikkelaars de software beter kunnen maken.

Loghi is deels gebaseerd op andere opensourcesoftware en is inmiddels gebruikt voor het digitaal toegankelijk maken van Resoluties van de Staten-Generaal en verslagen van de VOC. Het Nationaal Archief zegt dat deze getranscribeerde teksten de komende jaren online beschikbaar komen. Tot nu zijn er ruim vijftig miljoen documenten gescand met de software. Loghi is niet de enige handschrifttranscriptietool die door Nederlandse archieven wordt gebruikt: het Stadsarchief Amsterdam gebruikt hier bijvoorbeeld de Transkribus-tool voor.

Loghi Nationaal Archief open source — Loghi transcribeert een verslag van een tocht naar Chatham in 1667 van de Staten-Generaal.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Hayte Hugo

Redacteur

Feedback • 21-04-2023 14:43 39

21-04-2023 • 14:43

Lees meer

AP: Rijksoverheid NL heeft nog geen toestemming voor openen oorlogsarchief Nieuws van 20 december 2024

Rijksoverheid NL opent gedigitaliseerd oorlogsarchief 'ondanks waarschuwing AP' Nieuws van 19 december 2024

Google werkt aan techniek voor handschriftherkenning op recepten van artsen Nieuws van 19 december 2022

Google Lens-app laat gebruikers handgeschreven tekst kopiëren naar desktop Nieuws van 8 mei 2020

Amsterdam gaat eeuwenoude handschriften met computer digitaliseren .Geek van 20 maart 2019

Kunstmatige intelligentie zet getypte tekst om in handschrift Nieuws van 15 augustus 2016

Google introduceert handschriftherkennings-app voor Android Nieuws van 16 april 2015

Meer producten en artikelen

Computerhulp Handschriftherkenning Nederland Open source

IT-banen

Meer vacatures

Reacties (39)

-Moderatie-faq

Wijzig sortering

tweakery

21 april 2023 16:19

Ik ben erg benieuwd wat voor kennis er opgedaan wordt simpelweg door het feit dat oude stukken nu te doorzoeken zijn.

Slijpschuiver @tweakery • 21 april 2023 17:25

Voor een kunst(historicus) een onbegrijpelijke opmerking. Zoeken in oude bronnen is de core business, als je iets wilt onderzoeken uit die tijd. In Italië maakt het niet uit: middeleeuws italiaans ziet er hetzelfde uit. Maar het Nederlands.......Je hebt wat oefening nodig om oud-Nederlands te lezen. Dit maakt het gemakkelijker.

tweakery

@Slijpschuiver • 22 april 2023 12:02

Ik ging met mijn reactie ervanuit dat er zoveel oude stukken zijn dat er simpelweg te weinig mankracht is om het allemaal door te spitten. Niet dat (kunst)historici incapabel zijn.

Slijpschuiver @tweakery • 22 april 2023 21:53

Dank je. Het is hier lastig om precies gezegd te krijgen wat je bedoelt. Ik wilde alleen iets zeggen over de (kunst)historische praktijk, en toch wordt dat breder geïnterpreteerd.
Wat je zegt klopt trouwens wel: veel te onderzoeken, weinig automatisering op dit terrein. Dit programma gaat wel helpen.

killercow @Slijpschuiver • 24 april 2023 20:33

Dit is toch wel opmerkelijk

Hoe verwacht je wel de bedoeling van een oude geschreven tekst in oud Nederlands te kunnen bevatten, als een reactie op Tweakers al lastig is?
Je hebt wat oefening nodig om hedendaags-Nederlands te lezen, maar dat is het dan ook wel, toch?

Aldy @tweakery • 22 april 2023 14:18

Zoiets begreep ik ook uit je eerste reactie. Voel je niet aangesproken, want ik lees ook weleens iets verkeerd en dan lijkt mijn reactie op die van Slijpschuiver.

joszuijderwijk @Slijpschuiver • 21 april 2023 20:42

Op zich een terechte opmerking toch? Deze ontwikkeling betekent dat het zoeken veel makkelijker wordt gemaakt simpelweg omdat dat nu digitaal kan.

Grotbewoner @Slijpschuiver • 21 april 2023 21:04

En nu kunnen niet-kunsthistorici het ook. Mooi!

PrimusIP @tweakery • 22 april 2023 10:06

Omdat er een enorme hoeveelheid van die teksten zijn die je onmogelijk allemaal zelf kunt gaan lezen. Nu kun je zoekopdrachten er op los laten. Het is een enorme grote verandering in hoe je historisch onderzoek doet.

Frame164 @tweakery • 22 april 2023 10:17

Dat zal vooral uit stukken komen die nu opeens laagdrempeliger kunnen worden doorzocht. Veel stukken zijn natuurlijk al lang geleden onderzocht en verwerkt door historici.

beerse @tweakery • 24 april 2023 11:44

Bij de recente a.i. ontwikkelingen werd verkondigd dat ze niet de laatste informatie hebben omdat ze die nog niet hebben opgenomen. Bedenk dat die zelfde ai is gevoerd met de informatie die wel digitaal aanwezig is. Dus alles wat nog niet gedigitaliseerd is zit daar ook nog niet in. Als je beseft dat de computer pas gemeen goed is voor de administratie en dergelijke sinds 1980 of zo en dat er mogelijk toen wat oudere gegevens zijn ingevoerd, dan begrijp je dat er nog mensenlevens aan informatie niet digitaal is en dus ook niet via die weg is ontsloten en opgenomen in de diverse ai-trainingen.

Overigens is veel drukwerk van de laatste eeuw ondertussen wel gedigitaliseerd, denk daarbij bijvoorbeeld aan veel kranten en boeken. Maar dan is de uitvinding van de boekdrukkunst toch weer een grens in de geschiedenis.

Loy 21 april 2023 15:03

Cool! Wat een enorm werk om de trainingsdata te verzamelen moet dat zijn!

En dan heb je je oorspronkelijke tekst, in een oude versie van Nederlands, waar ik maar weinig van begrijp eigenlijk.

Frame164 @Loy • 22 april 2023 10:18

Het helpt als je het probeert uit te spreken. Dan wordt het duidellijker dan als je het alleen leest.

Thomas

21 april 2023 15:14

Super, als oud geschiedenisstudent vaak van een tool gebruik gemaakt die een aantal archieven omzette. Dat scheelt een hoop moeite! Vaak genoeg stukken amper kunnen lezen.

JohnKarma 21 april 2023 17:03

Ik zou het heerlijk vinden als deze tool geintegreerd word in tesseract want dat mist juist nog handschriftherkenning maar is verder ook een hele mooie tool wat mij betreft.

DeTeraarist 21 april 2023 17:43

Zou deze tool de briefjes van de huisarts ook kunnen lezen?

Frame164 @DeTeraarist • 22 april 2023 10:19

Dan is het wel veel te laat. De huisarts doet het inmers allemaal digitaal tegenwoordig.

Aldy @Frame164 • 22 april 2023 14:23

Dan het handschrift van menig scholier. Voor zover ik weet worden de proefwerken nog steeds met een pen gemaakt.

azior 21 april 2023 17:49

Dit is ideaal voor mij! Ik bouw mijn familiegeschiedenis op aan de hand van de beschikbare akten (geboorte, huwelijk en overlijden), en ik heb al veel trainingsdata. Ik hoop dat er meer modellen komen voor oudere teksten (voor de 19e eeuw), want de kerkregisters in Latijn zijn lastig te lezen.

ari2asem 21 april 2023 15:10

Transcriberen ?
kan het ook beetje in het ABN? iets met "uitschrijven"?

jurroen @ari2asem • 21 april 2023 15:29

Nee, want het is immers niet uitschrijven. Tools als deze herkennen handschrift en zet het om naar digitale tekst.

CPV @ari2asem • 21 april 2023 15:34

Is volgens Van Dale goed Nederlands:

transcribe
1 transcriberen, overschrijven, (in een andere spelling) overbrengen, (muziek) bewerken: transcribe the music for organ de muziek voor orgel bewerken

ari2asem @CPV • 22 april 2023 11:46

https://www.vandale.nl/gr...ands/betekenis/transcribe

https://www.vandale.nl/gr...s/betekenis/transcriberen

van dale kan niets vinden

CPV @ari2asem • 22 april 2023 20:16

Wel in EN-NL.
De opmerking was dat dit Engelse woord in ABN vertaald had moeten worden.
Ttranscriberen is dus ook goed.
https://www.vandale.nl/gr...ands/vertaling/transcribe

[Reactie gewijzigd door CPV op 22 juli 2024 14:22]

Polydeukes @ari2asem • 21 april 2023 16:05

Het is gewoon correct Nederlands, en zeker in deze wereld een normale en veelgebruikte term: https://www.woorden.org/woord/transcriberen

ZpAz @ari2asem • 21 april 2023 16:45

In programmeren heb je ook “transpilen” waarin code in één taal naar een andere wordt omgezet. Van bijvoorbeeld TypeScript naar JavaScript.

Hier wordt het van handgeschreven naar digitaal overgezet. Er zit een gedeelte “transformation” in. Iets wat uitschrijven niet echt aangeeft.

[Reactie gewijzigd door ZpAz op 22 juli 2024 14:22]

ToolBee @ZpAz • 23 april 2023 11:34

Het voorvoegsel "trans" geeft een verandering aan.
"Scribere" betekent schrijven (latijn, the mother of all languages)
Ik ben voorstander van het her-invoeren van Latijn op technische opleidingen...

PrimusIP @ari2asem • 22 april 2023 10:02

Het is ABN. Het is wellicht een beetje vaktaal, zoals dit forum daar ook mee vol staat.

pasz 21 april 2023 16:42

Nou rutger heeft goed zijn best gedaan (zie source). Top dit.

barefoot 21 april 2023 16:44

Mooi dat het nu open source is. Verbaast me wel dat dit pas na 6 jaar gedaan wordt, je zou zeggen dat dit zo snel mogelijk open wilt gooien om anderen ervan gebruik te laten maken en anderen de software te laten verbeteren.

Dan91 @barefoot • 21 april 2023 17:24

Dit is speculatie maar misschien hadden ze de kennis niet in huis of was het ontwikkelen toch niet zo profitabel as gedacht. Het open source plaatsen op Github met de hoop dat een ander het verbeterd schijnt mij dan ook een beetje naar dat ze het op gegeven hebben.

sympa @Dan91 • 21 april 2023 20:18

Of het is nu goed genoeg, dat alle onderdelen er zijn en klaar zijn voor verbetering.

Frame164 @barefoot • 22 april 2023 10:22

Als het onder een open source licentie wordt gereleased moet je als organisatie ook nog wel wat regelen. Wij brengen ook veel software uit als open source maar voordat het beschikbaar wordt gesteld doen de IPR en legal teams eerst grondig onderzoek. Het zou kunnen dat er patenten van onszelf inzitten (waar normaal licenties voor worden betaald) of dat er onbedoeld patenten van anderen worden geschonden.

Aldy @Frame164 • 22 april 2023 14:26

In het laatste geval moeten jullie dus betalen.

Maar het maakt veel duidelijk dat de broncode openbaar maken niet iets is van we zetten het even online.

[Reactie gewijzigd door Aldy op 22 juli 2024 14:22]

willemb2 21 april 2023 18:41

Diepe buiging voor de makers van deze software en voor degene die uit de voeten kan met de informatie op Github.

Get the dockers

Op dit item kan niet meer gereageerd worden.

Lees meer

Dat RedCat en A2 Racer nog bestaan!

IT-banen

Reacties (39)

Sorteer op:

Weergave: