Nederlands Nationaal Archief brengt handschrifttranscriptietool opensource uit

Het Nederlandse Nationaal Archief en het KNAW hebben hun transcriptiesoftware Loghi opensource beschikbaar gesteld op Github. Met Loghi kunnen onderzoekers oude handschriften transcriberen om zo bijvoorbeeld historische documenten doorzoekbaar te maken.

Loghi is een machinelearningtool die in twee stappen handgeschreven teksten transcribeert. Eerst bepaalt de tool op welke lijn een regel loopt, om zo te weten welke zinnen bij elkaar horen. Daarna zet de tool de afbeelding van de tekst om naar digitale tekst. Door het gebruik van deze twee stappen kan de software onder meer aantekeningen in de kantlijn en tussen regels tekst lezen. Ook verticale teksten en tabellen kunnen met Loghi getranscribeerd worden.

Bij het scannen van een digitaal document breekt Loghi de scan op in plaatjes van verschillende niveaus, zegt ontwikkelaar Rutger van Koert. Van Koert ontwikkelde de tool de afgelopen zes jaar vanuit het Humanities Cluster van de Koninklijke Nederlandse Akademie van Wetenschappen. Die scanniveaus zijn bijvoorbeeld van pixels van letters en zinnen, tot aan scans van hele paragrafen. "De software vat stapsgewijs, steeds op een iets hoger niveau, samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de waarschijnlijkste letter." De software kan verder doorhalingen en beschadigingen negeren.

De getranscribeerde teksten zijn niet alleen eenvoudiger door gebruikers te lezen, maar zijn ook beter doorzoekbaar met zoekmachines. "Het vinden van alle vermeldingen van bijvoorbeeld 'suiker' in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren", schrijft het Nationaal Archief. De software werkt bijvoorbeeld met zeventiende-eeuwse handschriften of teksten uit de Tweede Wereldoorlog.

De tool kan volgens het Nationaal Archief 'tot wel' 96 procent correcte transcripties van handgeschreven, getypte en gedrukte teksten geven. Van Koert zegt dat die betrouwbaarheid omhoog kan worden gebracht als de software is getraind op een specifieke collectie. Met het opensource beschikbaar stellen op Github hopen de makers bovendien dat andere ontwikkelaars de software beter kunnen maken.

Loghi is deels gebaseerd op andere opensourcesoftware en is inmiddels gebruikt voor het digitaal toegankelijk maken van Resoluties van de Staten-Generaal en verslagen van de VOC. Het Nationaal Archief zegt dat deze getranscribeerde teksten de komende jaren online beschikbaar komen. Tot nu zijn er ruim vijftig miljoen documenten gescand met de software. Loghi is niet de enige handschrifttranscriptietool die door Nederlandse archieven wordt gebruikt: het Stadsarchief Amsterdam gebruikt hier bijvoorbeeld de Transkribus-tool voor.

Loghi Nationaal Archief open source
Loghi transcribeert een verslag van een tocht naar Chatham in 1667 van de Staten-Generaal.

Door Hayte Hugo

Redacteur

21-04-2023 • 14:43

39

Reacties (39)

39
39
17
0
0
13
Wijzig sortering
Ik ben erg benieuwd wat voor kennis er opgedaan wordt simpelweg door het feit dat oude stukken nu te doorzoeken zijn.
Voor een kunst(historicus) een onbegrijpelijke opmerking. Zoeken in oude bronnen is de core business, als je iets wilt onderzoeken uit die tijd. In Italië maakt het niet uit: middeleeuws italiaans ziet er hetzelfde uit. Maar het Nederlands.......Je hebt wat oefening nodig om oud-Nederlands te lezen. Dit maakt het gemakkelijker.
Ik ging met mijn reactie ervanuit dat er zoveel oude stukken zijn dat er simpelweg te weinig mankracht is om het allemaal door te spitten. Niet dat (kunst)historici incapabel zijn.
Dank je. Het is hier lastig om precies gezegd te krijgen wat je bedoelt. Ik wilde alleen iets zeggen over de (kunst)historische praktijk, en toch wordt dat breder geïnterpreteerd.
Wat je zegt klopt trouwens wel: veel te onderzoeken, weinig automatisering op dit terrein. Dit programma gaat wel helpen.
Dit is toch wel opmerkelijk :P
Hoe verwacht je wel de bedoeling van een oude geschreven tekst in oud Nederlands te kunnen bevatten, als een reactie op Tweakers al lastig is?
Je hebt wat oefening nodig om hedendaags-Nederlands te lezen, maar dat is het dan ook wel, toch?
Zoiets begreep ik ook uit je eerste reactie. Voel je niet aangesproken, want ik lees ook weleens iets verkeerd en dan lijkt mijn reactie op die van Slijpschuiver. :)
Op zich een terechte opmerking toch? Deze ontwikkeling betekent dat het zoeken veel makkelijker wordt gemaakt simpelweg omdat dat nu digitaal kan.
En nu kunnen niet-kunsthistorici het ook. Mooi!
Omdat er een enorme hoeveelheid van die teksten zijn die je onmogelijk allemaal zelf kunt gaan lezen. Nu kun je zoekopdrachten er op los laten. Het is een enorme grote verandering in hoe je historisch onderzoek doet.
Dat zal vooral uit stukken komen die nu opeens laagdrempeliger kunnen worden doorzocht. Veel stukken zijn natuurlijk al lang geleden onderzocht en verwerkt door historici.
Bij de recente a.i. ontwikkelingen werd verkondigd dat ze niet de laatste informatie hebben omdat ze die nog niet hebben opgenomen. Bedenk dat die zelfde ai is gevoerd met de informatie die wel digitaal aanwezig is. Dus alles wat nog niet gedigitaliseerd is zit daar ook nog niet in. Als je beseft dat de computer pas gemeen goed is voor de administratie en dergelijke sinds 1980 of zo en dat er mogelijk toen wat oudere gegevens zijn ingevoerd, dan begrijp je dat er nog mensenlevens aan informatie niet digitaal is en dus ook niet via die weg is ontsloten en opgenomen in de diverse ai-trainingen.

Overigens is veel drukwerk van de laatste eeuw ondertussen wel gedigitaliseerd, denk daarbij bijvoorbeeld aan veel kranten en boeken. Maar dan is de uitvinding van de boekdrukkunst toch weer een grens in de geschiedenis.
Cool! Wat een enorm werk om de trainingsdata te verzamelen moet dat zijn!

En dan heb je je oorspronkelijke tekst, in een oude versie van Nederlands, waar ik maar weinig van begrijp eigenlijk.
Het helpt als je het probeert uit te spreken. Dan wordt het duidellijker dan als je het alleen leest.
Super, als oud geschiedenisstudent vaak van een tool gebruik gemaakt die een aantal archieven omzette. Dat scheelt een hoop moeite! Vaak genoeg stukken amper kunnen lezen.
Ik zou het heerlijk vinden als deze tool geintegreerd word in tesseract want dat mist juist nog handschriftherkenning maar is verder ook een hele mooie tool wat mij betreft.
Zou deze tool de briefjes van de huisarts ook kunnen lezen?
Dan is het wel veel te laat. De huisarts doet het inmers allemaal digitaal tegenwoordig.
Dan het handschrift van menig scholier. Voor zover ik weet worden de proefwerken nog steeds met een pen gemaakt. :)
Dit is ideaal voor mij! Ik bouw mijn familiegeschiedenis op aan de hand van de beschikbare akten (geboorte, huwelijk en overlijden), en ik heb al veel trainingsdata. Ik hoop dat er meer modellen komen voor oudere teksten (voor de 19e eeuw), want de kerkregisters in Latijn zijn lastig te lezen.
Transcriberen ?
kan het ook beetje in het ABN? iets met "uitschrijven"?
Nee, want het is immers niet uitschrijven. Tools als deze herkennen handschrift en zet het om naar digitale tekst.
Is volgens Van Dale goed Nederlands:

transcribe
1 transcriberen, overschrijven, (in een andere spelling) overbrengen, (muziek) bewerken: transcribe the music for organ de muziek voor orgel bewerken
Wel in EN-NL.
De opmerking was dat dit Engelse woord in ABN vertaald had moeten worden.
Ttranscriberen is dus ook goed.
https://www.vandale.nl/gr...ands/vertaling/transcribe

[Reactie gewijzigd door CPV op 22 juli 2024 14:22]

Het is gewoon correct Nederlands, en zeker in deze wereld een normale en veelgebruikte term: https://www.woorden.org/woord/transcriberen
In programmeren heb je ook “transpilen” waarin code in één taal naar een andere wordt omgezet. Van bijvoorbeeld TypeScript naar JavaScript.

Hier wordt het van handgeschreven naar digitaal overgezet. Er zit een gedeelte “transformation” in. Iets wat uitschrijven niet echt aangeeft.

[Reactie gewijzigd door ZpAz op 22 juli 2024 14:22]

Het voorvoegsel "trans" geeft een verandering aan.
"Scribere" betekent schrijven (latijn, the mother of all languages)
Ik ben voorstander van het her-invoeren van Latijn op technische opleidingen... ;)
Het is ABN. Het is wellicht een beetje vaktaal, zoals dit forum daar ook mee vol staat.
Nou rutger heeft goed zijn best gedaan (zie source). Top dit.
Mooi dat het nu open source is. Verbaast me wel dat dit pas na 6 jaar gedaan wordt, je zou zeggen dat dit zo snel mogelijk open wilt gooien om anderen ervan gebruik te laten maken en anderen de software te laten verbeteren.
Dit is speculatie maar misschien hadden ze de kennis niet in huis of was het ontwikkelen toch niet zo profitabel as gedacht. Het open source plaatsen op Github met de hoop dat een ander het verbeterd schijnt mij dan ook een beetje naar dat ze het op gegeven hebben.
Of het is nu goed genoeg, dat alle onderdelen er zijn en klaar zijn voor verbetering.
Als het onder een open source licentie wordt gereleased moet je als organisatie ook nog wel wat regelen. Wij brengen ook veel software uit als open source maar voordat het beschikbaar wordt gesteld doen de IPR en legal teams eerst grondig onderzoek. Het zou kunnen dat er patenten van onszelf inzitten (waar normaal licenties voor worden betaald) of dat er onbedoeld patenten van anderen worden geschonden.
In het laatste geval moeten jullie dus betalen. :P Maar het maakt veel duidelijk dat de broncode openbaar maken niet iets is van we zetten het even online.

[Reactie gewijzigd door Aldy op 22 juli 2024 14:22]

Diepe buiging voor de makers van deze software en voor degene die uit de voeten kan met de informatie op Github.
Get the dockers

Op dit item kan niet meer gereageerd worden.