Het Nederlandse Nationaal Archief en het KNAW hebben hun transcriptiesoftware Loghi opensource beschikbaar gesteld op Github. Met Loghi kunnen onderzoekers oude handschriften transcriberen om zo bijvoorbeeld historische documenten doorzoekbaar te maken.
Loghi is een machinelearningtool die in twee stappen handgeschreven teksten transcribeert. Eerst bepaalt de tool op welke lijn een regel loopt, om zo te weten welke zinnen bij elkaar horen. Daarna zet de tool de afbeelding van de tekst om naar digitale tekst. Door het gebruik van deze twee stappen kan de software onder meer aantekeningen in de kantlijn en tussen regels tekst lezen. Ook verticale teksten en tabellen kunnen met Loghi getranscribeerd worden.
Bij het scannen van een digitaal document breekt Loghi de scan op in plaatjes van verschillende niveaus, zegt ontwikkelaar Rutger van Koert. Van Koert ontwikkelde de tool de afgelopen zes jaar vanuit het Humanities Cluster van de Koninklijke Nederlandse Akademie van Wetenschappen. Die scanniveaus zijn bijvoorbeeld van pixels van letters en zinnen, tot aan scans van hele paragrafen. "De software vat stapsgewijs, steeds op een iets hoger niveau, samen wat de visuele kenmerken zijn en kiest uiteindelijk op basis daarvan de waarschijnlijkste letter." De software kan verder doorhalingen en beschadigingen negeren.
De getranscribeerde teksten zijn niet alleen eenvoudiger door gebruikers te lezen, maar zijn ook beter doorzoekbaar met zoekmachines. "Het vinden van alle vermeldingen van bijvoorbeeld 'suiker' in een archief van miljoenen archiefstukken kost slechts een paar minuten in plaats van vele jaren", schrijft het Nationaal Archief. De software werkt bijvoorbeeld met zeventiende-eeuwse handschriften of teksten uit de Tweede Wereldoorlog.
De tool kan volgens het Nationaal Archief 'tot wel' 96 procent correcte transcripties van handgeschreven, getypte en gedrukte teksten geven. Van Koert zegt dat die betrouwbaarheid omhoog kan worden gebracht als de software is getraind op een specifieke collectie. Met het opensource beschikbaar stellen op Github hopen de makers bovendien dat andere ontwikkelaars de software beter kunnen maken.
Loghi is deels gebaseerd op andere opensourcesoftware en is inmiddels gebruikt voor het digitaal toegankelijk maken van Resoluties van de Staten-Generaal en verslagen van de VOC. Het Nationaal Archief zegt dat deze getranscribeerde teksten de komende jaren online beschikbaar komen. Tot nu zijn er ruim vijftig miljoen documenten gescand met de software. Loghi is niet de enige handschrifttranscriptietool die door Nederlandse archieven wordt gebruikt: het Stadsarchief Amsterdam gebruikt hier bijvoorbeeld de Transkribus-tool voor.