Het Stadsarchief Amsterdam heeft vijftig kilometer aan historische documenten, waarvan het merendeel met de hand is geschreven. Slechts weinig onderzoekers kunnen die handschriften lezen. Het archief gaat een speciale computer inzetten om de teksten te lezen en digitaliseren.
Het gaat om oude, met de hand geschreven teksten uit de zeventiende en achttiende eeuw. Een computer moet daar miljoenen scans van maken zodat de informatie online doorzoekbaar wordt, zo meldt het Stadsarchief. Dit moet een enorme hoeveelheid nieuwe feiten en gegevens over het verleden opleveren, die vooral voor onderzoekers interessant zijn.
Hiervoor wordt de handschriftherkenningstechnologie van het Transkribus-platform ingezet. Deze technologie is in Europees verband ontwikkeld aan de Universiteit van Innsbruck. Volgens het Stadsarchief kan de ingezette computer met Transkribus de teksten van de zeventiende-eeuwse notaris Hendrik Schaef nu al voor 94 procent foutloos lezen. Er is dus nog een character error rate van 6 procent.
Dit Transkribus-handschriftherkenningsprogramma is een deel van het project. Daarnaast wordt een crowdsourcingsplatform van het Stadsarchief ingezet, genaamd VeleHanden. De computer scant, leest en 'vertaalt' de oude teksten, waarna de vrijwilligers van VeleHanden de documenten kunnen lezen, indexeren en eventuele correcties doorvoeren. De computer moet vervolgens weer leren van die correcties om de foutmarge te verkleinen.
Bij dit project worden eerst de documenten van het Archief van de Amsterdamse Notarissen gebruikt. Dit notarieel archief, dat een door Unesco toegekende, beschermde status heeft, bevat enorm veel teksten met details over allerlei zaken uit het toenmalige dagelijks leven in Amsterdam. Dit archief is volgens Lex Heerma van Voss, directeur van het Huygens Instituut voor Nederlandse Geschiedenis, een 'gigantische goudmijn met nog grotendeels onbekende, historische feiten'.