Onderzoekers krijgen 3,8 miljoen euro voor handschriftherkenning VOC-archief

Onderzoekers van het Huygens Instituut voor Nederlandse Geschiedenis hebben 3,8 miljoen euro subsidie gekregen van wetenschapsorganisatie NWO voor het ontwikkelen van digitale handschriftherkenning om het omvangrijke Nederlandse VOC-archief inzichtelijk te maken.

Met het geld gaan de onderzoekers de papierberg van de VOC ontsluiten, zodat het hele archief dat de VOC tussen 1602 en 1795 opstelde, 25 miljoen handgeschreven pagina's, digitaal doorzoekbaar wordt. Met de subsidie gaat het Huygens Instituut onder leiding van projectleider Matthias van Rossum software ontwikkelen om de handgeschreven documenten te ontcijferen en het oude Nederlands lees- en doorzoekbaar te maken. Het project heet Globalise.

De software moet met behulp van handschriftherkenning en machinelearning de sierlijk geschreven woorden herkennen op de oude documenten en deze vertalen in modern Nederlands. Ook zal het programma automatisch moeten zoeken naar alternatieven voor namen, omdat die in die tijd nog niet gestandaardiseerd waren en het moet rekening houden met plaatsen die onder andere namen in de documenten voorkomen dan we ze nu geven, zoals Formosa en Packan voor Taiwan. Daarvoor moet de computer getraind worden om niet alleen woorden, maar ook context te begrijpen.

Met het onderzoek hoopt het instituut nieuw inzicht te krijgen over de Nederlandse geschiedenis, maar ook over die van Afrika en Azië. Het koloniale archief van de VOC behoort volgens de onderzoeker tot de oudste bronnen over die regio's en doordat dit archief zo omvangrijk is, is lang niet alles bestudeerd door onderzoekers. "Een van de problemen waar historici tegenaan lopen is simpelweg de omvang van het archief", legt Matthias van Rossum uit in een video van NWO. "Als historicus in je eentje heb je daar gewoon jaren voor nodig om vragen te beantwoorden."

Uiteindelijk is het niet alleen de bedoeling dat wetenschappers van de digitale tools gebruik kunnen maken, maar iedereen. De software wordt ontwikkeld door het IISG, het Nationaal Archief, de Vrije Universiteit, het Huygens Instituut en de KNAW en de software wordt ook beschikbaar gesteld voor andere archieven, zodat die ook toegankelijk worden.

Het is een van de zes projecten die van de NWO een grote subsidie krijgen. Zo krijgt de faculteit Bètawetenschappen van de Vrije Universiteit 4,8 miljoen euro voor een vernieuwd laboratorium voor isotopen, krijgt de Universiteit Twente 2,2 miljoen euro voor een laboratorium voor energie-materialen en krijgt de afdeling Astrofysica van de Universiteit van Amsterdam 1,5 miljoen euro voor nieuwe camera's voor de Cherenkov Telescope Array. Het Dutch Institute for Fundamental Energy Research krijgt 2,5 miljoen euro voor een laboratorium dat onderzoek doet naar wanden van vloeibaar metaal voor kernfusiereactoren, er gaat 1,5 miljoen euro naar het Radboudumc voor een elektronenmicroscoop voor dynamische vastlegging van biomaterialen en tot slot krijgt de Universiteit Leiden 3,2 miljoen euro voor een onderzoek om toxische stoffen te meten.

Door Stephan Vegelien

Redacteur

21-05-2021 • 13:17

90

Reacties (90)

Sorteer op:

Weergave:

Poeh daar denk je er eventjes veel te simpel over. Vak over gehad: https://www.rug.nl/ocasys/rug/vak/show?code=WMAI019-05
Data uit: Archief van het Kabinet der Koningin. Dat was vanaf vroeg 19e eeuw.

Eindigde altijd met:
Besluiten fiat
_---_

^speciaal tekentje

Ik herken wat stukjes text in https://www.cerl.org/_med...r-monk-cerl_oslo-2014.pdf

En dan heb je ook nog dingen als aangevreten pagina's en zo.
Ik weet niet of je wel eens teksten uit de 17e en 18e eeuw heb proberen te lezen? Allemaal anders want ze zijn handgeschreven. En dan is het herkennen van het handschrift en omzetten naar leesbare teksten nog maar een onderdeel van dit project. Vergeet niet dat het taalgebruik, woorden en afkorten van toen heel anders zijn dan nu. Gemiddeld mens zal nog niks van de teksten snappen ookal kan hij ze lezen.

Ik weet niet of je het filmpje heb gekeken of dat je gewoon maar een reactie eronder heb geknalt? Maar het project draait vooral ook om context en hier slimme zoekalgoritmes erop los laten. Zodat een onderzoeker aan kan geven over welke onderwerp/gebeurtenis/etc hij iets wil weten en alle relevanten documenten krijgt hij voorgescholtelt.

[Reactie gewijzigd door Poenzkie op 23 juli 2024 16:51]

Ik zou aannemen dat ze elke pagina individueel fotograferen en deels inleren in een handwritten OCR model https://paperswithcode.com/task/handwriting-recognition om het te digitaliseren

text classification intrainen om labels te creeren waarop je kan zoeken https://paperswithcode.co...ssing/text-classification

Ja je moet wel een apart taalmodel intrainen maar dat moet tegenwoordig toch al voor elke taal ter wereld.
Een groot deel gaat juist naar precies dat doel
OCR is tegenwoordig in staat om geschreven teksten goed te herkennen. Maar dat zijn in het algemeen getypte teksten of teksten die geschreven zijn in de afgelopen tientallen jaren. Die teksten zijn ook door mensen goed te lezen. We hebben het hier over teksten die door jou en mij vrijwel niet te ontcijferen zijn, bovendien over een periode van 150 jaar opgeschreven, een periode waarin (zoals het artikel al beschrijft) alleen al namen van plaatsen en landen veranderden, maar waarin ook de taal zelf veranderde, uitdrukkingen, schrijfwijzes noem maar op.
Klik hier eens op, een artikel in Trouw over exact dit onderzoek, met een voorbeeld van een document erboven.
Je kunt al full-text zoeken in bepaalde VOC en WIC documenten via Openarchieven
Overigens zijn veel teksten uit de periode dat de VOC/WIC actief was erg goed leesbaar (na een cursusje paleografie).
De handschriften zijn erg regelmatig wat natuurlijk ideaal is voor OCR.
Documenten uit een willekeurig provincieplaatsje uit de die tijd zijn meestal een stuk moeilijker te lezen.
Dank voor de informatie, klinkt logisch. Hoewel ik denk dat dit project zich onderscheid door de enorme aantallen documenten en de context-afhankelijke vertaling.
Handgeschreven brieven die honderden jaren oud zijn trek je ook niet even door een MFP heen die op de gang staat. Ik vermoed dat het ook allemaal iets arbeidsintensiever is. Niettemin is het best veel geld
Hoeveel uur denk je dat het alleen al kost om 25 Miljoen kwetsbare pagina's in te scannen?

Uitgaande van een optimistische 10 seconden per pagina en 2.000 werkuren per jaar zijn 10 mensen daar 3,5 jaar mee bezig. inclusief huisvesting en apparatuur is het geld dan al op.
Er wordt dan ook onderzoek gedaan op het gebied van automatische semantische tekst herkenning. De uitdaging zit er in dat de computer een mate van begrijpelijkheid moet bereiken.

Als je bijvoorbeeld zoekt naar de reizen van kapitein Willem Janszoon (geboren circa 1570), wil je alle tekst hebben die gaat over die persoon in de tijd dat hij met zijn schip rondreisde als kapitein. Hiervoor zal de computer zelfstandig problemen moeten oplossen:
- is de persoon aangeduid met Willem Jansz dezelfde persoon als Willen Janszoon (c. 1570)? Vast wel, want in bestaande teksten komt dat voor als een andere benaming voor hem.
- is de persoon aangeduid met Willem Janszoon Blaeu dezelfde persoon als Willem Janszoon (c. 1570)? Vast niet, want de W.J. Blaeu was een beroemde Nederlandse Cartografer, en er zijn geen teksten waaruit blijkt dat Willem Janszoon daar iets mee deed.
- is de brief van 1620 over de reizen van Willem Janszoon (c. 1570) van belang? Waarschijnlijk niet, want in die tijd was Willem Janszoon werkzaam als onderhandelaar.
Nou doe maar even een begroting van 380K om 25 miljoen in oud-Nederlands handgeschreven stukken te digitaliseren.
Ik neem aan dat ze gewoon een machine zoals deze zullen gebruiken https://www.youtube.com/watch?v=doeKYKPpj-U voor het scannen van de boeken.

Nadat het van fysiek naar digitaal gaat is de kwestie van het aantal pagina's niet heel relevant meer omdat de software een keer geschreven hoeft te worden.

15 cent per pagina is praktisch wat het kost om 25 milioen pagina's in kleur uit te printen.
Brieven uit de tijd van de VOC zijn vele malen kwetsbaarder dus ik denk dat zo'n machine voor het scannen al niet kan.
Als je denkt dat hardware de bottleneck van het project is, dan heb je het project niet goed begrepen.
Doe ze een voorstel dat jij het allemaal wel kunt voor 1.500.00,- Houd jij er een miljoen aan over en kunnen zij andere dingen doen..

Zucht...
Hoe kom jij dan op die 380K ?
lol, je hebt gewoon een getal geroepen want first-post, en komt nu met een wankele onderbouwing. Kom op zeg. alleen een gedegen offerte maken kost al een behoorlijke duit als je zo'n project moet overzien.
Dus 25 miljoen kwetsbare en onvervangbare documenten scannen voor 100k lijkt jou redelijk? Dat is inc handeling, transport, opslag (zwel digitaal als fysiek) en alle randvoorwaarden (operator, verlichting, climate control) 0,004 euro per pagina.

Dan nog het deel OCR, wat dus ongeveer 1 manjaar aan developertijd mag kosten. dan houdt je feitelijk niks over voor project-management, servers voor opslag van de resultaten, training van de modellen en de daadwerkelijke uitvoerende servers of het beheer van dat alles.
Ik werk veel met OCR dat kost misschien 12 weekjes om een echt goed custom model in te trainen. Het digitaliseren van alle pagina's lijkt me persoonlijk de grootste werk post.
100K is 1,5FTE. Dus je hebt nu 4,5 persoon voor 1 jaar. Succes.
Je probeert te klinken alsof je precies weet waar je het over hebt, maar hoeveel digitalisatieprojecten met OCR heb je zelf gedaan, gebudgetteerd, etc? Waar heb je je cijfers op gebaseerd?
Ben contributor bij een van de grootste ML text-recognition repositories. Heb er ook wat voor mijn werk mee gedaan maar dat is scene-text, geen pagina's. Het grootste werk zit hem in het annoteren van de data en de data vergaren en het in te trainen in een van de vele beschikbare open-source modellen. Cijfers zijn voornamelijk gebaseerd op het aantal uren dat dit zou kosten om te maken.
Het project gaat niet alleen om handschriftherkenning.

"we will develop an online infrastructure that unlocks the key series of VOC reports for advanced new research methods. " https://globalise.huygens.knaw.nl
Ik neem aan dat ze een soort van database met tags aan documenten gaan toevoegen waarop je kan zoeken https://huggingface.co/mo...e_tag=text-classification

Wat ik probeer te zeggen is dat alle facetten waar dit "onderzoek" over gaat meer praktisch toepassings werk is dan een daadwerkelijk onderzoek. Modellen moeten ingetrained worden. Text moet gedigitaliseerd worden etc.
Je beseft je dat een anime-series met gedurende de hele serie het zelfde digitale lettertype iets anders is dan een honderd jaar aan boeken handgeschreven door duizenden verschillende personen met doorlopend aanpassingen aan schrijfstijl, kwailteit, en woordenschat? Zeker als je dialecten,en soms zelfs internationale benamingen voor zaken gaat meenemen?

Anyway, ik zou vooral een voorstel aan die lui doen dat jij het voor de helft doet, kun je mooi winst maken
Er is duidelijk veel geïnvesteerd in het verkopen van het idee welke mooie dingen er hiermee gedaan zouden kunnen worden. Wat er helaas ontbreekt is een duidelijke uitleg waaruit blijkt dat deze groep genoeg kennis heeft om met ocr en programmeren hun doelen voor dat bedrag te bereiken. Ik zou het dus prettig vinden als er meer duidelijk is waar dit nu meer om gaat: het hebben van miljoenen om de komende jaren onderzoek te kunnen doen, of echt resultaten kunnen behalen waar dit bedrag voor nodig is.

[Reactie gewijzigd door kodak op 23 juli 2024 16:51]

Dan moet je gewoon de bron lezen en dan weet je het:

https://www.huygens.knaw....chieven-door-huygens-ing/
en
https://www.nwo.nl/onderz...en-nwo-groot/toekenningen
en nog een leuk fillempie
https://www.youtube.com/watch?v=AfCxzKadvBw

Oftewel: Ja, natuurlijk gaat het om het resultaat van het opleveren van een doorzoekbare database die nu gevuld gaat worden door tekstherkenning.
Ik stel de vraag omdat geen van de bronnen echt antwoord geven op de vraag waarom deze groep geschikt is of voldoende kennis heeft voor wat ze willen bereiken. Je kan wel iets willen onderzoeken of willen bereiken om er vervolgens een hoop geld voor te krijgen zodat je bezig bent, maar dat is niet zomaar een redelijke basis voor je doelen. Zeggen dat je straks van alles wil bereiken en misschien mogelijk is is niet zomaar een realistisch of werkelijk doel.
Je vertrouwd de NWO niet om die beoordeling voor jou te doen?
Praat eens met iemand die een onderzoeksaanvraag bij NWO heeft ingediend. ;)

Geld van NWO krijg je echt niet zomaar. Alleen mensen die zowel extreem goed zijn als het nodige geluk hebben komen voor hun onderzoeksbeurzen in aanmerking. Zelfs de mensen die in de laatste ronde afvallen zijn in het algemeen nog stuk voor stuk briljante wetenschappers die fantastisch onderzoek zouden kunnen doen, maar er is altijd maar geld voor een heel klein deel van de gegadigden.
De haalbaarheid wordt beoordeeld door NWO. We hebben in de politiek afgesproken dat we hen daarmee vertrouwen. Wanneer elke individuele onderzoeksaanvraag politiek verantwoord zou moeten worden, zou dit de onafhankelijkheid van het onderzoek in gevaar kunnen brengen.

Edit: het beoordelingsproces bij het NWO wordt nu trouwens gedaan door de internationale top van wetenschappers in het betreffende vakgebied. Dat zijn dé mensen om de vragen over haalbaarheid e.d. te beantwoorden. Om dat te kunnen beoordelen is specialistische kennis en ervaring nodig, dus ik zie niet in hoe zinvol een discussie door "het grote publiek" zou zijn.

[Reactie gewijzigd door thomas_n op 23 juli 2024 16:51]

De onafhankelijkheid van onderzoek en goede wetenschap bestaat ook door niet alleen maar de mooie dromen te vertellen maar ook op zijn minst duidelijk te zijn dat niet alles perse haalbaar is. Daar inzicht in geven hoeft echt niet te betekenen dat de onafhankelijkheid in gevaar komt, daar is juist verantwoording voor.

Aangezien herkenning van handschrift of interpreteren van teksten niets nieuws is zullen veel van die te overwinnen problemen dus niets zo nieuw zijn. Zoals het probleem dat je wel een mooi plan kan hebben maar vervolgens met geld nog niet zomaar de juiste kennis hebt om teksten te interpreteren of zelfs juist te herkennen. Maar het lijkt me realistischer als de onderzoekers er dan op zijn minst publiek blijk van geven dat het niet alleen maar een mooi verhaal is en het mogelijk zelfs ver gezocht is dat er voor dit geld nu wel de meeste dromen waargemaakt kunnen worden. Als het resultaat straks niet binnen het verkregen geld haalbaar bleek kan je verwachten dat dit soort vragen er hoe dan ook gaan komen.
Ik ben het met je eens dat het geen kwaad zou kunnen als alle documenten rondom publiek gefinancierde wetenschap ook publiek toegankelijk zou zijn, maar ik wil toch wel het idee wegnemen dat je met alleen "een mooi plan" dit soort financiering zou kunnen krijgen. Zowel de wetenschappers die de aanvraag indienen als zij die de aanvraag beoordelen zijn wereldexperts binnen hun vakgebied. Er is zeker iets voor te zeggen elke stap van het proces openbaar te maken, maar het is niet alsof er dan mensen "uit het publiek" meekijken die er meer kennis van hebben dan zij die nu "voor het publiek" de beoordeling gedaan hebben.
@thomas_n Ik heb niet het idee dat er alleen maar een mooi plan is. Alleen lees ik in het nieuws alleen de mooie kant van het plan en lijken de onderzoekers en de subsidieverstrekkers het tot nu toe publiek alleen maar over de mooie kant te willen hebben. Wetenschap lijkt me meer dan de mooie kant, maar ook realistisch zijn dat het niet voor niets wetenschappelijk is.

Dat ze het niet publiek overal over willen hebben kan prima verschillende redenen hebben, waar we hier over dan ook discussiëren. Maar dat maakt het voor mij nog niet redelijk dat we hier op tweakers dan maar geen verwachting mogen hebben over waaruit blijkt dat er voldoende aandacht is voor de mogelijke problemen. Zeker niet als dat met dooddoeners komt als suggereren dat een mede-tweakers de bronnen niet gelezen zou hebben of dat er geen vertrouwen is door kritisch te zijn.

Het lijkt me echt niet te veel gevraagd als de wetenschap en subsidieverstrekkers publiek meer nadruk leggen op beide kanten van onderzoek, of op zijn minst wat realistischer te informeren als het om gemeenschappelijk geld gaat.

[Reactie gewijzigd door kodak op 23 juli 2024 16:51]

Het was inderdaad interessant geweest om te lezen wat deze wetenschappers aan mogelijke struikelblokken verwachten, of wat voor interessant vervolgonderzoek zij hopen dat hun onderzoek mogelijk maakt.

Ik denk dat als Tweakers hun gevraagd had wat vragen te beantwoorden, dat ze dat vrijwel zeker gedaan hadden. Dat zou natuurlijk alsnog kunnen. Een interview met één van deze mensen over de technische kant van hun onderzoek zou volgens mij een leuk artikel op Tweakers kunnen opleveren.

De meeste wetenschappers vertellen graag over hun onderzoek aan een breder publiek. (het komt immers niet zo vaak voor dat dat bredere publiek interesse toont voor het werk waar zij zoveel tijd en energie in stoppen ;) )

p.s. ik reageerde eerder misschien wat fel, dat was niet de bedoeling. Fijn dat jij de discussie niet uit de hand liet lopen waar dat gemakkelijk had kunnen gebeuren.
Maar wat had je dan willen zien? Jouw eerste vraag was heel specifiek: laat mij zien dat de partners die je inschakelt om in dit project mee samen te werken voldoende technische kennis en kunde hebben.
Dat is toch moeilijk anders te interpreteren als: "ik ga daar een mening over hebben"? Zeker als je daarbij een referentie maakt naar het gebruik van gemeenschapsgelden. Daarmee suggereer je op zijn minst dat je een oordeel wil hebben en dat je mening gehoord zou moeten worden.
Ik zou het snappen als je meer informatie over de technische aspecten zou willen krijgen, en dat is in lijn met je wens om hier een discussie te starten. Tweakers gaat over techniek. Tweakers gaat niet over de besteding van gemeenschapsgelden en met alle respect, jouw posts gaan daar wel over. Ik ben dus wel heel erg benieuwd wat nu het doel is van je vragen.
Er is besloten dat het project gestart mag worden. Ik neem aan dat één van de eerste stappen in het projectplan is: "stel een team samen en zoek de juiste partners om dit project tot een goed einde te brengen". Het is zeer waarschijnlijk dat dat team al lang vastgesteld is, maar dat met publicatie ervan gewacht wordt (werd) totdat de subsidie binnen was.

Maar, gewoon uit nieuwsgierigheid: stel dat ze na een paar maanden een team hebben samengesteld en partners hebben gevonden en de namen worden gepubliceerd, wat zou je daar dan mee moeten doen? Ben jij in staat om te beoordelen of die partners competent genoeg zijn?
Als we publiek geld besteden dan lijkt me er vanuit gaan dat men het wel goed zal besteden niet voldoende. Het doel van gemeenschapsgeld besteden is dat er voldoende nut voor de gemeenschap uit komt. Niet zelden komt het voor dat men geld uitgeeft of neemt omdat het kan, niet omdat het een goede besteding voor de gemeenschap krijgt.

De verantwoording van uitgeven van gemeenschapsgeld is bij dit project niet heel transparant. Is het dan gek dat als er vooral mooie verhalen worden gemaakt wat er allemaal mogelijk zou kunnen je dan op zijn minst antwoord wil hebben waaruit de haalbaarheid blijkt? Al is het alleen maar om te zorgen dat duidelijk is dat er voldoende over de haalbaarheid nagedacht is?
We barsten in Nederland bijna uit onze voegen met onafhankelijke organisaties die er voor moeten zorgen dat ons gemeenschapsgeld goed besteed wordt. Specifiek voor onderzoeksprojecten is dat de NWO. Zij hebben de expertise om een subsidie-aanvraag te beoordelen en ze beschikken ook over de documenten waarop ze die beslissing baseren.

Het NWO deelt niet alleen geld uit, maar koppelt de resultaten ook terug, zodat de geldverstrekkers op hun beurt kunnen controleren of hun bijdrage wel goed besteed is.

De door jou gewenste controle is er dus wel degelijk
O sjips, @Risce was me al voor zie ik. Zie zijn post voor links

[Reactie gewijzigd door multikoe op 23 juli 2024 16:51]

Als je die niet hebt is dat prima, maar het draagt niets bij door zomaar wat te beweren of linken
Ik link niet zomaar wat, ik zet daar ook nog een redelijk logische onderbouwing bij die uitlegt waarom ik vind dat een controle van mij persoonlijk (en daarmee indirect van jou persoonlijk) volstrekt onzin is.

Laat ik het op een andere manier insteken. Het NWO is in het leven geroepen om de besteding van gemeenschapsgeld t.b.v. onderzoek in goede banen te leiden. Het is een door de overheid ingestelde organisatie, wettelijk begrensd. De geldschieters krijgen middels terugkoppeling van de resultaten van dat onderzoek inzicht in de "opbrengst" van dat onderzoek. Ook de algemene rekenkamer buigt zich over de uitgaven van de NWO (hoewel waarschijnlijk niet direct met de interne besluitvorming). Samengevat: het NWO legt op dezelfde manier verantwoording af als ieder ander overheidsinstituut.

Het is helemaal niet vreemd dat interne documenten van een overheidsinstantie niet gepubliceerd worden. De eventueel gewenste extra openheid kan worden verkregen via een WOB-verzoek.

Het kan zijn dat je de van overheidswege gedelegeerde verantwoordelijkheid van het NWO niet accepteert en bovenop alle controle-mechanismes nog een extra controle wil. Maar hoe had je dat voor je gezien?
Ik vraag niet om een extra controle, ik vraag om hoe dan ook wat inzicht. En dat lijkt gewoon niet gegeven te worden, in tegenstelling tot wat we wel krijgen te zien: een mooi gemaakt verkoopverhaal wat er allemaal wel zou kunnen als het geld er maar is.

Het lijkt me voor de gemeenschap, en ook als tweakers, een stuk beter als deze onderzoekers dan op zijn minst nog daarbij zouden uitleggen waar ze bijvoorbeeld technische belemmeringen moeten overwinnen en hoe realistisch dat is om hoe dan ook iets van hun droom waar te maken. Het is niet voor niets dat er zelfs bij moderne taal computers moeite hebben met de juiste interpretatie selecteren, zelfs met handschrift nog moeite hebben om de juiste woorden te herkennen. Dan kan je toch niet zomaar verwachten dat deze groep met een mooi verhaal dat allemaal ook wel even gaat oplossen voor een VOC-archief?
Die uitleg hebben ze gegeven aan de internationale experts bij het NWO, anders hadden ze deze beurs niet gekregen.
Ik vraag niet om een extra controle, ik vraag om hoe dan ook wat inzicht. En dat lijkt gewoon niet gegeven te worden, in tegenstelling tot wat we wel krijgen te zien: een mooi gemaakt verkoopverhaal wat er allemaal wel zou kunnen als het geld er maar is.
Deze filmpjes worden gemaakt door de NWO na toekenning van grote onderzoeksprojecten om ook het grote publiek op de hoogte te stellen van wat voor wetenschappelijke thema's gefinancierd worden door de overheid. Zulke filmpjes zijn dus niet de plek voor uitgebreide technische verhandelingen over methodologie; daar heeft de gemiddelde Nederlander niet veel aan.

Als jij hier juist wel graag meer over wilt weten: de onderzoekers zijn altijd te benaderen. Voor ongeveer elke wetenschapper in Nederland geldt dat ze graag ingaan op uitnodigingen om te komen spreken op gelegenheden (studieverenigingen, sectororganisaties, alumni-groepen, noem het maar) waar ze jou en andere geïnteresseerden (gratis!) meer uitleggen over technische aspecten, vergelijking met huidige methoden, belangrijkste uitdagingen. De Nederlandse wetenschap is heel open in dat opzicht.
@emperor3s als de wetenschap heel open is dan zie ik juist geen probleem waarom hier op tweakers niet ook de mogelijke problemen bij het nieuws besproken moeten kunnen worden. Ik krijg nu de indruk dat als je kritisch bent waaruit blijkt dat het haalbaar is en welke mogelijke problemen er zijn dat ongewenst is en het (laten) vertellen van de mooie kant belangrijker is dan benoemen dat onderzoek meer is dan iets willen.
Ik kan helaas niet zien of tweakers hier zelf contact opgenomen heeft met de onderzoekers, maar als er vooral mooie plannen staan op onderwerpen waar al jaren moeite is om resultaat te bereiken dan lijkt me een discussie daarover op tweakers toch wel relevant. Daarom vraag ik het nu hier.
Jeetje. Kun je dan aangeven welke bewijsvoering je hebt voor je stelling "Dit project gaat niet doen wat het beloofd"? Want het lijkt erop dat de bewijsvoering die ik (en anderen) aandraag nooit voldoende zal zijn totdat je een 1-op-1 verhoor hebt gevoerd met de commissie dat geld heeft toegekend aan dit project op basis van allerlei procedures waar jij volgens mij geen weet van hebt, maar waar je wel lichtzinnig de aanname op doet dat er reden is om te twijfelen aan die toekenning-procedure.
@Risce waar stel ik dat het niet zou lukken? En waarom zou ik een lichtzinnig aanname doen door kritisch te zijn? Als we kritisch zijn alleen maar negatief opvatten denk ik dat we als tweakers verkeerd bezig zijn. Discussieren of wensen haalbaar zijn lijkt me redelijk, terwijl we prima kunnen vertrouwen dat er door anderen streng gekeken hoort te worden naar haalbaarheid.
Je bent niet kritisch als je niet wil luisteren naar mensen die jouw aannames weerleggen. Dat heet eigenwijs en is een zinloze basis voor een 'discussie' of hoe jij dan ook kwalificeert wat het is dat je hier doet. /topique
Het gaat om het onderzoeksprogramma "Investeringen NWO-groot", waarvan dit de toekenning is van de 2019-2020 call. De details van de call vind je terug in de Call for Proposals.

Het inhoudelijke proposal wordt inderdaad niet gepubliceerd evenals de inhoudelijke beoordeling. Je wilt namelijk dat de aanvrager in vertrouwen volledig open kaart speelt en zich niet bezwaard voelt om bepaalde zaken delen. Dit ter bescherming van bijvoorbeeld de persoonlijke levenssfeer en het (evt. nog onbeschermd) intellectueel eigendom van de aanvrager. Je kunt je ook wel voorstellen dat bepaalde punten uit een (persoonlijke) beoordeling wat gevoelig kunnen zijn en je liever deze niet publiekelijk deelt.

Wat dat betreft zal je er inderdaad op moeten vertrouwen dat de evaluatoren voldoende kennis hebben voor de inhoudelijke beoordeling en de aanvragers voldoende hebben weten te onderbouwen om de beoordelaars te overtuigen hun proposal te financieren.

Resultaten van de projecten worden wel gepubliceerd evenals dat het proces achter de schermen doorlopend grondig en onafhankelijk worden gemonitord en geëvalueerd. De rapportages hiervan worden gewoon op hun website gepubliceerd.
Het nut voor de gemeenschap bij het besteden van dit geld ligt in het versterken van de infrastructuur van de Nederlandse wetenschap. Op die manier bouwt Nederland kennis, kunde en infrastructuur op om te zorgen dat ook de komende generaties opgeleid worden op een hoog niveau.

Natuurlijk moeten de projecten geen 'verspilling' zijn van gemeenschapsgeld in de zin dat het opzetten van de infrastructuur allemaal veel goedkoper had gekund. Daarom worden de projectvoorstellen in open competitie ingediend bij NWO, worden ze getoetst op inhoud, begroting, haalbaarheid, output op korte en lange termijn. Er worden gedurende het project voortgangsrapportages gedaan, accountantsrapporten opgesteld, om te laten zien dat het geld daadwerkelijk besteed wordt aan datgene waar het voor bedoeld was.

Maar het is niet zinnig om deze projecten op dezelfde manier te beschouwen als 'bedrijfsmatige' investeringen met een duidelijk meetbaar rendement op de korte of middellange termijn. Het rendement van investeringen in hoger onderwijs, incl. wetenschappelijk onderzoek, laat zich heel moeilijk kwantificeren. Zie bijvoorbeeld nog de recente weigering van het CPB om dit te doen bij de dorrekening van verkiezingsprogramma's.
Het gaat bij wetenschap niet om nut voor de gemeenschap. Dat is soms een mooie bijkomstigheid, maar de kennis en inzichten die wetenschap verschaffen zijn op zichzelf van waarde.

We hebben als samenleving in de politiek afgesproken dat we deze waarde groot genoeg vinden om er gemeenschapsgeld aan uit te geven. Dat gebeurt niet zomaar, maar na een zeer strenge selectieprocedure van universiteiten, onderzoeksinstituten en NWO. Wetenschappers worden voortduren beoordeeld op de kwaliteit van hun werk, nationaal door dezelfde instituten die hun onderzoek mogelijk maken én internationaal door de grotere wetenschappelijke gemeenschap. Van (vrijwel) al het werk dat met publiek geld gefinancierd is, worden ook de resultaten publiek beschikbaar.

De politiek controleert dit met opzet niet actief in detail, om de onafhankelijkheid van wetenschappelijk onderzoek niet in gevaar te brengen. Daarom vindt er ook geen verantwoording per individuele onderzoeksbeurs plaats richting de politiek. Wel kiest de politiek er natuurlijk elke keer opnieuw voor welke bedragen er naar universiteiten en NWO gaan voor onderzoek.
Dit project is geen (ML-based) OCR. Ik snap waarom je dat denkt gezien de communicatie, maar a) dat valt niet onder wetenschap en b) het ML-based OCR uitzoeks-project is al gedaan (https://www.nationaalarch...ief/handschriftherkenning).

Omdat er nog geen team is (de uitvoerende onderzoekers zijn nog niet bekend/aangenomen), vraag je feitelijk naar de competenties van de team leider (Matthias van Rossum). Matthias is als leider al belast met een onderzoeks project dat een deep-learning model bouwt voor het herkennen van handschriften van VOC pagina's (https://www.huygens.knaw....for-historical-documents/). Ik ga er vanuit dat, gezien de parallelen tussen de projecten, de NWO daarom denkt dat er voldoende technische kennis en kunde aanwezig zal zijn.
Er is duidelijk veel geïnvesteerd in het verkopen van het idee welke mooie dingen er hiermee gedaan zouden kunnen worden. Wat er helaas ontbreekt is een duidelijke uitleg waaruit blijkt dat deze groep genoeg kennis heeft om met ocr en programmeren hun doelen voor dat bedrag te bereiken.
Je lijkt te denken dat dit een soort moonshot is, en wild idee waarvan je nog maar moet zien of het wat wordt. Maar handschriftherkenning is op zich niets bijzonders meer.
Die algoritmes moeten natuurlijk wel getraind worden op een ander schrift en andere woordenschat en zinsbouw, en laat het VoC archief nou net de beste dataset hebben om dat te doen. Grote delen zijn al gedigitaliseerd dus er is een prima referentie. Dat gaat wel lukken. Het komt dan ook uit de pot voor laboratoria e.d., niet uit de pot voor visionair onderzoek.

En of ze de juiste kennis in hun team of in hun partnerschappen hebben is heus wel naar gekeken. De NWO zijn geen kleuters.
De volgende stap is het lezen van doktersrecepten...ben benieuwd of de AI daar slim genoeg voor is.
De lettervorm is anders dan mij geleerd is te schrijven, maar ik vind het handschrift er eigenlijk uitstekend uitzien. De letters hebben veel details, zijn rond afgemaakt en de inkt is best gelijk verdeeld. Op zich wel logisch, natuurlijk, omdat dit best belangrijke documenten waren.

Het is dat ik geen kennis heb van de handschriften uit die tijd, maar het ontcijferen hiervan moet een stuk sneller gaan dan een snelle krabbel.
Ghe ghe ghe ..

(geen idee waarom je gedownvote wordt, grapjes maken mag schijnbaar niet meer)
Vroeger had tweakers een '1+ grappig' moderatie. Daar kwamen vaak de grappigste dingen uit. Tegenwoordig wordt een grap helaas al snel als 'off topic' bestempeld.
Dit is hoe je Skynet ontwikkeld, een AI de hane-poten-krabbels van doctors laten herkennen... ;-)
Daar maak ik me niet zo druk om, herkennen is gelukkig nog wat anders dan beslissingen nemen.
Wat dat betreft is AI voorlopig nog best "dom" zou ook meer geautomatiseerde patroonherkenning moeten heten maar dat bekt niet zo lekker ;)
Dat zou wel de ultime ocr-test zijn. Vooral die van de oudere huisartsen, die nog met handgeschreven recepten werken.
15 cent per pagina. Daar kan geen mens tegenop.
Betaalde onderzoekers niet nee. Citizen science dan? Misschien. https://www.zooniverse.org/
Dit gaat later ook de gewone mens helpen met stamboomonderzoek. Want de meeste gemeentes hebben nu al veel documenten van vroeger ingescant, zodat niet iedereen meer naar het archief hoeft te komen als jij ze wil in zien maar dan moet je nu nog wel Oud-Nederlands kunnen lezen en het oude handschrift kunnen ontcijferen.
Zou leuk zijn als het dan ook andersom kan, modern Nederlands omzetten naar VOC-derlands.
Ben benieuwd wat we ervan leren dat er in 16-zoveel een boot met handel richting het oosten voer en na een bepaalde tijd weer terugkwam.
Denk dat als ze eenmaal de zaak gedigitaliseerd hebben dat best mogelijk zou zijn. Je kunt waarschijnlijk al een VOC-font maken met wat er nu al op het internet staat.
Het leren is niet alleen die ene boot, het is de hele vloot. Het is economie-geschiedenis (de eerste multinational) het is 'vaderlandse' geschiedenis (van meerdere landen). En er staan ook veel persoonlijke gegevens in, als zal de avg hier gezien de leeftijd (meer dan 75 jaar geleden) niet van toepassing zijn.
Het gaat verder dan alleen ladingslijsten, het gaat ook om scheepsrapporten, observaties, papierwerk van steden als Batavia, de VOC was een monsterlijk groot bedrijf in die tijd (als je de VOC zou extrapoleren naar tegenwoordig, dan waren ze vele malen groter dan de huidige grootste bedrijven), en zo breed verweven in vele besturen en gebieden dat er geschiedkundig echt een schat aan informatie vrij kan komen die ons veel kan leren van die tijd.
Dit bericht doet nu wel alsof dit iets ontzettend nieuws is, en dat valt ook wel mee. Binnen het erfgoedveld wordt al jaren gewerkt met HTR-technieken, en dat geldt ook zeker voor vroegmoderne teksten. Het is hier eigenlijk vooral de schaal die uitzonderlijk is, en vooral ook het subsidiebedrag dat ze binnen hebben weten te halen.

Dat gezegd hebbende: hoe meer data er getranscribeerd wordt, hoe meer referentiedata er beschikbaar komt, dus daar kunnen andere instellingen dan weer gebruik van maken. Hoop ik.
Inderdaad, Handschriftherkenning met behulp van machine learning is iets wat het nationaal archief en anderen al lang mee bezig zijn. Deze subsidie is mijn inziens meer om een bruikbaar webportaal te krijgen om te zoeken in de gevonden info en om de talloze uren te betalen die nodig zijn om al die pagina's in te scannen.
Het aantal landen dat ander landen om geld gevraagd heeft vanwege oorlogsmisdaden is extreem klein. Zo had Amerika er een fonds voor maar na 10 jaar was er nog amper vraag naar geweest. Aanvankelijk dachten ze dat andere landen het niet wisten, maar toen ze het gingen navragen bleek dat de landen er wel van de hoogte waren maar er simpelweg geen behoefte hadden in geld.

De reden waarom dat iedereen dat denkt is omdat als een land een "fout toegeeft" die ook verantwoordelijk is voor de schade van die fout. Dit is echter een idee vanuit de middeleeuwen die eigenlijk sinds de eerste wereld oorlog niet meer toegepast wordt.

Tegenwoordig willen landen veel meer een samenwerkingsverband opzoeken, dat is duurzaamer en waardevoller voor beide partijen. Tevens zorgt dit ervoor dat beide landen elkaar sneller als gelijken gaan zien.
Uit de 16e en 17e eeuw. Dat lijkt me sterk.

Ik ben juist heel positief over dit project. Hier ligt een kans om het geschiedenisonderwijs juist te versterken. Gezien deze opmerkingen hard nodig.
Op welk project ook zal er altijd een groep tegenstanders zijn.

Of het nu gaat om een brug te plaatsen, een nieuw politie uniform of het doorzoekbaar maken van oude documenten.

En dat is denk ik ook wel gezond. Zo kunnen er overwegingen gemaakt worden. Om iets wel of niet te doen of even wachten tot er een geschiktere tijd is.
Nu met BLM zullen er weer meer antwoorden komen door die documenten doorzoekbaar te maken.

Misschien is dat fijn maar er zal ook oud zeer naar boven komen.
Op welk project ook zal er altijd een groep tegenstanders zijn.
Nu met BLM zullen er weer meer antwoorden komen door die documenten doorzoekbaar te maken.
Misschien is dat fijn maar er zal ook oud zeer naar boven komen.
BLM heeft meer met het werk van de West-Indische Compagnie te maken. Afrikanen verslepen en verschepen naar het verre Westen.

De VOC betreft Indonesie en omstreken. Kruiden en specerijen ophalen die we hier niet kenden. En van lieverlede de boel aldaar gaan terroriseren en uitbuiten waardoor we hier een Gouden Eeuw konden bekostigen.
Zonder mensen op het verkeerde teen te trappen. VOC handelde o.a. In slaven. https://nl.m.wikipedia.or..._de_Nederlandse_slavernij

Dat die mensen niet uit Afrika komen wil niet zeggen dat zij geen slaaf zijn geweest. En dus ook in onderdrukking hebben gezetten net als Afrikaanse slaven.

Maar dat is een andere discussie.

[Reactie gewijzigd door To_Tall op 23 juli 2024 16:51]

... waarom er zoveel geld gaat naar onderzoek van zo een donkere periode bla bla bla, VOC was slecht etc etc
Je zou ook kunnen zeggen: Juist omdat het zo'n donkere periode was is het belangrijk dat we weten hoe men toen dacht en wat er allemaal is gebeurd. Zodat we kunnen leren van de fouten uit het verleden.
Jij bent de eerste die nu kritiek levert. Zeur niet zo en anderen moeten ook niet zo zeuren. Geschiedenis is geschiedenis, daar verander je niets aan. Kritiek hebben mag, vrij land. Maar je veranderd er toch niets aan. Buiten dat het gewoon andere tijden waren, waar ons "duistere verleden" de norm was.

Sowieso dat kritiek op Nederland elke keer voor ons verleden slaat nergens op. Nemen we dan ook mee dat we 1 van de eerste landen waren ter wereld die slavernij afgeschaft hebben? Dat -enkele uitzondering daargelaten- we 1 van de eerste waren met een algemeen stemrecht? Dat we het eerste land waren dat andersgeaarde mensen gelijke rechten gaven?

Op dit item kan niet meer gereageerd worden.