Google laat ocr los op Indiase handschriften

Google gaat zijn zoekdienst voor boeken, Google Books, uitbreiden met 800.000 boeken en manuscripten van de universiteit van Mysore in India. Het inscannen van de handgeschreven teksten stelt ocr-technieken op de proef.

Google Books-logo Honderdduizend van de in te scannen teksten zijn handgeschreven stukken, waarvan de oudste exemplaren in de achtste eeuw na Christus op palmbladeren zijn gekalligrafeerd. Het inscannen is onderdeel van de internationalisering van Google Books, dat momenteel grotendeels bestaat uit Engelstalige literatuur. De teksten van de universiteit van Mysore zijn geschreven in het Sanskriet en het Kannada, twee klassieke talen uit de geschiedenis van India en omstreken. De talen hebben in deze regio dezelfde status als het Latijn in Europa. India is steeds belangrijker voor Google: het bedrijf opende eind vorig jaar een groot datacenter in dit land en kondigde onlangs een Hindi-variant van Google News aan.

Het inscannen van gedrukte tekst is tegenwoordig bijna foutloos mogelijk en is geen uitdaging meer voor Google. Met geschreven tekst is dit wel anders: hoe goed ocr-software met een geschreven tekst overweg kan hangt af van hoe regelmatig het handschrift van de schrijver is. Onderzoekers halen al goede resultaten met regelmatig geschreven teksten uit de Griekse oudheid en Googles open source ocr-pakket OCRopus moet deze problemen aanpakken. Het probleem is echter nog lang niet opgelost met het herkennen van geschreven tekens; het opslaan van tekst inclusief opmaakcodes is een probleem op zichzelf. Google zal waarschijnlijk gebruik gaan maken van de SGML-standaard, die bij veel digitale bibliotheken al in gebruik is. Deze standaard moet ervoor zorgen dat de digitale informatie ook in de toekomst nog goed te benaderen zal zijn. Vanuit een SGML-gecodeerd bestand kan eenvoudig een html-bestand worden geproduceerd. Tot het moment dat Google het coderen van de opmaak automatiseert, zullen de manuscripten handmatig opgemaakt moeten worden.

Vorig nieuwsartikel Volgend nieuwsartikel

Door René Gerritsen

Feedback • 23-05-2007 16:42 37

23-05-2007 • 16:42

Bron: Ars Technica

Lees meer

Google Translate-website krijgt handschriftherkenning Nieuws van 25 juli 2013

Google brengt final herkenningssoftware voor handgeschreven tekst uit Nieuws van 20 januari 2013

Google test OpenFlow-protocol op eigen netwerk Nieuws van 10 april 2012

Japans lab ontwikkelt snelle boekscanner Nieuws van 14 augustus 2009

Schikking met uitgevers blaast Googles boekendienst nieuw leven in Nieuws van 28 oktober 2008

Google News verzamelt meer oude kranten Nieuws van 10 september 2008

Sharen van ingescande boeken is probleem voor uitgevers Nieuws van 2 juli 2008

British Library gaat oude boeken digitaliseren Nieuws van 28 september 2007

Google News biedt betrokkenen kans op wederhoor Nieuws van 9 augustus 2007

Google gaat bibliotheek UGent online beschikbaar maken Nieuws van 25 mei 2007

Google gaat 'realtime'-overzicht van trends bieden Nieuws van 22 mei 2007

'Google wil Feedburner kopen' Nieuws van 22 mei 2007

'Google en Salesforce willen alliantie vormen' Nieuws van 21 mei 2007

Google integreert zoekresultaten Nieuws van 18 mei 2007

Google loopt vooruit op dataopslagwetgeving Nieuws van 16 mei 2007

Google wil profielen gamers opstellen Nieuws van 13 mei 2007

Google: 'Een op de tien webpagina's gevaarlijk' Nieuws van 11 mei 2007

Aandeelhouders Google willen geen beperking op censuur Nieuws van 11 mei 2007

Franse rechtszaak tegen Google Books breidt zich uit Nieuws van 1 november 2006

Google staat downloaden oude boeken toe Nieuws van 30 augustus 2006

Duitse uitgever trekt rechtszaak tegen Google in Nieuws van 30 juni 2006

Meer producten en artikelen

Software

Reacties (37)

-Moderatie-faq

Wijzig sortering

Shuisman 23 mei 2007 17:35

Die 'letters' lijken wel erg veel opelkaar ?!

BartOtten @Shuisman • 23 mei 2007 17:52

Het klinkt stom maar dat vinden Taiwannezen bijv. ook van onze letters. Dat komt omdat je geen 'tekst' ziet maar tekeningen als je de letters niet kent. Jij ziet daar alleen lijntjes ipv dat je het geheel van een groep herkend (Want dat is lezen. Je kan bij een worod de mddiestelte ltteres wlikeleirgug oredenen en msneen kennun het lezen zolang de twee buitenste maar goed staan)

Zie de onderstaande letters een puur als een verzameling streepjes. Dan zie je dat het veel op elkaar lijkt. Een streepje ergens anders zetten creeert direct een nieuwe letter.

LFTEH

WUVY

NMZ

IJ

ODGQC

Patriot @Shuisman • 23 mei 2007 22:17

Wat mij opviel was dat er geen spaties in de tekst lijken te zitten.

Andros @Patriot • 24 mei 2007 08:10

Nou, voor zover jij weet kan het makkelijk zijn dat die lui een teken gebruikten om een nieuw woord aan te kondigen, een letter als spatie zeg maar...

Verwijderd @Patriot • 24 mei 2007 10:23

Er zijn veel talen (ten minste in Asia) die geen spaties gebruiken. Sanskiet, Tibetaans, Thai zijn voorbeelden daarvan. Voor zover ik weet hebben deze drie zelfs geen punt-equivalent om zinnen van elkaar te scheiden. Ook geen hoofdletters, komma's of vraag- en uitroeptekens. Grammaticaregels en het feit dat meeste worden in deze talen bestaan uit een of twee lettergrepen zorgen voor leesbaarheid.

Troetelbiertje 23 mei 2007 17:42

Wel mooi dat ze hiermee bezig zijn. Maar is het ook zo dat de software door meer te scannen steeds beter wordt? Als foute scans dan gemarkeerd worden + correctie, dan leert de OCR software toch bij? Zou dit dan betekenen dat Google straks echt een killer programma heeft?

Beetje hetzelfde idee als hun spamfilter voor gmail. Doordat gmail zoveel gebruikt wordt is dat filter nagenoeg perfect, tenminste zo ervaar ik het. Heb misschien dit jaar 1 false positive gehad en er is 1 spamberichtje doorheen gekomen en ik krijg denk ik wel 15 spamberichten per dag.

Verwijderd @Troetelbiertje • 23 mei 2007 18:16

als het goed is leert ocr-software op dezelfde manier bij als statistische spraakherkenning, dus ja: het leert en ambivalente herkenningen worden gemarkeerd, ook net als in de spraakherkenning. een killer-app is het daarmee niet, dat "leren" op statistische basis gebeurt al vrij lang, in de spraakherkenning al sinds 1995 of zo.

Troetelbiertje @Verwijderd • 23 mei 2007 18:42

Begrijp uiteraard dat deze statistische manier niet de beste is. Alleen als er echter zoveel data voorhanden is als bij Google, dan is dit toch juist wel heel doeltreffend? Omdat hij simpelweg meer herkent. Nu ben ik geen programmeur, maar ook een goed ontwikkeld programma kan toch ook 'leren' door veel statistische gegevens en zijn herkenning verfijnen?
edit: vieze typo eruit.

Verwijderd @Troetelbiertje • 23 mei 2007 19:08

er zijn niet veel alternatieven voor statistische methodes, of het nu het beste zou zijn of niet: pc's kunnen met begrippen als taal of spraak niks beginnen, ze kennen alleen tekens en klanken. om dat te ondervangen wordt er meestal gewerkt met een context, op die manier kun je bepalen wat de grootste waarschijnlijkheid is voor het voorkomen van een woord:

er zijn niet veel alternatieven voor statistische methodes.

wordt verdeeld in trigrammen:

er zijn niet
zijn niet veel
niet veel alternatieven
alternatieven voor statistische
voor statistische methodes
statistische methodes [punt]

door heel veel tekst op deze manier te behandelen, kun je waarschijnlijkheden voor het voorkomen van woorden uitrekenen. voor een spraakherkennings- of ocr-programma de markt opkomt is er ca. 15-30 gb platte tekst doorheen gedraaid om een lexicon en een statistisch taalmodel te bouwen. statistiek heeft trouwens wél het paradoxale voordeel dat je een taal niet per se hoeft te kennen om er mee te gaan werken en bovendien is het bij statistiek, zoals je zelf al zegt, inderdaad een kwestie van hoe meer, hoe beter.

alternatieven die taal zouden kunnen herkennen, worden gezocht in neurale netwerken, maar ik denk dat we nog wel 30 jaar verder zijn voor daar de eerste echt veelbelovende resultaten mee worden gehaald. in 2002 kon een neuraal netwerk wel spraak uit achtergrondgeluid destilleren (16 woorden, maar die wel 40 keer beter dan het menselijk oor), maar dat was nog puur een akoestische kwestie, het herkennen van klankwaardes.

Troetelbiertje @Troetelbiertje • 23 mei 2007 19:20

Helemaal duidelijk

Momenteel komt het er dus op neer dat degene met de meeste data het beste programma kan maken, mits er goede programmeurs op gezet worden (doet google vast wel). Dus of Google met een killer apllicatie kan komen is de vraag, dat kan niemand nog. Maar dat ze een heel goed programma zouden kunnen neerzetten is wel mogelijk.

Verwijderd 23 mei 2007 17:41

Ik vraag me af wat voor een software TNT Post hiervoor gebruikt. Die scannen toch ook heel wat met de handgeschreven brieven in.

Iemand een indicatie hoeveel % daarvan alsnog handmatig moet worden gelezen?

Zou een leuke vergelijking zijn.

The Flying Dutchman @Verwijderd • 23 mei 2007 19:55

Het herkennen van postcodes en straatnamen is relatief erg gemakkelijk. Reden?

Een adres ziet er altijd als volgt uit:

geaddresseerde
straatnaam nummer toevoeging
XXXX YY plaatsnaam

Je kunt hierin dus enorm veel aannames maken. Daarnaast is het aantal plaatsnamen beperkt, waardoor het zeer goed te voorspellen is welke plaatsnaam er staat. De combinatie van postcode (wederom zeer goed te herkennen omdat er vier getallen staan, dus er zijn voor iedere X slechts 10 keuzemogelijkheden) en straatnaam en nummer staat ook vast (dus als je de postcode hebt, dan weet je de straatnaam meestal ook al, als je de plaats, straat en nummer hebt, dan weet je de postcode).

Dus door de vele aannamen en de redundantie in de informatie is dit een relatief gemakkelijke taak.

Verwijderd @The Flying Dutchman • 23 mei 2007 21:55

Ze hoeven ook alleen de postcode en het huis nummer goed te hebben. De rest is 'overbodig' in Nederland.

Nickname55 @Verwijderd • 23 mei 2007 22:57

Jah, maar door toch ook de straatnaam en de woonplaats te herkennen, kan de software zichzelf controleren.

2playgames @Verwijderd • 23 mei 2007 23:05

als ze nou eens een programmatje uitgeven, waarmee iedereen een adres kan uitprinten als barcode, dat zou het denk ik wel makkelijker maken

Andros @Verwijderd • 24 mei 2007 08:11

Leuk, voor elke brief die je wilt versturen de pc opstarten, printer aanzetten etc. Lang niet iedereen heb z'n pc verzameling 24/7 aan weet je...

dasiro @The Flying Dutchman • 24 mei 2007 00:24

Een adres ziet er altijd als volgt uit:

geaddresseerde
straatnaam nummer toevoeging
XXXX YY plaatsnaam

psst, nederland is niet het enige land ter wereld waar TNT werkzaam is. Zo zijn er ook landen waar ze geen straatnamen en huisnummers hebben, maar gemeenschappen, dan krijg je iets als:

sterke krijger, zoon van slim opperhoofd
clan der bleekscheten
eeuwig groen veld
gebied van de grote meren
verwegistanie

dit alles geschreven in krulletjes en kronkels die op een bussel brijwol lijkt.

Andros @dasiro • 24 mei 2007 08:13

Ik neem aan dat zo'n machien ook een bak heeft met een sticker: onleesbare zooi, laat maar aan een mens over...

Verwijderd 23 mei 2007 17:21

Het helpt natuurlijk dat papier (en equivalenten) altijd hardstikke duur waren, zodat geschriften altijd zorgvuldig waren en gemaakt door hoogopgeleidden. Allemaal dingen die orde en regelmaat, en nu dus herkenbaarheid, ten goede komen.

Is wel frustrerend dit te lezen, paar jaar nadat je hoop geld aan een OCR prog hebt uitgegeven dat uiteindelijk toch niet zoveel capaciteiten had, en vooral bij alle niet-alfanumerieke input van slag gaat (zoals een korte vergelijking). Dacht er tijd mee te winnen, niet dus...

benny.ria 23 mei 2007 17:55

Kan die software van Google ook gewoon hier op mijn windows-pc draaien? Of iemand misschien een ander goed(en gratis) OCR-pakket?

berend_engelbrecht @benny.ria • 23 mei 2007 19:19

Ik heb twee tips voor je:

1. Microsoft Office Document Imaging is weliswaar niet gratis, maar wel inbegrepen in alle versies van Microsoft Office XP, 2003 of 2007. Als je een ms office-product op je PC hebt kan je MODI dus altijd erbij installeren zonder dat het je extra kost. Vanaf Office 2003 is MODI ook toegankelijk voor third party software via een COM-interface. Microsoft heeft technologie van ScanSoft in licentie genomen en de recognition rate is behoorlijk goed.

2. Als je geen Office hebt is CharacTell IRead een werkelijk goedkoop product van een kleine Israelische firma. Het is niet gratis, maar met per seat prijzen vanaf 51 euro bijzonder goedkoop ten opzichte van andere OCR producten.

Voordelen:
- CharacTell IRead is een zeer snelle OCR engine geschikt voor bulkverwerking.
- Er zit ook een vrij bruikbare forms recognition module bij.

Nadeel: Ten opzichte van MODI en andere producten gebaseerd op de ScanSoft engines heeft CharacTell een duidelijk slechtere recognition rate.

fevenhuis @benny.ria • 23 mei 2007 19:49

Of kijk eens wat voor CD'tjes er bij je scanner zaten.

De gratis OCR software van ome Google is er pas volgend jaar.

Verwijderd 23 mei 2007 17:21

Ik weet al niet wat daar staat, hoe moet de computer dat weten?

ThomasG @Verwijderd • 23 mei 2007 17:26

Gelukkig ben jij net zo slim als een computer

Verwijderd @ThomasG • 23 mei 2007 18:20

Ik ben gelukkig slimmer dan een computer (iedereen eigenlijk), want een computer is maar eendo apperaat. Het kan (nog) niet denken en doet alleen maar wat de mens hem opdraagt.

dasiro @Verwijderd • 24 mei 2007 00:18

ok gelieve tegen morgen pi dan ff te posten tot 5 miljoen cijfers na de komma, uiteraard uit het hoofd uitgerekend.

Verwijderd @Verwijderd • 24 mei 2007 10:51

Maar dat apparaat kan tenminste spellen

fevenhuis 23 mei 2007 18:54

Elke dag weer een nieuwe Googledag.

jhellingman 24 mei 2007 08:48

Mooie uitdaging. Het Sanskriet (uit het voorbeeld) is geheel phonetisch geschreven, met alle woorden aan elkaar. Naast zo'n 56 basisletters, en zo'n 14 klinker tekens, kent het enkele honderden samengestelde letters. Dit handschrift is redelijk leesbaar, maar ik heb ze moeilijker gezien. De eerste regel begint:

"Dhimahevayammuviramagrashra..."

De palmblad manuscripten zijn nog lastiger, omdat deze niet met inkt zijn geschreven, maar ingekrast. Voor het lezen moet je er een beetje roet over wrijven, zodat de krasjes duidelijker zichtbaar worden. Ik ben in Trivandrum (Zuid India) in de universiteitsbibliotheek, afdeeling manuscripten geweest, een enorme collectie van dergelijk materiaal. Trouwens ideaal voor een Indiase tegenhanger van Distributed Proofreaders.

buzzin @Icekiller2k6 • 23 mei 2007 16:54

ze moeten nog iets uitvinden als ze dit niet al gedaan hebben.

Logische nederlandse zin toch?
Om zijn er zoveel mensen die collectief krom denken?

Patriot @buzzin • 23 mei 2007 22:13

Wat jij zegt is inderdaad hoe je het hoort te schrijven, in het Nederlands. Dat van Ssj4goten is blijkbaar het Belgische equivalent daarvan, maar Icekiller 2k6 kende het blijkbaar nog niet.

Verwijderd @Icekiller2k6 • 23 mei 2007 16:52

"Als ze dit al niet kunnen" is een uitdrukking die in België gebruikt wordt met de betekenis van 'wauw kijk eens wat ze al kunnen' en niet 'dit kunnen ze niet'.

Duuuuuus Ssj4goten moet gewoon geen dialect gebruiken op Tweakers

Icekiller2k6 @Verwijderd • 23 mei 2007 19:15

psst.. ik ben een belg..

2playgames @Verwijderd • 23 mei 2007 23:02

Ik als Brabander vind het overigens ook een normale zin.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (37)

Sorteer op:

Weergave: