Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Je kunt ook een cookievrije versie van de website bezoeken met minder functionaliteit. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , reacties: 37, views: 15.596 •
Bron: Ars Technica

Google gaat zijn zoekdienst voor boeken, Google Books, uitbreiden met 800.000 boeken en manuscripten van de universiteit van Mysore in India. Het inscannen van de handgeschreven teksten stelt ocr-technieken op de proef.

Google Books-logoHonderdduizend van de in te scannen teksten zijn handgeschreven stukken, waarvan de oudste exemplaren in de achtste eeuw na Christus op palmbladeren zijn gekalligrafeerd. Het inscannen is onderdeel van de internationalisering van Google Books, dat momenteel grotendeels bestaat uit Engelstalige literatuur. De teksten van de universiteit van Mysore zijn geschreven in het Sanskriet en het Kannada, twee klassieke talen uit de geschiedenis van India en omstreken. De talen hebben in deze regio dezelfde status als het Latijn in Europa. India is steeds belangrijker voor Google: het bedrijf opende eind vorig jaar een groot datacenter in dit land en kondigde onlangs een Hindi-variant van Google News aan.

Stukje Sanskriet

Het inscannen van gedrukte tekst is tegenwoordig bijna foutloos mogelijk en is geen uitdaging meer voor Google. Met geschreven tekst is dit wel anders: hoe goed ocr-software met een geschreven tekst overweg kan hangt af van hoe regelmatig het handschrift van de schrijver is. Onderzoekers halen al goede resultaten met regelmatig geschreven teksten uit de Griekse oudheid en Googles open source ocr-pakket OCRopus moet deze problemen aanpakken. Het probleem is echter nog lang niet opgelost met het herkennen van geschreven tekens; het opslaan van tekst inclusief opmaakcodes is een probleem op zichzelf. Google zal waarschijnlijk gebruik gaan maken van de SGML-standaard, die bij veel digitale bibliotheken al in gebruik is. Deze standaard moet ervoor zorgen dat de digitale informatie ook in de toekomst nog goed te benaderen zal zijn. Vanuit een SGML-gecodeerd bestand kan eenvoudig een html-bestand worden geproduceerd. Tot het moment dat Google het coderen van de opmaak automatiseert, zullen de manuscripten handmatig opgemaakt moeten worden.

Reacties (37)

"Als ze dit al niet kunnen" is een uitdrukking die in België gebruikt wordt met de betekenis van 'wauw kijk eens wat ze al kunnen' en niet 'dit kunnen ze niet'.

Duuuuuus Ssj4goten moet gewoon geen dialect gebruiken op Tweakers :+
psst.. ik ben een belg..
Ik als Brabander vind het overigens ook een normale zin.
ze moeten nog iets uitvinden als ze dit niet al gedaan hebben.

Logische nederlandse zin toch?
Om zijn er zoveel mensen die collectief krom denken?
Wat jij zegt is inderdaad hoe je het hoort te schrijven, in het Nederlands. Dat van Ssj4goten is blijkbaar het Belgische equivalent daarvan, maar Icekiller 2k6 kende het blijkbaar nog niet.
Ik weet al niet wat daar staat, hoe moet de computer dat weten? :?
Gelukkig ben jij net zo slim als een computer :)
Ik ben gelukkig slimmer dan een computer (iedereen eigenlijk), want een computer is maar eendo apperaat. Het kan (nog) niet denken en doet alleen maar wat de mens hem opdraagt.
ok gelieve tegen morgen pi dan ff te posten tot 5 miljoen cijfers na de komma, uiteraard uit het hoofd uitgerekend.
Maar dat apparaat kan tenminste spellen :P
Het helpt natuurlijk dat papier (en equivalenten) altijd hardstikke duur waren, zodat geschriften altijd zorgvuldig waren en gemaakt door hoogopgeleidden. Allemaal dingen die orde en regelmaat, en nu dus herkenbaarheid, ten goede komen.

Is wel frustrerend dit te lezen, paar jaar nadat je hoop geld aan een OCR prog hebt uitgegeven dat uiteindelijk toch niet zoveel capaciteiten had, en vooral bij alle niet-alfanumerieke input van slag gaat (zoals een korte vergelijking). Dacht er tijd mee te winnen, niet dus...
Die 'letters' lijken wel erg veel opelkaar ?!
Het klinkt stom maar dat vinden Taiwannezen bijv. ook van onze letters. Dat komt omdat je geen 'tekst' ziet maar tekeningen als je de letters niet kent. Jij ziet daar alleen lijntjes ipv dat je het geheel van een groep herkend (Want dat is lezen. Je kan bij een worod de mddiestelte ltteres wlikeleirgug oredenen en msneen kennun het lezen zolang de twee buitenste maar goed staan)

Zie de onderstaande letters een puur als een verzameling streepjes. Dan zie je dat het veel op elkaar lijkt. Een streepje ergens anders zetten creeert direct een nieuwe letter.

LFTEH

WUVY

NMZ

IJ

ODGQC
Wat mij opviel was dat er geen spaties in de tekst lijken te zitten.
Nou, voor zover jij weet kan het makkelijk zijn dat die lui een teken gebruikten om een nieuw woord aan te kondigen, een letter als spatie zeg maar...
Er zijn veel talen (ten minste in Asia) die geen spaties gebruiken. Sanskiet, Tibetaans, Thai zijn voorbeelden daarvan. Voor zover ik weet hebben deze drie zelfs geen punt-equivalent om zinnen van elkaar te scheiden. Ook geen hoofdletters, komma's of vraag- en uitroeptekens. Grammaticaregels en het feit dat meeste worden in deze talen bestaan uit een of twee lettergrepen zorgen voor leesbaarheid.
Ik vraag me af wat voor een software TNT Post hiervoor gebruikt. Die scannen toch ook heel wat met de handgeschreven brieven in.

Iemand een indicatie hoeveel % daarvan alsnog handmatig moet worden gelezen?

Zou een leuke vergelijking zijn.
Het herkennen van postcodes en straatnamen is relatief erg gemakkelijk. Reden?

Een adres ziet er altijd als volgt uit:

geaddresseerde
straatnaam nummer toevoeging
XXXX YY plaatsnaam

Je kunt hierin dus enorm veel aannames maken. Daarnaast is het aantal plaatsnamen beperkt, waardoor het zeer goed te voorspellen is welke plaatsnaam er staat. De combinatie van postcode (wederom zeer goed te herkennen omdat er vier getallen staan, dus er zijn voor iedere X slechts 10 keuzemogelijkheden) en straatnaam en nummer staat ook vast (dus als je de postcode hebt, dan weet je de straatnaam meestal ook al, als je de plaats, straat en nummer hebt, dan weet je de postcode).

Dus door de vele aannamen en de redundantie in de informatie is dit een relatief gemakkelijke taak.
Ze hoeven ook alleen de postcode en het huis nummer goed te hebben. De rest is 'overbodig' in Nederland.
Jah, maar door toch ook de straatnaam en de woonplaats te herkennen, kan de software zichzelf controleren.
als ze nou eens een programmatje uitgeven, waarmee iedereen een adres kan uitprinten als barcode, dat zou het denk ik wel makkelijker maken :)
Leuk, voor elke brief die je wilt versturen de pc opstarten, printer aanzetten etc. Lang niet iedereen heb z'n pc verzameling 24/7 aan weet je...
Een adres ziet er altijd als volgt uit:

geaddresseerde
straatnaam nummer toevoeging
XXXX YY plaatsnaam
psst, nederland is niet het enige land ter wereld waar TNT werkzaam is. Zo zijn er ook landen waar ze geen straatnamen en huisnummers hebben, maar gemeenschappen, dan krijg je iets als:

sterke krijger, zoon van slim opperhoofd
clan der bleekscheten
eeuwig groen veld
gebied van de grote meren
verwegistanie

dit alles geschreven in krulletjes en kronkels die op een bussel brijwol lijkt.
Ik neem aan dat zo'n machien ook een bak heeft met een sticker: onleesbare zooi, laat maar aan een mens over...
Wel mooi dat ze hiermee bezig zijn. Maar is het ook zo dat de software door meer te scannen steeds beter wordt? Als foute scans dan gemarkeerd worden + correctie, dan leert de OCR software toch bij? Zou dit dan betekenen dat Google straks echt een killer programma heeft?

Beetje hetzelfde idee als hun spamfilter voor gmail. Doordat gmail zoveel gebruikt wordt is dat filter nagenoeg perfect, tenminste zo ervaar ik het. Heb misschien dit jaar 1 false positive gehad en er is 1 spamberichtje doorheen gekomen en ik krijg denk ik wel 15 spamberichten per dag.
als het goed is leert ocr-software op dezelfde manier bij als statistische spraakherkenning, dus ja: het leert en ambivalente herkenningen worden gemarkeerd, ook net als in de spraakherkenning. een killer-app is het daarmee niet, dat "leren" op statistische basis gebeurt al vrij lang, in de spraakherkenning al sinds 1995 of zo.
Begrijp uiteraard dat deze statistische manier niet de beste is. Alleen als er echter zoveel data voorhanden is als bij Google, dan is dit toch juist wel heel doeltreffend? Omdat hij simpelweg meer herkent. Nu ben ik geen programmeur, maar ook een goed ontwikkeld programma kan toch ook 'leren' door veel statistische gegevens en zijn herkenning verfijnen?
edit: vieze typo eruit.
er zijn niet veel alternatieven voor statistische methodes, of het nu het beste zou zijn of niet: pc's kunnen met begrippen als taal of spraak niks beginnen, ze kennen alleen tekens en klanken. om dat te ondervangen wordt er meestal gewerkt met een context, op die manier kun je bepalen wat de grootste waarschijnlijkheid is voor het voorkomen van een woord:

er zijn niet veel alternatieven voor statistische methodes.

wordt verdeeld in trigrammen:

er zijn niet
zijn niet veel
niet veel alternatieven
alternatieven voor statistische
voor statistische methodes
statistische methodes [punt]

door heel veel tekst op deze manier te behandelen, kun je waarschijnlijkheden voor het voorkomen van woorden uitrekenen. voor een spraakherkennings- of ocr-programma de markt opkomt is er ca. 15-30 gb platte tekst doorheen gedraaid om een lexicon en een statistisch taalmodel te bouwen. statistiek heeft trouwens wél het paradoxale voordeel dat je een taal niet per se hoeft te kennen om er mee te gaan werken en bovendien is het bij statistiek, zoals je zelf al zegt, inderdaad een kwestie van hoe meer, hoe beter.

alternatieven die taal zouden kunnen herkennen, worden gezocht in neurale netwerken, maar ik denk dat we nog wel 30 jaar verder zijn voor daar de eerste echt veelbelovende resultaten mee worden gehaald. in 2002 kon een neuraal netwerk wel spraak uit achtergrondgeluid destilleren (16 woorden, maar die wel 40 keer beter dan het menselijk oor), maar dat was nog puur een akoestische kwestie, het herkennen van klankwaardes.
Helemaal duidelijk ;)

Momenteel komt het er dus op neer dat degene met de meeste data het beste programma kan maken, mits er goede programmeurs op gezet worden (doet google vast wel). Dus of Google met een killer apllicatie kan komen is de vraag, dat kan niemand nog. Maar dat ze een heel goed programma zouden kunnen neerzetten is wel mogelijk.
Kan die software van Google ook gewoon hier op mijn windows-pc draaien? Of iemand misschien een ander goed(en gratis) OCR-pakket?
Ik heb twee tips voor je:

1. Microsoft Office Document Imaging is weliswaar niet gratis, maar wel inbegrepen in alle versies van Microsoft Office XP, 2003 of 2007. Als je een ms office-product op je PC hebt kan je MODI dus altijd erbij installeren zonder dat het je extra kost. Vanaf Office 2003 is MODI ook toegankelijk voor third party software via een COM-interface. Microsoft heeft technologie van ScanSoft in licentie genomen en de recognition rate is behoorlijk goed.

2. Als je geen Office hebt is CharacTell IRead een werkelijk goedkoop product van een kleine Israelische firma. Het is niet gratis, maar met per seat prijzen vanaf 51 euro bijzonder goedkoop ten opzichte van andere OCR producten.

Voordelen:
- CharacTell IRead is een zeer snelle OCR engine geschikt voor bulkverwerking.
- Er zit ook een vrij bruikbare forms recognition module bij.

Nadeel: Ten opzichte van MODI en andere producten gebaseerd op de ScanSoft engines heeft CharacTell een duidelijk slechtere recognition rate.
Of kijk eens wat voor CD'tjes er bij je scanner zaten.

De gratis OCR software van ome Google is er pas volgend jaar.
Elke dag weer een nieuwe Googledag.
Mooie uitdaging. Het Sanskriet (uit het voorbeeld) is geheel phonetisch geschreven, met alle woorden aan elkaar. Naast zo'n 56 basisletters, en zo'n 14 klinker tekens, kent het enkele honderden samengestelde letters. Dit handschrift is redelijk leesbaar, maar ik heb ze moeilijker gezien. De eerste regel begint:

"Dhimahevayammuviramagrashra..."

De palmblad manuscripten zijn nog lastiger, omdat deze niet met inkt zijn geschreven, maar ingekrast. Voor het lezen moet je er een beetje roet over wrijven, zodat de krasjes duidelijker zichtbaar worden. Ik ben in Trivandrum (Zuid India) in de universiteitsbibliotheek, afdeeling manuscripten geweest, een enorme collectie van dergelijk materiaal. Trouwens ideaal voor een Indiase tegenhanger van Distributed Proofreaders.

Op dit item kan niet meer gereageerd worden.



Populair:Apple iPhone 6Samsung Galaxy Note 4Assassin's Creed UnityFIFA 15Motorola Nexus 6Call of Duty: Advanced WarfareApple WatchWorld of Warcraft: Warlords of Draenor, PC (Windows)Microsoft Xbox One 500GBTablets

© 1998 - 2014 Tweakers.net B.V. Tweakers is onderdeel van De Persgroep en partner van Computable, Autotrack en Carsom.nl Hosting door True

Beste nieuwssite en prijsvergelijker van het jaar 2013