Broncode Tesseract-tekstherkenning openbaar gemaakt

Via een blogpost op de Google Code-website laat een woordvoerder weten dat Google de broncode voor het OCR-programma Tesseract heeft vrijgegeven onder de Apache-licentie. Hoewel deze code al een tijdje op het web te vinden was, leek het Google handig om de gemeenschap eraan te herinneren, vanwege de geringe publiciteit die het bedrijf aan het aanbieden van het pakket heeft besteed. De software is in staat om zwartwitafbeeldingen van tekst te herkennen en om te zetten in een tekstbestand. Oorspronkelijk was Google geïnteresseerd in de technologie, omdat het bedrijf van plan was om boeken en andere geschreven teksten te digitaliseren en indexeren. Het idee om Tesseract te gebruiken kwam echter niet van de grond en het pakket verdween in een bijna-vergeten pakhuis.

Dit programma, oorspronkelijk tussen 1985 en 1995 ontwikkeld door Hewlett Packard Laboratories, is twee jaar geleden al in aanmerking gekomen voor uitgifte aan de open-sourcegemeenschap, maar vanwege het verval van de code in de afgelopen jaren - toegeschreven aan het zogenoemde 'bit rot'-proces - waren er bugs ontstaan. Deze moesten eerst aangepakt worden, voordat het pakket goed genoeg was om uit te geven. De fouten zijn inmiddels opgelost en sindsdien is het project op Sourceforge te vinden. Op dit moment is de OCR-software verre van uitgebreid. Het ondersteunt alleen nog maar de Engelse taal en kan nog niet omgaan met verschillende paginalayouts en afbeeldingen in grijstinten en kleur. Hoewel het programma bij lange na niet het niveau bereikt van de commerciële pakketten, denkt Google dat het preciezer is dan de huidige open-sourcevarianten.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Bart Veldstra

Freelance Nieuwsposter

Feedback • 06-09-2006 12:21
32 • submitter: capedro

06-09-2006 • 12:21

Submitter: capedro

Bron: Google Code Blog

Lees meer

Onderzoeker ontwerpt indexeeralgoritme voor video Nieuws van 27 november 2007

Google wil informatie rivalen voor rechtzaak boekzoekdienst Nieuws van 4 december 2006

Google wil microfoon inzetten voor gerichte reclames Nieuws van 4 september 2006

Google laat mensen spelenderwijs plaatjes labelen Nieuws van 3 september 2006

Rechter: Google moet Orkut-gebruikersgegevens afstaan Nieuws van 1 september 2006

Software beschermt privacy bij zoekmachinegebruik Nieuws van 31 augustus 2006

Google staat downloaden oude boeken toe Nieuws van 30 augustus 2006

Google-ceo Schmidt treedt toe tot raad van bestuur Apple Nieuws van 30 augustus 2006

Meer producten en artikelen

Software

Reacties (32)

-Moderatie-faq

Wijzig sortering

Verwijderd 6 september 2006 17:36

Als dat 10 jaar in een kast heeft gelegen kan ik geloven dat er stukken van de code weg zijn. Elk soort media vervalt over tijd, of het nu CD, RAM, tape of HDD is.

Als gegevens langere tijd op een media staan is het niet genoeg dat er ECC of parity is voorzien. Op termijn worden de fouten zo talrijk dat de ECC of parity de gegevens niet meer kan herstellen. Als je dan de gegevens probeert te lezen krijg je ofwel een foutmelding ofwel corrupte gegevens terug.

Daarom gebruiken professionele memory controllers en RAID controllers technieken als memory scrubbing en conditioning. Als het systeem het niet te druk heeft gaat de controller systematisch de hele media aflezen om fouten te repareren.

http://en.wikipedia.org/wiki/Memory_scrubbing

Het is jammer dat veel HDD fabrikanten van self-conditioning zijn afgestapt. (Zelfs in hun server schijven) Reden was dat de consumenten begonnen te janken dat de schijf constant bezig was ook al stond te PC uit zijn neus te peuteren. Het concept "preventief onderhoud" snapte men blijkbaar niet. High-end RAID controllers hebben de taak overgenomen maar die vind je niet terug in consumenten PC's.

Wat ik met dit alles wil zeggen is: Je kunt niet iets 10 jaar in een kast wegsteken en verwachten dat er het in de originele staat terug uitkomt.

[EDIT] Ok artikel herlezen blijkbaar hadden ze de hele code nog wel, er zitten gewoon bugs in omdat het OS waarop het nu moet kunnen lopen anders is. Zal mijn post maar laten staan zeker?

El Cid 6 september 2006 12:33

...maar vanwege het verval van de code in de afgelopen jaren - toegeschreven aan het zogenoemde 'bit rot'-proces - waren er bugs ontstaan.

Huh? Hier heb ik werkelijk nog nooit van gehoord.

Verwijderd @El Cid • 6 september 2006 12:37

http://en.wikipedia.org/wiki/Bit_rot

Many times, although there is no obvious change in the program's operating environment, a subtle difference has occurred that is triggering a latent software error.

Noxious @Verwijderd • 6 september 2006 12:41

Volgens mij is http://en.wikipedia.org/wiki/Software_rot meer van toepassing...

FvH @Noxious • 6 september 2006 12:52

Dat denk ik ook ja.

Even de belangrijke paragraaf:
The real 'cause' of the rot is the advancement or change of the environment in which the software operates. When a change occurs, which the original program did not anticipate, the software may no longer operate as originally intended, and thus has 'rotted'.

infirit @Noxious • 6 september 2006 13:20

Zucht

Software rot, also known as code rot or software decay, is a type of bit rot.

Verwijderd @Noxious • 6 september 2006 16:10

Maar hij heeft ook gelijk, Software Rot dekt de lading beter dan Bit Rot.

Als iemand eerst zegt "kijk er staat een zoogdier in de wei" en een ander verbetert dat met "je kunt beter 'koe' zeggen" ga je dan ook muggenziften en zeggen "een koe is een soort zoogdier"?

:-p

merethan @Verwijderd • 6 september 2006 12:42

Op welk medium zou de software opgeslagen hebben gestaan dan?

El Cid @Verwijderd • 6 september 2006 12:43

Silly me!

En ik maar denken dat bedrijven hun data niet op maar 1 enkel medium opslaan. Dan krijg je inderdaad last van degraderende bitjes ja.

ekoopman

6 september 2006 14:38

Ik heb het gisteren getest (SuSE 9.2) en het werkt inderdaad best aardig, je moet wel even op de forums kijken voor wat laatste ongedocumenteerde stappen, maar daarna herkent ie keurig de bijgeleverde voorbeeld tiff. Die kan je daarna ook editen en zelfs handgetekende letters herkent ie aardig.
Een probleem lijkt wel te zijn dat zelf gemaakte tiffs vanuit gimp helemaal niets lijken te doen.

Na veel gepruts lijkt het erop dat ie alleen "pseudoclass, 8bit black and white, zonder alpha channel" tifjes snapt. Nu nog uitvinden hoe ik met ImageMagick direct zulke plaatjes kan converteren. Wat wel erg goed lijkt te werken is om plaatjes gewoon vanuit xv als zwart wit tifjes op te slaan.

Wat ook erg belangrijk lijkt te zijn is de grootte van de letters, een plaatje 2x zo groot maken kan het verschil zijn tussen geen herkenning of een perfecte match.

mashell 6 september 2006 13:38

Ik durf het bijna niet te suggereren maar is dit nog een DOS programma?

kozue @mashell • 6 september 2006 13:49

Nee. Het zou zowiezo al onder linux moeten werken (er zit een configure script bij die een makefile aanmaakt), alhoewel het nog niet helemaal compileert op gcc 4.1...

IWriteCode @mashell • 6 september 2006 13:44

Het is de broncode, en dus geen programma. De code zou, in principe, besturingssysteem onafhankelijk moeten zijn, omdat het een bepaald soort algoritme zal bezitten die in andere programma's gebruikt kan gaan worden.

Het plaatje zou best van een DOS programma kunnen zijn, het was dan ook gedateerde code die ze opgefrist hebben.

Noxious @IWriteCode • 6 september 2006 13:44

Ga eens met je muis over het plaatje

IWriteCode @Noxious • 6 september 2006 13:52

Misschien een atari emulator onder dos

kozue @IWriteCode • 6 september 2006 13:53

Open source code hoeft niet perse cross-platform te zijn. DC++ bijvoorbeeld, is open source, maar draait alleen op windows. Als het zo makkelijk was om even te compileren voor een ander systeem had iemand het allang al naar linux geport.

jresoort @mashell • 6 september 2006 14:27

Nee, wel een TOS programma.
http://en.wikipedia.org/wiki/Atari_TOS

Verwijderd 6 september 2006 14:06

Wat is momenteel de beste (en betaalbare) oplossing om een boek te digitaliseren?

Verwijderd @Verwijderd • 6 september 2006 14:22

Een doos met chinesen/indiers

engelbertus @Verwijderd • 6 september 2006 14:51

als een doos chineZen of indiërs jou opmerking lezen kunnen er wel eens heel erg onwelvoeglijke zinnen uit een "analoog - digitaal vertaling" voortkomen, uitsluitend legaal om te lezen voor 18+ individuen.

dus gewoon een doos nederlanders of belgen werkt efficienter volgens mij ;-)

successor @engelbertus • 6 september 2006 14:56

die zijn veel duurder, probeer azielzoekers, die kennen de taal meestal ook en die hebben toch niks anders te doen ...

anyway , het werd tijd dat er is een opensource OCR kwam, al is het vreselijk verouderd, het is beter dan voor een commercieel pakket, althans voor een student of iemand anders met een zeer beperkt budget ...

Verwijderd @engelbertus • 6 september 2006 15:25

Ik haalde het voorbeeld van een Chinees of Indiër alleen maar aan uit voorbeeld van werkijver.

Want tenslotte je kunt beter maar een boek handmatig OCR'en dan forums trollen met stemmingsmakende opmerkingen over de asielzoekende medemens.

Verwijderd @Verwijderd • 7 september 2006 15:26

Abbyy finereader

Molybdenum 6 september 2006 13:24

...Het ondersteunt alleen nog maar de Engelse taal...

De Engelse taal gebruikt toch dezelfde letters als onze taal, of zit er iets meer intelligentie in het pakket, waardoor hij woorden kan herkennen/bedenken aan de hand van context???

Noxious @Molybdenum • 6 september 2006 13:40

Vaak zit er een woordenlijst a la spellingscontrole in

killercow @Noxious • 6 september 2006 15:57

Er zit een voorspellingen database aangekoppeld genaamd een tri-gram of di-gram list.

Deze lijst geeft de kans aan wat het volgende lettertje zou moeten zijn,
Of wat de meeste logische combinatie is als een lettertje niet gelezen kan worden.

Laat google nou juist 6 miljoen tri-grams vrij beschikbaar gemaakt hebben, (7dvd's vol asci)

Leuk spul dit.

jvo @killercow • 6 september 2006 18:25

Dat is altijd interessante data.

6.000.000, hoe krijg je daar 7 DVD's mee vol?

Verwijderd 6 september 2006 13:44

Misschien een idee om dit, na wat versleuteling, in het 'open office' pakket op te nemen. Een leuke extra feature voor dit open source project denk ik!

Pruttelpot @Verwijderd • 6 september 2006 14:22

Won't happen. Google heeft het onder de Apache licentie gereleased en dus kan het niet klakkeloos in Open Office worden opgenomen.

Wel kan er een plug-in oid van gemaakt worden.

Verwijderd 6 september 2006 14:38

Ik snap echt niet waarom ze hiermee komen. Een totaal achterhaald programma. Omnipage of een ander e oplossing s zoveel beter. Bovendien waarom zou je óveral een OS oplossing voor moeten hebben?

Verwijderd @Verwijderd • 6 september 2006 15:08

Om een volwaardig alternatief voor CS te zijn misschien? Ik ken bedrijven waar alles wat binnenkomt wordt gescand en gearchiveerd. De scan gaat door een OCR pakket en de tekstoutput wordt aan het dossier gehangen. Dit maakt het mogelijk om op brieven te antwoorden de orignele tekst te citeren vanuit bijv. Word, zonder dat men eerst handmatig de tekst moet overnemen.

Het ontbreken van dergelijke paketten onder OS die door sommige bedrijven toch best als kritisch aangemerkt kunnen worden, kunnen dan een reden zijn om toch maar niet naar OS te gaan.

smokalot @Verwijderd • 6 september 2006 15:27

als de code open source is kan het door iedereen verbeterd worden, en dat gebeurt vaak ook. Iedereen kan het aanpassen om in zijn project te laten werken. Je bent bijvoorbeeld niet meer afhankelijk van een muisinterface, dus kun je dingen ook automatisch laten gebeuren.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (32)

Sorteer op:

Weergave: