Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 32 reacties
Bron: Google Code Blog, submitter: capedro

Via een blogpost op de Google Code-website laat een woordvoerder weten dat Google de broncode voor het OCR-programma Tesseract heeft vrijgegeven onder de Apache-licentie. Hoewel deze code al een tijdje op het web te vinden was, leek het Google handig om de gemeenschap eraan te herinneren, vanwege de geringe publiciteit die het bedrijf aan het aanbieden van het pakket heeft besteed. De software is in staat om zwartwitafbeeldingen van tekst te herkennen en om te zetten in een tekstbestand. Oorspronkelijk was Google geÔnteresseerd in de technologie, omdat het bedrijf van plan was om boeken en andere geschreven teksten te digitaliseren en indexeren. Het idee om Tesseract te gebruiken kwam echter niet van de grond en het pakket verdween in een bijna-vergeten pakhuis.

Dit programma, oorspronkelijk tussen 1985 en 1995 ontwikkeld door Hewlett Packard Laboratories, is twee jaar geleden al in aanmerking gekomen voor uitgifte aan de open-sourcegemeenschap, maar vanwege het verval van de code in de afgelopen jaren - toegeschreven aan het zogenoemde 'bit rot'-proces - waren er bugs ontstaan. Deze moesten eerst aangepakt worden, voordat het pakket goed genoeg was om uit te geven. De fouten zijn inmiddels opgelost en sindsdien is het project op Sourceforge te vinden. Op dit moment is de OCR-software verre van uitgebreid. Het ondersteunt alleen nog maar de Engelse taal en kan nog niet omgaan met verschillende paginalayouts en afbeeldingen in grijstinten en kleur. Hoewel het programma bij lange na niet het niveau bereikt van de commerciŽle pakketten, denkt Google dat het preciezer is dan de huidige open-sourcevarianten.

OCR op de Atari
Moderatie-faq Wijzig weergave

Reacties (32)

Als dat 10 jaar in een kast heeft gelegen kan ik geloven dat er stukken van de code weg zijn. Elk soort media vervalt over tijd, of het nu CD, RAM, tape of HDD is.

Als gegevens langere tijd op een media staan is het niet genoeg dat er ECC of parity is voorzien. Op termijn worden de fouten zo talrijk dat de ECC of parity de gegevens niet meer kan herstellen. Als je dan de gegevens probeert te lezen krijg je ofwel een foutmelding ofwel corrupte gegevens terug.

Daarom gebruiken professionele memory controllers en RAID controllers technieken als memory scrubbing en conditioning. Als het systeem het niet te druk heeft gaat de controller systematisch de hele media aflezen om fouten te repareren.

http://en.wikipedia.org/wiki/Memory_scrubbing

Het is jammer dat veel HDD fabrikanten van self-conditioning zijn afgestapt. (Zelfs in hun server schijven) Reden was dat de consumenten begonnen te janken dat de schijf constant bezig was ook al stond te PC uit zijn neus te peuteren. Het concept "preventief onderhoud" snapte men blijkbaar niet. High-end RAID controllers hebben de taak overgenomen maar die vind je niet terug in consumenten PC's.

Wat ik met dit alles wil zeggen is: Je kunt niet iets 10 jaar in een kast wegsteken en verwachten dat er het in de originele staat terug uitkomt.

[EDIT] Ok artikel herlezen blijkbaar hadden ze de hele code nog wel, er zitten gewoon bugs in omdat het OS waarop het nu moet kunnen lopen anders is. Zal mijn post maar laten staan zeker? }>
...maar vanwege het verval van de code in de afgelopen jaren - toegeschreven aan het zogenoemde 'bit rot'-proces - waren er bugs ontstaan.
Huh? Hier heb ik werkelijk nog nooit van gehoord.
http://en.wikipedia.org/wiki/Bit_rot

Many times, although there is no obvious change in the program's operating environment, a subtle difference has occurred that is triggering a latent software error.
Dat denk ik ook ja.

Even de belangrijke paragraaf:
The real 'cause' of the rot is the advancement or change of the environment in which the software operates. When a change occurs, which the original program did not anticipate, the software may no longer operate as originally intended, and thus has 'rotted'.
Zucht |:(
Software rot, also known as code rot or software decay, is a type of bit rot.
Maar hij heeft ook gelijk, Software Rot dekt de lading beter dan Bit Rot.

Als iemand eerst zegt "kijk er staat een zoogdier in de wei" en een ander verbetert dat met "je kunt beter 'koe' zeggen" ga je dan ook muggenziften en zeggen "een koe is een soort zoogdier"?

:-p
Op welk medium zou de software opgeslagen hebben gestaan dan?
Silly me!

En ik maar denken dat bedrijven hun data niet op maar 1 enkel medium opslaan. Dan krijg je inderdaad last van degraderende bitjes ja.
Ik heb het gisteren getest (SuSE 9.2) en het werkt inderdaad best aardig, je moet wel even op de forums kijken voor wat laatste ongedocumenteerde stappen, maar daarna herkent ie keurig de bijgeleverde voorbeeld tiff. Die kan je daarna ook editen en zelfs handgetekende letters herkent ie aardig.
Een probleem lijkt wel te zijn dat zelf gemaakte tiffs vanuit gimp helemaal niets lijken te doen.

Na veel gepruts lijkt het erop dat ie alleen "pseudoclass, 8bit black and white, zonder alpha channel" tifjes snapt. Nu nog uitvinden hoe ik met ImageMagick direct zulke plaatjes kan converteren. Wat wel erg goed lijkt te werken is om plaatjes gewoon vanuit xv als zwart wit tifjes op te slaan.

Wat ook erg belangrijk lijkt te zijn is de grootte van de letters, een plaatje 2x zo groot maken kan het verschil zijn tussen geen herkenning of een perfecte match.
Ik durf het bijna niet te suggereren maar is dit nog een DOS programma?
Nee. Het zou zowiezo al onder linux moeten werken (er zit een configure script bij die een makefile aanmaakt), alhoewel het nog niet helemaal compileert op gcc 4.1...
Het is de broncode, en dus geen programma. De code zou, in principe, besturingssysteem onafhankelijk moeten zijn, omdat het een bepaald soort algoritme zal bezitten die in andere programma's gebruikt kan gaan worden.

Het plaatje zou best van een DOS programma kunnen zijn, het was dan ook gedateerde code die ze opgefrist hebben.
Ga eens met je muis over het plaatje :)
Misschien een atari emulator onder dos ;)
Open source code hoeft niet perse cross-platform te zijn. DC++ bijvoorbeeld, is open source, maar draait alleen op windows. Als het zo makkelijk was om even te compileren voor een ander systeem had iemand het allang al naar linux geport.
Wat is momenteel de beste (en betaalbare) oplossing om een boek te digitaliseren?
Een doos met chinesen/indiers }>
als een doos chineZen of indiŽrs jou opmerking lezen kunnen er wel eens heel erg onwelvoeglijke zinnen uit een "analoog - digitaal vertaling" voortkomen, uitsluitend legaal om te lezen voor 18+ individuen.

dus gewoon een doos nederlanders of belgen werkt efficienter volgens mij ;-)
die zijn veel duurder, probeer azielzoekers, die kennen de taal meestal ook en die hebben toch niks anders te doen ...

anyway , het werd tijd dat er is een opensource OCR kwam, al is het vreselijk verouderd, het is beter dan voor een commercieel pakket, althans voor een student of iemand anders met een zeer beperkt budget ...
Ik haalde het voorbeeld van een Chinees of IndiŽr alleen maar aan uit voorbeeld van werkijver. :P

Want tenslotte je kunt beter maar een boek handmatig OCR'en dan forums trollen met stemmingsmakende opmerkingen over de asielzoekende medemens.
...Het ondersteunt alleen nog maar de Engelse taal...
De Engelse taal gebruikt toch dezelfde letters als onze taal, of zit er iets meer intelligentie in het pakket, waardoor hij woorden kan herkennen/bedenken aan de hand van context???
Vaak zit er een woordenlijst a la spellingscontrole in :)
Er zit een voorspellingen database aangekoppeld genaamd een tri-gram of di-gram list.

Deze lijst geeft de kans aan wat het volgende lettertje zou moeten zijn,
Of wat de meeste logische combinatie is als een lettertje niet gelezen kan worden.

Laat google nou juist 6 miljoen tri-grams vrij beschikbaar gemaakt hebben, (7dvd's vol asci)

Leuk spul dit.
Dat is altijd interessante data.

6.000.000, hoe krijg je daar 7 DVD's mee vol?
Misschien een idee om dit, na wat versleuteling, in het 'open office' pakket op te nemen. Een leuke extra feature voor dit open source project denk ik!
Won't happen. Google heeft het onder de Apache licentie gereleased en dus kan het niet klakkeloos in Open Office worden opgenomen.

Wel kan er een plug-in oid van gemaakt worden.
Ik snap echt niet waarom ze hiermee komen. Een totaal achterhaald programma. Omnipage of een ander e oplossing s zoveel beter. Bovendien waarom zou je ůveral een OS oplossing voor moeten hebben?
Om een volwaardig alternatief voor CS te zijn misschien? Ik ken bedrijven waar alles wat binnenkomt wordt gescand en gearchiveerd. De scan gaat door een OCR pakket en de tekstoutput wordt aan het dossier gehangen. Dit maakt het mogelijk om op brieven te antwoorden de orignele tekst te citeren vanuit bijv. Word, zonder dat men eerst handmatig de tekst moet overnemen.

Het ontbreken van dergelijke paketten onder OS die door sommige bedrijven toch best als kritisch aangemerkt kunnen worden, kunnen dan een reden zijn om toch maar niet naar OS te gaan.
als de code open source is kan het door iedereen verbeterd worden, en dat gebeurt vaak ook. Iedereen kan het aanpassen om in zijn project te laten werken. Je bent bijvoorbeeld niet meer afhankelijk van een muisinterface, dus kun je dingen ook automatisch laten gebeuren.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True