Via een blogpost op de Google Code-website laat een woordvoerder weten dat Google de broncode voor het OCR-programma Tesseract heeft vrijgegeven onder de Apache-licentie. Hoewel deze code al een tijdje op het web te vinden was, leek het Google handig om de gemeenschap eraan te herinneren, vanwege de geringe publiciteit die het bedrijf aan het aanbieden van het pakket heeft besteed. De software is in staat om zwartwitafbeeldingen van tekst te herkennen en om te zetten in een tekstbestand. Oorspronkelijk was Google geïnteresseerd in de technologie, omdat het bedrijf van plan was om boeken en andere geschreven teksten te digitaliseren en indexeren. Het idee om Tesseract te gebruiken kwam echter niet van de grond en het pakket verdween in een bijna-vergeten pakhuis.
Dit programma, oorspronkelijk tussen 1985 en 1995 ontwikkeld door Hewlett Packard Laboratories, is twee jaar geleden al in aanmerking gekomen voor uitgifte aan de open-sourcegemeenschap, maar vanwege het verval van de code in de afgelopen jaren - toegeschreven aan het zogenoemde 'bit rot'-proces - waren er bugs ontstaan. Deze moesten eerst aangepakt worden, voordat het pakket goed genoeg was om uit te geven. De fouten zijn inmiddels opgelost en sindsdien is het project op Sourceforge te vinden. Op dit moment is de OCR-software verre van uitgebreid. Het ondersteunt alleen nog maar de Engelse taal en kan nog niet omgaan met verschillende paginalayouts en afbeeldingen in grijstinten en kleur. Hoewel het programma bij lange na niet het niveau bereikt van de commerciële pakketten, denkt Google dat het preciezer is dan de huidige open-sourcevarianten.
