Tot voor kort was het onmogelijk om ingescande pdf-documenten met behulp van Google te doorzoeken. Dat is nu veranderd: door de toevoeging van ocr aan zijn instrumentarium kan Google nu ook pdf'jes met tekstafbeeldingen doorzoeken.
Elke dag worden er wereldwijd vele documenten online geplaatst. Een groot deel daarvan bestaat uit tekstbestanden maar een niet onbelangrijke hoeveelheid documenten bestaat uit afbeeldingen van tekst. Die groep documenten kan door mensen zonder grote problemen gelezen en begrepen worden, maar computers kunnen dat zonder extra hulpmiddelen niet. Dit vormt een probleem voor zoeksites als Google, dat zich ten doel gesteld heeft om 'alle informatie op de wereld' doorzoekbaar te maken.
Op allerlei manieren probeerde Google inzicht te krijgen in de content van een pdf'je met afbeeldingen, maar zonder gebruik te maken van optical character recognition, oftewel ocr, kon de tekst niet door Googles software gelezen worden. Met behulp van deze techniek is het mogelijk om afbeeldingen met teksten om te zetten naar 'kale' tekst, die vervolgens doorzoekbaar gemaakt en geïndexeerd kunnen worden.
Google maakt voor deze nieuwe functionaliteit gebruik van de ocr-software Ocropus, dat gebaseerd is op de Tesseract-software van HP. Ars Technica onderwierp Ocropus vorig jaar aan een aantal testen en ontdekte dat de software slecht omging met schreef- en kleine letters. Sindsdien hebben Google-programmeurs de software van enkele noodzakelijke verbeteringen voorzien.
Welk deel van de tot voor kort niet-indexeerbare pdf'jes inmiddels door Google door Ocropus is gehaald, is onbekend. Google biedt echter een aantal voorbeelden aan van doorzoekbare pdf'jes, zoals 'Steady success in a volatile world' en 'repairing aluminum wiring'. Lang niet iedereen zal blij zijn met deze functionaliteit, aangezien pdf'jes die bewust van afbeeldingen waren voorzien om voor zoekmachines onleesbaar te zijn nu ook in zoekresultaten opduiken, schrijft Ars Technica.