Google maakt ocr voor gescande teksten mogelijk

Tot voor kort was het onmogelijk om ingescande pdf-documenten met behulp van Google te doorzoeken. Dat is nu veranderd: door de toevoeging van ocr aan zijn instrumentarium kan Google nu ook pdf'jes met tekstafbeeldingen doorzoeken.

Elke dag worden er wereldwijd vele documenten online geplaatst. Een groot deel daarvan bestaat uit tekstbestanden maar een niet onbelangrijke hoeveelheid documenten bestaat uit afbeeldingen van tekst. Die groep documenten kan door mensen zonder grote problemen gelezen en begrepen worden, maar computers kunnen dat zonder extra hulpmiddelen niet. Dit vormt een probleem voor zoeksites als Google, dat zich ten doel gesteld heeft om 'alle informatie op de wereld' doorzoekbaar te maken.

Op allerlei manieren probeerde Google inzicht te krijgen in de content van een pdf'je met afbeeldingen, maar zonder gebruik te maken van optical character recognition, oftewel ocr, kon de tekst niet door Googles software gelezen worden. Met behulp van deze techniek is het mogelijk om afbeeldingen met teksten om te zetten naar 'kale' tekst, die vervolgens doorzoekbaar gemaakt en geïndexeerd kunnen worden.

Google maakt voor deze nieuwe functionaliteit gebruik van de ocr-software Ocropus, dat gebaseerd is op de Tesseract-software van HP. Ars Technica onderwierp Ocropus vorig jaar aan een aantal testen en ontdekte dat de software slecht omging met schreef- en kleine letters. Sindsdien hebben Google-programmeurs de software van enkele noodzakelijke verbeteringen voorzien.

Welk deel van de tot voor kort niet-indexeerbare pdf'jes inmiddels door Google door Ocropus is gehaald, is onbekend. Google biedt echter een aantal voorbeelden aan van doorzoekbare pdf'jes, zoals 'Steady success in a volatile world' en 'repairing aluminum wiring'. Lang niet iedereen zal blij zijn met deze functionaliteit, aangezien pdf'jes die bewust van afbeeldingen waren voorzien om voor zoekmachines onleesbaar te zijn nu ook in zoekresultaten opduiken, schrijft Ars Technica.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Harm Hilvers

Freelance nieuwsposter

Feedback • 01-11-2008 14:04 26

01-11-2008 • 14:04

Lees meer

Google maakt personalisatie zoekresultaten mogelijk Nieuws van 21 november 2008

Google gaat zoekresultaten via rss aanbieden Nieuws van 10 oktober 2008

Google doorbreekt grens van 1 biljoen geïndexeerde url's Nieuws van 26 juli 2008

Adobe helpt zoekmachines om dynamische flashcontent te indexeren Nieuws van 1 juli 2008

Google wil webpagina's achter formulieren indexeren Nieuws van 15 april 2008

Google loopt ook in VS verder uit op concurrenten Nieuws van 22 november 2007

Google verlaagt PageRank van groot aantal websites Nieuws van 25 oktober 2007

Nieuwe zoekmachine moet menselijke taal begrijpen Nieuws van 18 september 2007

Google opent speeltuin voor interfaceconcepten Nieuws van 4 oktober 2006

Meer producten en artikelen

Websites en community's Google Zoekmachines

IT-banen

Meer vacatures

Reacties (26)

-Moderatie-faq

Wijzig sortering

Verwijderd 1 november 2008 17:22

Kan ik via google ook mijn eigen pdf'jes omzeten in tekst?

CoolGamer

@Verwijderd • 1 november 2008 23:48

Je zou kunnen kijken op de pagina van OCRopus. Het programma, de technologie hierachter, is gratis en open-source

. Dus ook door de rest van de wereld te gebruiken.

http://sites.google.com/site/ocropus/
Er staan ook een aantal tutorials op die site voor hoe je het programma kan gebruiken.

[Reactie gewijzigd door CoolGamer op 22 juli 2024 16:37]

ddofborg @CoolGamer • 3 november 2008 00:05

Is FineReader en OmniPage zoveel beter van de rest? Zie grafiekje rechts onder op http://sites.google.com/site/ocropus/

_Thanatos_ 2 november 2008 03:05

Lang niet iedereen zal blij zijn met deze functionaliteit, aangezien pdf'jes die bewust van afbeeldingen waren voorzien om voor zoekmachines onleesbaar te zijn nu ook in zoekresultaten opduiken, schrijft Ars Technica.

Daar heb je dan een robots.txt voor, lijkt me

HyperBart 1 november 2008 14:42

Ik zie nu heel de tijd in het artikel de melding van "afbeeldingen in pdfjes", maar moet ik dit nu interpreteren dat OCR-software tot voor geen PDFjes met tekst en afbeeldingen kon lezen, of moet ik dit interpreteren als "tot voor kort konden zoekmachines pdfjes die tekst als een afbeelding bevatten niet lezen"

Want voor zover ik weet vond ik dat google wel heel goed in pdfjes kon zoeken...

Verwijderd @HyperBart • 1 november 2008 14:46

Dat laatste, uiteraard: scans van boeken of tijdschriften bijvoorbeeld.

Ik zou het zelf erg goed kunnen gebruiken om m'n verzameling krantenknipsels goed te indexeren (> 20.000 knipsels, over een tijdspanne van ruim 15 jaar).

HyperBart @Verwijderd • 1 november 2008 14:57

Hmmm, ik vond het wat onduidelijk, bedankt om dat even op te helderen.
Maar eigenlijk was dus gewoon die pdf schil het probleem? Want eigenlijk doen we toch altijd OCR op afbeeldingen...

(feedback: Google maakt ocr voor gescande teksten mogelijk)

Fred-Erik @HyperBart • 1 november 2008 15:14

Nee, ik denk dat het nieuwe is dat de zoekmachine van Google nu OCR toepast op plaatjes. Dat zal waarschijnlijk niet alleen in pdf'jes zijn. Dus je kunt nog ook afbeeldingen doorzoeken op tekst, zeg maar.

Auteur

Harm @Fred-Erik • 1 november 2008 17:28

Nee dat zeg je incorrect. Het gaat – zoals ook in het artikel staat – om pdf'jes met afbeeldingen en niet om losse afbeeldingen. Gewone afbeeldingen (png, jpg, gif, bmp, etc) zijn nog steeds gewone afbeeldingen voor Google en daar wordt geen ocr op uitgevoerd. Pdf'jes met afbeeldingen die op hun beurt weer tekst bevatten (dus een afbeelding van duizend woorden) kunnen omgezet worden naar echte tekst (de duizend woorden).

Verwijderd 1 november 2008 14:08

Volgende nieuwsitem op de t.net FP: Hackers breken google's captcha met google ocr...

Ali3nSt0rmz @Verwijderd • 1 november 2008 14:16

waarom zou dit een probleem vormen?
OCR bestaat al jaren, daarom dat captcha ook met verschillende kleuren en verschillende vormen die het woord/getal vervormen werkt

ontopic: dit maakt het nu wel heel makkelijk voor mensen om ebooks te zoeken die misschien ergens gehost staan maar waar niemand normaal gezien bij kon
onbewust ebooks sharen ofzo welke nu "veilig" stonden voor de buitenwereld op een publieke webserver (het is vergezocht maar ik zie de verklaringen in law-suits al komen ^^)

Bozozo @Ali3nSt0rmz • 1 november 2008 14:22

Waarom? Als je het online zet wil je het blijkbaar delen met de rest van de wereld. Dat Google dat verder bevordert kun je alleen maar toejuichen.

Ali3nSt0rmz @Bozozo • 1 november 2008 14:26

ja, maar de manier waarop ik het bedoel, is dit:

stel, je weet, zoekmachines kunnen je illegale ebooks opnemen in hun database
dus je zet ebooks in een hidden directory op je webserver, waar geen enkele pagina of iets een verwijzing naar heeft
niemand weet dit, dus ben je in feite niet illegaal bezig want je verspreid ze niet (kan natuurlijk ter discussie komen weer of aanbieden gelijk is aan verspreiden)
nu kan een zoekmachine dit wel indexeren en laten doorzoeken, en is er een grote kans dat je dus (zonder je het weet, als je bv deze site niet leest) illegaal bezig bent

Verwijderd @Ali3nSt0rmz • 1 november 2008 14:33

Een zoekmachine is niet iets magisch hoor. Als je iets in dir xyz zet en het niet aan de buitenwereld laat zien dmv een link oid, dan ziet niemand het hoor...

kiang

@Verwijderd • 1 november 2008 21:41

nieuws: 'Google-killer Cuil is website-killer' :

...'pseudo-willekeurige' url's worden gegenereerd om te zien of die bestaan.

zoekmachines gaan wel degelijk op zoek naar pagina's zonder links naartoe.

Xirt @kiang • 2 november 2008 02:28

'pseudo-willekeurig' betekent dat er gekeken wordt naar 'logische' URLs. Voor afbeeldingen zou bijvoorbeeld gekeken kunnen worden of een submap 'images' bestaat. Als je je directory dus een naam geeft die niet zo heel voor de hand liggend is (of redelijk lang is) dan zal Google de directory niet vinden.

Salomon @kiang • 2 november 2008 12:55

Maar zelfs al bestaat de directory images, als de listing uitstaat en je namen hebt als fdokfdoskfdf.pdf, zal google het niet vinden lijkt me.

user109731 @Ali3nSt0rmz • 1 november 2008 14:33

niemand weet dit, dus ben je in feite niet illegaal bezig want je verspreid ze niet (kan natuurlijk ter discussie komen weer of aanbieden gelijk is aan verspreiden)
nu kan een zoekmachine dit wel indexeren en laten doorzoeken, en is er een grote kans dat je dus (zonder je het weet, als je bv deze site niet leest) illegaal bezig bent

Zonder linkje komen zoekmachines er ook niet... Anders kun je altijd nog een password (htaccess etc) of robots.txt gebruiken

lamme23 1 november 2008 14:58

Zouden ze wel de security in PDFs respecteren? Bedrijven sturen vaak PDFs die je niet kan printen, of waaruit je geen tekst kan kopieren. Via OCR zou het wel heel makkelijk te rippen zijn...

Gruffy @lamme23 • 1 november 2008 15:00

Mocht je dat willen doen, dan zijn daar nu ook al genoeg mogelijkheden voor. PDF beveiliging stelt over het algemeen niet zoveel voor.

Cameleon73 @lamme23 • 1 november 2008 15:21

De 'beveiliging' van PDF documenten staat geheel los van het wel of niet opnemen van gescande pagina's in een PDF. Voor de duidelijkheid: PDF kan tekst en plaatjes bevatten. Deze tekst kan al sinds lange tijd door Google doorzocht worden. Vanaf nu zijn ook PDF documenten met gescande pagina's (= een plaatje van de tekst!) met Google te doorzoeken.

Andr01d 1 november 2008 16:10

Niet-schreefloos. Dus letters met schreef, zoals Times e.d.?

HyperBart @Andr01d • 2 november 2008 12:33

Ja, en zonder schreef is dan bv arial...

WhatTheFuck 1 november 2008 18:33

Ik heb laatst gezocht naar een programma dat ingescande tekst documenten (in mijn geval digitale fotos van een document) kan OCR-en.

Veel troep programmas gevonden en ABBYY Finereader werkte uiteindelijk perfect, zelfs met behoud van de layout.

EDIT: dit programma kan ook PDF documenten inlezen

[Reactie gewijzigd door WhatTheFuck op 22 juli 2024 16:37]

Amzika 2 november 2008 00:22

Benieuwd of dit ook voor de Mini Appliances beschikbaar komt? Het bedrijf waar ik werk heeft een archief van ca. 100 jaar op DVD, maar dat zijn allemaal afbeeldingsscans. OCR-en is een megaklus die ontzettend veel tijd en geld zou gaan kosten. Met een Mini zou het een kwestie worden van op het netwerk knallen, Mini inrichten en rustig afwachten zonder verder omkijken

thegve @Amzika • 2 november 2008 23:00

Zie de reactie van TheCoolGamer @01/11 23:48

http://sites.google.com/site/ocropus/
Installeren, en als het om slechts 1 DVD gaat, kan een PC dat waarschijnlijk nog binnen redelijk afzienbare tijd verwerken, laat staan een "echte" server.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (26)

Sorteer op:

Weergave: