Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 26 reacties

Tot voor kort was het onmogelijk om ingescande pdf-documenten met behulp van Google te doorzoeken. Dat is nu veranderd: door de toevoeging van ocr aan zijn instrumentarium kan Google nu ook pdf'jes met tekstafbeeldingen doorzoeken.

Elke dag worden er wereldwijd vele documenten online geplaatst. Een groot deel daarvan bestaat uit tekstbestanden maar een niet onbelangrijke hoeveelheid documenten bestaat uit afbeeldingen van tekst. Die groep documenten kan door mensen zonder grote problemen gelezen en begrepen worden, maar computers kunnen dat zonder extra hulpmiddelen niet. Dit vormt een probleem voor zoeksites als Google, dat zich ten doel gesteld heeft om 'alle informatie op de wereld' doorzoekbaar te maken.

Op allerlei manieren probeerde Google inzicht te krijgen in de content van een pdf'je met afbeeldingen, maar zonder gebruik te maken van optical character recognition, oftewel ocr, kon de tekst niet door Googles software gelezen worden. Met behulp van deze techniek is het mogelijk om afbeeldingen met teksten om te zetten naar 'kale' tekst, die vervolgens doorzoekbaar gemaakt en geïndexeerd kunnen worden.

Google maakt voor deze nieuwe functionaliteit gebruik van de ocr-software Ocropus, dat gebaseerd is op de Tesseract-software van HP. Ars Technica onderwierp Ocropus vorig jaar aan een aantal testen en ontdekte dat de software slecht omging met schreef- en kleine letters. Sindsdien hebben Google-programmeurs de software van enkele noodzakelijke verbeteringen voorzien.

Welk deel van de tot voor kort niet-indexeerbare pdf'jes inmiddels door Google door Ocropus is gehaald, is onbekend. Google biedt echter een aantal voorbeelden aan van doorzoekbare pdf'jes, zoals 'Steady success in a volatile world' en 'repairing aluminum wiring'. Lang niet iedereen zal blij zijn met deze functionaliteit, aangezien pdf'jes die bewust van afbeeldingen waren voorzien om voor zoekmachines onleesbaar te zijn nu ook in zoekresultaten opduiken, schrijft Ars Technica.

Moderatie-faq Wijzig weergave

Reacties (26)

Kan ik via google ook mijn eigen pdf'jes omzeten in tekst?
Je zou kunnen kijken op de pagina van OCRopus. Het programma, de technologie hierachter, is gratis en open-source :). Dus ook door de rest van de wereld te gebruiken.

http://sites.google.com/site/ocropus/
Er staan ook een aantal tutorials op die site voor hoe je het programma kan gebruiken.

[Reactie gewijzigd door CoolGamer op 1 november 2008 23:50]

Is FineReader en OmniPage zoveel beter van de rest? Zie grafiekje rechts onder op http://sites.google.com/site/ocropus/
Lang niet iedereen zal blij zijn met deze functionaliteit, aangezien pdf'jes die bewust van afbeeldingen waren voorzien om voor zoekmachines onleesbaar te zijn nu ook in zoekresultaten opduiken, schrijft Ars Technica.
Daar heb je dan een robots.txt voor, lijkt me :?
Ik zie nu heel de tijd in het artikel de melding van "afbeeldingen in pdfjes", maar moet ik dit nu interpreteren dat OCR-software tot voor geen PDFjes met tekst en afbeeldingen kon lezen, of moet ik dit interpreteren als "tot voor kort konden zoekmachines pdfjes die tekst als een afbeelding bevatten niet lezen"

Want voor zover ik weet vond ik dat google wel heel goed in pdfjes kon zoeken...
Dat laatste, uiteraard: scans van boeken of tijdschriften bijvoorbeeld.

Ik zou het zelf erg goed kunnen gebruiken om m'n verzameling krantenknipsels goed te indexeren (> 20.000 knipsels, over een tijdspanne van ruim 15 jaar).
Hmmm, ik vond het wat onduidelijk, bedankt om dat even op te helderen.
Maar eigenlijk was dus gewoon die pdf schil het probleem? Want eigenlijk doen we toch altijd OCR op afbeeldingen...

(feedback: Google maakt ocr voor gescande teksten mogelijk)
Nee, ik denk dat het nieuwe is dat de zoekmachine van Google nu OCR toepast op plaatjes. Dat zal waarschijnlijk niet alleen in pdf'jes zijn. Dus je kunt nog ook afbeeldingen doorzoeken op tekst, zeg maar.
Nee dat zeg je incorrect. Het gaat – zoals ook in het artikel staat – om pdf'jes met afbeeldingen en niet om losse afbeeldingen. Gewone afbeeldingen (png, jpg, gif, bmp, etc) zijn nog steeds gewone afbeeldingen voor Google en daar wordt geen ocr op uitgevoerd. Pdf'jes met afbeeldingen die op hun beurt weer tekst bevatten (dus een afbeelding van duizend woorden) kunnen omgezet worden naar echte tekst (de duizend woorden).
Volgende nieuwsitem op de t.net FP: Hackers breken google's captcha met google ocr...
waarom zou dit een probleem vormen?
OCR bestaat al jaren, daarom dat captcha ook met verschillende kleuren en verschillende vormen die het woord/getal vervormen werkt

ontopic: dit maakt het nu wel heel makkelijk voor mensen om ebooks te zoeken die misschien ergens gehost staan maar waar niemand normaal gezien bij kon
onbewust ebooks sharen ofzo welke nu "veilig" stonden voor de buitenwereld op een publieke webserver (het is vergezocht maar ik zie de verklaringen in law-suits al komen ^^)
Waarom? Als je het online zet wil je het blijkbaar delen met de rest van de wereld. Dat Google dat verder bevordert kun je alleen maar toejuichen.
ja, maar de manier waarop ik het bedoel, is dit:

stel, je weet, zoekmachines kunnen je illegale ebooks opnemen in hun database
dus je zet ebooks in een hidden directory op je webserver, waar geen enkele pagina of iets een verwijzing naar heeft
niemand weet dit, dus ben je in feite niet illegaal bezig want je verspreid ze niet (kan natuurlijk ter discussie komen weer of aanbieden gelijk is aan verspreiden)
nu kan een zoekmachine dit wel indexeren en laten doorzoeken, en is er een grote kans dat je dus (zonder je het weet, als je bv deze site niet leest) illegaal bezig bent
Een zoekmachine is niet iets magisch hoor. Als je iets in dir xyz zet en het niet aan de buitenwereld laat zien dmv een link oid, dan ziet niemand het hoor...
nieuws: 'Google-killer Cuil is website-killer' :
...'pseudo-willekeurige' url's worden gegenereerd om te zien of die bestaan.
zoekmachines gaan wel degelijk op zoek naar pagina's zonder links naartoe.
'pseudo-willekeurig' betekent dat er gekeken wordt naar 'logische' URLs. Voor afbeeldingen zou bijvoorbeeld gekeken kunnen worden of een submap 'images' bestaat. Als je je directory dus een naam geeft die niet zo heel voor de hand liggend is (of redelijk lang is) dan zal Google de directory niet vinden.
Maar zelfs al bestaat de directory images, als de listing uitstaat en je namen hebt als fdokfdoskfdf.pdf, zal google het niet vinden lijkt me.
niemand weet dit, dus ben je in feite niet illegaal bezig want je verspreid ze niet (kan natuurlijk ter discussie komen weer of aanbieden gelijk is aan verspreiden)
nu kan een zoekmachine dit wel indexeren en laten doorzoeken, en is er een grote kans dat je dus (zonder je het weet, als je bv deze site niet leest) illegaal bezig bent
Zonder linkje komen zoekmachines er ook niet... Anders kun je altijd nog een password (htaccess etc) of robots.txt gebruiken :)
Zouden ze wel de security in PDFs respecteren? Bedrijven sturen vaak PDFs die je niet kan printen, of waaruit je geen tekst kan kopieren. Via OCR zou het wel heel makkelijk te rippen zijn...
Mocht je dat willen doen, dan zijn daar nu ook al genoeg mogelijkheden voor. PDF beveiliging stelt over het algemeen niet zoveel voor.
De 'beveiliging' van PDF documenten staat geheel los van het wel of niet opnemen van gescande pagina's in een PDF. Voor de duidelijkheid: PDF kan tekst en plaatjes bevatten. Deze tekst kan al sinds lange tijd door Google doorzocht worden. Vanaf nu zijn ook PDF documenten met gescande pagina's (= een plaatje van de tekst!) met Google te doorzoeken.
Niet-schreefloos. Dus letters met schreef, zoals Times e.d.?
Ja, en zonder schreef is dan bv arial...
Ik heb laatst gezocht naar een programma dat ingescande tekst documenten (in mijn geval digitale fotos van een document) kan OCR-en.

Veel troep programmas gevonden en ABBYY Finereader werkte uiteindelijk perfect, zelfs met behoud van de layout.

EDIT: dit programma kan ook PDF documenten inlezen

[Reactie gewijzigd door WhatTheFuck op 1 november 2008 18:34]

Benieuwd of dit ook voor de Mini Appliances beschikbaar komt? Het bedrijf waar ik werk heeft een archief van ca. 100 jaar op DVD, maar dat zijn allemaal afbeeldingsscans. OCR-en is een megaklus die ontzettend veel tijd en geld zou gaan kosten. Met een Mini zou het een kwestie worden van op het netwerk knallen, Mini inrichten en rustig afwachten zonder verder omkijken :)
Zie de reactie van TheCoolGamer @01/11 23:48

http://sites.google.com/site/ocropus/
Installeren, en als het om slechts 1 DVD gaat, kan een PC dat waarschijnlijk nog binnen redelijk afzienbare tijd verwerken, laat staan een "echte" server.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True