Chrome krijgt functie om pdf's om te zetten in tekst en voor te lezen

Google-browser Chrome in ChromeOS krijgt een functie om pdf's met afbeeldingen om te zetten in tekst en die voor te lezen.

Het gaat om een functie voor leerlingen op scholen met verminderd zicht, meldt Google. Die kunnen nu de informatie in dergelijke pdf's niet tot zich nemen. De functie gebruikt OCR om de afbeelding om te zetten in tekst, waarna een reguliere text-to-speechfunctie die kan uitspreken. De functie komt in de komende maanden in ChromeOS. Of de reguliere Chome-browser op andere platforms de functie ook krijgt, is onbekend.

ChromeOS: OCR voor pdf's
ChromeOS: OCR voor pdf's

Door Arnoud Wokke

Redacteur Tweakers

22-06-2023 • 19:52

27

Reacties (27)

Sorteer op:

Weergave:

Ik ben wel benieuwd hoe dit in de praktijk gaat werken. Als vader van een dochter met zware dyslexie weet ik dat op veel middelbare scholen de software ClaroRead wordt gebruikt. Deze software werkt echter alleen als het bronbestand waarop de de pdf is gebaseerd, op een bepaalde manier is samengesteld dat het programma niet 'in de war' kan raken van bijvoorbeeld een 'speelse' of onlogische lay-out.

Je zou zeggen dat een beetje onderwijsmedewerker, na een korte instructie wel weet hoe zoiets moet worden samengesteld, maar helaas gaat/ging dit in ongeveer 15-20% van alle afgenomen toetsen dus fout, waardoor er dus weer herkansingen moesten worden gemaakt. Dat gebeurde bij mijn dochter zelfs nog op het centraal schriftelijk eindexamen Maatschappijwetenschappen van 2022...

[Reactie gewijzigd door RRRobert op 22 juli 2024 18:38]

Interessant, nooit zelf aan gedacht, maar is het wettelijk in scholen om dingen samen te stellen die kinderen/ouders met handicappen niet kunnen gebruiken?

Zoals met websites (ten minste in overheid/zorg) zijn we onder de Europese toegankelijkheidswet verplicht om te voldoen aan minimum eisen voor oa. tekst browsers (voor oa. blinden waar braille systemen op lynx gebaseerd zijn) en moeten we videos ondertitelen voor de doven en formulieren en digitale brochures moeten allemaal leesbaar en toegankelijk zijn voor alle soorten digitale assistentie systemen.
Ik gebruik hier al tijden Word voor werkt prima, en via de MS365 app (maar ik in Word) kun je het laten voorlezen. Ideaal voor mijn opleiding waar ik veel artikelen voor moet lezen. Zo is het net een podcast
Prima voor op de fiets, trein, auto ed. Maar lezen is vele malen sneller.

Ik had een cursus gekregen in een online omgeving met allemaal filmpjes met de uitleg. Snel het boek gekocht want duurde enorm lang om die filmpjes te kijken en even terugzoeken was erg onhandig.
Vaak kan je video versnellen. Vaak zijn die uitleg video's extra traag gesproken zodat iedereen mee kan komen. Daarom versnel ik het sinds kort 1,2 of 1,25 of 1,5 snelheid. En als dat niet kan dan kan je die video meestal wel downloaden en dan kan je het ook versnellen.

Ik raad dat iedereen aan. Dan is het net alsof je aan het snellezen ben.
Dat helpt maar een beetje, je moet toch nog het hele verhaal luisteren, super irritant. Vaak zitten er delen in die niet relevant voor je (vraag) zijn. Met een tekst skip je dat meteen tot het volgende stuk, in de video moet je dan doorluisteren.

Het valt me op dat heel youtube vol staat met minuten durende filmpjes voor dingen die met 1 of 2 plaatjes en 3 zinnen al duidelijk zijn. Vooral filmpjes voor software dingen zijn verschrikkelijk. Zit je 15 minuten te kijken wat prima binnen 20 sec via tekst en een screenshot is uit te leggen. Waste of time.
Ja, dat is het verdienmodel hè? ;)
Want hoe langer de video, hoe meer advertentie-integraties YouTube erin kan invoegen.
Ja, dat is ook waar en dat is het grote nadeel van YouTube die past reclame (inkomsten) toon na een bepaalde tijd, dus die YouTubers die geld willen verdienen rekken de video op. Een groot nadeel van dit verdienmodel en beleid.
Ja ergens moet het geld vandaan komen. Maar gelukkig hebben we adblockers ;)
Of gewoon een boek of beter nog, ebook en ctrl-f. Video voor leren is zo inefficiënt.
Ja, dat kan ook.
Mooi, hoe minder afhankelijk van Adobe hoe beter.
Of Chrome(google) dan een goede vervanger is valt te betwijfelen. Adobe staat niet bekend als een bedrijf dat veel tracking en gepersonaliseerde advertenties laat zien.
Zoals HenEisDS al aangeeft, Adobe is juist een grote speler in the advertentietechnologie industrie.
Bedrijven die tracking en ads tonen noemen we adverteerders. Vrijwel elk B2C merk/bedrijf doet dat. Ook de bedrijven waar jij regelmatig je spullen van koopt. Zij ontwikkelen/leveren echter niet de technologie die daarvoor nodig is.

En dat doen ze met technologie van oa Adobe.

[Reactie gewijzigd door Jazco2nd op 22 juli 2024 18:38]

Dan gebruik je toch geen Adobe? Je hebt als consument in ongeveer 100% van de gevallen echt geen Adobe nodig om met PDFs te werken.

Er zijn zat andere bedrijven en open source projecten voor PDFs
En de ironie is ook dat in andere programma's steeds meer functionaliteit voor PDF komt, maar Adobe zelf steeds meer functies achter een verdienmodel gaat plaatsen. Zo is het nu bijvoorbeeld via Adobe Reader niet meer mogelijk om pagina's te roteren, maar kan dat bijvoorbeeld via Edge wel gewoon.
Doe mij maar Okular, werkt stukken prettiger dan die browseringebouwde PDF-lezers.
Doe mij maar Okular, werkt stukken prettiger dan die browseringebouwde PDF-lezers.
Kan Okular voorlezen dan?

Okular is volgens mij meer iets als Sumatra PDF (of doPDF) maar je zoekt een pdf writer voor deze feature, zoals die van Adobe zelf.

Maar dit wordt wel leuk: browsers met ingebouwde ChatGPT en binnenkort natuurlijk ook iets als Stable Diffusion (text2image) en text2video.

Dit naast de gebruikelijke dev tools, o.a. die in de browser en in de IDE.

[Reactie gewijzigd door Bulkzooi op 22 juli 2024 18:38]

Ja, dat kan 'ie omdat KDE een desktop is waar programma's met elkaar samenwerken. Als je Jovie installeert (de applicatie die kan voorlezen), dan kan Okular ook voorlezen. Konqueror kan dan bijvoorbeeld ook websites voorlezen.

ChatGPT in de desktop is inderdaad iets wat gegarandeerd gaat gebeuren.
Ja, dat kan 'ie omdat KDE een desktop is waar programma's met elkaar samenwerken. Als je Jovie installeert (de applicatie die kan voorlezen), dan kan Okular ook voorlezen. Konqueror kan dan bijvoorbeeld ook websites voorlezen.

ChatGPT in de desktop is inderdaad iets wat gegarandeerd gaat gebeuren.
Opera heeft ChatGPT al geïntegreerd en ik zie idd geen reden om dat niet ook te doen op Linux level.

Dus KDE heeft een soort runtimes zoals .NET, en Jovie brengt de benodigde logica om linux-wide te converteren en te outputten, al dan niet met een tussenstap om te written.

Thnx, ik ga eens de onderliggende libs checken. Ik vindt KDE in ieder geval een betere desktop dan Gnome dus... Maar Gnome zal deze feature dan ook wel hebben.

Anyway, Chrome on Linux kinda defeats the purpose. Daar is Chromium voor. Maar ja, na WSL is niks te gek meer.

Edit: Ah, I see. Ja, slimme strategie van KDE.

[Reactie gewijzigd door Bulkzooi op 22 juli 2024 18:38]

Ik zou graag meer lezen over dat programma's onder KDE kunnen samenwerken. Wat is een zoekterm om hierover in Google meer te vinden? Dit los van boven genoemde concrete toepassing.
De overkoepelende term is KDE Frameworks, maar dat bestaat uit vele delen. Een belangrijk onderdeel is bijvoorbeeld KParts, wat bijvoorbeeld betekent dat Konqueror functionaliteit van Okular kan gebruiken om een PDF te tonen zonder dat Konqueror een eigen PDF-lezer nodig heeft. Een ander belangrijk onderdeel is Akonadi, dat zorgt op de achtergrond dat je mail wordt opgehaald, kalender bijgewerkt e.d. en dat integreert bijvoorbeeld met Kmail voor je e-mail, maar ook dat je taakbalk kan weten wanneer er een e-mail binnenkomt en je kan waarschuwen. Die taakbaak doet dat niet zomaar, maar via het KNotify-mechanisme, zodat niet tien zaken elk hun eigen popup hebben, maar er in je taakbalk één info-icoontje is waar alle meldingen die je aandacht vereisen bij elkaar komen.

[Reactie gewijzigd door dmantione op 22 juli 2024 18:38]

Toegegeven, pdf is nu een 'open' (iso, iec) standaard. Maar toch moet je niet vergeten dat het origineel door Adobe is ontwikkeld (zie ook https://nl.wikipedia.org/wiki/Portable_document_format). Daarmee zul je met pdf dus nooit helemaal zonder adobe kunnen. :+
Handig als je CTRL+F wilt doen om specifieke tekst te zoeken in een PDF, waar de ''tekst'' element een afbeelding is i.p.v. een stukje tekst die normaal gesproken direct te zoeken zou zijn. Liever dit dan een belangrijke PDF laten OCR`n via een third party online tool.
Ik hoop dat er wat correcties ingebouwd zitten om de scanfouten eruit te halen. Je weet wel, vooral die special karakters en % tekens. Als je enkel naar de Gutenberg Library kijkt zijn er duizenden en duizenden voorbeelden. Met dat .tiff formaat.

Heeft iemand trouwens een linkje naar betreffende onderzoek en commissie? Dit zijn niet zomaar foutjes geweest.

[Reactie gewijzigd door Bulkzooi op 22 juli 2024 18:38]

Ik heb ook het bron artikel er op nageslagen, maar kan niets vinden over of het OCR deel lokaal plaatst vind of bij Google. Dat maakt een verschil of je zelf de verwerker bent of een 3e partij. Dit zou ook betekenen of deze feature wel of niet gebruikt mag worden door veel mensen (en vertrouwelijke documenten).

Op dit item kan niet meer gereageerd worden.