Ocr-technologie SkyDrive slaat tekst in afbeeldingen apart op

Microsoft heeft zijn SkyDrive-dienst van optical character recognition voorzien. Daardoor worden teksten in afbeeldingen herkend, die vervolgens apart worden opgeslagen. De feature is nog niet in het Nederlands beschikbaar.

Volgens Microsoft heeft het SkyDrive-team voor de ontwikkeling van de ocr-functionaliteit samengewerkt met de groep die aan de zoekmachine Bing werkt. Bij beeldbestanden die in de folder voor camera-uploads staan wordt automatisch de tekst geëxtraheerd. De herkende tekst wordt vervolgens naast de afbeelding getoond.

De ocr-functionaliteit wordt direct naar gebruikers uitgerold, aldus Microsoft. Wel kan het nog enige tijd duren voordat de feature bij iedereen werkt. Bij de release kan tekst in het Engels, Duits, Spaans, Frans en Portugees worden herkend. Of er op termijn nog andere talen, zoals Nederlands, worden toegevoegd is niet bekend. Wel stelt Microsoft dat het in de toekomst nog een aantal nieuwe features wil uitbrengen om de fotofunctionaliteit op SkyDrive uit te breiden.

SkyDrive -- ocr

Door RoD

Forum Admin Mobile & FP PowerMod

29-08-2013 • 14:22

39

Submitter: Ossebol

Reacties (39)

39
35
15
2
0
10
Wijzig sortering
Microsoft heeft zijn SkyDrive-dienst van optical character recognition voorzien. Daardoor worden teksten in afbeeldingen herkend, die vervolgens apart worden opgeslagen. De feature is nog niet in het Nederlands beschikbaar.
(...)
Bij de release kan tekst in het Engels, Duits, Spaans, Frans en Portugees worden herkend. Of er op termijn nog andere talen, zoals Nederlands, worden toegevoegd is niet bekend.
Lekker dan dat bij het herkennen van KARAKTERS kennis *nodig* is van de taal van de teksten. Doe voor talen waarvoor geen ondersteuning is dan gewoon individuele letters detecteren, boeiend als het niet helemaal volledig correct is...
Betrouwbare OCR is een stuk meer dan simpelweg letters herkennen. Omdat ze in dit geval vrijwel geen controle over de invoer hebben (het is bijvoorbeeld niet zo dat alle documenten van een scanner komen - en dus een voorspelbare helderheid, positie, hoek etc hebben) maar alles binnen kunnen krijgen van blurry smartphoneshots onder rare hoeken tot superscherpe screenshots is er waarschijnlijk meer nodig dan karakterherkenning alleen. Dan krijg je dus te maken met post processing-technieken om de nauwkeurigheid op een acceptabel niveau te krijgen.

Dat kan door gebruik te maken van lexicons met bekende woorden, gebruik maken van grammatica om te bepalen welke soort woord er op die plek zou moeten staan, hoe vaak bepaalde woorden bij elkaar in de buurt voorkomen, etc.

Dat zijn allemaal dingen waar je gegevens over de taal zelf nodig hebt. Niet zo gek dus dat zoiets bij een general purpose dienst als Skydrive nodig is.
Betrouwbare OCR is een stuk meer dan simpelweg letters herkennen. Omdat ze in dit geval vrijwel geen controle over de invoer hebben (het is bijvoorbeeld niet zo dat alle documenten van een scanner komen - en dus een voorspelbare helderheid, positie, hoek etc hebben) maar alles binnen kunnen krijgen van blurry smartphoneshots onder rare hoeken tot superscherpe screenshots is er waarschijnlijk meer nodig dan karakterherkenning alleen
toch zou een karakterherkenning beter zijn dan niks.
men zou dan bijvoorbeeld de gebruiker kunnen laten kiezen welk deel van de afbeelding moet ge-ocr'd worden.
Anoniem: 175233 @letsa29 augustus 2013 16:26
Blijkbaar vond Microsoft het wel boeiend of de herkenning correct is...
In heel veel fonts lijken de volgende letters op elkaar:
IiLl
Daarom heb je de taal nodig om nauwkeuriger het juiste woord te vinden. lopen ipv Iopen, etc
Ik denk dat Nederlands er ook rap komt, ze hebben al een Nederlands woordenboek die in de andere producten (Word bijvoorbeeld) wordt gebruikt.

RN en M (in kleine letters dan) is ook een veel voorkomende fout bij OCR.
Scheelt mij een hoop tikwerk. Echter het probleem dat ik de afbeeldingen met tekst die ik moet uitwerken niet op bijvoorbeeld Skydrive mag plaatsen..
Gebruik dan een andere OCR tool? Er zijn online tal van tools te vinden :) ook gratis.
Of als je Office hebt, in OneNote zit de functie ook. Door gewoon de foto te importeren en dan rechts klikken op de afbeelding en "Copy Tekst from Picture" kiezen. Zet dan wel het online synchroniseren van OneNote af als het document niet online mag komen :).
Zelfs dat rechtsklikken is niet nodig; zet een plaatje met tekst in OneNote en het is direct doorzoekbaar. Wanneer je CTRL-E (zoeken) tikt en een stuk van de tekst van je plaatje intikt zul je zien dat het plaatje al ge-OCR'd is.
Ik vind Skydrive wel een leuke dienst. Al m'n foto's van mijn Lumia worden er automatisch naartoe ge-upload en de interface is echt goed en overzichtelijk. De functionaliteit van Excel, Word etc is ook heel goed (veel beter dan Google Drive).

Er zijn wel wat teleurstellingen ook, zo kan je foto's moeilijk delen naar sociale media (kan enkel via een link waarmee vrienden naar skydrive moeten gaan) of bv met gegenereerde bb code naar fora.

Wel weer leuk dat bij elke foto gedetailleerde exif info wordt getoond. En deze nieuwe functionaliteit met OCR is ook weer mooi meegenomen.

Over het algemeen is Microsoft echt wel goed bezig en zijn hun producten en diensten prima. Alleen jammer dat ze bij het grote publiek niet aanslaan... Die spelen liever met hun archaische iphones waar ze trots zijn dat ze 10 keer meer nutteloze apps hebben.

[Reactie gewijzigd door Woverke op 23 juli 2024 22:11]

Die spelen liever met hun archaische iphones waar ze trots zijn dat ze 10 keer meer nutteloze apps hebben.
Dat is 1 mogelijkheid, een andere is dat mensen als je ze af gaat kraken je niet serieus nemen en de rest van je prima betoog over het product dus links laten liggen ondanks dat je een goed punt hebt...

Als je wilt dat mensen luisteren moet je ze niet belachelijk maken he :)
Wel een superhandige functie voor SkyDrive. Gebruik zelf geen SkyDrive maar aangezien ik toch wel menige documenten met tekst heb staan op Dropbox misschien is proberen met SkyDrive.

Zou wel superhandig zijn moest Dropbox dit ook kunnen doen.
Leuk, maar klein puntje van kritiek: Al je bestanden moeten dus gelezen (indirect gekopieerd) worden.

Mogelijk een risico en idd makkelijk mee te lezen voor de overheid, maar das alleen een voordeel, hoeven ze ook niet meer zo moeilijk te doen ;)
Je bestanden worden sowieso gekopieerd als je ze op een clouddienst zet...
Dit lijkt me een zeer mooie technologie voor websites, en dan vooral voor het SEO Gedeelte.
Dat Nederlands zal wel niet komen net zoals met speech uh spraakherkenning
Cool, alle andere talen zullen (redelijk) snel volgen gezien windows Phone standaard alle talen kan herkennen uit afbeeldingen(search app -> vision -> tekst herkennen). Dat is behoorlijk accuraat.
Kan deze optie niet bij andere cloud oplossingen vinden. Dus ik snap niet waar je nu pas vandaan komt :)
Het kan wel met Google Docs alleen moet je er dan zelf voor kiezen, het gaat niet automatisch.
Krijgen we dat NSA commentaar nu bij elk nieuwsbericht over Gmail, iCloud, Skydrive, Facebook, Dropbox, etc?
Ja en wat is er mis mee om mensen aan het nadenken te zetten?
Het gaat irriteren en zet dus allerminst aan tot nadenken. Zeker niet op die manier.

Naar mijn mening konden ze het toch wat mooier implementeren, als men het dan toch voor alle gebruikers gaat invoeren. Zo een onoverzichtelijke blok tekst naast je foto is toch ook niet echt een aantrekkelijk zicht.
Eigenlijk nog redelijk laat dat men dergelijke zaken implementeert (of men heeft het al langer maar brengt het nu pas naar de gebruikers zelf). OCR is lang niet nieuw en aangezien men al tekst live tijdens het bekijken kan vertalen op Windows Phone.
ik kan me echter wel voorstellen dat het lezen van deze tekst Microsoft een idee kan geven van welke content deze persoon interessant genoeg vindt om te fotograferen, en dat kan bijv reclame die bij deze gebruiker past opleveren, ook logo's enzo herkennen of winkels kan natuurlijk interessant zijn vanuit een commercieel perspectief, zeker als er een GPS tag meegeleverd wordt.
Het gaat irriteren en zet dus allerminst aan tot nadenken. Zeker niet op die manier.
Het houd je alert. Wijst je op het feit dat je meer moet doen om je privacy te beschermen. Dat is iets vreemds want vroeger was het beschermen van je privacy niet nodig, een bepaalde privacy had je automatisch. Uitzonderingen waren kleine gemeenschappen zoals dorpjes en sommige wijken in de grote stad terwijl die grotere stad als geheel weer een stuk anoniemer is. .(en analoog werkt zoiets ook bij basisschool (kleinschalig), middelbaar onderwijs (scholen tussen 2000 en 3000 leerlingen, kleiner bestaat niet) en universiteit.

Communicatie echter met anderen werd niet afgeluisterd, briefgeheim was vanzelfsprekend, voor telefoontaps was gerechtelijke toestemming nodig en bij aankoop van een boek of tijdschrift wist alleen de verkoper wat je kocht. Bij een kleine winkel wist die verkoper ook wat je eerder gekocht had, maar bij zoiets als de Eindhovense Bijenkorf was je redelijk anoniem, daar was er iedere keer wel een andere kassajufrouw.

Tegenwoordig weten Google, Facebook, Twitter, Microsoft (Bing) en Yahoo alles wat je online doet en NSA, GCHQ, MI6 en AIVD weten zelfs dingen van je die je zelf niet weet.

Aangezien de post langzaamaan steeds onbetrouwbaarder wordt (steeds vaker horen we van bezorgers die jarenlang brieven hebben achtergehouden) trager wordt (dagelijkse bezorging is te duur, zeker nu er meerdere bezorgbedrijven zijn, dankzij privatisering en concurrentie-plicht) zal deze langzaam afgeschaft worden en daarmee dus ook het briefgeheim verdwijnen.
Eigenlijk nog redelijk laat dat men dergelijke zaken implementeert (of men heeft het al langer maar brengt het nu pas naar de gebruikers zelf). OCR is lang niet nieuw en aangezien men al tekst live tijdens het bekijken kan vertalen op Windows Phone.
OCR bestaat al vrij lang maar het herkennen van niet-getypte tekst kost tijd en opslagruimte (er lopen al jaren re-captcha initiatieven, die werden altijd aangeprezen als nodig voor het digitaliseren van oude, historische geschriften, maar nu blijkt dat de resultaten ook voor andere zaken bruikbaar zijn) en ging lange tijd alleen goed voor het Engels. Inmiddels is men dus al ver genoeg gevorderd voor niche-talen zoals het Nederlands met zijn 23 miljoen sprekers (Nl+Be+...) om ook daar scanfouten met spellingscorrectie e.d. te herstellen.

Ter illustratie:
Google Translate bied vertalingen naar een hoop andere grotere talen, maar gaat met Nederlands nogal eens behoorlijk in de fout (ivm zinsbouw en grammatica), maar uit het resultaat is wel een en ander af te lijden. Zelfs als je dus een brief scant hoeven bovengenoemden niet eens veel moeite te doen om het te begrijpen.

Met bv Tagalog (26 miljoen sprekers, maar vanwege lagere gemiddelde inkomens commercieel een stuk minder interessant) is dat al lastiger terwijl dit vanwege de activiteit van groeperingen zoals rond Abu Sayyaf voor een NSA een stuk interessanter zou moeten zijn. Met Bisaya is echter Google Translate nog helemaal nergens, deze taal kent het nog niet en ze wordt foutief gedetecteerd als Filipino en vertaling lukt nog niet. Wordt nu wel gedetecteerd als Cebuano maar brengt van de vertaling nog niet veel terecht.

Met Fries of een lekker plat dialect maak je het ze voorlopig in ieder geval nog wat moeilijker al kun je bepaalde key words moeilijk omzeilen. Hoe kleiner het aantal sprekers en hoe afwijkender van de lingua franca's hoe beter. Versleuteling is natuurlijk nog beter, dus gebruik SSL, TLS, plugins als https-everywhere. Dan blijven echter nog verkeersgegevens beschikbaar zoals er is een mail gegaan van pietje naar keesje en keesje heeft daarna pietje gebeld. Dat is weer te omzeilen door te posten via forums en nieuwsgroepen, dan is je bericht openbaar (maar dialect of versleuteld) en dus moeilijker te traceren voor wie een bepaald bericht bedoeld is al zullen de fora dat weer niet leuk vinden.
Waarschijnlijk wel, mensen hebben tegenwoordig niks anders te doen dan privacy boven veiligheid te stellen.
Je kunt het beter 'vrijheid boven veiligheid' noemen. Dat dekt beter de lading... :)
vrijheid allemaal goed en wel, maar moet je anoniem zijn om vrij te zijn? Als je echt vrij bent dan kom je ook voor je mening uit en moet je je niet ergens achter verstoppen.

Niet iedereen die ik ken moet alles weten wat ik doe inderdaad, maar wie of welke organisatie die aan deze gegevens kan komen zou zich ook maar iets interesseren in wat ik vorig weekend gedaan heb. De NSA mag al mijn mails/traffiek door hun computer halen, maar die informatie gaat zelfs nooit bij mensen geraken omdat die gewoon NIET interessant is voor anderen/mensen die u niet kennen. (buiten als je criminele feiten pleegt en zo dom bent om er in klare taal over te mailen/... natuurlijk)

laat staan dat je schrik moet hebben omdat een server waar je mail al op opgeslagen staat de tekst er in ook gebruikt om persoonlijk gerichte reclame te maken. dat is een computer die met kernwoorden en statistieken u reclame aanbiedt waar u tenminste mogelijk in geïnteresseerd bent, in plaats van informatie over waar je russische bruiden kan kopen of zo.

tldr; privacy goed en wel, maar het moet verbeteringen/vooruitgang/veiligheid... ook niet in de weg staan
Wanneer ben je vrij? Wanneer ben je vrij om iets te zeggen?

Stel het is hardstikke fout om communistische denkbeelden te hebben. Toch wil je er op het internet een discussie over kunnen voeren. Het is dan veiliger om dat anoniem te doen.

Ik draai het om: als een land zegt vrij te zijn, wat is er dan op tegen om anoniem te mogen zijn? Zie het als een verzekering dat het niet uitmaakt over welk onderwerp het gaat, je mag altijd er op het internet altijd over praten zonder angst te hoeven hebben voor represailles.

Terugkijkend in de historie zijn er tal van zaken die toendertijd absoluut niet konden, zelfs niet besproken konden worden. Dus kom nu niet aanzetten met het argument dat er tegenwoordig geen taboes meer zijn.


PS1: op het internet ben je nooit anoniem.
PS2: communistische denkbeelden is hier als voorbeeld genomen. Dit voorbeeld werd in het verleden in de USA als heel, heel erg fout betiteld.
vrijheid allemaal goed en wel, maar moet je anoniem zijn om vrij te zijn? Als je echt vrij bent dan kom je ook voor je mening uit en moet je je niet ergens achter verstoppen.
vrijheid allemaal goed en wel, maar moet je anoniem zijn om vrij te zijn? Als je echt vrij bent dan kom je ook voor je mening uit en moet je je niet ergens achter verstoppen.
Wanneer ben je vrij? Wanneer ben je vrij om iets te zeggen?

PS1: op het internet ben je nooit anoniem.
Wat nu is toegestaan, is mogelijk over een paar jaar ongewenst of zelfs een reden tot vervolging, (publiek of geheim gehouden), hier of in het buitenland. Dat is niet te voorspellen. In het verleden waren communistische denkbeelden ongewenst. De laatste jaren zijn onze nutsbedrijven (leidingwater, leidinggas, electriciteit, tv-kabel, vaste telefonie, spoorwegen, postbezorging, rijkspostspaarbank enz.) geprivatiseerd omdat de markt dit beter zou doen (en om middels eenmalige verkoopopbrengsten het begrotingstekort te verkleinen (window-dressing)).
offtopic:
Op dit moment komt het gros van de inkomsten van de staat uit belasting, premies sociale verzekeringen, aardgasbaten en boetes (verkeer e.d.). Indien er echter voldoende inkomsten zouden zijn van staatsbedrijven hoefden de belastingen niet zo hoog te zijn. Ik zie niet in wat daar slecht aan is.


Vroeger was de werkweek langer, 12 en later 10 uur op een dag was tijdens de industriële revolutie niet abnormaal. Het is aan de kerken te danken dat arbeiders 's zondags vrij waren/zijn en veel later aan de arbeidersbeweging dat de zaterdag erbij kwam (eerst ½dag, later hele dag). In veel niet-christelijke landen wordt er op zondag gewoon gewerkt.
Op dit moment is er enerzijds een tendens naar een 24-uurs-economie, anderzijds is er een weer terugkerende roep op de zondagsrust verplicht te stellen. De kans is groot dat dit zal leiden tot een nieuwe zondagswet waarbij iedereen terug verplicht wordt niet te werken op zondag en bovenal wel te werken op zaterdag. Iedereen die dan oproept tot het houden van de sabbat zal dan mogelijk als staatsgevaarlijk worden aangemerkt.

En zo zijn er nog veel meer nu onwaarschijnlijke toekomstige veboden te bedenken en ... de werkelijkheid is vaak nog absurder als wat we op deze manier kunnen bedenken.
Waarschijnlijk wel, mensen hebben tegenwoordig niks anders te doen dan privacy boven schijnveiligheid te stellen.
There, fixed that for you.
Ach, dezelfde mensen die hun mond vol hebben over privacy voor hun eigen documenten zijn het hardst verontwaardigd als een politicus een geheime rekening in Zwitserland blijkt te hebben.

[Reactie gewijzigd door Dreamvoid op 23 juli 2024 22:11]

Het geheim zijn van de rekening is vaak niet het probleem. Wel de bron van het geld dat op die rekening staat (bijv. verduisterd geld of geld van een omkoping).
Het geheim zijn van de rekening is vaak wel één van de belangrijkste problemen, aangezien het daarmee niet onder kapitaalbelasting valt. En dat scheelt nogal wat.
Leuker kunnen we het niet maken, wel makkelijker ;)

Op dit item kan niet meer gereageerd worden.