Google gebruikt machine learning om tekstballonnen strips te accentueren

Google heeft tijdens San Diego Comic-Con 2016 de functionaliteit Bubble Zoom aangekondigd. Het bedrijf heeft de algoritmes voor objectherkenning zo aangepast dat deze de tekstballonnen kunnen detecteren om ze te kunnen vergroten.

Bubble Zoom moet het volgens Google een stuk makkelijker maken om stripboeken te lezen op smartphones en tablets. Met de techniek kunnen gebruikers klikken op de tekstballonnen om deze te vergroten. Google heeft de tekstballonnen van de digitale strips hiervoor geautomatiseerd aangepast, waarbij machine learning ervoor gezorgd heeft dat de tekstdelen herkend werden.

Google maakt voor steeds meer functionaliteit gebruik van machine learning, onder andere voor het herkennen van objecten en gezichten op foto's, maar ook voor vertalingen en het detecteren van medische aandoeningen.

Bubble Zoom komt beschikbaar als een technische preview in de Google Play Books-app voor Android. Daarbij worden alle beschikbare Marvel- en DC-comics ondersteund, maar Google claimt op termijn alle strips en manga 'ooit gemaakt' te willen ondersteunen.

Reacties (27)

djwice

Wetenschap
Kunstmatige intelligentie

21 juli 2016 22:29

Gave feature, ballon herkennen, tekst herkennen, lettertype analyseren, omzetten naar vectoren, richting van ballon bepalen, vectoren zoom, en dan in gelijke richting plaatsen als origineel met gelijk startpunt.

MVP2 , vector graphic ou van scherm vallen?
Dan ballon verplaatsen en pointer in style aan passen met gelijk beginpunt.

MVP3 , vector graphic zou na verplaatsing over essentie heen vallen?
Dan beginpunt aanpassen dus danig dat de pointee nog wijst naar de juiste figuur, maar vanaf een andere hoek.

Gaaf die techniek, klinkt inderdaad do-able. Leuk ook voor ocr van de teksten, zodat ze ook voorgelezen kunnen worden voor de device, en een vertaling geplaatst kan worden... hé, daar heeft Google een bedrijfje voor, realtime tekst van borden veranderen in een andere taal.
nieuws: Google Translate kan voortaan borden op straat vertalen zonder foto t...

Zouden ze voor dit ook de techniek van Word Lens inzetten? Klinkt logisch.

J_Gonggrijp

Kunstmatige intelligentie

@djwice • 22 juli 2016 00:45

Inderdaad een gave feature voor gebruikers. Al moet ik zeggen dat ik zelf nog niet 100% overtuigd ben van het nut, want als de tekst te klein is om te lezen, mis je volgens mij meestal ook teveel details van de tekening. Om deze reden zou ik persoonlijk gewoon geen comics lezen op een telefoonscherm.

Hoe dan ook, Google heeft duidelijk de smaak te pakken met neurale netwerken ("deep learning", "tensor flow/processing", allemaal hetzelfde). Volgens mij zijn ze heel blij met het trucje en proberen ze er nu zo veel mogelijk toepassingen voor te vinden. Als ze zo doorgaan, vinden we het straks zo normaal dat we het niet meer als kunstmatige intelligentie beschouwen.

Voor de duidelijkheid, dit is geen nieuwe technologie, alleen een nieuwe toepassing. Er is ook niet echt sprake van "aanpassing van een algoritme" zoals in het nieuwsbericht wordt geschreven. Het mooie van neurale netwerken is juist dat ze je er zo'n beetje alles in kunt gooien en dat het meestal "vanzelf" werkt, met voldoende training.

SED @J_Gonggrijp • 22 juli 2016 10:00

Misschien moet je eerst de originele link bekijken voordat je een mening vormt over de toepassing (met name de getoonde voorbeelden)
https://android.googleblo...troduces-bubble-zoom.html

Het neurale netwerk heeft men specifiek getraind op deze activiteit, niet iets wat het uit zichzelf bedacht heeft. Dat alleen is al een belangrijk verschil met een mens. Neurale netwerken zullen dus nog heel ver weg zijn in het voorbijstreven van hun "meester".
De overeenkomst is wel dat systemen en mensen hun mogelijkheden vaak niet kennen. Talenten moet je ontwikkelen om optimaal te werken.
Ik beschouw een neuraal netwerk nu al niet als intelligent, dus daar hoef ik me voorlopig nog niet aan te passen

edit, de tool zou juist gebruikt kunnen worden om meer detail te tonen omdat de bubbels kleiner kunnen zijn in de tekening. Pas bij lezen vergroot het systeem ze. Dus ook bij normale comics zou je zo winst kunnen behalen.

[Reactie gewijzigd door SED op 22 juli 2024 18:54]

J_Gonggrijp

Kunstmatige intelligentie

@SED • 22 juli 2016 11:17

"At San Diego Comic-Con 2016, we just announced Bubble Zoom: a new way to read digital comics on phones and tablets. Using the same technology to recognize objects in photos, we trained our system to identify speech bubbles in comics. Bubble zoom expands the speech bubbles of a comic one-tap-at-a-time, making them super easy to read on your mobile device. It’s much easier to read digital comics one-handed as Bubble Zoom automatically identifies and expands each speech bubble for readability. No more compromising the full-page experience or getting lost while panning around."

Precies waarop ik reageerde.

Wat neurale netwerken betreft, hoef je me niets uit te leggen. Ik ben afgestudeerd in kunstmatige intelligentie. Je zult mij nooit horen zeggen dat neurale netwerken de mens voorbij streven, ik ben meestal juist degene in dit soort discussies die het enthousiasme probeert te temperen (zoek voor de grap eens wat van mijn reacties op).

Het netwerk is voor deze toepassing getraind, maar het algoritme is gewoon hetzelfde als voor ieder ander neuraal netwerk. Het is niet alsof Google voor deze toepassing speciaal een nieuw soort neuraal netwerk heeft ontwikkeld.

SED @J_Gonggrijp • 22 juli 2016 11:26

Ik verwees naar de daar getoonde voorbeelden waarop de voordelen duidelijk te zien zijn.
Als reactie op:

Om deze reden zou ik persoonlijk gewoon geen comics lezen op een telefoonscherm.

Ik ben afgestudeerd in natuurlijke intelligentie, en het gebrek daaraan. Dus kan redelijk inschatten waar een kunstmatige variant tegenaan loopt op basis van de beperkingen van zijn meesters

Gropah @J_Gonggrijp • 22 juli 2016 20:05

> Volgens mij zijn ze heel blij met het trucje en proberen ze er nu zo veel mogelijk toepassingen voor te vinden

Dit is redelijk standaard binnen bedrijven en ook wetenschap. Als je iets hebt waarvan je weet dat het goed werkt en relatief nieuw is waardoor je een goed voordeel hebt tov andere, dan ga je zoveel mogelijk situaties bij langs om te kijken waar het nog meer te gebruiken is.

Om maar even een klassieker te geven: Dijkstra's algoritme voor kortste paden is bedoeld voor kortste paden op een kaart. Echter, mits je wat eisen stelt aan een graaf, kun je het in graven in het algemeen toepassen waardoor het ineens toepasbaar is op van alles waardoor je het ineens op veel meer dingen dan alleen kaarten kunt gebruiken

sokar24 21 juli 2016 22:52

Zouden ze dit doen met hun eigen https://www.tensorflow.org

djwice

Wetenschap
Kunstmatige intelligentie

@sokar24 • 21 juli 2016 23:28

Opvallend, in de promo film (0:55) komt Word Lens (ook van Google) voorbij, maar in de credits geen referentie naar de ontwikkelaars van Word Lens.

Iemand een verklaring?

[Reactie gewijzigd door djwice op 22 juli 2024 18:54]

J_Gonggrijp

Kunstmatige intelligentie

@djwice • 22 juli 2016 01:26

Word Lens is gebaseerd op interne machine learning technologie van Google, die ze al hadden klaarliggen na andere projecten (bijvoorbeeld DeepMind). TensorFlow is een publieke release van (een deel van) diezelfde technologie. De credits gaan daarom naar Google als geheel en niet naar Word Lens specifiek.

Edit na reactie van SED: bovenstaande schreef ik onder de aanname dat Google Word Lens zelf had ontwikkeld. Nu blijkt dat dat niet zo is, vraag ik me af of Word Lens en TensorFlow überhaupt iets met elkaar te maken hebben (dat Word Lens in dat filmpje voorkomt zegt niet alles). Hoe dan ook geldt nog steeds, dat Google gewoon zichzelf de credits geeft en het waarschijnlijk niet nodig vindt om de eigen onderafdelingen apart te noemen.

@sokar24: Bubble Zoom is eveneens gebaseerd op het interne repertoir van Google. Het zou heel goed kunnen dat ze hiervoor gewoon TensorFlow hebben genomen, maar het is ook mogelijk dat ze gebruik hebben gemaakt van technieken die geen onderdeel uitmaken van TensorFlow.

[Reactie gewijzigd door J_Gonggrijp op 22 juli 2024 18:54]

SED @J_Gonggrijp • 22 juli 2016 10:04

Word Lens is gebaseerd op interne machine learning technologie van Google, die ze al hadden klaarliggen

Word lens was een bestaand product dat oa op iphones draaide en is in 2014 opgekocht door Google. Daarna door Google geincorpereerd in bestaande producten zoals Google glass.
https://en.wikipedia.org/wiki/Quest_Visual

J_Gonggrijp

Kunstmatige intelligentie

@SED • 22 juli 2016 11:23

I stand corrected. Originele post aangepast.

djwice

Wetenschap
Kunstmatige intelligentie

@SED • 22 juli 2016 19:33

Jep, zoals ook in mijn post gelinkt was

(laatste link)

[Reactie gewijzigd door djwice op 22 juli 2024 18:54]

djwice

Wetenschap
Kunstmatige intelligentie

@J_Gonggrijp • 22 juli 2016 19:31

Als je klikt op de credits link in mijn reactie en naar beneden scrolled zul je zien dat ontwikkelaars op naam genoemd worden. Vandaar mijn verbazing en vraag.

[Reactie gewijzigd door djwice op 22 juli 2024 18:54]

J_Gonggrijp

Kunstmatige intelligentie

@djwice • 22 juli 2016 22:38

Individuele ontwikkelaars worden genoemd, maar geen projecten. Dus waarom zou Word Lens daarop een uitzondering moeten vormen? Of weet je toevallig zeker dat geen van de namen die daarbij staat bij Word Lens hoort?

Het kan ook nog zijn dat Word Lens als reclame wordt gebruikt in het filmpje maar eigenlijk niet is gebruikt bij de totstandkoming van TensorFlow, zoals ik in mijn eerdere post al bedoelde te hinten.

[Reactie gewijzigd door J_Gonggrijp op 22 juli 2024 18:54]

djwice

Wetenschap
Kunstmatige intelligentie

@J_Gonggrijp • 23 juli 2016 09:51

Individuele ontwikkelaars worden genoemd, maar geen projecten. Dus waarom zou Word Lens daarop een uitzondering moeten vormen?

Ik vroeg me af waarom de ontwikkelaars van Word Lens niet in die lijst staan. Zie de post

Of weet je toevallig zeker dat geen van de namen die daarbij staat bij Word Lens hoort?

Niet toevalling, die had ik gewoon opgezocht (zie link wiki). En ze staan niet in de lijst. Dat viel me op, vandaar mijn vraag.

[Reactie gewijzigd door djwice op 22 juli 2024 18:54]

pietje63 22 juli 2016 08:46

Moet je dan klikken op de tekstballonnen? Dan gaat de lol er wel vanaf. De volgende stap lijkt me dat de camera je ogen volgt en dat automatisch de tekstballon waar je naar kijkt wordt vergroot.

Damn, ik moet hier een paten op gaan aanvragen

Ook is het natuurlijk meer dan vergroten, een groot deel van de strips zijn gescand, als je de tekstballonnen hebt geïdentificeerd kun je de tekst verscherpen en anti-aliaising toepassen. Wordt het ook beter leesbaar.

Dark Angel 58 22 juli 2016 10:03

Lijkt me een leuke toevoeging voor "bewegend strip", het is ook bekend als Motion (Comic) Book.

Madefire app voor iPhone en iPad

(edit: geanimeerd vervangen door bewegend)

[Reactie gewijzigd door Dark Angel 58 op 22 juli 2024 18:54]

ToFast 21 juli 2016 21:59

Dit zou dan handig zijn om comics etc te lezen op kleine schermen als ik het goed begrijp.

Mrten @ToFast • 21 juli 2016 22:04

Überhaupt om comics te lezen op schermen. Ik lees wel eens comics op mijn 'grote' 24" monitor en het is soms best lastig. Helaas is deze app er niet voor desktops, maar voor tablets zal het ook handig zijn.

Bartske @Mrten • 21 juli 2016 22:22

Met bluestacks kun je ook android applicaties op je desktop draaien dus het is wel mogelijk.

Chinco @Mrten • 21 juli 2016 23:42

Onder Windows 8.1 of 10: de app Cover. Werkt prima, je kunt op je 24 inch dan twee bladen naast elkaar zetten. Dat kan ik tenminste op mijn 16:10 24 inch. Maar ik gebruik 'm vooral op m'n W10 tablet en (ok, zelden) op m'n W10M telefoon en in het verleden onder W8.x.

Het lijkt mij helemaal niets, als tekstballonnen groter worden bij het lezen. Dan lees ik wel een (e-)boek. De plaatjes zijn toch meer dan de helft van het verhaal...

[Reactie gewijzigd door Chinco op 22 juli 2024 18:54]

Mrten @Chinco • 21 juli 2016 23:43

Thanks voor de tip, maar heb je ook een linkje? Ik kan niks vinden in de store.