Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 58 reacties

Wetenschappers bij Google hebben een algoritme ontwikkeld dat vloeiende videobeelden kan maken van de losse foto's in Google Street View. In een demo-video laten de wetenschappers zien hoe de 24fps-beelden er uiteindelijk uitzien en op welke Street View-foto's ze gebaseerd zijn.

Het algoritme van Google heeft een simpel principe. De wetenschappers nemen een reeks Street View-beelden, verwijderen een frame, en laten vervolgens hun algoritme dat frame reconstrueren. Daarna laten ze het algoritme het gereconstrueerde frame vergelijken met het originele frame, waaruit het algoritme lering kan trekken. Zo wordt van een beeldenreeks van ongeveer 2fps een reeks van 25fps gemaakt.

De wetenschappers van Google hebben 100.000 fotoseries uit Google Street View moeten gebruiken om het algoritme, genaamd DeepStereo, scherp genoeg te krijgen dat het om kan gaan met zaken als gebrekkige zichtvelden door obstakels. "Uiteindelijk krijg je resultaten die moeilijk te onderscheiden zijn van de originele beelden", vertelt Google-onderzoeker John Flynn aan MIT Technology Review.

Voorlopig zullen gebruikers nog niet van een videoversie van Street View gebruik maken. Op dit moment kost het zo'n 12 minuten om één frame in elkaar te laten zetten door het algoritme. Het team van Google is dan ook nog bezig met het verder optimaliseren van het algoritme. Van het werk tot nu toe heeft Flynn ook een verslag geschreven en gepubliceerd.

Moderatie-faq Wijzig weergave

Reacties (58)

dit lijkt mij onwijs gaaf met games!

De nieuwe GTA, gespeeld in je eigen stad? (H)

Edit: al zal dat wel erg lastig worden omdat dit een gefixeerd camerapunt is.. en de view dus nooit buiten het midden van het beeld zou kunnen zijn

[Reactie gewijzigd door makkie88 op 8 juli 2015 10:00]

Nadeel hiervan lijkt mij dat er enkel een interpolatie van frames ontstaat tussen de first frame (frame1) en de last frame (frame2).
Op basis de spherische foto's die gemaakt worden zou ook een 3d model gegenereerd kunnen worden die gemaped is met de source foto's waarna een camera path zelf gedefinieerd kan worden. (of integreren in een game zoals @makkie88 suggereert)
Software die hiervoor al wordt gebruikt is bijvoorbeeld:
acute3d
123dapp
insight3d

[Edit]

Microsofts hyperlapse is wellicht ook te combineren met data uit streetview
http://research.microsoft.com/en-us/um/redmond/projects/hyperlapse/

[Reactie gewijzigd door DeBaron88 op 8 juli 2015 10:29]

Misschien een samenwerking met Microsoft's PhotoSynth die precies doet wat jij voorstelt: https://photosynth.net/

Dan heb je gelijk de 2 grootmachten bij elkaar.. Whishfull thinking ben ik bang,.
Mee eens.
Als je een dergelijk algoritme in je games kunt gebruiken, hoef je dus alleen maar de images van street view te downloaden voor GTA of Counterstrike-achtige games.
Dan wordt het geheel wel ineens erg realistisch, maar de mogelijkheden zijn dan bijna eindeloos.
Straks GTA met de hololens of de opvolger ervan.. Dan kun je er nog eens echt doorheen rennen ook en krijg je nog wat beweging ;-)
Ik hoop dat ze dan wel wat voorzichtigere missies gaan doen. De echte politie laat je niet zo makkelijk weer vrij ;)

Als ik het filmpje zo bekijk dan lijkt het erop dat ze 3D data maken en daar de foto's mee renderen. Helaas zijn er nog best veel storende artefacts.
Of je gaat gewoon, je weet wel, naar buiten.
check even wat een hololens is... dan snap je dat ik "buiten" bedoelde.. (vandaar de beweging)
Plus dat het dynamisch belichten van zaken lastig is op basis van foto's.
Dus stel een auto vliegt in brand. Het licht wat van de vlammen afkomt zal ook realistisch op de foto's gereflecteerd moeten worden.
de meeste textures komen van fotos, het is niet moeilijk meer om de licht data uit de photo te halen en daarmee een normal map en/of height map te maken...
dit is kan je nu zelfs automatiseren, bijvoorbeeld : https://youtu.be/clakekAHQx0?t=15m7s
Het gaat over een foto serie omzetten naar een video, fotos omzetten naar 3d ruimte is iets totaal anders, dat is trouwens ook zeker mogelijk, maar weet niet hoe haalbaar dat is met de getoonde streetview fotos, vaak zijn er dan fotos van meerdere hoeken nodig voor een goed beeld, en die streetview foto's zijn toch vooral van 'voorkanten'

[Reactie gewijzigd door olivierh op 8 juli 2015 13:12]

een game lijkt nog ver te zoeken, maar het lijkt erop dat Google een bestaand concept beter heeft uitgewerkt. Een muziekvideo van Arcade Fire is ook deels interactief en laat je de muziekvideo beleven vanuit de omgeving waarin jij bent opgegroeid (linkje dat niet werkt met popup blocker)
In de video lijken de foto reeksen niet op wat de Google auto's opnemen. In veel van de videos wordt de camera bijvoorbeeld gericht op een object terwijl er langs gereden/gelopen wordt. Ook schokken de foto beelden veel meer dan ik zou verwachten van een camera gefixeerd op een auto.

Aan de ene kant lijkt het algoritme dus beter om te kunnen gaan met trillingen (deels omdat het een stukje van de foto af knipt zoals andere stabilisatie algoritmen?) aan de andere kant is de data niet echt representatief voor Street View. Ik vraag mij bijvoorbeeld af of de Street View auto's met 2FPS opnemen. Dit zie je iig niet terug als je zelf kijkt (maar dat betekend natuurlijk niet gelijk dat het niet zo is ;) ).
Google Streetview is al even niet meer alleen vanuit de Auto. Zo heeft Google ook kant en klare 'pakken' gemaakt voor een persoon zodat ook o.a. voetgangers gebieden kunnen worden betreden. Daarnaast kun je ook als fotograaf partner worden van Google, en kun je binnen Street Views maken. Zo hebben we als test case een binnen street view van ons kantoor gemaakt.

Het filmpje doet me zelf denken aan Microsoft Photosynth, alsof hij de 3d objecten opnieuw opbouwt.
Dat klopt. Ik doelde vooral op de laatste video. Daar maakt de camera toch een paar gekke bewegingen. Maar @Toettoetdaan geeft een goede uitleg waarom dat misschien gebeurt.
Ik weet niet of je het "van links naar rechts geslinger" bedoelt. Maar het is ook een hele kronkelige straat.
Het viel mij ook al op dat er wel heel veel 'echte' frames aanwezig waren.

Ik snap best dat je je algoritme eerst het makkelijke werk laat doen en dan probeert richting de moeilijkere gevallen te werken, maar in een demofilmpje wil je eigenlijk wel juist de tekortkomingen bij en de prestaties op die gevallen meenemen.

Ik weet niet precies welk timing-algoritme er bij de Street View auto's gebruikt wordt, maar de uiteindelijke plaatjes liggen een stuk verder uit elkaar op de meeste plekken waar ik Street View gebruik.
Ik weet niet precies welk timing-algoritme er bij de Street View auto's gebruikt wordt, maar de uiteindelijke plaatjes liggen een stuk verder uit elkaar op de meeste plekken waar ik Street View gebruik.
Het kan natuurlijk zijn dat ze meer bronmateriaal hebben, maar op Maps minder frames laten zien om bandbreedte te besparen.
Lombard Street in San Francisco is niet echt een weg waar men hard naar beneden rijdt, dus het kan, met vaste intervallen (in tijd) tussen de foto's, best zijn dat de afstand tussen de foto's korter is en daarmee makkelijker. Aan de andere kant beweeg je niet bepaald in 1 richting verder, zoals je dat op een gemiddelde rechte weg doet, dus dat maakt het voor het algoritme weer lastiger om alles aan elkaar te plakken in een film.

Ik vind het wel gaaf dat het kan, al zie je nog veel fouten die lijken op stitchfouten die je in panorama's wel eens ziet: iets wat op foto 1 nog wel zichtbaar is, maar op foto 2 niet. De software moet dan beslissen wanneer dat uit beeld verdwijnt en dat is bij bewegende objecten knap lastig. Zeker als ze niet regelmatig bewegen, zoals een lopend persoon ofzo.
De eerste paar videos zijn binnen, ze zullen niet met een auto het museum binnen rijden ;)

De laatste video is zeker wel van een auto en is tevens erg indrukwekkend. Misschien heb je die video gemist, maar daar zie je dat het zeker wel werkt met data van Street View auto's.

Goed opgemerkt van de stabilisatie, ik gok dat het een onbedoeld bijeffect is omdat ze telkens het beeld gebruiken wat op minimaal twee foto's te zien is.
Inderdaad indrukwekkend, je ziet alleen maar de toppen van de bomen en je hebt daardoor continu het gevoel dat je naar boven kijkt.

Overigens, als het laatste van "Lombard st" beelden gemaakt met een auto zijn, dan zou de camera toch loodrecht op de helling moeten staan en niet zoals in het filmpje de camera staat. Of kan iemand dit verklaren?
Ik vermoed dat ze dit softwarematig ingesteld hebben. De foto's van street vuew zijn tenslotte 360*360 graden dus je kunt elke helling/tilt nemen die je wilt.
Misschien is de camera gemonteerd op een gimbal en gestabiliseerd op de horizon? Kan me voorstellen dat de Street View camera's dat doen om het nabewerken makkelijker te maken en parallax te verminderen, maar dat is maar een gok.
Street view wordt alleen maar genoemd omdat street view is gebruikt om het algoritme te laten leren. De streetview database is daar ideaal voor omdat het een zeer uitgebreide database is met foto's die zowel qua kompasrichting als locatie zijn geindexeerd. Daarmee kun je het algoritme praktisch eindeloos automatisch laten leren, door foto's A en C uit een reeks aan de het alfgoritme te voeren en te kijken of het resultaat lijkt op foto B.

De techniek is als ik het artikel mag geloven niet gebaseerd op motion interpolation. Er wordt geprobeerd om op basis van de platte foto's een 3d-model te bouwen van de omgeving. Op basis daarvan worden de tussenliggende beelden gegenereerd. Dat werkt vooralsnog alleen voor statische objecten, te zien aan de schokkende mensen in het beeld. Ik vind het in elk geval fascinerend.
Als dat het is dan snap ik ook de meerwaarde want... Waarom zou je niet gewoon een 360 graden video opnamen maken als het doel toch is om de mogelijkheid te hebben er doorheen te lopen?

Je kunt natuurlijk hiermee ook veel meer doen dan alleen de route afleggen die de Street View auto heeft gereden, dat maakt het natuurlijk ook interessanter. En omdat het gewoon met losse foto's werkt, kun je nog een X aantal foto's aan een bestaande 'compositie' toevoegen waardoor je ook over het gebouw heen kunt vliegen (vogel vlucht) om te kijken hoe het er hogerop uit ziet.

Een plaatje is zo geschoten. Een goeie video is wel lastiger en dan zijn dit soort technieken specifiek voor augmented reality en verkenning wel heel mooi.
Dat is Google Business View (http://www.google.com/maps/about/partners/businessview/) waarin een fotograaf met een speciale camera met groothoeklens foto's maakt die door een algoritme van google inelkaar worden geplakt zoals ze dat ook met streetview doen.
In veel van de videos wordt de camera bijvoorbeeld gericht op een object terwijl er langs gereden/gelopen wordt.
Foto's voor Streetview worden toch in 360 graden opgenomen? Ze zijn nergens op gericht, dus je kunt het mikpunt van de camera in de video gewoon kiezen door de crop uit die 360 graden foto's aan te passen.
De eerste filmpjes maken daadwerkelijk gebruik van Streetview, dit hoeft niet perse binnen te zijn. Tegenwoordig kan je met Street view van buiten naar binnen lopen bij sommige gebouwen waarbij precies dezelfde technieken worden gebruikt maar dan niet met een auto. De auto's hebben wel langere afstanden tussen foto's wat het voor de software makkelijker maakt om de eerste beelden te genereren dan de beelden die normaal buiten genomen worden. Ondanks dat is het indrukwekkend!

Zelf ben ik een van de fotografen die voor Google Street view binnen gebouwen maakt. Bekijk www.walkinside.nl voor meer informatie of de officiŽle site van Google om meer hierover te leren.
Heb je de paper wel gelezen? http://arxiv.org/pdf/1506.06825v1.pdf

Het klopt namelijk dat het niet alleen maar 'plaatjes' zijn van wat is geschoten, maar er wordt automatisch 'opvullingen' gegenereerd. Dus ja, daar wellicht ook direct je verklaring voor het 'schokken'.

Lees je eerste even in, voordat je dingen opgooit qua redenaties ;)
Nee ik heb niet de hele paper gelezen n.a.v. een nieuwsbericht :). Ik vraag me gewoon even hard op af wat er precies gebeurt en daarna ga ik weer verder met mijn dagelijkse bezigheden. Niet heel gek toch ;).
Of wat dacht je van een nieuwe manier van compressie?

Een film bestaan dan uit een aantal losse frames, de video speler maakt er een vloeiende film van.

En in de scenes waar veel beweging zit, zijn meerdere frames nodig om geen informatie verlies te hebben.
Dat lost niet echt wat op. Als het beeld stil staat of minimaal beweegt doet compressie dit veelal nu al. Sterker nog, nu doet hij dat met delen van frames, Als het stil staat of in zijn geheel beweegt kan hij soms gewoon als info opslaan dat dat deel van het frame moet bewegen, ipv alle pixels opnieuw te doen.

Uit mijn hoofd vind je veel hiervan volgensmij terug in MPEG achtige compressiemethoden.

Dit zou denk ik voor compressietermen niet veel verbetering kunnen geven.
Het grote verschil is echter

met mpeg werkt dit alleen op delen die niet wijzigen, toch? Of misschien een klein beetje wijzigen.

Met de nieuwe techniek mag het totale beeld voor een groot deel gewijzigd zijn, het algoritme kan de tussenliggende frames berekenen. Er is hier een nuance verschil tussen beide algoritmes.

Je zou ze zelfs kunnen combineren.
Ja, ware het niet dat dit allesbehalve realtime uit te voeren is. Als het bij google nu al 12 minuten duurt om 1 frame in elkaar te zetten, is het denk ik niet realistisch om te verwachten dat ze een frame in de toekomst in een paar ms kunnen opbouwen.

Het blijft bovendien altijd reconstructie. Compressie is een kwestie van de kunst van het weglaten. Zaken weghalen die optisch gezien zo min mogelijk nadelige effecten hebben op het beeld, of bijvoorbeeld aangeven welk deel van het beeld hoeveel pixels opschuift de komende tijd, ipv elke frame die pixels door te moeten sturen.
De manier die jij noemt bestaat al. Noemen ze P frames (progressive) en I frames (tussenliggende wijzigingen Intra (?)). Bij Mpeg2 kun je dat goed zien bij lage bitrates. 1 beeld is een foto, enkele beelden erna zijn allemaal wijzigingen. Soms is de bitrate van de P frame te laag, dan krijg je om de paar seconden een blokkerig frame wat daarna weer wat scherper wordt. Zie je vaak bij matige compressors of bij zelfgemaakte filmpjes waar mensen niet precies weten wat ze moeten instellen.

[Reactie gewijzigd door Fairy op 8 juli 2015 10:42]

Dit is toch niet hetzelfde. Bij MPeg worden tussen de key frames (volledige frames) de verschillen tussen frames opgeslagen ipv volledige frames om zo ruimte te besparen.

Bij deze techniek heb je bijvoorbeeld frame 1 en frame 5 en de tussenliggende frames worden door het algoritme erbij verzonnen. De tussenliggende informatie is dus niet nodig. Mocht deze techniek nog verder verbeterd kunnen worden, en met name versneld, dan zou dit best nog wel eens een flinke winst in compressie kunnen opleveren.
Nee, dat gaat nooit werken. In een streetview opname bevindt de camera zich feitelijk op rails en beweegt er eigenlijk niets in de scene (hoogstens een blaadjes in de wind). Pak nu eens een film met een actiescene waarbij er een auto wordt opgeblazen en allerlei zaken rondvliegen en de belichting door de explosie verandert en we met de camera schudden voor extra effect.
Of simpeler een close up van een mens die aan het praten is: Hoe gaan de spieren in het gezicht in die tussenframes bewegen? En de mond open?
ummm, door een heel goed algoritme :)
Hehe, fair enough. Dan wil het wel. Dat algoritme is dan zo krachtig dat je je film niet meer hoort door je koelers :P
Nieuw concept, de video decompressor staat in de cloud. Jij stuurt van huis de super gecomprimeerde versie en krijgt een mpeg versie o.i.d. terug.

Resultaat, minder opslag nodig thuis. Zal voor partijen zoals Youtube ook wel wat schijven schelen.
En waarom zou ik het dan niet in zijn compleetheid streamen? Het scheelt me dan geen bandbreedte. Dat er in mijn account staat dat ik "bezitter" ben van X of Y is dan al genoeg :P
goed punt. Dan is de compressie het voordeel voor de content leverancier.

En ook al duurt het decoden lang, je kan populaire content cachen, en voor andere content moet je gewoon even wachten :)
hehe, gok alleen dat opslag goedkoper zal zijn dan de decryptie. Het doet me overigens wel denken aan: https://nl.wikipedia.org/wiki/Jan_Sloot
Inderdaad, dit is ook door mijn hoofd geschoten :) Wie weet had het ook te maken met het kunnen genereren van frames. Een soort PAR zoals ze dat bij nieuwsgroepen gebruiken, maar dan voor film frames.
Het lijkt me niet meer dan motion interpolation? Wellicht wat beter uitgevoegd dan op je TV, maar het komt op hetzelfde neer.
Het lijkt net 3d, maar dat kan ik niet zien met mijn 2d scherm.

Ik had trouwens verwacht dat ze met die 360 graden gopro camera's (Google keynote ongeveer 2 maanden geleden) alles overnieuw zouden doen?
Het lijkt me een slimmer idee om de streetview auto's met meer FPS te laten opnemen en daardoor iets meer data te vergaren dan nadien van weinig data met veel processorkracht tussenliggende frames te regenereren :+
Misschien is dat achteraf iets waar zij het met je mee eens zouden zijn ;)

Wat me wel een nuttig iets lijkt is dat je op deze manier een soort demo kunt zien van je route. Als je een ingewikkelde route gaat rijden kun je een soort filmpje afspelen van hoe je moet rijden.

Sowieso vraag ik me af of ze niet meer kunnen met die street view data. Je kunt tegenwoordig ook van een x aantal foto's 3d beelden reconstureren. Dat zouden ze kunnen gebruiken om de hele wereld qua 3d in kaart te brengen lijkt mij toch? Hele steden qua gebouwen volledig in 3d op google maps. Eigenlijk wat Apple ook probeert te doen met hun 3d maps.
Kan wellicht handig zijn voor navigatie, kun je moeilijke kruisingen of multirotondes vantevoren ff goed bekijken. Of mss zelfs realtime navigatie mee maken.

En het is natuurlijk wachten op het eerste filmpje met rariteiten, halve voertuigen of verdwijnende personen en gebouwen enzo.
Dit is een techniek waar inmiddels veel bedrijven mee bezig zijn. Zo heeft tweakers zelf maanden geleden ook een artikel hierover geschreven waarbij Microsoft dit deed : nieuws: Microsoft werkt aan software om schokkerige actievideo's soepel te krijgen

Beide versies zijn heel mooi omdat ze op een goede manier schokkerige filmpjes "smooth" kunnen maken. De huidige technologie, wat bijvoorbeeld in adobe software zit, gebruikt informatie uit omliggende pixels waardoor bij grote veranderingen het helemaal mis gaat. Deze software probeert juist een 3d omgeving te maken en zo dus beter te kunnen weten wat waar wanneer moet. Een woord : Geniaal!
Ik zie nog wel meer toepassingen.

Zo ook bijvoorbeeld binnen andere diensten van Google, zoals Google Photos. Via Assistant worden er nu al automatisch afbeeldingen verbeterd en video's gemaakt van foto's. Deze technologie kan ook als feature in Google Photos dus geÔmplementeerd worden.
Ik moet weer meteen hieraan denken...
https://vimeo.com/63653873
Ik ook! En aan Microsoft's Hyperlapse.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True