Samsung combineert diepte- en rgb-pixels op beeldsensor

Samsung heeft een cmos-beeldsensor ontwikkeld die zowel diepte-informatie als rgb-beelden kan opnemen. Het resulterende dieptebeeld heeft een resolutie van 480 bij 360 pixels, terwijl rgb-video met maximaal 1920 bij 720 pixels wordt opgenomen.

Samsung ToF rgb beeldDe combinatie van een zogeheten time of flight-dieptesensor met normale rgb-photodiodes maakt het mogelijk om minder componenten te gebruiken in elektronica die beide functies nodig heeft. Dergelijke apparatuur kan dan goedkoper worden. Wel heeft de nieuwe sensor als beperking dat de diepte-informatie en rgb-beelden niet tegelijk opgenomen kunnen worden, maar alleen sequentieel, zo lezen we bij Tech-On.

Momenteel maakt de Kinect-accessoire voor de Xbox 360 van Microsoft gebruik van twee dieptesensors en een losse rgb-camera om bewegingen in 3d te registreren. De dieptesensors in de Kinect maken echter geen gebruik van de time of flight-methode, maar van de zogeheten structure light-technologie.

De pixels van de nieuwe beeldsensor van Samsung zijn opgebouwd uit de normale rgb-ordening, terwijl voor de diepte-informatie een z-pixel over de volle breedte van twee rgb-pixels is geplaatst. Dit levert een resolutie voor het dieptebeeld op van 480 bij 360 pixels, terwijl het rgb-gedeelte video kan opnemen met een ongebruikelijke resolutie van 1920 bij 720 pixels.

De rgb-subpixels zijn 2,5μm breed en hoog, terwijl de z-pixels een grootte van 2,5 bij 9μm hebben. De kleurinformatie die ontbreekt door de integratie van de z-pixels, wordt ingevuld door interpolatie. Om de efficiëntie van de z-pixels te verhogen, heeft Samsung 'schotjes' geplaatst tussen de lichtgevoelige oppervlaktes van de rgb-subpixels en de z-pixels.

De sensor is geproduceerd met een 0,13μm-procedé en maakt nog gebruik van traditionele beeldsensortechnologie met de metalen bedradingslagen boven de fotodiodes. Samsung denkt de quantumefficiëntie in een volgende fase te kunnen verdubbelen door gebruik te maken van een bsi-cmos-procedé. Ook kunnen de rgb-subpixels nog beter afgeschermd worden van de z-pixels.

Samsung Time of Flight RGB beeldsensor gecombineerd

Door Pieter Molenaar

27-02-2012 • 11:33

41

Reacties (41)

41
40
21
0
0
15
Wijzig sortering
Ha, gaaf! Nu nog een display om dit weer te geven (en dan ook echt diepte en niet die fake 3d onzin die je nu overal zit)
Huidige TV 3D is net zo fake als je ogen 3D zien hoor ;) Gewoon als 2 losse beelden dus...

Deze camera kan dan ook geen 3D beelden maken want er is maar vanuit 1 hoek een foto/beeld, en niet 2 zoals je ogen dus verwachten ;)

Ik zie idt wel terug komen in de smartTV's die steeds meer met dit soort (imho) onzin worden aangevult (stem/bewegings-gestuurd).
Sorry voor wat ik ga zeggen, maar wat een onzin:
Deze camera kan dan ook geen 3D beelden maken want er is maar vanuit 1 hoek een foto/beeld, en niet 2 zoals je ogen dus verwachten
3D staat voor 3 dimensies (breedte, hoogte en diepte). Bij deze camera krijg je dus niet alleen informatie over breedte en hoogte, maar ook nog eens informatie over de diepte van pixels. Het beeld wat er uit komt (een disparity map) zijn 480*360 pixels die een locatie ergens in een 3D ruimte aanduiden, ofwel 3D beelden. Daarboven op wordt er nog eens 2D kleuren-afbeelding overheen geplaatst zodat je ook kleuren bij die punten hebt.

Als je 2 camera's neemt en dan heb je slechts 2 keer informatie over breedte en hoogte, er komt totaal geen diepte informatie bij. Je kan wel door de 2 beelden te gaan matchen een disparity map gaan maken. Onze hersenen kunnen dat redelijk goed en een 3D tv zorgt ervoor dat je hersens het 2D beeld wat beter aan kunnen vullen. Echter de tv blijft beperkt tot 2 2D beelden, wat geen dus geen 3D beeld is in tegenstelling tot deze camera.
Ik zie idt wel terug komen in de smartTV's die steeds meer met dit soort (imho) onzin worden aangevult (stem/bewegings-gestuurd).
Dat ben ik met je eens, maar ik denk dat je het ruimer moet gaan zien. Doordat deze camera 3D beelden verschaft naast de 2D beelden kun je ineens veel meer met computer vision doen. Er kan namelijk op meerdere manieren onderscheid worden gemaakt tussen pixels/objecten en de splitsing tussen textuur en vorm kan met dergelijk input veel beter begrepen worden, met als gevolg dat een computer systeem een beter model van de omgeving kan krijgen.

Ik denk dat in het begin (nu) toepassingen enkel op dedicated apparaten zoals een tv of game-console zullen komen. Maar in de loop der tijd zal dit hopelijk ook ervoor zorgen dat er robots zullen komen die autonoom enkele taken in het huishouden danwel zorg kunnen uitvoeren tot misschien wel bijna menselijke robots.
Jij zegt nu dat 3D eigenlijk moet betekenen dat de pixels ook een Z-as moeten bevatten, en ja, dan bevatten de pixels 3 dimensies.

Echter, watercoolertje heeft groot gelijk! Je mist de data wat het tweede oog zien. Om voor je hersenen een 3D beeld te creeeren heb je 2 beelden nodig, voor beide ogen 1 (en in je hersenen verzin je er dan de Z-as bij). Je kan niet alleen die Z-as doorgeven.

Om het uit te leggen heb ik even mijn paint skills erbij genomen:
voorbeeld

Stel nou even dat deze sensor op het punt staat van oog L, en je wilt dit als 3D beeld naar mensen toe sturen. Hoe moet de sensor dan verzinnen dat het rechteroog een rode zijkant ziet?
Het punt wat je aankaart is het probleem van camera plaatsing en het effect daarvan op de volledigheid van je 3D map. Zoals je aangeeft mis je data voor de volledigheid, maar je mist geen dimensies met deze camera. De camera blijft dus een 3D camera.

Overigens werkt stereo visie bij mensen enkel tussen ca 0.5 en 9 meter, voorbij dat punt kunnen we geen onderscheid meer maken en moeten we andere visuele aanwijzingen gebruiken om de disparsity map te maken. Ook bij het kijken met 2 cameras (of ogen) heb je maar een beperkt zicht en dat plaatje wat je tekent is dus ook bij mensen het geval vanaf 9 meter, ook al hebben we dan 2 ogen. En daarnaast hebben we dan met 2 ogen ook nog steeds het probleem als we er verkeerd voor staan.

Daarnaast hebben we dus ook geen 2 beelden nodig om een disparsity map te maken zoals ik zoeven al aangaf. Als je me niet gelooft doe dat het volgende: 1. Knijp 1 oog dicht, 2. Grijp een object, Tadaa... ;). We gebruiken namelijk ook dingen als schaduwen/lichtval effecten, beweging van het hoofd (motion parallax), overlapping en wss nog wel meer.
Klopt, en daarom is dit voor meer dan genoeg toepassingen te gebruiken, en is dit ook wel degelijk een 3D camera... maar niet bruikbaar voor het filmen van 3D films zoals mensen dit willen zien.
Het is minder geschikt voor een stereoscopische film (wat men nu 3D films noemt) dan een stereo camera, er moet dan immers een 2e camera gesimuleerd worden. Voor echt 3D gebruik is deze camera dan echter weer veel geschikter, want het creëren van een dense disparity map is gewoon slecht te doen met 2 normale cameras.
Nee, het is niet geschikt voor stereoscopisch beeld omdat het onmogelijk is om een goed beeld te creëren voor het andere oog!
Voor het gebruik in bijvoorbeeld volautomatische stofzuigers die de kamer inscannen, daar is dit handig voor.
Wat wil je bereiken met 1 sensor en 3D. Dat gaat je niet lukken.
Het typische van 3D is namelijk dat een enkele camera wel het beeld kan maken en eventueel diepte kan proberen te capturen maar het weergeven van diepte op een enkel 2D plaatje heeft geen effect.

De "fake 3D" die jij fake vind is helemaal niet zo fake. Een beeld neem je als persoon waar met 2 ogen. Dat betekend dat je dus 2 beelden moet hebben om iets voor jou 3D te laten zijn. Dat kun je krijgen door twee kleine schermpjes voor je ogen te zetten of er voor te zorgen dat iedere oog van een TV om en om 1 beeldje te zien krijgt. (of je moet met gepolariseerd licht werken en die techniek is in huis/tuin/keuken omgeving nog niet echt betaalbaar).

Hoeveel meer 3D wil je nog hebben dan?

Ooh ja ik ken er nog wel 1, RL.!
Als je de diepte informatie van een pixel hebt zou je toch de pixel op een bepaalde afstand van het scherm in de lucht kunnen projecteren? Als een hologram, en dan zie je toch ook diepte? Bij de huidige 3d technologie heb ik toch het idee dat hersens het doorkrijgen dat ze bedonderd worden, ga er scheel van kijken.
Ja maar je mist toch de info van hoe een object er uit een andere hoek uit ziet (waar het 2de beeld dus voor nodig is). Hoe ga je die dan aavullen, gewoon verzinnen?

Dat de huidige 3D voor jouw niet lekker werkt maakt neit dat dat voor iedereen zo is. Je moet ook zeker wel een tijdje kijken voordat het 'werkt' iig eerst 5-10 minuten zie ik het 3D ook niet en daarna komt dat steeds beter naar voren, juist omdat je hersenen blijkbaar wennen aan die manier van weergeven ;)
Het probleem van de huidige 3D techniek is dat je ogen zich altijd op één vaste afstand moeten scherpstellen. (het beeldscherm)
Bij een voorwerp dat verder af lijkt te staan moeten je ogen nog steeds op dezelfde afstand scherp stellen. Terwijl ze weten dat ze normaal gesproken op een grotere afstand moeten scherpstellen.

Dat is verwarrend voor je ogen/hersenen en daardoor vermoeiend.

[Reactie gewijzigd door mjtdevries op 25 juli 2024 03:57]

Ik weet niet van welk type techniek jij hoofdpijn krijgt.
Persoonlijk heb ik meer problemen met de gepolariseerde versie. Op een of andere manier is de info die je oog krijgt toch niet helemaal 100%.

Er zijn ook mensen die last hebben bij de shutter-brilletjes. Blijkbaar zijn hun ogen overgevoelig voor het feit dat ze de hele tijd moeten focussen en reageren ze te snel. Dat zijn dezelfde mensen wss die koppijn over houden als ze de heledag op een beeld scherm moeten werken en bijvoorbeeld moeten tikken van af een blaadje dat ze voor zich hebben liggen, continue focussen is vermoeiend voor de ogen.
Wat wil je bereiken met 1 sensor en 3D. Dat gaat je niet lukken.
Het typische van 3D is namelijk dat een enkele camera wel het beeld kan maken en eventueel diepte kan proberen te capturen maar het weergeven van diepte op een enkel 2D plaatje heeft geen effect.
Zie het als een scene in een computer (je typische schietspel). Dit is een 3D object in de PC. Hiervan kun je vrij makkelijk een 2x2D beeld genereren om een gebruiker de illusie van 3D beeld te geven.

Met deze camera krijg je een 2D beeld + diepte informatie. Met die diepte informatie kun je het 2de 2D beeld genereren voor het andere oog. Ongeveer 10cm naar links/rechts om precies te zijn, want dat verwachten je ogen.

Oftewel, dat gaat je uitstekend lukken. Het is alleen een andere aanpak dat 2 2D beeldjen maken om mee te beginnen.
En hoe verzin je de data die het tweede oog heeft?

Zoals ik al eerder zei: klik, de camera is het linker oog en jij wilt nu met technieken erachterkomen dat je rechteroog de rode zijkant van de kubus ziet?
Volgens mij heeft dit weinig met TV te maken. Meer met interactie
Er zijn legio leuke en nuttige toepassingen te bedenken voor zo'n combisensor. Niet alleen voor kinect, maar ook voor augmented reality. Object herkenning voor blinden, als verbeterde beveiligingscamera cq alarmsensor, en nog veel meer...
Anoniem: 119573 @cdwave27 februari 2012 12:44
Kijk daar geef je een mooi voorbeeld. Augumented reality, als er meer te zien is is diepte bepaling voor je "tags" erg handig bijvoorbeeld.
Alleen zoals ik ook al aangaf in een reactie op wintermute gaat dat waarschijnlijk hier niet heel erg prettig voor werken. Je hebt namelijk maar een "beperkte" delta tot je beschikking. Deze herhaalt zich telkens.
Dat is wel op te lossen maar niet eenvoudig.
Daarom zijn er ook oplossingen bedacht met behulp van "patronen" zoals door de huidige Kinetic.
Wat is precies de inpact van deze ontwikkeling? Een goedkopere Kinect of een preciezere? Of iets heel anders?
Dunne en kleinere Kinect.
Vooral ook goedkoper aangezien ze de huidige 3 speciale sensoren kunnen vervangen voor slechts 1tje (lijkt me iig). Goedkoper en kleiner maakt ook weer meer toepassingen mogelijk. Misschien bediening door bepaalde handgebaren op huishoudelijke apparaten of i.d. Zou wel leuk zijn iig :) Ook handig als je tv dit ingebouwd heeft en je kan zappen door een handgebaar en weer een andere beweging voor volume harder of zachter. Geen afstandsbediening meer nodig.

[Reactie gewijzigd door SanderHG op 25 juli 2024 03:57]

- Een 3D camera met ongeveer de helft van de componenten. Je kunt namelijk de opname projecteren op een model wat je met de dieptesensor opneemt en dan het beeld voor het tweede oog ervan afleiden.
- 3D opnames met lagere bitrate. Door de afstandsinformatie en beeldinformatie van één sensor op te slaan heb je wellicht veel minder data nodig om een gelijke kwaliteit 3D beeld te creëren.
- Of een camera die 3D models kan creëren van de omgeving. Doordat je een bekende lens gebruikt in combinatie met afstandsinformatie van het beeldpunt tot de sensor weet je direct de 3D positie van dat punt ten opzichte van de camera. Camera op een statief, één keer rond draaien en de hele ruimte is accuraat gemodelleerd. Kan de architect/tekenaar hier direct 3D zijn ontwerp in maken. Of bijvoorbeeld Google streetview uitrusten met dit soort camera's en wat intelligentie en ze hebben een 3D weergave van hele steden!
Je kan niet een 3D beeld naar twee ogen projecteren hiermee. Daarvoor moet je echt twee verschillende beelden hebben, met twee verschillende lenzen/sensoren. Bijvoorbeeld in het geval dat je een simpel vierkant blok filmt met deze sensor. Dan zou je ene oog precies de voorkant zien, en je andere oog nét de zijkant. Nu ziet de beeldsensor alleen de voorkant. Hoe moet het systeem weten hoe de zijkant eruit ziet?

Er zijn natuurlijk genoeg toepassingen te vinden, van kinect-achtige besturing (waar ook geen 'bioscoop-3D' beeld uit te maken valt) tot inderdaad streetview achtige ideeen ofzoiets.
En in de VFX wereld zal dit ook worden gewaardeerd, vaak word dit ook gebruikt als er 3D renders worden geplaatst in een scene, een (alpha)depth map is dus eigenlijk hetzelfde als dit :)
Het eerste dat bij mij opkwam was: Eindelijk geen focus-hunting meer in autofocus-videos! Met (een aantal) z-pixels en voldoende precisie van die pixels kunnen de CDAF-systemen al een stuk beter presteren.
Voldoende precisie is hier wel de key, natuurlijk. Volgens het gelinkte artikel:
is dat bij voldoende verlichting door de LED (die de pulsen uitstuurt) 1% van de te meten afstand, wat me voor focus-doeleinden prima lijkt.

Verder kan het een boost geven aan de mate waarin 3D gebruikt wordt bij camera's met beperkte ruimte en processing power. Bij een 3D-beeld op basis van stereoscopie heb je toch een afstand tussen 2 camera's nodig en software die vervolgens de Z-dimensie reconstrueert uit de twee beelden. Een front-facing camera op je telefoon kan met een sensor als deze bijvoorbeeld gezichtsherkenning eenvoudig maken, 3D-gestures (kinect-style) mogelijk maken en zelfs ruimte bieden voor het in 3D inscannen van objecten (al zal dat waarschijnlijk met name gebruikt worden in facebook-updates over eten).

Natuurlijk kunnen de beschreven dingen ook als telefoonfabrikanten standaard 2 (front-facing) camera's inbouwen en het OS een gestandaardiseerde manier aanbiedt om de 3D-data uit te lezen, maar de eenvoud die zo'n sensor zou kunnen hebben, lijkt me iets dat de adoption behoorlijk zou kunnen bespoedigen.

Zie ook http://en.wikipedia.org/wiki/Time-of-flight_camera voor meer info over de werking van het ToF-principe.

En voor het inscannen objecten naar digitale 3D-modellen is er al een leuke tool: http://www.youtube.com/watch?v=ZCOk125DVZg
Ehm... Heeft deze camera nu ook dubbel zo veel groene pixels als rode en blauwe, zoals op het schema weergegeven, en zoja, waarom?

En worden dit dus geen vierkante pixels, of een enorm wijd beeld? Met vierkante pixels zou je namelijk een 16:6 beeldverhouding hebben voor de beeldsensor, terwijl de dieptesensor zou werken met een 4:3 verhouding en terwijl ze de lens en het sensoroppervlak delen.

Ik vind dit maar een erg vreemde sensor.
Ehm... Heeft deze camera nu ook dubbel zo veel groene pixels als rode en blauwe, zoals op het schema weergegeven, en zoja, waarom?
Dit is vrij standaard, zie:
http://en.wikipedia.org/wiki/Bayer_filter

In het kort heeft het te maken dat op deze manier de kleur gevoeligheid van het menselijk oog redenlijk benaderd kan worden.

[Reactie gewijzigd door incontrol77 op 25 juli 2024 03:57]

Vroeger, toen je nog 16-bit kleur had, kregen R en B 5 bits, en G 6 bits, om precies die reden: de hogere gevoeligheid voor groen.
Ja deze sensor heeft meer groene dan blauwe of rode subpixels. Dat is ook bij de meeste normale beeldsensors gebruikelijk. Het menselijk oog is gevoeliger voor groen dan voor rood of blauw.

http://en.wikipedia.org/wiki/Bayer_filter
.oisyn Moderator Devschuur®
@Niet Henk27 februari 2012 13:15
Ehm... Heeft deze camera nu ook dubbel zo veel groene pixels als rode en blauwe, zoals op het schema weergegeven, en zoja, waarom?
Klopt, veel huidige CCD's hebben dat ook. Onze ogen zijn veel gevoeliger voor groen dan voor rood en blauw. Daarom is het handiger om van groen meer informatie beschikbaar te hebben.
En worden dit dus geen vierkante pixels, of een enorm wijd beeld?
Vierkante pixels, met een 16:10 resolutie:
De kleurinformatie die ontbreekt door de integratie van de z-pixels, wordt ingevuld door interpolatie.
Dus 1080 pixelrijen worden gecaptured door slechts 720 rijen, en elke 3e rij wordt geïnterpoleerd.
Sony gaat samenwerken met Samsung? :)
Dat deden ze al bijvoorbeeld op de LCD markt, totdat Samsung alle aandelen opkocht omdat S-LCD's maken niet winstgevend was voor Sony. (bron: http://tweakers.net/nieuw...nwerking-met-samsung.html)

Verder denk ik niet dat Sony snel overstapt op een kinect achtig iets. Meestal houden ze vrij stug vast aan hun eigen ontwikkelingen (zoals de Move).
Cool een Voxel cam :)
http://en.wikipedia.org/wiki/Voxel


natuurlijk ideaal voor het isoleren van gestures of het dynamisch aanpassen van computer content aan de afstand van de gebruiker tot het apparaat.
Anoniem: 244685 27 februari 2012 12:07
Wat waanzinnig dat consumentenelectronica dit ondertussen kan. Als ik het goed begrijp, corrigeer me vooral indien ik het mis heb, wordt dus (gemoduleerd?) licht uitgezonden en gemeten hoe lang het duurt voordat het terugkomt. Als je bedenkt dat licht 300.000km/s gaat, moet je behoorlijk nauwkeurig meten om op enkele meters afstand een behoorlijke resolutie te behalen. Dit is wel andere koek dan stereoscopie (zoals onze ogen diepte bepalen) of structured light (waarbij een laser de omgeving aftast).

[Reactie gewijzigd door Anoniem: 244685 op 25 juli 2024 03:57]

Licht bestaat uit "sinus-golven". De verschuiving van je "nul-passeer-punt" geeft weer hoelang een golf onderweg was.
Je hebt hier 1 probleempje een golf heeft een bepaalde lengte. Als het afstandsverschil tussen twee punten groter is dan deze golf lengte dan kun je heel moeilijk herkennen (met deze techniek) dat er verschil tussen zit.

In het plaatje zie je ook een "herhaling" van de kleuren. Dat duid er dus op dat er vanaf de herhaling geen onderscheid is.
Als je wilt kun je zelfs de golflengte van het gebruikte licht berekenen uit het gegeven plaatje.
Ik zou zweren dat de kinect niet met structured light werkt, maar met een techniek waarbij net als bij een flitser, objecten die verder weg staan, minder licht terug naar de camera reflecteren.
Een depth map bij je foto of film dat is zeker wel waardevol. Dat maakt het simuleren van 3d een stuk eenvoudiger.

Doe me denk aan dit filmpje...
http://www.youtube.com/watch?v=7QrnwoO1-8A
Srtraks heb je natuurlijk een single lens 3d camera in je mobiel..
Dat is niet mogelijk* omdat bij het geval van 2 camera's naast elkaar het ook daadwerkelijk mogelijk is om de zijkant van een object te zien met je linker oog en niet met je rechter oog.

Als je bijv. naar een open deur kijkt en de deur wijst naar jou, kijk je met de ene oog nog net tegen de zijkant van de deur en met andere oog niet, of zelfs tegen de andere zijkant.

Dit kan je met 1 lens nooit realiseren, hooguit simuleren.

*misschien met geavanceerde software dat je het een-en-ander kan simuleren

Op dit item kan niet meer gereageerd worden.