Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 9 reacties

Darpa ontwikkelt een realtime herkennings- en indexeringssysteem voor video. De uiteindelijke doelstelling voor het Virat-systeem is om duizenden uren videomateriaal binnen enkele minuten te kunnen doorzoeken.

De Amerikaanse defensieorganisatie Darpa wil de ontwikkeling van Virat in drie fases uitvoeren. De eerste fase is gereserveerd voor de ontwikkeling van de algoritmes en ontwerp van het systeem, in de tweede fase worden de algoritmes verfijnd en worden voorstellen gedaan voor systeemintegratie en in de laatste fase zal Virat zich echt moeten bewijzen. Darpa heeft de opdracht van 6,7 miljoen dollar voor de eerste fase toegekend aan Kitware, dat hiervoor zijn Vibrant-systeem heeft voorgesteld. Naast Kitware hebben ook BAE Systems National Security Solution en Lockeed Martin een opdracht voor Virat ontvangen. Deze zullen waarschijnlijk de latere fases voor hun rekening nemen.

Het Amerikaanse leger maakt voor huidige militaire operaties al gebruik van videobeelden die vanuit de lucht gemaakt worden, maar het analyseren ervan is een kostbaar en tijdrovend proces: meerdere analisten krijgen elk een afzonderlijk deel van een videostream voorgeschoteld, dat ze moeten doorzoeken op een specifiek aantal verschijnselen. Vanwege het tijdrovende aspect van deze onderzoeksmethoden worden videoarchieven nu al zelden onderzocht, terwijl dit toch interessante informatie op kan leveren. Bovendien is er nu al een tekort aan gespecialiseerd personeel, en toekomstige video-observatiesystemen zullen volgens Darpa gebieden tot meer dan 25 vierkante kilometer bestrijken.

Virat moet volgens Darpa in staat zijn om onder meer te herkennen of een persoon loopt of rent, welke gebaren hij maakt, of hij aan het graven is of dat een voorwerp wordt opgepakt. Ook interacties tussen personen onderling, zoals ontmoetingen, het voortbewegen in groepen en het schudden van handen, moeten door het systeem gedetecteerd kunnen worden. Daarnaast moet Virat bijvoorbeeld kunnen opmerken wanneer een persoon een gebouw binnengaat, in een auto stapt of een auto inlaadt, en of een auto versnelt of keert.

De videobeelden zullen vooral afkomstig zijn van bemande of onbemande observatievliegtuigen. Virat zal daarom rekening moeten houden met de resolutie en het type - zichtbaar of infrarood licht - van de beeldsensor, de snelheid en de hoogte van het observatieplatform, en de weersomstandigheden.

Virat Darpa

Moderatie-faq Wijzig weergave

Reacties (9)

'T probleem zit hem meer in het invoeren van de gegevens, iemand zal het apparaat toch moeten gaan leren wat een auto is, wat een U-bocht is, wat een busje en wat een cabrio is.

Uiteindelijk zal een dergelijk systeem alleen ingezet kunnen worden met een specifiek doel, want stel je maar eens voor hoeveel er geprogrammeerd zou moeten worden om alle pixels van de beeldjes om te zetten door de computer, naar voor de mens begrijpbare en vergelijkbare gegevens.

[Reactie gewijzigd door unglaublich op 21 oktober 2008 20:08]

Met de huidige stand van de techniek (IP Camera's) kunnen we:
  • Objecten die geplaatst worden detecteren. (Bijvoorbeeld een geparkeerde auto of koffer)
  • Objecten die verwijdert worden detecteren. (Bijvoorbeeld een auto of koffer)
  • Bewegende mensen detecteren tegen een bewegende voorgrond.
    (Bijvoorbeeld een vijver met een sproeier.)
  • Mensen tracken in een ruimte, zodat men de belangrijkste wandelpaden
    in die ruimte kan detecteren.
  • Een virtuele lijn trekken en tellen hoeveel mensen deze lijn passeren, of waarschuwen wanneer een persoon deze lijn passeert.
  • Vuurwerk afgestoken van een tribune tracken en zo de mogelijke dader berekenen.
Dit is mogelijk in de IP Camera zelf of met 3rd party software.
Het voordeel van deze technieken is dat bewakers alleen gewaarschuwd worden als er echt iets aan de hand is. (De aandacht verslapt niet.) Bovendien heb je geen complete videowall meer nodig, maar slechts 1 of 2 TFT schermen.

Betere algoritmen kunnen geschreven worden, maar de kwaliteit van de detectie is ook sterk afhankelijk van de kwaliteit van de videostream.
(Resolutie en de optische kwaliteit van de camera.)

[Reactie gewijzigd door Bl@ckbird op 22 oktober 2008 00:26]

Bedenk je wel dat die Sony (en andere leveranciers ook) uitgaan van een stilstaande camera, wat factoren makkelijker is dan een bewegende (vliegende) camera!
Want stel je maar eens voor hoeveel er geprogrammeerd zou moeten worden om alle pixels van de beeldjes om te zetten door de computer, naar voor de mens begrijpbare en vergelijkbare gegevens.

Daar hebben ze dus het beeldscherm voor uitgevonden. :D
Het gaat er juist om om alleen de interessante beelden eruit te vissen en de rest te negeren.
Dus moeten er systemen geprogrammeerd worden die er uit vissen was interessant is. Maarja, omdat mensen complexe dingen heel simpel kunnen verwoorden, lijkt het een klusje van niks. Maar begin bij het begin...

In jouw geval moeten de onderdelen van de beelden dus vergeleken worden met een enorme database van gegevens waarin vastgelegd is wat interessant is en wat niet.

Er moet dus een systeem gemaakt worden om beelden vast te leggen, een systeem om ze te vergelijken en een systeem om de gegevens waarmee vergeleken moet worden vast te leggen. Hoe dan ook, een hele hoop programmeerwerk, vooral die laatste dan.

Ach, 't kan nog wel eens een interessant iets worden.

[Reactie gewijzigd door unglaublich op 21 oktober 2008 23:29]

als je bedenkt dat mpeg codering het beeld codeert dat beweegt, en niet dat dat wat stil staat valt dat wel mee.

software is dus wel in staat om iets te herkennen dat beweegt, dan beweegt de camera. die beweging kun je er dus wel uit filteren.

alle bewegende opbjecten kun je ook detecteren. je moet ze dan alleen leren welke bewegingen er zijn.

het indexeren van videobewakingsbeelden van darpa gaat niet over een trinbune waar alles beweegt, maar bijvoorbeeld 5 bij 5 km (25 vierkante kilometer?) waar de bewegingen in moeten worden gevonden. ook als een mens in pixels niet als mens te detecteren is, is het toch mogelijk een beweging als een bewegende mens te herkennen.
in dat grote gebied van 5 bij 5 km kun je ook dan ook makkelijk alle bewegingen dtecteren en indexeren, nog zonder er iets van te zeggen. in zulke gebieden word dus alleen het interesante er uit gehaald ( de bewegingen die van belang zijn)

alleen al de afmeting of de kleur, of de snelheid van objecten zegt al iets over wat het is.
infrarood beelden vertellen dan ook veel extra!

als je in die gebeurtenissen dan gaat bekijken waar de bewegingen samenkomen kom je meteen tot een indexatie met een hogere interesantheid.
alleen daar hoef je nog maar te kijken wat er vervolgens gebeurt. (inladen, gebouw binnengaan, etc.

misschien dat er nog een voertuig of persoonsherkenning, of volgsysteem aan toegevoegd kan worden. of bijvoorbeeld. ( gsm, iphone, gps systemen linkenaan de beelden)

die GOOGLE sateliet die samen met nasa (darpa?) kort geleden is geleanceert zou al in staat moeten zijn om de input beelden te leveren (als die tenminste video kanopnemen)
de resolutie is hooggenoeg om autos en mensen te onderscheiden, en heeft zowel een camera voor zichtbaar licht als voor infrarood.
het lijkt me een hele klus om al die dat te analyseren. Want ik geloof best dat ze een query op een database met "voorvallen" binnen de paar minuten kunnen beantwoorden (stijl "geef beelden van alle personen die op die en die dag op dat bankje een gesprek hielden waarbij mogelijk zaken werden uitgewisseld), maar het samenstellen van die database zelf, daar zullen ze voor al die uren video toch wat langer mee bezig zijn.

Imho zeggen ze nu dus ook niet meer dan dat ze bestaande technologie voor beeldherkenning gaan toepassen om databases aan te leggen met getaggede videofragmenten. Een hele uitdaging, dat wel!
Een jaar of 3, 4 geleden heb ik hier tijdens een sessie bij IBM al over gehoord, al was het dan los van de inspanningen van DARPA. Onder het motto "we zijn een amerikaans bedrijf, onze aandeelhouders willen dat we constant diversifiŽren" waren zij bezig met het realtime analyseren van video, in hun geval vnl van bewakingscamera's. En aangezien dit massa's storage vraagt zouden ze uiteraard hun DS series naar voor schuiven. Zaken die toen al mogelijk waren:

- in een grootwarenhuis een camera op de dame aan de kassa gericht, om te vermijden dat een deel producten niet gescand worden aan die kassa wanneer een familielid/kennis komt winkelen (zou iets van een 3% verlies betekenen voor grote ketens)
- in luchthavens e.d. automatisch herkennen dat iemand bvb met een sportzak in het toilet stapt en zonder terug buiten stapt

Verschillende grootsteden zouden toen interesse getoond hebben om dergelijke camerasystemen en achterliggende infrastructuur uit te rollen, om terrorisme tegen te gaan. Sindsdien niks meer van gehoord.

Dus met hedendaagse technologie is dit wel degelijk mogelijk, al kost de infrastructuur nog een fortuin.

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True