Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 34 reacties

Wetenschappelijke instellingen en bedrijven gaan namens de Europese Unie onderzoek doen naar het inperken van de complexiteit van 'big data'. Ze krijgen hiervoor van de EU een subsidie van 3,8 miljoen euro.

'Big data', een verzamelnaam van het opslaan van gegevens en het samenvoegen daarvan, is tegenwoordig in toenemende mate een probleem aan het worden. Databases groeien flink doordat bedrijven en particulieren enorme hoeveelheden informatie opslaan. Het blijkt echter bijzonder lastig om in al die data het overzicht te bewaren.

De instellingen doen in het kader van het BigStorage-project onderzoek naar hoe de talloze gegevens inzichtelijk blijven. Ze bekijken onder meer of ze bestaande algoritmes kunnen verbeteren, zodat de software de gegevens beter 'snapt' en ze dus makkelijker kan vinden en koppelen. Daarnaast houden de onderzoekers zich bezig met de achterliggende theorieën en de benodigde hardware. Ten slotte leiden ze professionals op voor het beheren van big data.

Het BigStorage-project loopt vier jaar en er doen verschillende Europese instellingen aan mee, maar geen Nederlandse en Belgische instanties. Het gaat om de Mainz University, de Technische Universiteit Madrid en het Spaanse Barcelona Supercomputing Center. Daarnaast werken het Duitse German Climate Computing Centre, het Griekse Foundation for Research and Technology en het Franse onderzoeksinstituut Inria er aan mee. Ten slotte voegen Seagate, CA, Fujitsu en het Franse Commissariat à l'énergie atomique zich bij het initiatief.

Behalve Europa doen wereldwijd meer instanties onderzoek naar 'big data'. Zo stelde de Amerikaanse regering zich onlangs nog ten doel om binnen tien jaar exaflops-clusters te bouwen, omdat big data nu al 'revolutionaire impact' op de commerciële en wetenschappelijke sectoren heeft.

De supercomputer die op dit moment het beste kan omgaan met enorme hoeveelheden data, is de Tianhe-2 van de Chinese National University of Defense Technology. Het systeem levert 33,86 petaflops, gemeten met de Linpack-benchmarks. Het Amerikaanse Department of Energy bouwt momenteel twee systemen die elk 100 petaflops moeten kunnen leveren als ze in 2017 gereed zijn. Petaflops staat voor 1015, oftewel een biljard floating point operations per second; bij exaflops is dat 1018 flops, oftewel een miljard miljard.

Data

Moderatie-faq Wijzig weergave

Reacties (34)

Eigenlijk wel grappig dat de bigdata verzamelaars door de bomen het bos niet meer zien.

Doet een beetje denken aan mensen die hun hele huis vol hebben met verzamelde troep. (denk dan vooral aan oude kranten die die persoon in geen 10 levens kan lezen.)

Maw de privacy gaat weer langzamerhand terug komen, niet door bezorgdheid maar door hebzucht, metaforisch komen de verzamelaars hun huis nooit meer uit. :D (wel humor eigenlijk)

Eigenlijk zouden we nu dus full open moeten gaan en al onze informatieve bullshit (vooral ook nonsense) moeten dumpen om de algoritmes te laten bezwijken onder het oneindige random.

[Reactie gewijzigd door enchion op 14 augustus 2015 21:51]

Ook wetenschap is blijkbaar heel democratisch. Sprak iedere zichzelf respecterende wetenschappelijke de afgelopen jaren zijn mondje big data mee.......we kunnen tenslotte niet achterblijven.....nu wordt dezelfde deskundigheid ingehuurd om Big data beter te harnassen.

Ik moet eerlijk zeggen dat ik in eerste instantie interpreteerde "aan banden leggen" en dacht nog, ah, eindelijk, ze zien in dat het uit de hand loopt. Maar helaas, ik begreep het verkeerd. De analyse moet beter (lees krachtiger). Dit is dus niet veel meer dan de volgende logische groeistuip van de Big data wedloop.

Ik krijg een losse associatie met het verloop van de eerste wereldoorlog (lees er een boek over, om die reden). Eerste wereldoorlog generaals zijn door historici vergeleken met gokkers. Na iedere verloren veldslag namen de generaals zich voor: "de volgende keer heb ik meer artillerie nodig, en nog meer infanterie, dan gaat het mij zeker lukken". En iedere keer opnieuw liep de volgende veldslag door schaalvergroting nog dramatischer mis. De analogie met een gokker hoeft niet te worden toegelicht. Kernprobleem was dat de generaals structureel weigerden in te zien dat ze door de statische loopgraven bezig waren met een belegeringsoorlog in plaats van de bewegingsoorlog met flankeringstechnieken en al, waaraan ze gewend waren. Ze voerden dus het type oorlog waarin ze waren opgeleid, terwijl dat oorlogstype er niet meer was.

Een erge losse associatie misschien? Instellingen die gebruik maken van big data en technologie bedrijven werkzaam in big data lijken collectief weg te kijken bij de wetenschap dat het oeverloos verzamelen van big data niet de meest slimme manier is om afwijkingen in samenlevingspatronen op te merken. Zonder een clue te hebben hoe echt te zoeken wordt weer (zonder op voorhand na te denken wat) meer big data verzameld. Er moeten dus betere algoritmes komen om de bestaande data te doorzoeken en de opslagcapaciteit moet groeien (de toenemende artillerie en infanterie). Dat zo weinig effectief kan worden gezocht komt natuurlijk omdat nog niet alle gegevens beschikbaar waren en niet goed genoeg werd gezocht. Als we maar beter zoeken in meer complete gegevens dan.... Ziehier mijn overdrachtelijke WO-I in herhaling. Big data is een heilloze weg, een erge dure collectieve afleidingsmanoeuvre. Het is een benaderingswijze uit het denkraam van gisteren toegepast op technologie van een nog niet gekende toekomst.

Dat was het gereedschap, maar wat dan over de motivatie? De EU initieert het onderzoek. Als bestuursniveau bijzonder gebaat bij dit harnassen van data. De schaal waarmee een EU kan worden geconfronteerd bij (toekomstig) direct bestuur is nog een slag groter dan hetgeen wat bijvoorbeeld onze Nederlandse overheid over zich aan het afroepen is. De "grondhouding" (een prachtig lubberiaans woord) van de overheden is hierbij verkeerd. Die grondhouding is wantrouwend en controlerend. Hoe meer obsessief een overheid zich bezighoudt met de gangen van haar burgers hoe meer reactief ze zich zal gedragen, beÔnvloedt door al deze gegevens, bestaande invloeden op huidige systemen. Alle capaciteit wordt ingezet op het bijsturen van bestaande bestuurssystemen die, dat heeft de data tenminste geleerd, "op punten verbeterd kan worden". Het gevaar voor verkokering ligt hierbij op de loer. Het proces van bijsturen wordt een eindeloos kat en muis spel met haar burgers. Een stap terugzetten om een radicaal ander systeem te bedenken wordt dan heel moeilijk.
Eigenlijk zouden we nu dus full open moeten gaan en al onze informatieve bullshit (vooral ook nonsense) moeten dumpen om de algoritmes te laten bezwijken onder het oneindige random.
Deze opmerking vond ik een hele mooie relativering. Bewijs de belachelijkheid van een systeem door het een lachspiegel voor te houden.

[Reactie gewijzigd door teacup op 14 augustus 2015 23:22]

Bedoel je hiermee wat ik ooit over de NSA gelezen heb, die zoveel data verzamelt dat ze niet meer kunnen vinden waar ze naar op zoek zijn?

De Nederlandse overheid is een geval apart. Hier wordt op sommige gebieden meer vastgelegd dan in het grote voorbeeld VS. Maar dat wordt volgens mij veroorzaakt door de absurde belastingwetgeving die controle op elk facet van ons leven noodzakelijk maakt.

Waarom verzamelde de Belastingdienst parkeergegevens van burgers? Omdat er mogelijk een leaserijder tussen zit die mogelijk geen bijtelling betaalt en mogelijk zo vaak betrapt wordt op parkeren dat het lastig wordt om te bewijzen dat hij/zij onder de 500 privťkilometers blijft.

De Nederlandse overheidsfinanciŽn lopen gierend uit de klauwen. De standaard reflex is dan: "meer controle". Terwijl de oorzaak van de ziekte zich in Den Haag bevindt.
Like+100

Maar ja, het is ook helemaal niet in het belang van Den Haag om er echt wat aan te doen. De meeste politici snappen helemaal niet waar ze over beslissen. En ambtenaren die ze de informatie zouden moeten geven, hebben een eigen belang. Zolang beleid moeilijk blijft, is er veel inzet nodig van bedenkers, management, uitvoering, controle en controle-op-controle.

Het geniale van die mensen is hoe ze Europa bedacht hebben. Dat levert weer een hele reeks controle, lobbying, vertaling naar Nationaal beleid op. Gelukkig hebben we het systeem in Nederland niet aangepast. Gevolg: Ambtenaren keer 2!

Het jammere voor de burger is dat ipv echte keuzes maken, we halve maken. Die dan om minder te doen voor de burger, hogere overhead opleveren, waardoor er nog minder naar de burger gaat.

Als je ziet hoeveel inhoudelijk gelijke controles er plaatsvinden bij Belasting, UWV en Gemeente, die nodig is omdat ofwel er net iets andere regels gelden ofwel iets andere overwegingen moeten worden gemaakt.... Nederland is ziek

[Reactie gewijzigd door familyman op 15 augustus 2015 13:34]

Hoe lang kunnen ze nog volhouden dat dit alles in ons belang is:
- het verhuiscircus tussen Brussel en Strassbourgh
- De explosie van regelgeving
- De verhoging van onze lasten
- Het uitlenen van nog meer miljarden van ons belastinggeld aan Griekenland, die dat nooit meer kan terugbetalen
- Het tot in het oneindige doorgaan met geld in deze bodemloze put stoppen
- Het in de euro houden van Griekenland, terwijl de euro totaal niet past bij de Griekse economie
- De grootste netto-betaler van Europa zijn
- Multinationals nauwelijks belasting laten betalen
- Nederlandse EU-afdracht baseren op onder meer criminaliteit en nauwelijks belasting betalende multinationals
- Open grenzen van goudgerande verzorgingsstaten
- Het chronisch tekort op onze rijksbegroting

De EU doet denken aan Network Marketing: "Geef ons je geld, en we maken je rijk!".
Weet je, zolang ze verhuizen, kunnen ze niet vergaderen. Zolang ze niet vergaderen, kunnen ze geen regels bedenken...
Ik stel voor dat het parlement van hoofdstad naar hoofdstad verhuist, en een 1 jaar alle hoofdsteden moet hebben aangedaan, en minstens een keer getekend hebben voor presentie.
De baan van europarlementariŽr is meteen een stuk minder interessant, er worden minder regels aangenomen, en er is een keer een goede reden de 'unie' uit te bereiden imho
Of gewoon afschaffen...
Het grootste probleem van 'Big Data' is niet de omvang maar de data zelf. I.v.m. de (oude) traditionele opslag slaat 'Big Data' ook ongestructureerde data op. Hierbij moet je denken aan muziek, film audio e.d.

Om alles aan elkaar te knopen heb je een goede algoritme nodig. Alleen valt dit onder analysis terwijl 'Big Data' het begrip is over het opslaan.. ;)
om Big data beter te harnassen
offtopic:
Big data in een harnas? Big ridderspelen? :P

Of je schrijft gewoon "om beter van big data gebruik te kunnen maken", ipv een raar anglicisme te verzinnen.
Eigenlijk zouden we nu dus full open moeten gaan en al onze informatieve bullshit (vooral ook nonsense) moeten dumpen om de algoritmes te laten bezwijken onder het oneindige random.
Facebook, Twitter, locaties, mail, webbrowsing, postings op fora (zoals deze), sms, WhatsApp, Onedrive, Dropbox, OV chipkaart, bankoverschrijvingen, bestellingen bij bedrijven, geklikte reclames, ga zo maar door.
Het "nonsense" dumpen is al druk gaande, daarom zitten ze nu met big data in hun maag.

Qua privacy tenminste. Er zijn ook andere toepassingen. Oude data van telescopen bijvoorbeeld, en dan heb je het over petabytes aan data die nu nog gebruikt worden om te vergelijken met de data die nu verkregen wordt.
Da data die met de Large Hadron Collider verkregen wordt is ook enorm, en ook daar moet de spaghetti uit de soep gehaald worden. Ga zo maar door.
Kan ook anders lopen. Ponskaarten zijn nu al niet te lezen, terwijl die nog fysiek bestaan. Wie zegt mij dat alle verzamelde big data over 50 jaar nog te lezen of bruikbaar is.
Ik lees het anders. Ik lees: 'We zien door de bomen het bos niet meer en daardoor draaien we minder winst. Dus gaan we die databerg beter inzichtelijk maken zodat we nůg beter het dataminen nuttig kunnen laten zijn voor onszelf.'

M.a.w. juist vanwege het verlies aan overzicht in de databerg kun je als burger en consument nog eens ongemerkt blijven. Daar willen ze wat aan doen. En ze krijgen er nog subsidie voor ook. Het betekent dus gewoon dat geheime diensten die nu nog last hebben van te veel data waar ze niets mee kunnen omdat het interpreteren er van te veel tijd kost en te lastig is, dat nadeel niet meer zullen hebben.

Het zal dus de transparantie vergroten ten nadele van jij en ik.
De vraag is meer, hoeveel 'indammen' zal je met 3,8 miljoen tegenwoordig bereiken?

Er word gewoon weer een omweg bedacht om straks onder de regels uit te kunnen komen. Iets met dweilen en een kraan...... ;(
Deze subsidie ziet er op om de complexiteit van bigdata, dus de grote hoeveelheid gegevens die je opslaat, op een goede wijze inzichtelijk te kunnen maken. Denk aan de wijze waarop hardware moet worden ingericht, algoritmes voor inzicht geven en misschien beveiliging. Het ziet in het geheel niet op het indammen van het datagraaien door bedrijven en overheden.
Als ik een schatting zou maken dan wordt er wereldwijd zo'n 10 miljard per jaar uitgegeven aan onderzoek op dit onderwerp (50.000+ onderzoekers in databases, machine learning, data mining, statistiek, en veel theoretische informatica werkt aan relevante problemen). Er worden dus bijna elke dag wel zulke subsidies verstrekt en een subsidie van 3.8 miljoen is mijns inziens inderdaad niet voldoende nieuwswaardig voor Tweakers om iets over te schrijven.
Precies mijn idee. Het maakt het gebruiken van alle gegevens in de toekomst alleen maar makkelijker. Het wordt allemaal beter ontsloten dan nu het geval is.
Wat ze indammen is de complexiteit, niet het gebruik en de opslag van gegevens.
Het is alleen nog onderzoek. Dat haal je over het algemeen wel met zo'n bedrag. Daarbij is het subsidie.. niet het daadwerkelijke bedrag wat er dus aan besteed gaat worden.
Blijft verbazingwekkend als je bedenkt hoeveel het eigenlijk is.
Ben benieuwd wat we er mee gaan kunnen doen zodra het allemaal goed verwerkbaar is.
Ik vind het vooral knap dat je met niks zoveel kan verdienen en er toch zoveel van kan maken.
Ik vind het vooral knap dat je met niks zoveel kan verdienen en er toch zoveel van kan maken.
Denk je dat echt?
Who controls the past controls the future: who controls the present controls the past.
En vandaag de dag geld dat frappant genoeg zelfs veel meer. Een instantie als google weet onderhand zoveel van je, cq je IP, dat die vrij accurate voorspelling kan doen wie je bent, wat je doet, wat je bestedingspatroon is, waar je woont, wat je interesses zijn, wanneer je ziek bent, wanneer je op vakantie wil, etc, etc. En omdat de data een steeds langer tijdsbestek bestrijkt wordt die steeds accurater.


Een voorbeeld dat veel dichter bij huis is, is de AH-bonuskaart. Ahold kan vrij nauwkeurig voorspellen op welke dag je wat gaat kopen en hoeveel. En dat zal niet 100% nauwkeurig zijn maar het gros van de artikelen zal hetzelfde zijn en daar waar een verschil, is naar alle waarschijnlijkheid dezelfde categorie zoals snoep/snacks.


En dit zijn nog twee voor de hand liggende voorbeelden, het gaat zelfs verder waarbij je mensen vrij eenvoudig kunt manipuleren. Acties van mensen zijn afhankelijk van de informatie dat op een bepaald moment aanwezig is, laatste decennia blijkt dat de publieke opinie verschillende malen niet helemaal correct is voorgelicht terwijl de kennis wel aanwezig was. Inval Irak is legendarisch, maar Arabische lente is niet helemaal koosjer, OekraÔne was ook niet helemaal netjes.
Die data is nog vrij simpel. Het correspondeert met wat je de loopband zet de data is eenduidig en compleet. Maar problemen ontstaan als je bijvoorbeeld looproutes van de klant hebt opgeslagen. Je moet dan achteraf weten hoe de indeling van de winkels was. Je moet nog weten van wat voor soort klanten je het ondervraagd hebt. Je moet ook weten wat de aanleiding was voor het onderzoek. Wil je zulk soort data analyseren dan moet je dit gelijk doen. Achteraf onderzoeken zoals bij big data zou moeten gebeuren is ondoenlijk als je de details mist. De data van een bloemenverkoper op een markt is een stuk moeilijker te analyseren, als je niet weet dat hij aan het einde van de dag drie voor de prijs van twee verkoopt.
Ik vind het vooral knap dat je met niks zoveel kan verdienen en er toch zoveel van kan maken.
Wat ik knap vind is dat het allemaal draait om gebakken lucht: onzichtbare virtuele eentjes en nulletjes. Leg 3,14 googolplex van die virtuele eentjes en nulletjes achter elkaar in de juiste volgorde en voilŗ... je hebt big data ;)

edit:
Typo

[Reactie gewijzigd door Jael_Jablabla op 14 augustus 2015 22:11]

Leg protonen, elektronen en neutronen op de juiste manier en voila: je hebt goud, diamant, handboren, mensen, robots, ...

Alles is "gebakken lucht", de juiste volgorde is dat wat waarde heeft.
Daar heb je gelijk in, maar mensen bepalen wat de "juiste" volgorde is. En dat kan in de toekomst heel vervelende gevolgen hebben. Het noteren van iemands geloof is in vergelijking met wat we nu doen echt maar magertjes. En hoeveel ellende hebben we daar wel niet van gehad in 40-45.
Met de huidige technieken hadden de nazi`s in 1 maand tijd 99,9% van hun slachtoffers geidentificeerd en was de ramp nog vele malen groter geweest.

Wat mij betreft zijn in dit geval wel de behaalde resultaten uit het verleden een garantie voor de toekomst. Elke 4 mei staat onze regering op de dam de slachtoffers te herdenken om op 5 mei exact dezelfde fouten te maken, maar dan vermenigvuldigd met een factor 1000. 8)7

Alleen omdat het kan, is nog geen reden om het daadwerkelijk te doen.
De meeste bedrijven kunnen al niet slim met hun "gewone data" omgaan... met big data wordt het net zo goed niks :P
Dit is inderdaad het grootste probleem in de praktijk. Alle hype rond Big Data is natuurlijk prachtig, maar vrij weinig bedrijven draaien echt de volumes die je met de huidige techniek niet aan zou kunnen. De drie grote problemen in de praktijk zijn gebrek aan visie / kennis, praktisch beheer van gegevens en privacy / veiligheid.

Qua visie is het zo dat men vaak wel allerlei vragen heeft, maar geen idee heeft welke statistische methoden of gegevens nodig zijn om deze vragen te beantwoorden. Je moet als een onderzoeker gaan denken en begrijpen wat wel en niet mogelijk is. Daarna kun je dan je data huishouding daarop gaan inrichten. Vaak ontbreekt dat inzicht, dus verzamelt men maar wat raak. Daarnaast wordt er heel weinig gekeken naar welke meerwaarde data nu echt kan hebben; niet voor ieder bedrijf of business model heeft data een even grote toegevoegde waarde. Een grote online winkel heeft meer aan data dan het cafe op de hoek.

Het tweede probleem is dat de data vaak verspreid is over allerlei verschillende systemen die onder verschillend beheer vallen. Systemen voor verschillende verkoopkanalen worden bijvoorbeeld niet gekoppeld en daarna zit je met allerlei dubbele accounts. Of de marketing afdeling werkt met een systeem dat niet gekoppeld is aan het systeem voor de orders. Of een bedrijf wordt overgenomen en vervolgens worden de systemen niet geÔntegreerd. Op allerlei manieren raakt de data gefragmenteerd en dat beperkt natuurlijk nogal de waarde ervan.

Tot slot hangt er natuurlijk nog veel in de lucht qua privacy en beveiliging van data. Op dat gebied moeten nog veel slagen gemaakt worden, zowel qua expertise bij bedrijven als qua wetgeving.

[Reactie gewijzigd door Morrar op 14 augustus 2015 23:45]

Er zijn toch zat opensource projecten waarin dit al gebeurd. Steun die dan i.p.v. opnieuw het wiel uit te vinden.
En wie zet het wiel dan in beweging? Iemand zal niet zomaar uit eigen beweging allerlij algoritmen en software gaan uitvinden. Veel opensource werk komt toch echt uit een subsidie voort. Die opensource projecten hebben waarschijnlijk al een gezonde funding, anders zouden ze niet bestaan.

En dan is er nog een categorie opensource projecten die niet veel meer zijn dan implementaties van original research van een ander.

Lijkt mij dus geen gek idee om dit geld gewoon uit te geven aan een aantal universiteiten? Dat is immers de plek waar original research plaatsvindt
Goed opmerking, Maurice. Point taken.
Voor dat geld kun je heus wel een goeie Google zoekopdracht maken! :+
De opmerking over de Tianhe-2 is ongenuanceerd. We hebben het hier over Big Data systems, omgaan met grote hoeveelheden data, denk aan enorme databases, MapReduce frameworks, sorteren, graphs, machine learning en al dat soort ongein. Deze problemen kenmerken zich niet door de complexiteit in floating point berekeningen zoals in HPC, maar over het bewegen en manipuleren van grote hoeveelheden data. Petaflops zegt dus nog niet zo veel over hoe goed omgesprongen kan worden met Big Data problemen.
Dit is dus een project om beter te kunnen dataminen.
Het is wel zeer interessant om te zien waar deze data verwerking heen gaat en wat sommige wetenschappers er mee kunnen doen.

Ik hoop dat er een paar knappe studenten met professoren er eens ECHT mee mogen spelen i.p.v. een snowden of een niet-snowden die beetje voor overheden of multinationals gerelateerd aan overheid macht proberen uit te oefenen.

En dan graag geen simpele conclusies als "oh de mens is net een schaap, laten we daar nog wat meer chocolade verkopen" maar meer iets in de trend van "kijk er is geen god" (of juist wel) of iets meer over groepsgedrag en ons gezamelijk doel...

Maar 3,8 milioen is niet echt veel en waarschijnlijk juist weer met een foute motivatie ingezet...

[Reactie gewijzigd door 66431 op 16 augustus 2015 02:09]

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True