Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 36 reacties

Het Centraal Bureau voor de Statistiek heeft al zijn dataverzamelingen als open data beschikbaar gemaakt. De zogenaamde Open data-portal bevat 3400 datasets en kan onder andere door applicatiemakers en wetenschappers worden gebruikt.

Het CBS maakte de komst van de dataportal zelf wereldkundig op zijn website. Volgens de organisatie is de volledige databank onder het Open data-project toegankelijk gemaakt voor alle geïnteresseerden. Het gaat daarbij in totaal om 3400 datasets, met in totaal 14 miljard cellen die bovendien dagelijks worden vernieuwd. Het CBS heeft een webpagina opgezet die toegang biedt tot de dataportal.

Met de Open data-portal wordt het voor geïnteresseerden gemakkelijker om de data van het CBS te gebruiken. De gegevens zouden gemakkelijk gecombineerd kunnen worden met andere data, aldus het CBS. Daarnaast maakt de organisatie een eigen app om de gegevens in het Open data-portal op grafische wijze te tonen. Eind oktober moet deze app beschikbaar zijn, maar het is nog niet bekend voor welke besturingssystemen.

Het CBS had al een grote verzameling data online staan, via zijn StatLine-project. Volgens de organisatie blijft deze bestaan, en is het Open data-project een aanvulling. Voorheen moesten bedrijven en wetenschappers betalen om toegang te krijgen tot bepaalde data, maar dit lijkt dus niet langer het geval te zijn. Volgens het CBS wordt StatLine ongeveer 16 miljoen keer per jaar gebruikt.

Moderatie-faq Wijzig weergave

Reacties (36)

De nieuwsberichten gelezen, maar de stelling 'volledige databank van het CBS nu beschikbaar' is enigszins overdreven en gelukkig maar. De databank van het CBS die nu beschikbaar wordt gesteld zijn aggregaties van de bronbestanden waarover het CBS beschikt. Deze bronbestanden zijn op microniveau (bijvoorbeeld per persoon of bedrijf). Denk niet dat mensen willen dat die beschikbaar worden gesteld, want dat zijn bijvoorbeeld ook de gegevens die iedereen bij de Belastingdienst invult en die kan je koppelen aan de persoonsgegevens uit de gemeentelijke basisadministratie. Deze microgegevens zijn versleuteld en alleen in een beveiligde omgeving te benaderen om de privacy van mensen te waarborgen.
Ik voorspel nu al een explosie van grafiekjes die misdaad plotten tegenover ethische afkomst, gezien dat pertinent als niet wenselijk werd bestempeld om te openbaren (op PVV leden na dan).
Mooi dus dat publieke informatie nu wel gebruikt mag worden door burgers. Openheid is alleen maar beter, ook als er uit informatie blijkt dat er significante verschillen zijn. Beter dan doen alsof dat niet waar is. Censuur is volgens mij geen gewenst instrument van een overheidsorgaan.
Ehh.... ik denk dat mensen mijn reactie verkeerd interpreteren. Ik ben me er prima van bewust dat de cijfers van CBS altijd al openbaar waren, dus wat censuur betreft is hier nooit sprake van geweest.

Ik kan me alleen wel voorstellen dat, nu de data makkelijker te bereiken is, er waarschijnlijk wel hobbyisten zijn die grafieken gaan plotten met misdaad vs. ethniciteit en dat op hun sites zetten. Iedere keer als dit soort grafieken worden aangehaald (door PVV leden bijv.) dan wordt dit al gelijk genegeert vanwege politiek correcte redenen. Genegeert door zowel de politici als onze links-gezinde medemens.
Oftewel misbruik in eigen voordeel ;) en gebruikt in eigen context of t nu rechts of links is, dat maakt niks uit. Iemand die zo`n grafiekje voor andere doeleinden gebruikt dan waar het over gaat is fout.
Voordeel is nu dat we meer en meer zelf nu kunnen checken.
Ik denk dat het aantal PVV stemmers dat een grafiek kan maken best wel klein is, omdat er heel weinig mensen uberhaupt een grafiek kunnen tekenen, er eigenlijk helemaal niet zoveel PVV stemmers zijn en het waarschijnlijk ook nog negatief correleert. Het aantal VVD en CDA aanhangers dat dergelijke grafieken gaat tekenen lijkt me vele malen hoger. Het is verder natuurlijk onzin dat 'linkse' mensen niet willen horen dat Antillianen gemiddeld vaker crimineel zijn, dat heeft echter niets te maken met een principiële overtuiging dat de politie/overheid in haar taken iedereen gelijk moet behandelen. Dat staat in artikel 1 van onze grondwet en 'linkse' mensen vinden meestal dat er aan dat artikel niet getornd mag worden omdat het essentiëel is om ons enige mate van vrijheid te garanderen. Misschien moet je je eens afvragen in welke mate de VVD, PVV en de Christelijke partijen echt tegen discriminatie zijn en of hun standpunten en retoriek onze democratie en vrijheid niet ondermijnen. Ik schrijf express niet rechtse partijen omdat D66 veelal als rechts wordt gezien en zij precies hierin lijnrecht tegenover VVD/PVV staan.
CBS heeft daar al meerdere malen rapporten over uitgebracht plus al die data was gewoon al jaren beschikbaar, ik heb het menigmaal aangehaald in forumdiscussies.
Ook bij het SCP is hier diverse informatie over beschikbaar.
Dat de PVV zegt dat het niet zo is betekent niet dat het waar is, hè ;)

[Reactie gewijzigd door anandus op 18 juli 2014 17:59]

Kon altijd al, ze hadden er zelfs een redelijk eenvoudige rapporttool voor op de site staan.
Maar toch niet met een JSON API enzo?
Zelf ook wel eens wat in StatLine rond zitten klikken, leuk maar voor developers niet echt meer dan dat. Voor zover ik weet was dit inderdaad niet in een bruikbare API (JSON) vorm. Artikel lijkt dit ook te zeggen:
Het CBS had al een grote verzameling data online staan, via zijn StatLine-project. Volgens de organisatie blijft deze bestaan, en is het Open data-project een aanvulling.

[Reactie gewijzigd door Genetai op 18 juli 2014 20:00]

Klopt met het odata pritocool kan aangeven of je je data in json of XML wil. Heb er zelf wat mee gespeeld toen het in beta was heb toen gekozen voor XML. Als je met .net werkt kan je hier voor ook heel makkelijk een service Reverence voor laten genereren.
Dit hebben ze al 'opgelost' door 3e generatie Marokkanen als ethniciteit 'Nederlands' en als classificatie 'autochtoon' mee te geven.
Wat zijn het dan? Amerikanen zijn toch ook Amerikanen en geen Ieren?
Dat is niet meer dan logisch.
  • Een Nederlander is iemand met de Nederlandse nationaliteit.
  • Een allochtoon is iemand van wie tenminste één ouder in een niet-westers land is geboren.
Als jij de NL nationaliteit hebt en allebei je ouders zijn in Nederland geboren ben je een Nederlandse autochtoon. Of je dan een oma hebt die in een ver land is geboren is irrelevant.
Ik ben blij dat je dit duidelijk hebt gemaakt, maar je definitie van allochtoon is niet helemaal correct. Het is namelijk niet gerelateerd aan of je in een westers of niet-westers land geboren bent.

"Een allochtoon is iemand die geboren is in het buitenland of die buitenlandse ouders heeft." (bron: http://nl.thefreedictionary.com/allochtoon)

Dit betekent bijvoorbeeld dus (zoals in de bron vermeld) dat ook Prinses Beatrix volgens de technische definitie een allochtoon is.

Maar (nogmaals zoals in de bron vermeld) in de praktijk wordt de term inderdaad vaker gebruikt voor situaties zoals jij beschrijft, alleen wilde ik hierbij de correcte definitie duidelijk maken zodat de term in de juiste context geplaatst kan worden.
Nou ja, als we dan toch haren gaan kloven. In de oorspronkelijke definitie van allochtoon kwam het begrip land niet eens voor. Het werd voor het eerst op grote schaal gebruikt in de periode van suburbanisatie. Mensen die in Den Haag zijn geboren maar in de jaren zeventig naar Zoetermeer verhuisden werden allochtonen genoemd. Ze woonden niet meer op de plek waar ze geboren werden.

Inmiddels is de meest gangbare definitie die van het CBS (die onderscheid maakt tussen westers en niet westers) omdat die bijvoorbeeld gebruikt wordt voor beleid. Een school met meer "allochtonen" krijgt meer geld omdat er een taal-achterstand wordt vermoed.

Maar goed, ik vind het hele onderscheid tussen allochtoon en autochtonen een beetje dubieus en ik verwacht niet dat het nog lang mee gaat. Ik denk dat je het over een jaar of tien weinig meer tegen gaat komen, net zoals het woord 'gastarbeider' na de jaren tachtig is verdwenen.
Mijn reactie was ook niet negatief bedoeld en je hebt volkomen gelijk dat in meeste gevallen de term allochtoon gebruikt wordt als synoniem voor niet-westerse allochtonen.
(zoals gedefinieerd door CBS sinds 1999, Bron: http://www.cbs.nl/NR/rdon...34DCD44C8/0/index1119.pdf)

Ook al is dat de gangbare definitie, het leek me nuttig om erbij te vermelden dat dat niet de complete definitie is. Hiermee bedoel ik dat er dus ook westerse allochtonen zijn die, wegens het gebruik van de gangbare definitie voor allochtoon, niet gezien worden als allochtoon. Hiermee wilde ik dus aantonen waarom ik het onderscheid tussen allochtoon en autochtoon ook zo dubieus vind. Hierover ben ik het dus met je eens.

on-topic:
In de context van het maken van ideologisch bevooroordeelde grafieken kan je dus ervoor kiezen om de definitie van "allochtoon" aan te houden die je punt het beste ondersteunt. Daarom lijkt het me belangrijk voor een ieder die zo een grafiek bekijkt om te weten wat de gegevens waarom de grafiek gebaseerd is precies betekenen.

Dat al deze gegevens als open data beschikbaar zijn, maakt het misschien makkelijker om negatieve rapportages te maken over de data, maar het zal even makkelijk zijn om er een positieve rapportage over te maken. Uiteindelijk kan een ieder meerdere kanten van een onderwerp te zien krijgen en beter geinformeerd worden. Ik juich deze open data publicatie van CBS dus vooral toe.
<totaal off-topic>
Er zitten nogal wat allochtonen in ons koningshuis: Willem I (Duitse moeder), Willem II (Duitse moeder), Willem III (Russische moeder), Wilhelmina (Duitse moeder), Juliana (Duitse vader), Beatrix (Duitse vader), Willem-Alexander (Duitse vader), Catharina-Amalia (Argentijnse moeder).
Het "Neerlands bloed dat door d'aderen vloeit" is een tikje verdund.
</off-topic>
Prima initiatief. Doel van deze open data set moet volgens mij vooral gezocht worden in het kader van hergebruik van data door developers, in plaats van het gebruik binnen de kaders van het CBS. Bovendien, het CBS is een publieke instelling, en het lijkt me niet meer dan logisch dat hun data op zoveel mogelijk manieren als een publiek goed wordt aangeboden
lies, damned lies & statistics...

nu maar hopen dat ze het niet misbruiken. Je kan altijd wel doorzoeken tot je je eigen gewenste uitkomst hebt gevonden ;-)

wel erg goed initiatief... hoe meer openheid hoe beter.

[Reactie gewijzigd door esperanto op 18 juli 2014 17:50]

Openheid is zinloos zonder visie.
Constateren van feiten kan iedereen, beleid daar op durven inrichten is een tweede. Het grootste probleem blijft altijd dat je een groep benadeelden krijgt, en met een beetje fantasie kun je daar getallen op invullen waardoor het lijkt dat de uitzondering de regel wordt.

Niet voor niets is statistiek het meest gehate vak van elke opleiding. Het is zelden goed maar ook nooit echt fout.
Meest gehate vak? Kun je dat met cijfers onderbouwen?
Wist je dat 78% van alle statistieken ter plekke verzonnen worden?
Statistieken zijn als bikinis:
ze tonen het voornaamste,maar bedekken het essentiele
Vaak laten ze ook dingen zien die je juist niet wilt weten...
en dat heb je ook verzonnen ?
:+
thatsthejoke.jpg
Het is niet de taak van het CBS om een visie te hebben over de toepassing of het gebruik van de data. Zij moeten waken over de correcte verzameling en de kwaliteit van de data.

Laat anderen, de marktspelers enzo, maar zorgen voor een goede toepassing ervan. Je kan heel mooi je eigen data verrijken met officiele CBS data. Helemaal goed!!

En dat jij statistiek haatte, betekent niet dat heel nederland het haat. Ik heb econometrie gedaan en vind statistiek schitterend, dus......
Doet me direct denken aan de Spurious Correlations website:
http://www.tylervigen.com/
De gegevens zouden gemakkelijk gecombineerd kunnen worden met andere data, aldus het CBS.
Cool. Nu weten adverteerders echt alles van ons.
Lijkt me bijzonder interessant als ze hier een computer als watson op loslaten.
Het lijkt me niet dat de bronbestanden op microniveau, zoals de volledige inhoud van mijn belastingaangifte bij het CBS liggen. Daar zijn netjes wetten voor die dat voorkomen. Geanonimiseerde versies ervan, en afgeleide data misschien wel. Dan is de vraag in hoeverre vanuit die data iets terug te leiden is. Met de nu vrijgegeven data is een hoop leuks te doen. Ik denk dat in elk geval Google Maps het druk gaat krijgen :).
Het lijkt me niet dat de bronbestanden op microniveau, zoals de volledige inhoud van mijn belastingaangifte bij het CBS liggen. Daar zijn netjes wetten voor die dat voorkomen.
Dagelijks werk ik met deze bestanden en mijn verhaal klopt wel degelijk.
Geanonimiseerde versies ervan, en afgeleide data misschien wel. Dan is de vraag in hoeverre vanuit die data iets terug te leiden is.
Met versleuteld bedoelde ik geanonimiseerd. Maar als je tot alle microbestanden toegang zou hebben, dan zou je in staat kunnen zijn door de hoeveelheid aan gegevens wel individuen te achterhalen. Deze privacy risico's worden afgevangen binnen de beveiligde omgeving via diverse maatregelen.
Ik werk niet met data van het CBS, maar in hoeverre is het geanonimiseerd?

Met een postcode, geslacht en geboortedatum kun je al één persoon overhouden.
En als een adverteerder dat inner joint met zijn gegevens hebt je dus een profiel van één identificeerbaar persoon.
Hier zijn ze vast toe geïnspireerd door Hans Rosling en Gapminder. Aanraders voor iedereen!

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True