Library of Congress slaat complete Twitter-database op

Twitter heeft zijn vrijwel volledige database van tweets ter beschikking van de Amerikaanse Library of Congress gesteld. Verder heeft Google een replay-functie geïntroduceerd waarmee het Twitter-archief kan worden doorzocht.

Twitter-vogeltje

Het archief van Twitter, dat teruggaat tot de eerste tweet op 21 maart 2006, is volgens de microbloggingsite aan de Library of Congress beschikbaar gesteld omdat zij zouden hebben aangegeven dat de miljarden publieke tekstberichten moeten worden geconserveerd. De nationale bibliotheek van de Verenigde Staten, die met speciale programma's steeds meer content digitaal opslaat en inmiddels 167TB data heeft, stelt dat de berichten van Twitter-gebruikers inzicht geven in de geschiedenis.

Hoe groot de database precies is, hebben de partijen nog niet bekendgemaakt, maar inmiddels worden dagelijks meer dan 55 miljoen tweets verstuurd. Twitter heeft wel enkele beperkingen opgesteld voor de database die de Library of Congres mag ontsluiten. Zo zijn de berichten minimaal een half jaar oud en is commercieel gebruik niet toegestaan.

Naast de donatie van Twitter heeft Google de replay-functie in zijn zoekmachine geïntroduceerd. Via een tijdslijn kan tot op de minuut nauwkeurig worden bekeken welke Twitterberichten op een bepaald moment openbaar werden gemaakt. De nieuwe functionaliteit is vooralsnog beperkt tot berichten die vanaf 11 februari 2010 zijn verstuurd, maar Google belooft dat op 'korte termijn' het hele Twitterarchief via de replay-functie doorzoekbaar wordt.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Dimitri Reijerman

Redacteur

Feedback • 15-04-2010 13:52
66 • submitter: elitefly

15-04-2010 • 13:52

Submitter: elitefly

Lees meer

Amerikaanse Library of Congress neemt geluid Windows 95 en Minecraft op in canon .Geek van 12 april 2025

Microsoft plukt nieuws van sociale netwerken Nieuws van 16 februari 2012

Twitter maakt embedden van tweets mogelijk Nieuws van 4 mei 2010

Twitter wil mobiele applicatie voor Android uitbrengen Nieuws van 15 april 2010

Twitter begint met het tonen van advertenties Nieuws van 13 april 2010

Twitter koopt Tweetie en maakt het gratis beschikbaar Nieuws van 10 april 2010

Twitter versimpelt integratie met andere sites Nieuws van 16 maart 2010

Canonical bouwt social broadcasting-applet voor Ubuntu 10.04 Nieuws van 22 februari 2010

Google lanceert sociale-netwerkdienst 'Buzz' Nieuws van 9 februari 2010

Google geeft 'real-time'-zoekresultaten weer Nieuws van 8 december 2009

Google introduceert experimentele 'sociale zoekfunctie' Nieuws van 27 oktober 2009

'Twitter wil dienst uitbreiden met video-tweets' Nieuws van 12 oktober 2009

Meer producten en artikelen

Websites en community's Google Social networking

IT-banen

Meer vacatures

Reacties (66)

-Moderatie-faq

Wijzig sortering

loewie1984 15 april 2010 13:57

Zo zou je dus over 150 jaar kunnen herleiden dat op 12 Jan. 2010 een gigantische aardbeving heeft plaatsgevonden op Haïti, alleen al op basis van tweets. Lijkt me een zinvolle toevoeging. Met meer dan 105 milj. gebruikers heb je een aardig netwerkje van wat er allemaal dagelijks op onze aardkloot gebeurt. En dan kunnen alle mensen die reageren op dat artikel van de Telegraaf wel stellen dat twitter "overhyped" en voor mensen zijn die geen leven hebben. Maar ik kan er verder niets aan doen dat ik steeds overal van op de hoogte ben (dankzij twitter en andere nieuwe media) terwijl hun elke ochtend het nieuws van gisteren zitten te lezen en het acht uur journaal kijken.

@ t-town, ik heb de uitspraak: "Geloof jij alles wat in de krant staat" al eens voorbij horen komen. Wat in de krant staat is nooit voor de volle 100% waar, volledig, en dan kan twitter een mooie aanvulling zijn. Je gaat je onderzoek ook nooit baseren op 1 medium/bron

[Reactie gewijzigd door loewie1984 op 24 juli 2024 16:44]

t-town @loewie1984 • 15 april 2010 13:59

Voor u kan dat handig zijn, maar voor de onderzoeker uit 2050 helemaal niet. Bibliotheken slaan namelijk ook gewoon krantenartikels op, een veel betere manier om gewoon te zien dat er op 12 januari 2010 een aardbeving in Haïti heeft plaatsgevonden.

musiman

@t-town • 15 april 2010 14:03

Een journalist heeft maar 2 ogen en 2 oren.

Echte ooggetuigenverslagen moet je niet zoeken in een krant, maar op plekken waar deze mensen het kwijt kunnen zonder door een redactie filter heen te hoeven.

En zelf gebruik ik twitter zakelijk. Ons bedrijf geeft daar lastminute aanbiedingen en zelf geef ik regelmatig tips over security gerelateerde zaken. Verder krijg ik van diverse leveranciers (Microsoft, Novell etc.) zeer up-to-date info over nieuwe producten, seminars etc.

[Reactie gewijzigd door musiman op 24 juli 2024 16:44]

YopY @musiman • 15 april 2010 14:42

Een journalist heeft maar 2 ogen en 2 oren.

Echte ooggetuigenverslagen moet je niet zoeken in een krant, maar op plekken waar deze mensen het kwijt kunnen zonder door een redactie filter heen te hoeven.

En Twitter is daar een goed voorbeeld van? Lijkt me dat 160 karakters voor een aardbeving nogal schaars is, zelfs al zijn het een tiental die die 160 karakters volspammen.

Mellow Jack @YopY • 15 april 2010 14:55

Alsnog is het beter dan een of andere journo die het verhaal alleen maar schrijft om zoveel mogelijk kijkers te trekken. Ze laten dus dingen weg die zei zelf niet relevant vinden (of niet het bericht afgeven wat zei met hun bericht willen afgeven) waardoor zei totaal niet te vertrouwen zijn...

musiman

@YopY • 15 april 2010 16:13

't is niet voor niks dat een tiener tonnen verdiend heeft door een twitter account te verkopen.

De kracht van kleine tweets is, dat je het zakelijk en bondig moet houden, zonder opsmuk. En uiteraard, wanneer je meer te vertellen hebt, dan doe je dat toch gewoon in meerdere tweets? Dus ik zie in die 160 karakters absoluut geen enkele beperking.

Roeligan 15 april 2010 13:59

En hoe zit dat met twitter accounts die op private staan?!?

hostname @Roeligan • 15 april 2010 14:07

http://twitter.com/search?q=Congress zegt dit:

Congress

The (U.S.) Library of Congress is acquiring the archive of public Tweets (April 14).
Source: What the Trend?

Lijkt me dat de private tweets dus niet worden gegeven

AugmentoR @Roeligan • 16 april 2010 00:51

private zal wel private blijven, maar hoe zit dat met het vereiste niet-commercieel gebruik van de tweets als google de hele db doorzoekbaar maakt? zal Google daar geen advertenties bij tonen? lijkt me sterk toch...

MaxMadu 15 april 2010 14:11

Vindt iemand 167TB aan data niet erg weinig? Dat zijn slechts 167 hardeschijven, past makkelijk in een klein kamertje. Dat vind ik niet erg indrukwekkend voor de Library of Congress, wordt hier niet 167PB bedoeld?

Verwijderd @MaxMadu • 15 april 2010 14:20

Als het (grotendeels) flat text data is.... dan is 167TB behoorlijk hoor

musiman

@Verwijderd • 15 april 2010 14:25

Inderdaad, voor tekst is dat erg veel:

Today we hold more than 167 terabytes of web-based information, including legal blogs, websites of candidates for national office, and websites of Members of Congress.

@maxMadu
En vergeet niet dat zo'n instelling niet simpel de SOHO harddiskjes gebruikt zoals jij en ik in de pc hebben zitten EN dat alles ook nog eens flink redundant moet worden opgeslagen. En dan vergeten we voor het gemak nog even de hitteproductie die ervoor zorgt dat het in dat kamertje van jou zo'n 100 graden celcius wordt (of nog hoger...).

Je kan EN mag niet je thuis opslagcapaciteit vergelijken met dat van een bedrijf. Dat zijn twee verschillende dingen.

[Reactie gewijzigd door musiman op 24 juli 2024 16:44]

vlaaing peerd @musiman • 15 april 2010 14:35

mwoa, wie zegt dat hij niet een enterprise class server met terabyte SAS diskjes heeft draaien...kan toch? Ik vind overigens 167TB niet echt een waanzinnige uitdaging om op te slaan op een setje schijven of wss andere opslagmedia.

ik vind het onzinniger om uberhaupt 167Tb aan: "ik zit nu op de WC de Donald duck te lezen en tiep dit in op m'n nieuwe twitterfoon...en, volgens mij heb ik gisteren mais en worteltjes gegeten.." op te slaan. Zal de wereld echt beter van worden...

[Reactie gewijzigd door vlaaing peerd op 24 juli 2024 16:44]

PolarBear @vlaaing peerd • 15 april 2010 14:41

167 TB is niet zo een uitdaging om op te slaan. Iets meer dan honderd 1,5 TB schijfjes en je bent er, toch? Nu moet je alleen nog even nadenken over redundancy, backup en performance als 1000 mensen tegelijk random data accessen. Dan kan ik je alvast vertellen dat je op z'n minst een SAN hebt staan van een paar ton.

Mellow Jack @PolarBear • 15 april 2010 15:09

Lol Mee eens, even ter verduidelijking

600GB sas hd = + - 500,- EX (weet niet of je 1,5 tb sas hd's hebt maar ik kon ze ff niet vinden)

Je hebt (167000 / 600 =) 279 HD's nodig

Dus ff simpel gezegt ben je alleen aan die hd's al 139500,- kwijt

Dan moet je nog kijken hoe deze redundant zijn uitgevoerd (oftewel er komen er nog een paar bij) en dan komt de rest er nog bij kijken (zoals jij al aangaf) hahaha

Denk dat je al snel over een paar miljoenen praat hoor ipv een paar ton

[Reactie gewijzigd door Mellow Jack op 24 juli 2024 16:44]

ikmattie @vlaaing peerd • 15 april 2010 14:54

Op archeologiesites (niet die dingen op internet, maar echte sites, waar mensen met schepjes aan het graven zijn) vinden ze het ook reuze interessant om te weten wat de eetgewoontes waren van de mensen die ze aan het opgraven zijn...

ikmattie @MaxMadu • 15 april 2010 14:37

1 Tb ~ 1 * 10^12 karakters (1 biljoen karakters)
~ 7.14 * 10^9 tweets (7.14 miljard tweets)
op 167 TB passen dus ~ 1,2 * 10^12 tweets = een 1 met 12 nullen en nog een beetje

/ 105 *10^6 gebruikers ~ gemiddeld 11500 tweets / gebruiker in totaal.

uitgaande van 55 miljoen tweets per dag verdeeld over 105 miljoen personen ~ 0.5 tweets per persoon per dag, dus: ~11500 / 0.5 = 23000 dagen
~ 63 jaar

Dus : om 167 Tb met 105 miljoen personen in dit tempo vol te krijgen met volle tweets kost de mensheid ongeveer 63 jaar....
Ervan uitgaande dat deze 167 Tb natuurlijk alleen gebruikt worden voor tweets...

(fouten in de berekeningen zullen zeker voorkomen, alles is sowieso bij benadering)

[Reactie gewijzigd door ikmattie op 24 juli 2024 16:44]

BlackHawkDesign @ikmattie • 15 april 2010 16:43

167 TB hebben ze al aan content van andere zaken, dat is dus niet hun totale opslag capiciteit:

die met speciale programma's steeds meer content digitaal opslaat en inmiddels 167TB data heeft

Op zich interessant om te zien wat er 'toen' in 2010 aan de hand was via twitter, maar volgens mij te veel data om later nog goed te kunnen filteren. Je kan wel gaan zoeken maar volgens mij is het niet echt waardevol.

[Reactie gewijzigd door BlackHawkDesign op 24 juli 2024 16:44]

ikmattie @BlackHawkDesign • 15 april 2010 18:57

Het ging er mij ook meer om om aan te geven hoeveel 167 TB is als je dat alleen met text wil vullen...

hoeksmarp @MaxMadu • 15 april 2010 14:27

Ik neem aan dat het voornamelijk om tekst gaat en eventueel wat jpeg afbeeldingen. Dan is 167 TB behoorlijk veel, imho.

AramisGold @MaxMadu • 15 april 2010 14:26

Een beetje bedrijf slaat z'n gegevens redundant op (en nog eens op een backup).

Verwijderd 15 april 2010 13:55

Blijft dat ook staan als iemand zijn account weg mikt om welke reden dan ook? Dat lijkt me wel een kleine privacy issue.

Verwijderd @Verwijderd • 15 april 2010 14:11

Niets van aan, dit is hoe twitter nu eenmaal werkt. Twitter is een dienst om tweets publiek te maken dus als je om privacy geeft moet je van de eerste plaats niet twitteren of goed uitkijken wat je twittert.

http://twitter.com/privacy

Verwijderd @Verwijderd • 15 april 2010 14:38

@flubug &Zer0

Dat zou je van alles kunnen zeggen op internet. Feit blijft wel dat mensen kunnen veranderen. Misschien heb je over 10 jaar spijt van iets wat je ooit eens de ether in geschoten hebt, ik ben er niet zo 1 die dan niet vind dat je dit niet mag rectificeren. En er zijn altijd uitzonderingen op de regel.

En wie zegt dat het over de privacy van de Twitteraar gaat, hoe zit het met de privacy van de persoon waar over getwitterd word? Ik noem maar wat hoor.

[Reactie gewijzigd door Verwijderd op 24 juli 2024 16:44]

Zer0 @Verwijderd • 15 april 2010 14:49

Misschien heb je over 10 jaar spijt van iets wat je ooit eens de ether in geschoten hebt

Worden er nu dan krantenartikelen van 10 jaar geleden opgezocht in de bieb en aangepast? Daarnaast heeft dat niks met privacy te maken.

En wie zegt dat het over de privacy van de Twitteraar gaat, hoe zit het met de privacy van de persoon waar over getwitterd word?

Die privacy is al geschonden op het moment dat er gepubliceerd is, en dan is het al wereldkundig gemaakt, en dus zinloos om het te verwijderen uit de bibliotheek.

Verwijderd @Zer0 • 15 april 2010 14:58

Dat is lang niet altijd waar hoor. Een nare mededeling over je buurvrouw gaat echt niet zo hard lopen als hetzelfde verhaal over celeb x en z. Deze zijn 9vd10 keer prima te verwijderen zonder dat het nog verstrekkende gevolgen gaat hebben.

Zer0 @Verwijderd • 15 april 2010 15:30

10 van de 10 keer zal de buurvrouw er echt geen moeite in willen steken om deze opmerking verwijderd te krijgen uit een of ander archief.

Verwijderd @Zer0 • 15 april 2010 15:34

Dat lijkt me bovenal niet aan jou om te bepalen.

psychodude @Zer0 • 16 april 2010 06:28

Krantenartikelen hoef je ook niet zozeer aan te passen, echter als jij in je tienerjaren net als menig ander leuk op sociale networking sites post over hoe bezopen je weer niet was het vorige weekend en met wie je het allemaal gedaan hebt, een reeks leuke foto's erbij om vervolgens 10 jaar na dato bij een sollicitatie de deur gewezen te worden op basis hiervan dan kun je best eens spijt hebben van wat je vroeger op het net gezet hebt.

En met de toename van controle op het internet bij sollicitaties, ook steeds meer in Europa, is het toch een uiterlijk jammerlijke zaak dat je nu slechts ongeveer 10 minuten bedenktijd hebt voor je informatie al is opgenomen in diensten als google cache. En staat het eenmaal in dat soort diensten, dan is het ook gelijk permanent beschikbaar voor anderen om in te zien; ongeacht of jij de bron wegneemt of niet.

Privacy speelt daarom voor de gemiddelde burger hierbij wel degelijk een belangrijke rol.

YopY @Verwijderd • 15 april 2010 14:41

Da's leuk en aardig, maar het kwaad is al geschiedt. Zodra je een tweet maakt, zijn er een half dozijn diensten die zich erop storten om een kopie van dat ding te maken. Zo gaat dat op het internet, en als je er spijt van krijgt, heb je pech gehad. Zelfde als een ietwat compromitterende foto van jezelf 'kwijtraken', dan ben je ook de sjaak, portretrecht of niet, en zeker op het internet.

Verwijderd @YopY • 15 april 2010 14:43

Dat vind ik nogal gechargeerd. Ten eerste is een foto kwijtraken van jezelf 9vd10 nog prima van internet te halen als het nog niet in de handen is van die parasieten van 4chan of iets dergelijks. Ten tweede is de twitter pagina van de gemiddelde average joe niet dermate boeiend dat het weghalen ervan niets uithaalt met de vindbaarheid er van. Weg is in zo'n geval wel degelijk weg.

[Reactie gewijzigd door Verwijderd op 24 juli 2024 16:44]

Zer0 @Verwijderd • 15 april 2010 15:28

Google cache, internet archives... nog genoeg plaatsen waar die foto waarschijnlijk wel te vinden is als hij gepubliceerd was op een bekende site als twitter. Ja, als hij op www.blaat.nu/djfsfwe/sdfsdf/wqerwer/ewrwerwer.jpeg stond niet, maar dat is niet vergelijkbaar met iets posten op twitter.com/username.

Zer0 @Verwijderd • 15 april 2010 14:09

Als je iets publiceert op een site als Twitter, en het dus beschikbaar stelt aan de gehele wereld, moet je niet gaan zeuren over privacy. Dan had je het niet moeten publiceren.

arjankoole @Zer0 • 15 april 2010 15:05

Als je iets publiceert op een site als Twitter, en het dus beschikbaar stelt aan de gehele wereld, moet je niet gaan zeuren over privacy. Dan had je het niet moeten publiceren.

Mijn instellingen zijn dusdanig dat alleen mensen die ik goedkeur als follower mijn tweets kunnen lezen. Dat zou hiermee ongedaan gemaakt worden, en wel degelijk een privacy issue in weze. Dat zou behoorlijk onacceptabel zijn.

edit: blijkt dat het uitsluitend om public tweets gaat, het is dus niet om de volledige twitter database.

[Reactie gewijzigd door arjankoole op 24 juli 2024 16:44]

Barleone @arjankoole • 15 april 2010 20:40

Dat zou dan dus blijken uit het volgende.

Tweet Preservation | Posted by @Biz at 11:56 AM:
It is our pleasure to donate access to the entire archive of public Tweets to the Library of Congress for preservation and research.

Mellow Jack @Verwijderd • 15 april 2010 14:27

Dat is het nadeel van het internet... Vrijwel alles wat jij online zet is niet verdwenen wanneer je het verwijderd

SunnieNL

@Verwijderd • 15 april 2010 14:37

het gaat om de publieke berichten. Die blijven gewoon bekend ja..
Als je niet wil dat het opgeslagen wordt, moet je private berichten gebruiken (dus niet het bericht ook op de publieke timeline zetten en alleen goedgekeurde followers toestaan).

RielN

Social networking

@Verwijderd • 15 april 2010 14:45

onzin, als je een artikeltje schrijft en drukt is het ook eeuwig bewaard.

JackPoint 15 april 2010 14:33

Zo kan een historici een leuke tijdlijn opbouwen. Net als de trending topics nu, kan je aan de hand van de gegevens kijken wat er op dag x voor bijzonders is gebeurd.

Stijn @JackPoint • 15 april 2010 15:04

...in de Westerse wereld.

Er moet niet uit het oog verloren worden dat Twitter vooralsnog niet echt zo wereldwijd is als men graag doet geloven en dus voor "archeologen" in de toekomst vooral van nut zal zijn als bron over een bepaald deel van de aarde (dat met internetaansluiting). Natuurlijk, in Afrika is ook heus wel internet, maar het gebruik van Twitter en dergelijke zaken staat qua volume niet in verhouding met hoeveel het in deze contreien (en wellicht ook Azië steeds meer, daar heb ik niet zo'n beeld over) gebruikt wordt.

stresstak @Stijn • 15 april 2010 16:58

...in de Westerse wereld.

De archeoloog van nu die geinteresseerd is in piramides gaat ook niet in Oost-Groningen graven. Als het op Twitter te vinden kan zijn zou ik er zeker gebruik van maken.

Extrema 15 april 2010 13:59

Twitter is geen privacy issue naar mijn idee. Gezien het hele idee Twitter is gebaseerd op je ding wereld kundig maken toch

Flowmo @Extrema • 15 april 2010 14:07

Je kan je account ook "private" maken en alleen mensen toestemming geven die je zelf wilt. Als dit op deze manier wereldkundig wordt gemaakt, dan vervalt het hele idee van die private accounts en dan kan het wel een privacy issue worden.

RielN

Social networking

@Flowmo • 15 april 2010 14:46

Als.

Psycho-18 @RielN • 15 april 2010 15:48

Wat dus niet gebeurt

want het zijn public tweets. Als ik zo mag lezen publiceren veel tweakers veel gevoelige informatie. Als je niet wil dat men het ziet, plaats het dan niet.

shades 15 april 2010 14:05

Kennis is macht en zaken opslaan is handig om in de toekomst onze history naar te gaan (nu dus ons heden) maar wtf - ik heb vandaag eens wat twitterkanaaltjes zitten lezen (eerste keer want ik vond het al een onzin om te lezen wat een ieder doet op ieder moment van de dag). Wat ongelofelijk veel onzin wordt daar naar toe gestuurd. Ik heb werkelijk niets gezien wat interessant goed zou kunnen zijn om te archiveren. Weinig toegevoegde waarde.. En ik ken echt mensen die geen dag zonder al die sociale netwerken kunnen.. ongelofelijk toch ?

musiman

@shades • 15 april 2010 14:10

Dan heb je de verkeerde feeds gelezen.

Zelf volg ik diverse leveranciers, zoals key personen binnen Microsoft, de algemene feeds van Microsoft en Novell en anderen. Verder geef ik tips over security zaken, geeft mijn werkgever info over last minute trainingen die je kunt boeken en zo kan ik nog heel lang door gaan.

Er zijn dus ook mensen die twitter gebruiken voor het near-realtime up-to-date houden van zijn kennis.

Kapotlood 15 april 2010 16:04

En heeft de (ex)gebruiker van Twitter zelf geen zeggenschap over wat er met zijn berichten gebeurt? Als ik als gebruiker niet wil dat dat congres om wat voor reden dan ook mijn berichten gebruikt voor reclames of strafrechtelijke onderzoeken (net als een asociale hoeveelheid telefoontaps bijvoorbeeld), heb ik daar als gebruiker daar dan geen mening over te geven?

musiman

@Kapotlood • 15 april 2010 16:18

Wanneer jij ervoor kiest om op straat een uitroep te doen, dan kun je iemand die dit opneemt op een mp3 speler niet tegenhouden. Je doet het immers op een openbare ruimte.

Ditzelfde geldt voor tweets die je de openbaarheid in gooit.

Ennuh... van mij mag de antropoloog van anno 2140 deze reactie van jou ook gewoon lezen en er zijn/haar waarde aan geven.

Verwijderd 15 april 2010 13:56

denk dat als iemand binnen 100 jaar die tweets te zien krijgt, die wel een erg raar beeld moet krijgen

Verwijderd 15 april 2010 13:57

Waarom is eigenlijk conserveren nodig bij Twitter berichten. Dit wil namelijk zeggen dat ze duurzaam gemaakt worden. Is er in de loop van de jaren dan iets veranderd aan de standaard die Twitter gebruikt.. of zie ik het nu scheef?

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (66)

Sorteer op:

Weergave: