Internet Archive wil ingekorte url's gaan veiligstellen

The Internet Archive gaat in samenwerking met meer dan twintig bedrijven ingekorte webadressen van onder andere Bit.ly en TinyURL pogen veilig te stellen. Dergelijke diensten worden volop gebruikt in diensten als Twitter.

Doordat Twitter-berichten een limiet van 140 tekens per post kennen, maken gebruikers van de berichtendienst gebruik van diensten die lange url's inkorten. Met name Bit.ly en TinyURL zijn populair. Alleen al via Bit.ly zouden dagelijks 40 miljoen url's ingekort worden. Internetarchivarissen vrezen echter dat veel van deze url's verloren kunnen gaan, omdat een groot aantal van deze diensten uit wankele startups bestaat waarvan de overlevingskansen op termijn nog moeten blijken. In augustus stond bijvoorbeeld Tr.im op de rand van de afgrond, al wist deze dienst toch in de lucht te blijven.

The Internet Archive gaat samenwerken met meer dan twintig inkortdiensten om zo zowel de verkorte url's als de oorspronkelijke url's op te slaan in een centrale database, zo schrijft The Wall Street Journal. De deelnemers zullen periodiek een database-dump naar de archivarissen sturen, die op hun beurt de data in een gesloten database zullen opslaan.

Met de kans dat miljoenen url's in de toekomst niet meer functioneren, lopen ook archiefdiensten, zoals The Wayback Machine van The Internet Archive, kans vervuild te raken met nietszeggende webadressen. Bovendien maken diverse juristen en advocaten gebruik van dit archief, waardoor potentieel bewijsmateriaal in rechtszaken verloren kan gaan omdat de url niet langer functioneert.

Mocht een van de deelnemers failliet gaan, dan zal de firma 301Works de dienst overnemen om er zo zeker van te zijn dat de ingekorte url's blijven functioneren. Ook kunnen consumenten via deze site compacte webadressen invoeren om te bekijken wat de oorspronkelijke url is. Een van de deelnemers aan het project heeft al aangegeven dat het zijn dienstverlening stop wil zetten en zijn gegevens zal overdragen aan 301Works, maar The Internet Archive wil de naam van dat bedrijf nog niet noemen. Wel is bekend dat de website TinyURL nog niet meedoet aan het project, maar de eigenaren zouden wel overwegen om mee te gaan doen.

IT-banen

Reacties (86)

wildhagen

Websites en community's
Internet

26 november 2009 08:59

Wat is hier het nut precies van? Alle ingekorte URL's verwijzen immers naar langere URL's (het origineel), en die worden nu toch al gewoon meegenomen, en zijn dus toch al vindbaar?

Die verkorte URL's zijn immers toch geen echte websites, maar alleen forwarders naar het origineel?

Lijkt me een beetje database-vervuiling, zoals het nieuwsartikel al zegt, als je straks elke site twee keer (één keer verkorte, één keer originele URL) krijgt.

SOCO_cola @wildhagen • 26 november 2009 09:02

GAat er juist om dat die websites die die tiny urls aanbieden niet de garantie geven over een jaar of 10 nog te bestaan.

wildhagen

Websites en community's
Internet

@SOCO_cola • 26 november 2009 09:03

Dat klopt inderdaad, zoals het artikel ook zegt, maar dan heb je toch de originele site nog, waar de TinyURL naar verwees?

Waarom moet je dan ook nog eens de TinyURL-site bewaren, náást het origineel?

Devil_Inside @wildhagen • 26 november 2009 09:08

Op sites zoals Twitter ed, worden alleen de korte urls weergegeven. Hoe ga jij de volledige url terughalen, als je alleen een korte url hebt, die naar niets meer verwijst, omdat de aanbieder ermee gestopt is.

Het is de bedoeling van The Internet Archive om een permanente koppeling bij te houden, zodat er altijd de mogelijkheid is om het oorspronkelijke adres van de TinyUrl, Bit.ly, ... terug te halen.

Robbaman @Devil_Inside • 26 november 2009 09:22

Wat een grappig idee is, maar wie zegt dat TIA er niet zelf mee op gaat houden? Ik weet niet precies wie de geldschieter achter TIA is, maar het is maar de vraag of deze tot in de lengte der dagen een soort veredelde backup dienst wil gaan sponsoren.

Verwijderd @Robbaman • 26 november 2009 09:29

Als juristen en advocaten nu al gebruik van de dienst maken heb je een gerede kans dat er geld mee te verdienen is. Als er tenslotte één branche is waar poen te halen is is het wel in de advocatuur.

hollandismad @Robbaman • 26 november 2009 10:04

Ik weet niet precies wie de geldschieter achter TIA is

http://www.archive.org/about/faqs.php#31

Het zijn er meerdere en ze nemen ook donaties aan.

Het is inderdaad niet echt een 100% stabiele basis, maar ik denk wel dat een project als deze steun van overheden kan krijgen in geval van nood.

CAPSLOCK2000

Internet
Websites en community's

@Robbaman • 26 november 2009 10:28

TIA heeft niet 1 geldschieter maar een hele boel, waaronder behoorlijk indrukwekkende jongens als de Amerikaans Library of Congres.

acemoo @Devil_Inside • 26 november 2009 09:30

Sites zoals Twitter zouden gewoon ook ingekorte urls moeten maken.

YopY @acemoo • 26 november 2009 09:49

Dat verplaatst het probleem alleen maar - wie zegt dat Twitter over tien jaar nog bestaat?

Geen twitter.com redirect service, geen redirects, geen werkende verkorte URLs, geen link.

fevenhuis @YopY • 26 november 2009 10:31

Net zoals verplaatsen naar Internet Archive ook een verplaatsing van het probleem is.

Ik denk dat grote websites als Twitter die er veel gebruik van maken ervoor zullen zorgen dat deze zaken niet verloren gaan, juist omdat ze er zoveel van afhankelijk zijn. Oftewel ik denk dat een site als Twitter zal proberen een site als TinyURL over te nomen mocht dat nodig zijn.

Nickname55 @YopY • 26 november 2009 13:12

De bedoeling is dan tuurlijk dat die urls alleen op twiter gebruikt worden. Als twiter er mee stopt, zijn de berichten niet meer te lezen dus de verkorte urls die daar in staan ook niet meer.

Drexz @acemoo • 26 november 2009 12:38

Ja of gewoon 140 tekens en een veld voor urls's. Dan hoef je die hele dienst niet te gebruiken en kost een url sowieso geen extra tekens

GrooV @Drexz • 27 november 2009 08:50

Dan krijg je juist een hele hoop spam

Garyu @Devil_Inside • 26 november 2009 10:33

Waarom gaat TIA dan niet zelf gelijk zo'n dienst aanbieden? Dat is misschien nog makkelijker?

feuniks @Garyu • 26 november 2009 10:39

Dat kunnen ze wel doen, maar zo lang de anderen blijven bestaan en mensen er gebruik van maken, heb je er niet veel aan. Het probleem blijft namelijk voor die diensten bestaan.

MaartenC @Devil_Inside • 26 november 2009 11:04

Als men systematisch zelf een DB bijhoud met alle verkorte url's met volledige link zodra ze gearchiveerd worden, heeft men in principe zelfs de medewerking van de bedrijven niet nodig mocht deze dienst wegvallen, alleen moet men dan alle verkorte urls zelf gaan herlinken in hun archief wat misschien te sterk belastend is voor hun systemen.

robvanwijk @MaartenC • 26 november 2009 20:15

Kun je doen, maar als de aanbieder zelf meewerkt kost het een stuk minder capaciteit. Bij bijvoorbeeld tinyurl (geen idee hoe het met de andere zit) had je oorspronkelijk een oplopend "getalletje" (ook al is het geëncodeerd via veel meer characters dan de tien cijfers, in essentie is het een oplopend veld, dat naar behoefte langer wordt). In dat geval kun je ze inderdaad één voor één opvragen. Maar ik heb ook al (iets minder tiny) urls gezien van de vorm "tinyurl.com/woord". Makkelijker te onthouden en over te typen (bijvoorbeeld uit een papieren tijdschrift), maar veel succes met opsporen welke woorden wel en niet bestaan.
Overigens, in het geval dat deze diensten (zelfs al is het alleen in uitzonderlijke gevallen) toestaan om het forward-adres aan te passen dan ga je helemaal besparen op load als je simpelweg een database dump aangeleverd krijgt, zonder medewerking van de aanbieder zit er niks anders op dan periodiek alle links opnieuw op te vragen om te controleren of ze nog naar hetzelfde adres wijzen.
Tot slot is er nog zoiets als de eigen mening van die aanbieders zelf. Als ze persé niet opgenomen willen worden in het Internet Archive dan kunnen ze dat via robots.txt (waar het Internet Archive zich netjes aan houdt) toch wel afdwingen. Dus het zonder toestemming indexeren van "dwarsliggers" is sowieso geen optie.

Ik kan me trouwens niet voorstellen dat er in de archieven geherlinkt gaat worden, dat is namelijk in strijd met het idee van "archiveren". Bovendien is het overbodig. Gewoon een pagina archive.org/shorturldb opzetten (inclusief support voor archive.org/shorturldb/200911262012/bitly/idnr als het haalbaar is) lost het probleem veel efficiënter op.

[Reactie gewijzigd door robvanwijk op 25 juli 2024 23:14]

GWTommy @Devil_Inside • 26 november 2009 15:05

Hopen dat Twitter tegen die tijd niet meer bestaat, heb je nu al dit gezeik ook niet.

Mellow Jack @wildhagen • 26 november 2009 09:17

Omdat TinyURL in veel tijdschriften worden gebruikt (in mijn geval wetenschappelijke tijdschriften) het zou daarom leuk zijn als je archieven van deze tijdschriften vind en de links daarin nog steeds werken

elmuerte @Mellow Jack • 26 november 2009 09:28

Welk wetenschappelijk tijdschrift gebruik TinyURL? Voor wetenschappelijke publicaties hebben ze DOI bedacht (een soort ISBN). En in referenties is het absoluut verboden om URLs te verbergen achter iets als TinyURL.

YopY @elmuerte • 26 november 2009 09:50

De Spits deed het, en ook de wat toegangkelijkere tijdschriften zoals Quest, als ik het me goed herinner.

En dat kan ik begrijpen, aangezien er vroegah soms zulke grote en fucked up URLs in stonden... da's niet in te typen door normale mensen.

Verwijderd @YopY • 26 november 2009 10:56

Normale mensen hebben enkel een memory van 140 tekens ofzo?

Daarom is twitter en shorten-url net slecht, je moet het geheugen stimuleren of het valt stil ... wat in veel gevallen al gebeurd is imo.

GreatDictator @Verwijderd • 26 november 2009 11:14

Nou ja, ik kan me wel voorstellen dat mensen url´s willen inkorten. Ik heb nu deze in m´n bronnenlijst staan:

http://www.bprbzk.nl/dsc?...Wno7p!8&!dsname=BPRextern

en dat is wat aan de lange kant

Maar goed, daar is een bronnenlijst nou eenmaal voor.

edit: hm, volgens mij kan daar een deel wel uit, sessionid spul. Maar goed.

[Reactie gewijzigd door GreatDictator op 25 juli 2024 23:14]

SPee @YopY • 26 november 2009 12:54

Zeker in kranten en tijdschriften waarin ze maar beperkt ruimte hebben voor tekst, is het zeer handig om zulke verkorte URL's te gebruiken.
Alleen waarom ze niet die URL op hun eigen site gebruiken (zoals b.v. de CT)

Malarky @elmuerte • 26 november 2009 10:03

Ik ken alleen Harvard-style vanuit economische studie en daar is dit absoluut niet toegestaan. In de Bibliografie moet een volledige link, in de referentielijst valt mogelijk nog wat te verzinnen voor hele lange links. Zover ik weet is dat bij de MLA, Chicago en APA style niet anders.

Wetenschappelijke tijdschriften gebruiken ook altijd een van de systemen. Overigens kom ik nog maar weinig wetenschappelijke artikelen met weblinks. Vrijwel altijd onderling linken en die artikelen worden ook weer bewaard in databases als JSTOR en EBSCO.

[Reactie gewijzigd door Malarky op 25 juli 2024 23:14]

Verwijderd @elmuerte • 26 november 2009 10:09

Lees de Quest maar eens... Misschien niet wetenschappelijk als jij het bedoeld, maar het staat er vol mee.

GreatDictator @Mellow Jack • 26 november 2009 09:24

Ik snap echt niet dat mensen dat doen. Ik ben zelf m´n scriptie aan het schrijven, en het komt echt niet bij me op om m´n referenties afhankelijk te maken van een vaag internetbedrijfje. Hang gewoon een voetnoot of andere verwijzing in de tekst, en gooi de originele url achter in je bronnenlijst.

ProfPi @GreatDictator • 26 november 2009 09:41

NHJ BV heeft helemaal gelijk. Voor wetenschappelijke publicaties is het een goede gewoonte altijd naar de originele bron te verwijzen, ongeacht de bron (presentatie, mondelinge discussie, artikel, en dus ook website).

Voor andere toepassingen kan ik me wel voorstellen dat ingekorte urls met referentie centraal gearchiveerd worden. Het directe voordeel voor TinyURL e.a. zie ik echter niet... Een soort verantwoordelijkheidsgevoel voor als ze over de kop gaan? Die database kunnen ze toch ook overhandigen wanneer de stekker eruit gaat?

Overigens, ook als je op minder recente, originele URLS zoekt vang je vaak bot omdat de aanbieder nog wel eens wat verplaatst of verwijdert.

robvanwijk @ProfPi • 26 november 2009 20:31

Ik vermoed dat Mellow Jack het vooral heeft over tijdschriften op papier. Je weet wel, van die dingen die niet zo lekker doorklikken, maar waar je alles over moet typen. Nou ben ik het met je eens dat het in een promotieonderzoek ofzo enigszins knullig staat om dat soort diensten te gebruiken. Persoonlijk zou ik liever bovenaan mijn bronnenlijst een url zetten dat niet super kort is maar wel "leesbaar", met de mededeling dat daar alle links, klikbaar, staan. Dan kun je in je referentielijst netjes de originele links volledig uitschrijven, zonder mensen te dwingen lange reeksen semi-random uitziende meuk over te moeten typen. Als je geen webpagina op een professioneel uitziend domein (van je eigen universiteit of onderzoeksinstituut) hebt, dan zou ik wel degelijk overwegen om in de referentielijst beide te vermelden: de originele link die nauwelijks over te typen is (voor de wetenschappelijke correctie) en een verkorte url ernaast (om het lezers aanzienlijk makkelijker te maken ze over te typen).

Snake @GreatDictator • 26 november 2009 09:34

Maar wat als je een link hebt naar een verkorte URL, en dat bedrijf bestaat niet meer.

Hoe kom je dan aan de originele?

Dan is dit interessant.

Verwijderd @Snake • 26 november 2009 10:17

Dan heb je dus een verouderd artikel blijkbaar, en zoek je zelf de bron maar op.
Als je een oude magazine hebt, heb je ook grote kans dat veel telefoonnummers veranderd zijn! En dan moet je dus zelf even wat moeite doen om die te achterhalen.

Als ergens een verkleind URL gepubliceerd word, zal het vandaag nog wel werken.
Zaak is dan, als je het intressant vind, je er dan ook vandaag heen gaat, en dan zit de originele URL in jouw cache. En als je het echt intressant vind, maak je er een bookmark van. Van de lange url dus. Want die verschijnt altijd in je adresbalk, die is niet geheim ofzo!

pizzafried @Snake • 26 november 2009 23:37

dat zegt ie net...plak de originele url achter in je bronnenlijst...want als je nu een verkorte url vind word je geredirect naar de originele url. dan kopieer jij de lange url uit je adresbalk en klaar...

sjunnie @GreatDictator • 26 november 2009 11:03

Hang gewoon een voetnoot of andere verwijzing in de tekst, en gooi de originele url achter in je bronnenlijst.

waarmee die verwijzing dus op zich al een "tiny url" is, alleen dan zonder de externe dienst. Het principe is nauwelijks anders.

Het grootste nadeel van diensten als tinyurl vind ik dat je van tevoren niet kunt zien op welk (mogelijk malafide) domein je terecht gaat komen. Je moet dus vertrouwen op de auteur welke de tinyurl plaatst.

GreatDictator @sjunnie • 26 november 2009 11:13

Ehm, er is nogal verchil tussen een online database waar je een URL kunt opzoeken, en een voetnoot met verwijzing naar je bronnenlijst achterin hetzelfde artikel.

En inderdaad, ik klik ook zelden op tinyurl links omdat ik wel vantevoren wil kunnen zien op welk domein ik terechtkom.

Blokker_1999

Websites en community's
Internet

@wildhagen • 26 november 2009 09:09

niet de site, wel de link, als je dan in het archief een pagina bekijkt die een ingekorte url gebruikt dat je ook nog kan terugvinden in het archief waar deze url naar toe ging.

Morrar @Blokker_1999 • 26 november 2009 09:53

Wat ik dan niet snap is het volgende:

Je hebt een TinyURL link, zeg: tiny.cc/3kTVQ

Nu gaat TinyURL op de fles. Dan denk je: goed alle hashes zitten toch in de DB van TIA, dus who cares? Maar dan moet TIA wel het tiny.cc domein ook overnemen anders is de boel alsnog naar de haaien... Ik kan me voorstellen dat Tiny dat domein niet zomaar weggeeft en daar dan een dikke smak geld voor wil zien (bijvoorbeeld om zonder schade uit het faillissement te komen). Dus ik betwijfel of dit echt gaat werken, of zie ik iets over het hoofd?

Of willen ze het andersom doen en moet elke website die een TinyURL bevat alle berichten gaan parsen om tiny.cc te vervangen door tia.com of iets dergelijks? Lijkt me ook niet erg werkbaar en voor links op papier ook geen oplossing...

[Reactie gewijzigd door Morrar op 25 juli 2024 23:14]

antiekeradio @Morrar • 26 november 2009 10:07

TIA is dan ook niet bedoeld voor links op papier.

kan me inderdaad voorstellen dat ze de aanwezige tinyURL links parsen en vervangen door de originele (lange) url.

AlexanderB @antiekeradio • 26 november 2009 11:24

ze parsen en vervangen de url's in de archiefpagina's dat de originele pagina's dan niet meer werken is niet het probleem van TIA maar van de originele webhoster..

op zich leuk, zo kan je teruggaan naar websites die allang niet meer bestaan

helaas zijn ze meestal lang niet compleet, maar gewoon gecrawlde momentopnames..

pizzafried @Morrar • 26 november 2009 23:34

tiny.cc is domein waarop de parser draait
achter de slash staat een code...die word geparsed endaarmee word achterhaald welke link daar achter zit...dus als ik die code van tinyURL bemachtig en installeer op mn eigen server dan kan ik dus bijvoorbeeld domein.tld/3kTVQ draaien...

Verwijderd @wildhagen • 26 november 2009 09:08

Omdat je dan misschien een url hebt van tinyurl die je anders niet kan natrekken?

page404 @wildhagen • 26 november 2009 09:45

verbazend hoe weinig mensen hier eigenlijk begrijpen wat het principe van een ingekorte url is en hoe het werkt.

Verwijderd @page404 • 26 november 2009 10:11

korte url met als functie ruimtebesparing. Wie er op klikt krijgt redirect naar de door de auteur gedefinieerde webpagina.

Xthemes.us @Verwijderd • 26 november 2009 11:39

Niet enkel ruimtebesparing, ook omdat het makkelijker over te tikken is wat de hoofdreden in boeken/magazines zal zijn.
Als jij een meerdere stappen formulier opstelt waar alle voorgaande stappen in de URL zelf worden opgeslagen.

Bekropt voorbeeld:
site.com/index.php?step=3&product=Azas241F5s1&coating=#cecece&base=#ffffff&supplier=ProductsInc
(etc etc)

Dan is dat iets lastiger intikken dan shortenedurl.com/saXad1

Verwijderd @wildhagen • 26 november 2009 23:40

Dat gebeurt helemaal niet, wat er wordt bewaard is de site waar de korte URL naar verwees, dus juist de LINK naar het origineel, vanuit de verkorte URL. Erg goed.
Dat vervuilt helemaal geen database, dat is per adres 1 regeltje extra text, die de wereld een garantie geeft na de dood van de forwarder nog steeds de info van de sites te kunnen tonen waar naar verwezen (gelinked) werd.

kmf @wildhagen • 26 november 2009 09:03

dat je met de korte link op een gearchiveerde site, een andere gearchiveerde pagina kan openen.

bramseltje @wildhagen • 26 november 2009 09:04

Als je de bestemming van die korte link niet meer hebt, worden alle gearchiveerde korte links op twitter en dergelijken waardeloos.

Het idee is dan ook om de waarde van twitterberichten te behouden door ook de originele links te bewaren, juist vanwege het feit dat de url zelf geen pagina bevat en dus anders niet gearchiveerd zou worden.

High-Voltage2 @wildhagen • 26 november 2009 09:04

Wat is hier het nut precies van? Alle ingekorte URL's verwijzen immers naar langere URL's (het origineel), en die worden nu toch al gewoon meegenomen, en zijn dus toch al vindbaar?

Zoals ik het begrijp kan het bijvoorbeeld zinvol zijn bij een onderzoek. Stel dat er ergens in de chatlogs een verkorte URL staat, dan is het handig om te weten waar die naar verwijst. Als het bedrijf opgedoekt is en de database is weg, dan weet je dus niet meer naar welke website gerefereerd wordt. Een doodlopend spoor dus...

GreatDictator @wildhagen • 26 november 2009 09:05

Mensen gebruiken een korte URL van TinyURL. Als je op de link klikt wordt je in de eerste instantie naar TinyURL gestuurd, en die stuurt je door naar je doelpagina. Als TinyURL dus uit de lucht gaat is je link dus dood. Als je dan vervolgens een archiefpagina hebt vol met TinyURLs dan kun je daar niks meer mee in de toekomst, omdat je niet kunt achterhalen waar de link oorspronkelijk heen verwees.

Bulldock @wildhagen • 26 november 2009 09:06

Door simpel een database op te zetten waarin de ingekorte urls verbonden zijn aan de daadwerkelijke url heb je niet elke site twee keer. Als iemand het archief wil inzien van de korte url, wordt automatisch in de database gezocht naar de echte url en daarvan het archief weergegeven. Het wordt dus zeg maar een soort van zonefile archief. Althans dat lijkt me de bedoeling.

SOCO_cola 26 november 2009 09:01

Heb sowieso nooit echt het nut van het archief ingezien. Pagina's zonder images zijn meestal nietszeggend. Zou ook niet weten waarvoor ik het zou kunnen gebruiken.

wildhagen

Websites en community's
Internet

@SOCO_cola • 26 november 2009 09:02

Op zich een goed punt idd, en je kan meestal och niet meer navigeren op zo'n site, omdat veel (zo niet, alle) links dan al dood zijn, als de oorspronkelijke site er niet meer is.

Daarnaast, je hebt toch nog Google Cache, als een site down is of niet meer bestaat? Vind die laatste over het algmeen nog beter bruikbaar dan Internet Archive of vergelijkbare sites ook nog.

elmuerte @wildhagen • 26 november 2009 09:32

Google Cache is zeer tijdelijk. Binnen een aantal weken is de cache voor een website die niet meer bestaat ook echt weg.

Blokker_1999

Websites en community's
Internet

@SOCO_cola • 26 november 2009 09:10

Niet alle images worden opgeslagen, maar er worden er toch genoeg gearchiveerd. En vaak gaat een pagina helemaal niet over die images. Toegegeven de layout kan er dan ineens vreemd uitzien maar de content is er nog.

SOCO_cola @Blokker_1999 • 26 november 2009 09:13

dan vind ik dus vaak niet het geval, de links werken niet meer dus meestal heb ik er niet zo veel meer aan, maar dat zal vooral gebaseerd zijn op persoonlijke ervaring met het archief

Verwijderd @SOCO_cola • 26 november 2009 09:04

Ben ik het niet mee eens, er is gewoon nog zoveel informatie op te vinden dat ik dit in het verleden zeker gebruikt heb.
Als voorbeeld een projectje van iemand die een IRC bot had geschreven in Python genaamd Supybot. Ik wou er nog guides en tips e.d. over teruglezen maar de website bestond niet meer, dus via The Internet Archive toch nog de benodigde informatie kunnen vinden. Echt een uitkomst dus omdat de kennis niet langer meer verloren gaat wanneer de eigenaren de support stop zetten.

ameesters @SOCO_cola • 26 november 2009 09:19

Heb sowieso nooit echt het nut van het archief ingezien. Pagina's zonder images zijn meestal nietszeggend. Zou ook niet weten waarvoor ik het zou kunnen gebruiken.

misschien om te lezen?

google cache voldoet niet wat zodra de cache refreshed is het dus ook verdwenen...

Het archief zorgt ervoor dat het terug te vinden is, en lijkt mij dus een waardevolle toevoeging aan het internet!

zanza006 @SOCO_cola • 26 november 2009 10:39

Vroeger dacht ik dat ook. Wrm het internet archieveren.
Ik heb wel al voor paar situaties gestaan waar het best handig was.
- Om nieuw prijs te weten van een server anno 2004
- Info verzamelen uit zeer oude producten. (die niet meer terug te vinden zijn op de hedendaagse site van de fabrikant)
- ...

Verwijderd 26 november 2009 09:17

Moeten we dan echt alles gaan bewaren? We worden al elke dag overspoeld met negatieve berichten over het klimaat, energieverbruik, grondstoffen ... en dan gaan we nog eens zoveel energie steken in het bijhouden van een hele hoop nutteloze informatie. Uiteraard is er ook een hele hoop nuttige informatie in terug te vinden maar je kan de discussie wat gaan we wel bijhouden & niet bijhouden niet blijven uitstellen hé. We doen al heel veel moeite om datacenters etc. een stuk milieuvriendelijker te maken maar als we ook de opslag kunnen beperken van grote hoeveelheden data (of de manier waarop) is dat een dubbele vooruitgang imho ...

elmuerte @Verwijderd • 26 november 2009 09:35

Wat nu misschien nutteloos lijkt kan in de toekomst zeer waardevol zijn. Als men in de afgelopen 50.000 jaar informatie had bijgehouden over temperatuur, CO₂ levels, etc. dan hadden ze nu niet hoeven te werken met extreem gextrapoleerde tijfelachtige informatie.

MelodyDeluxe @elmuerte • 26 november 2009 09:43

ja want de twitterberichten gaan ook over dat soort dingen

"ik zit nu in de auto naar het werk" de temeratuur is 15 graden

Verwijderd @elmuerte • 26 november 2009 09:59

Akkoord, maar het gaat over de relevantie van de data, zoals torp hierboven bijvoorbeeld zegt dat hij alle mailtjes sinds 1997 heeft bewaard. Moeten die binnen mailtjes binnen 1000 jaar ook voor historici beschikbaar kunnen zijn? Moeten die alleen bijgehouden worden zolang hij leeft & hoe lang gaat hij dat zelf nog kunnen beslissen met een overheid die steeds meer grip probeert te krijgen op onze privacy.

Maar om terug te komen op jouw voorbeeld, stel dat we inderdaad alle data gaan bijhouden over de afgelopen 50.000 jaar wat betreft temperatuur, CO₂. Hoe ga je dat indelen, per dag, per locatie, per uur, per minuut? Nu statistiek kan je nog enigszins verantwoorden of er structuur in scheppen maar neem nu bijvoorbeeld 'multimedia content' (teksten, berichten, foto's, video's, ...), wat doe je daar mee? Ooit gaan we als mens denk ik tot het besef dat we niet niet 'alles' kunnen bijhouden, niet omdat we het niet kunnen maar omdat we er te afhankelijk van gaan worden ...

Orian @Verwijderd • 26 november 2009 16:18

Ik weet anders zeker dat archeologen zich in de 7e hemel vinden als ze ergens een opslagplaats vinden van 1000en "huis tuin en keuken" brieven van de Egyptenaren hoor. Hoewel het wellicht alleen maar een boodschappenlijstje is, is het wel een "teken van leven". Het geeft aan hoe het leven van alledag er toen uitzag.

En over 1000, laat staan 50.000 jaar zullen ze heel blij zijn met dit archief (ervanuitgaand dat het nog bestaat, al betwijfel ik dat)

torp @Verwijderd • 26 november 2009 09:28

Je hebt wel een beetje gelijk, we hebben tegenwoordig nogal last van volledigheidsdrang.
Bijvoorbeeld, dankzij de digitale fotografie wordt nu elke ontwikkeling van kinderen, hoe klein ook, vastgelegd. Want je hoeft toch geen rolletje meer te kopen en de opslagmogelijkheden lijken oneindig.
Zo heb ik ook al mijn mailtjes vanaf 1997 bewaard, 'voor het geval dat'. In de praktijk doe ik er eigenlijk nooit wat mee.

Verwijderd @Verwijderd • 26 november 2009 09:29

Wauw. Ik had nooit gedacht dat er tweakers bestonden die tegen archivering van de geschiedenis zouden zijn. Maar er zijn er hier blijkbaar meerdere

Hoe meer er wordt gearchiveerd, hoe beter ze binnen 1000jaar hun geschiedenis kunnen begrijpen. En er zijn veel betere maatregelen voor het mileu dan de archivering van onze cultuur op te doeken!

Verwijderd @Verwijderd • 26 november 2009 10:44

Het gaat niet om de archivering als je goed leest, maar om de opsporing van terroristen en de KP hetze.

. Bovendien maken diverse juristen en advocaten gebruik van dit archief, waardoor potentieel bewijsmateriaal in rechtszaken verloren kan gaan omdat de url niet langer functioneert.

Verwijderd @Verwijderd • 26 november 2009 11:08

maar om de opsporing van terroristen en de KP hetze

Als je goed leest zie je dat terrorisme en KP nergens worden genoemd. Juristen en advocaten houden zich met veel meer zaken bezig dan alleen vervolging van verdachten, ze houden zich onder andere ook met civiele zaken bezig.

MelodyDeluxe 26 november 2009 09:39

en wat nu als je over een jaar de twitterberichten niet meer kan lezen? ik zou serieus niet weten wie dat nu wil terugbladeren. op zich een auto-clean die je history na verloop van tijd uitwist toch? maar goed - google wil take it all anyway.

page404 @MelodyDeluxe • 26 november 2009 09:50

misschien omdat tinyurls niet alleen in twitterberichten gebruikt worden?

Verwijderd @page404 • 26 november 2009 10:08

Indd. Blader maar eens wat tijdschriften door. Quest, bijvoorbeeld, staat vol met tinyUrls. Stel dat tunyUrl flopt, dat zijn al die oude quests niet meer te controleren (bronnen).

Verwijderd 26 november 2009 09:36

Zou je als bedrijf (zoals Twitter) er niet voor zorgen dat je onafhankelijk bent van andere bedrijven en zoiets simpels als ingekorte URL's standaard in je software verwerken? Dat lijkt mij een projectje van een paar weken.

YopY @Verwijderd • 26 november 2009 09:52

Dan verplaats je het probleem naar Twitter - wat als die over 10 jaar niet meer bestaat? Weg redirect dienst. Maar alles van Twitter staat dan nog wél in het internet archive. Als Twitter.com dan niet meer bestaat, zouden die redirects / korte URLs ook niet meer werken. Daar gaat dit om. Het gaat niet om Twitter, het gaat om Twitter in het Internet Archive.

Verwijderd 26 november 2009 10:07

Ik denk dat dit, ook al heb je commentaar, toch wel iets is om over na te denken. Vooral als justitie ingekorte urls gaat gebruiken, is het einde helemaal zoek. Zowieso is het dom om alleen urls te bewaren, uitgaande van het feit dat ik het over justitie heb. Je hebt dan de pagina toch ook wel opgeslagen of zelfs uitgeprint?

Vragen, vragen vragen. Goed initiatief. Wie een beter idee heeft moet het zeggen

Siira 26 november 2009 10:28

Je kan natuurlijk ook in je archief de korte URLs omzetten naar het lange originele URL. Ik was eigenlijk in de veronderstelling dat dat al het geval was.

Wat betreft papieren archieven is het inderdaad een punt. Die kun je moeilijk aanpassen

? ? 26 november 2009 10:36

Voor wie de referentie (of grap) van de naam van het bedrijf 301Works niet doorheeft:
http://en.wikipedia.org/wiki/HTTP_301

AOC 26 november 2009 15:25

ook vervelend als je erg gek bent op geografische statistieken. Als alles afkomt van de site tinyurl, dan loop je veel informatie mis, of heb ik het nou verkeerd?

ThomasG @AOC • 26 november 2009 22:13

Dat zie je verkeerd, aangezien je deze statistieken niet baseert op referer gegevens, maar op bijvoorbeeld het ip adres van de client. Als TinyURL een proxy was geweest, had het wel een probleem kunnen vormen. Bijhouden vanaf welke website de bezoeker komt is om deze manier niet meer mogelijk.

Barleone 26 november 2009 11:29

Artikel: Met de kans dat miljoenen miljarden url's in de toekomst niet meer functioneren

40miljoen x 100 dagen is al 4 miljard. Dat tikt wel aan ja als zo'n dienst het bijltje er bij neergooit.

Zouden die diensten nou eerder afgekorte url's hergebruiken? Als 2 gebruikers vlak na elkaar dezelfde url willen inkorten? Dat zou al helpen bij het beperken van de databasekosten van zo'n dienst.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (86)

Sorteer op:

Weergave: