In weze zijn dus alleen de router logbestanden nodig, niet de feitelijke data. We hebben het dan over tekst bestanden die ontzetten gecomprimeerd kunnen worden.
Net effe gekeken grootste bestand voor Maart was 840MB gecomprimeerd bestand, wat evereen komt met 29GB aan feitelijke log data (dit is één dag op onze eigen servers, en bestaat uit router, firewall, mrtg, nagios, w3c, error_log, access_log, en alle voor ons relevante log bestanden).
18 maanden = 548 dagen. Dus voor ons komt 18 maanden opslag neer op 460GB, waarbij een 500GB hardeschijf $130 kost, gut gut gut.
Nu zijn wij geen ISP, dus kan geen echte vergelijking maken, maar onze backbone structuur is niet misselijk, dus zal me niks verbazen als het toch redelijk in de buurt komt.
@ronny, de log bestanden bevatten redelijk veel informatie, de access_log bestanden van Apache bijvoorbeeld bevatten jouw IP, datum/tijdstip, HTTP commando, browser versie, hoe lang je nodig had om dat bestand/pagina te downloaden, etc. Daarom comprimeren ze ook ontzettend goed, als jij een website bezoekt dan heb je tegenwoordig al minimaal 20 verbindingen nodig, html bestand, css bestand, javascript bestand, favicon.ico, en alle plaatjes die op de site gebruikt worden. Elke verbinding staat dan apart in het logbestand.
Elke webserver, waarbij Apache en IIS zo'n beetje 99% voor hun rekening nemen, ondersteunen het W3C log formaat:
http://www.w3.org/TR/WD-logfile.html
En geloof maar, dat die optie voor iedere website gebruikt wordt.
@TD-er, wij kunnen de data ook niet real-time comprimeren, maar dat hoeft ook niet. Tussen 01:00 en 05:00 draaien alle backup/comprimeer/rsync scripts. Alle individuele servers verspreid over talloze datacenters/NOCs wereldwijd, comprimeren het zelf in gtz (Linux servers) of tar (Windows servers) formaat en via rsync (--bwlimit=40000 optie is zeer handig voor ons) worden die gegevens dan centraal bij ons opgeslagen voor analyse.
De dataretentie wet verlangt dus alleen maar dat de ISP de enkele bytes aan log data bewaart, waar instaat ip/datum/tijd/etc van degene die dat 4.35GB ISO bestand heeft gedownload. Het verschil tussen feitelijke data wat verstuurt wordt en het log bestand die dat kan bijhouden is gigantisch. Wij hebben enkele download/mirror servers, en een 150MB access_log bestand (wat dus comprimeert tot vaak minder dan 5MB), beslaat soms 20TB aan feitelijke data wat dan gedownload is.
@Ron.IT:
Alle data comprimeren gaat je met 1 bedrijfje nog wel lukken in een goede dag, maar de hoeveelheid data die een provider moet loggen is gewoon niet realtime te comprimeren naar een dergelijke compressie-ratio.
Daarnaast is die data compleet niet meer te doorzoeken als het gecomprimeerd is.
In een eerder topic is al eens aangegeven dat alle data die gelogged moet worden ongeveer 1/10e is van de totale traffic over het internet.
Op de teller van XS4all (die nu offline is) stond een gemiddelde pakketgrootte van 630 Bytes en de header-info is in de orde van 60 Bytes.
Mischien dat voor elke connectie alleen maar gelogged hoeft te worden en dan is dat pak 'm beet nog "maar" 10% daarvan. (volgens de regel; het is niet 1x en niet 100x, dus het is 10x) Dan hebben we het dus over zo'n 1% van het totale verkeer.
Het verkeer over de AMS-IX is nu zo'n 165 Gb/s. 1% daarvan is zo'n 200 MB/s, oftewel zo'n 720 GB/uur.
Aangezien ook het verkeer in NL zelf gelogged moet worden, zal het totaal wel een flinke factor meer zijn.
Dan zit je al op zo'n orde van 1000 euro/uur als je de allergoedkoopste schijven neemt, geen redundantie inbouwt, niet de overige hardware meerekent, etc.
Dat is dan al zo'n 10 - 20 miljoen euro gedurende die 18 maand, puur en alleen aan schijven, voor de absoluut minimale opslagruimte. (even aangenomen dat het verkeer gelijk toeneemt met de afname van de prijs/GB, zodat de kosten voor de opslag gelijk blijven)
Al met al zou het mij niets verbazen als dat voor heel NL in de 100 miljoen zou gaan vallen, gedurende 18 maand. (uurloon, overige hardware etc)
Om jou dan nog maar even te quoten

gut gut gut.
100 miljoen is natuurlijk nog niets.
Wat dacht je van het salaris van al die mensen die de honderden Terrabytes moeten gaan doorzoeken om al die Nederlandse terroristen te vinden?
Maar dat salaris van de mensen die het moet doorzoeken moet betaald worden door de overheid.
Die 100 miljoen voor de opslag moet betaald worden door gewone bedrijven.
Niet dat het dan minder zonde is van het geld, maar dan moet de overheid die uitgave eerst goedkeuren.
Het verplicht stellen van het loggen kost de overheid niets, dus daarvoor is vrijwel geen weerstand binnen de overheid. Pas zodra er geld uit een potje gehaald moet worden, gaan mensen (soms) nadenken.