In weze zijn dus alleen de router logbestanden nodig, niet de feitelijke data. We hebben het dan over tekst bestanden die ontzetten gecomprimeerd kunnen worden.
Net effe gekeken grootste bestand voor Maart was 840MB gecomprimeerd bestand, wat evereen komt met 29GB aan feitelijke log data (dit is één dag op onze eigen servers, en bestaat uit router, firewall, mrtg, nagios, w3c, error_log, access_log, en alle voor ons relevante log bestanden).
18 maanden = 548 dagen. Dus voor ons komt 18 maanden opslag neer op 460GB, waarbij een 500GB hardeschijf $130 kost, gut gut gut.
Nu zijn wij geen ISP, dus kan geen echte vergelijking maken, maar onze backbone structuur is niet misselijk, dus zal me niks verbazen als het toch redelijk in de buurt komt.
@ronny, de log bestanden bevatten redelijk veel informatie, de access_log bestanden van Apache bijvoorbeeld bevatten jouw IP, datum/tijdstip, HTTP commando, browser versie, hoe lang je nodig had om dat bestand/pagina te downloaden, etc. Daarom comprimeren ze ook ontzettend goed, als jij een website bezoekt dan heb je tegenwoordig al minimaal 20 verbindingen nodig, html bestand, css bestand, javascript bestand, favicon.ico, en alle plaatjes die op de site gebruikt worden. Elke verbinding staat dan apart in het logbestand.
Elke webserver, waarbij Apache en IIS zo'n beetje 99% voor hun rekening nemen, ondersteunen het W3C log formaat:
http://www.w3.org/TR/WD-logfile.html
En geloof maar, dat die optie voor iedere website gebruikt wordt.
@TD-er, wij kunnen de data ook niet real-time comprimeren, maar dat hoeft ook niet. Tussen 01:00 en 05:00 draaien alle backup/comprimeer/rsync scripts. Alle individuele servers verspreid over talloze datacenters/NOCs wereldwijd, comprimeren het zelf in gtz (Linux servers) of tar (Windows servers) formaat en via rsync (--bwlimit=40000 optie is zeer handig voor ons) worden die gegevens dan centraal bij ons opgeslagen voor analyse.
De dataretentie wet verlangt dus alleen maar dat de ISP de enkele bytes aan log data bewaart, waar instaat ip/datum/tijd/etc van degene die dat 4.35GB ISO bestand heeft gedownload. Het verschil tussen feitelijke data wat verstuurt wordt en het log bestand die dat kan bijhouden is gigantisch. Wij hebben enkele download/mirror servers, en een 150MB access_log bestand (wat dus comprimeert tot vaak minder dan 5MB), beslaat soms 20TB aan feitelijke data wat dan gedownload is.