Nieuwe compressiemethode verkleint honderd keer

Winzip icon Reuters publiceert vandaag het bericht dat een bedrijf in Florida beweert een nieuwe compressietechniek gevonden te hebben, waardoor tot 100x minder opslagruimte voor data nodig zou zijn! Het is niet de eerste keer dat zulke verhalen opduiken, waarvan we later niet veel meer gehoord hebben. Demonstraties met de techniek zijn dan ook nog niet gegeven.

Het bedrijf, ZeoSync genaamd, heeft de techniek ontwikkeld in samenwerking met professoren van verschillende gerenommeerde Amerikaanse instituten als Harvard en MIT. Natuurlijk vertelt men niet hoe de techniek precies werkt, maar een tipje van de sluier wordt wel opgelicht:

Using mathematical terminology, the company said its technique "intentionally randomizes naturally occurring patterns to form entropy-like random sequences."

ZeoSync said it had applied for patent protection for a technology it calls Zero Space Tuner, and a related technique it calls BinaryAccelerator, which encodes data into perfectly reproducible compressed formats.

The company expects the technology to be in commercial use during 2003, it said.

Dus toch nog maar even wachten met de aanschaf van die DVD-brander, je weet immers maar nooit of CD-tjes genoeg blijken te zijn .

Reacties (128)

128

Wijzig sortering

joepP

8 januari 2002 17:46

Ik heb zeer mn twijfels

Als je de site van ZeoSync bekijkt, en het nieuwsbericht leest, valt op dat ze uitermate vaag zijn over het algoritme. Ze slepen alles van quantumtheorie tot klassieke mechanica erbij, gooien met leuke termen, maar een concreet voorbeeld van ook maar 1simpel bestandje is blijkbaar teveel gevraagd...

Als je verder goed leest merk je dat ze nog helemaal niets kunnen laten zien. Ze verwachten wel heel veel richting de toekomst. Je kan niet nu zeggen dat het over een jaar wel af zal zijn, een algoritme werkt wel, of een algoritme werkt niet. Zonder voorbeeld geen compressie.

Ze noemen ook allerlei universiteiten en instituren waar ze mee samen werken, maar verzuimen ook maar een enkele hoogleraar bij naam te noemen. Zo valt er dus helemaal niets te controleren.

99% zeker een hoaxje dus

hilgo 8 januari 2002 17:30

Ik vraag me af wat men precies bedoeld met data. Een tekst bestand 100x kleiner maken is minder indrukwekkend als bijv. een DiVX 100x kleiner maken. Misschien heb ik het gemist op die site van ze maar een duidelijk beeld van wat ze precies zo gruwelijk goed comprimeren kreeg ik niet

jvo @hilgo • 8 januari 2002 17:42

Hmmm, het 100x kleiner maken van een tekstbestand is al behoorlijk indrukwekkend. (10x ook al.) Bij DivX is de datastream al 100x met verlies ingepakt en is daarmee al 'verpest'.

Een video 100x zonder verlies inpakken is wellicht nog wel haalbaar en dat zou knap zijn.

Een tekstbestand 100x zonder verlies inpakken is hoogstwaarschijnlijk niet haalbaar (misschien kom je nog ergens (10x) als je tekst interpreteerd) en nog veel knapper.

Een DivX 100x zonder verlies inpakken is gewoon onzin.

Mr.Aargh @jvo • 8 januari 2002 20:28

Een tekstbestand 100x inpakken is goed te doen.
Beperkte character-set. Meest voorkomende woorden/letters vervang je door een kortere bitcodering. Goed compressie algoritme erover heen en je hebt een mogelijkheid om die 100x te halen.

Maar enfin .. dit soort verhalen zijn gewoon bullshit

jvo @Mr.Aargh • 9 januari 2002 15:35

En jij denkt dat je dan 100x kan inpakken? Nou, nee.

ta_chi79 @jvo • 8 januari 2002 22:03

Het compressen van een tekstbestand is heel goed te doen. Heb zelf mainframe output van enkele MBs teruggebracht tot enkele honderden kilobytes.
Toegegeven, er waren grote lappen "tekst" in die files van honderden spaties achter elkaar, dus dat is nou typisch data die ideaal is voor PKZip of zo...

Cruz @hilgo • 9 januari 2002 10:53

Using mathematical terminology, the company said its technique "intentionally randomizes naturally occurring patterns to form entropy-like random sequences."

DivX en MP3 zijn slecht te comprimeren doordat ze bijna compleet random inhoud hebben. Als ze een methode hebben gevonden om deze random inhoud (kort) te beschrijven, zou het wel mogelijk zijn om dit te comprimeren. Uiteraard is "100x" een verkooppraatje, maar ik verwacht zeker een significante compressie.

Het is met compressie altijd een gevecht geweest tussen rekenkracht en compressieratio. Met de huidige Gigahertz processoren wordt het wel weer tijd voor een nieuw algoritme.

Verwijderd 8 januari 2002 17:34

Zou het niet zo zijn dat 100x de maximale compressie is? Ik bedoel, als je een backup maakt van een webserver t.o.v. een backup van een Oracle database, zie je met de huidige compressie technieken op tape-drives hele andere resultaten. Gemiddeld compressed een webserver geloof ik 1.46:1 en een Oracle database 1.60:1. Geluidsbestanden kun je zo bewerken dat je onhoorbare frequenties wegknikkerd (MiniDisc) zodat je meer ruimte overhoud. Die truuk kun je echt niet met alle soorten data uithalen.

100 x is wel lekkerrrr

Ruudjah @Verwijderd • 8 januari 2002 19:15

Ik denk dat dit bedrijf heel veel formules heeft gevonden, waardoor data die 'hetzelfde' is, in een formule kan worden gedefinieerd. Als je maar genoeg formules vind, dan krijg je vanzelf wel dat je 98-99% van de data in formules kan stoppen. Hierdoor hoef je alleen de definities van de formules op te slaan, de eigenlijke data staat in de formule. Ik denk dat zo'n formule niet zo heel veel ruimte in beslag neemt, en daardoor wordt een hele hoge compressierate gehaald.

Verwijderd 8 januari 2002 17:28

Hmmz dat zulle alle HD fabrikanten lollig vinden.

betalen we strax ook nog meer voor een HD omdat de markt dan zo slecht is

Verwijderd 8 januari 2002 17:44

Maar hebben ze het in dit bericht over compressie met of zonder gegevensverlies. Met gegevensverlies is 100x goed mogelijk. Maar zonder gegevensverlies lijkt me alleen in uitzonderlijke gevallen.

Tripp 8 januari 2002 17:32

Ik denk dat je die 100x ietsie met een korreltje zout moet nemen. 100x zou natuurlijk welliswaar mogelijk zijn, maar dat is dat alleen in extreme gevallen.(dus eigenlijk 100x max)
Dus dat alleen sommige bestanden max 100x verkleind kunnen worden.

Ik denk niet dat een mp3tje 100x te verkleinen is omdat dat al behoorlijk gecomprimeerd is(ongeveer factor 10 op 128kb/s 44KHz stereo).
Als je bijvoorbeeld een mp3tje wilt zippen. Die zal niet veel kleiner worden.

We zullen zien

.

edit: net ietsie te laat.(ik was nog volop aan het typen) hilgo beweerd ongeveer hetzelfde

Verwijderd @Tripp • 8 januari 2002 21:36

Over dat MP3-tje zou je wel eens gelijk kunnen krijgen, en ik moet het allemaal nog eens zien. Scepticus als ik ben, ik denk wel at er hier iets aan de hand is dat nog wel eens zou kunnen werken.

Ik heb namelijk al eens eerder iets gezezen over deze technologie: compressie van data streams die op random binary sequences lijken.

Alle lossless compressie-methoden tot nu toe (bijvoorbeel Run-length, die zeer simpelrepeterende data herhaald, LZ die arbitrair herhalende data-sequences herhaald en Huffman/Arithmetic die veel voorkomende tekens korter opslaan) zijn altijd gebaseerd op het verwijderen van "lucht", zeg maar non-informatie, uit datastromen.

Dan heb je nog analytische compressiemethoden (zoals MPEG, DivX, MP3, etc.) die kijken hoe de data geinterpreteerd word (menselook oog, oor), en dan details wegflikkeren die je toch niet ziet/hoor. Wederom "lucht" verwijderen. Neem maar eens een gesprek op met een bandrecorder als je in de tuin zit en er een vliegtuig overkomt: je hoort alleen het vliegtuig op de opname, maar de VU-meters slaan ook nog uit op je stem: dat is precies wat MP3 weggooit.

Deze mensen beweren iets heel anders: blijkbaar random data (zeg, een MP3tje) nog veel meer kunnen comprimeren door (yadda yadda yadda, veel wiskunde) een kleine programma te vinden dat de grote hoeveelheid data kan hergenereren.

Zie het als een klein programmaatje van 2K dat een fractal kan tekenen, of Pi to 5 miljoen decimalen kan uitrekenen. De fractal zal niet goed met JPEG te comprimeren zijn, en het tekstbestand van 5Meg met Pi erin zal nooit zo klein zijn als het programmaatje dat dit 5 Meg bestand heeft gegenereerd.

Reden voor mijn anti-scepsis: er word al lang onderzoek gedaan naar dit onderwerp en heb er al meerdere papers over gelezen (geen flash sites dus, dat vertrouw ik nooit zo) en het schijnt gelimiteerd mogelijk te zijn.

Volgens mij de essentie hier:
- Dit gaat om random data compressie, dus zeg een MP3tje voor 'ie door de Huffman tables heengaat, of desnoods een ZIPje
- Encoding tijden zijn erg erg erg lang (ze hebben het ook nog niet goed snel aan de praat)
- Het zou mogelijk kunnen zijn, maar aangezien ze het zelf nog niet eens practisch (wel theoretisch op kleine datasets) werkend hebben is dit waarschijnlijk meer een poging van een bijna-failliet bedrijf om betere investeerders te vinden en aandacht te trekken dan een pre-product announcement.

Al met al verwacht ik wel dat er een doorbraak komt op dit gebied binnen tien jaar, of dat dit bedrijf zal zijn, Bob mag het weten, maar 't is niet alleen maar gebakken lucht.

</rant>

WFvN 8 januari 2002 17:26

Zou het niet zo zijn dat met het vergroten van de compressiefactor, de compressieprogramma's zelf groter moeten worden?

Ik ben razend benieuwd wat hier uit gaat komen en of we (net als bij de andere gevallen) er niets meer van zullen horen.

Wel tof trouwes...

Als zie die compressie dan ook op audio gaan toepassen; hoeveel Audio-CD's zouden er dan op een DVD passen?

Knakker @WFvN • 8 januari 2002 17:39

Zou het niet zo zijn dat met het vergroten van de compressiefactor, de compressieprogramma's zelf groter moeten worden?

In beginsel niet, omdat de compressie bepaald wordt door een wiskundig algoritme. De compressie(factor) heeft dus weinig te maken met de grootte van het programma waarmee je comprimeert.

RG @Knakker • 8 januari 2002 18:31

Dat hoeft niet. Een VQF audio decoder heeft altijd een library nodig met daarin vectors ofzo. En VQF is ook een heel wiskundige methode voor het comprimeren van audio, weliswaar niet lossles.

Verwijderd 8 januari 2002 17:39

ik weet dat de game Rip groep CLASS een geweldige compressor heeft, de .UHA packer.
die kan zo'n 800Mb in 120Mb kwijt, dat vind ik al knap!

JumpStart @Verwijderd • 8 januari 2002 17:53

die kan zo'n 800Mb in 120Mb kwijt, dat vind ik al knap!

En weet je hoe dat werkt ? Alle .wav files worden omgezet tot .mp3, en alle .bmp's en .tiff's worden omgezet tot .jpeg. Bij het installeren worden ze weer geconverteerd naar het originele bestand.

Resultaat: geluid is doffer en minder gedetailleerd en overal in het spel zie je de 'foutjes' die optreden bij zware .jpeg compressie.

Verwijderd @JumpStart • 9 januari 2002 17:01

En weet je hoe dat werkt ? Alle .wav files worden omgezet tot .mp3, en alle .bmp's en .tiff's worden omgezet tot .jpeg. Bij het installeren worden ze weer geconverteerd naar het originele bestand.

Er zit best een verschil tussen wat Mr. Braze zegt (uharc) en de bovenstaande technologie.
Uharc is een compressie-tool, evenals de bekendere concurenten winzip en winrar. Uharc pakt een stuk beter in, en kan inderdaad wel eens zulke compressie-ratio's halen (800:120, ofwel 1 op 7). Dit gebeurd, net als bij de concurentie, lossless. Duurt echter wel eeuwen voor het in- dan wel uitgepakt is.

een interessante link: [url="http://compression.ca."]http://compression.ca.[/url] Daar worden zo'n beetje alle lossless compressie tools getest. Overigens jammer dat de ontwikkelaar van Uharc er niet meer tijd voor maakt, met een gui en een self-extract-mogelijkheid zou het veel populairder kunnen worden.

De bovenstaande methode is, mits goed uitgevoerd, natuurlijk ook een optie. Eventueel met png compressie (lossless) voor de plaatjes(of hoge kwaliteit jpg). Dat, in combinatie met hoge kwaliteit .mp3's (ook altijd nog een compressie van 1 op 7) zorgt voor een stuk minder downloaden (dit zouden ze ook eens moeten gaan gebruiken voor bijvoorbeeld spel-demo's).

De technologie uit de nieuwsposting lijkt met trouwens vrij interessant, maar dan moeten ze eerst maar eens met een beta-versie komen o.i.d., dan ga ik er wel eens naar kijken.

.oisyn Moderator Devschuur® @Verwijderd • 8 januari 2002 18:01

uhm dat komt omdat ze geluidjes omzetten naar mp3 en beeld comprimeren ze ook met een lossy compression methode. Er is dus dataverlies

.edit: damn vergeten te refreshen voor het posten

froggie @.oisyn • 8 januari 2002 19:34

Ze comprimeren alleen het geluid (mp3) en de textures (jpg). Het beeld zelf kan natuurlijk niet gecomprimeerd worden want dat wordt realtime op je pc uitgevoerd

Verwijderd 8 januari 2002 17:33

Niet echt duidelijk, dit berichtje, maar volgens mij is iedereen hier vergeten dat er verschil is tussen compressie met en zonder gegevensverlies. Aan die laatste methode valt niet veel meer winst te maken, aan die eerste, waaronder JPEG en MPEG dus vallen, wordt nog volop gesleuteld.
Dus GEEN hoge compressie van gewone data, wel van beeld en geluid.

Krul @Verwijderd • 8 januari 2002 17:49

Als je het bericht gelezen hebt

zou je weten dat het hier om lossless data compression (of te wel zonder gegevensverlies) gaat.

* 786562 krul

Verwijderd @Krul • 9 januari 2002 09:18

want hier zijn wat betrouwbaardere partijen (Har(d)vard University) betrokken

Dat klopt niet. ZeoSync zegt dat Harvard erbij betrokken is. Op de website van Harvard wordt hierover echter met geen woord gerept. Je kunt hun site doorzoeken (Altavista-style). ZeoSync zegt hem niks, en onder 'new AND compression AND technologies' vindt hij ook niks, wat hiermee te maken heeft. Hetzelfde resultaat voor 'new AND compression' en voor 'compression'. Ze zullen wel een keer iemand van Harvard aan de telefoon gehad hebben ofzo. Maar als ze er mee bezig waren, had je dit terug kunnen vinden op hun site, die is altijd up-to-date.

Verwijderd @Krul • 8 januari 2002 17:59

ik heb, net als 90% van de lezers, alleen bovenstaande post gelezen. Alleen concludeert iedereen meteen dat het om lossless compressie gaat. En ik zeg alleen dat dat wel essentiele informatie is. Blijkbaar weten weinig mensen dat er onderscheid is.

EDIT: SORRY? OFFTOPIC? Flikker op zeg! Leer eerst eens lezen!

John_Glenn @Verwijderd • 8 januari 2002 19:51

Dat impliceert duidelijk verliesloze compressie

Nou nee, want mp3 is toch ook 'perfectly reproducible' te noemen (dwz realtime decodeerbaar en goed klinkend).

Verwijderd @Verwijderd • 8 januari 2002 20:29

Uit een MP3 bestand kun je de originele audiodata niet perfect reproduceren, wat blijkens bovenstaande tekst met BinaryAccelerator wel kan. De term perfectly reproducible wordt wel samen met MP3 genoemd maar dat slaat op de perfecte kopieën die van MP3 bestanden te maken zijn.

Verwijderd @Verwijderd • 9 januari 2002 09:02

If proven and successfully commercialized, the discovery asserted by ZeoSync Corp of West Palm Beach, Florida could overturn half a century of thinking in the field of lossless data compression and undermine business assumptions on which the telecommunications and other digital industries are based.

Het gaat dus inderdaad om lossless compressie. Hier staan ook nog een tweetal voorwaarden voor ZeoSync. Het moet nog bewezen worden, en het moet ook nog commercieel gemaakt worden.

Verwijderd @Verwijderd • 8 januari 2002 19:30

<quote>... encodes data into perfectly reproducible compressed formats.</quote>

Dat impliceert duidelijk verliesloze compressie.

Verwijderd @Krul • 8 januari 2002 18:12

Dat zipje bovenaan doet mij denken aan compressie zonder dataverlies, dus als je bijvoorbeeld een postscript file zipt. Als het werkelijk zoveel is dan kan je natuurlijk gewoon wav.zip gebruiken ipv mp3
maar de vraag is natuurlijk of mp3 bestanden zelf (die al minder lucht bevatten) ook nogeens te comprimeren zijn of DviX filmpjes. In ieder geval reuze interessant maar: "eerst zien dan geloven"

Dennizz 8 januari 2002 17:27

goede kwaliteit divx op credit card formaat cdr's

dvd's op cdr's branden ? als backup, damn 100x is errug strak, maar hoe lang doet een normaal pc'tje wel niet over t "zippen"

-=marauder=- @Dennizz • 9 januari 2002 10:25

maar gaat het hier over lossless compressie? (bijv een zip file, of over net zoiets als divx waar de kwaliteit gewoon minder wordt)

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (128)

Sorteer op:

Weergave: