UniSci heeft een artikel gepubliceerd waarin zij melden dat Zip-programma's accuraat de taal en zelfs de auteur van een document kunnen herkennen. Dario Benedetto en Emanuele Caglioti hebben dit aangetoond aan de hand van de compressie-efficiëntie. De basis van zip-programma's bestaat uit het opsporen van dubbele tekstelementen. Het programma slaat zo'n tekstelement één keer op en verwijst er bij meerdere instanties naar. Op dit moment houdt men zich alleen nog bezig met tekstbestanden, maar later kan deze analyse ook gebruikt gaan worden voor DNA, geologische processen en medische data. Hieronder een gedeelte uit het artikel:
The researchers found that file compression analysis worked well in identifying the language of files as short as twenty characters in length, and could correctly sort books by author more than 93% of the time.
Because subject matter often dictates vocabulary, a program based on the analysis could automatically classify documents by semantic content, leading to sophisticated search engines. The technique also provides a rigorous method for various linguistic applications, such as the study of the relationships among various languages.
Verwijderd bracht ons op de hoogte.