Als je denkt dat de manier waarop je iets zegt of schrijft origineel is, kom je bedrogen uit op News.com. Twee Amerikaanse onderzoekers hebben namelijk een programma ontwikkeld dat in staat is korte nieuwsberichten, zoals die van het persbureau Reuters, in andere woorden te herschrijven. Parafraseren, zoals dit heet, doen mensen zonder er bij na te denken. We kunnen op vele manieren, gebruik makend van ongeveer dezelfde woorden, dezelfde informatie overbrengen. Om dit aan computers te leren zijn echter complexe technieken nodig. De regels der grammatica zijn immers niet zo simpel in een programma te vatten.
Het startpunt van het onderzoek was het domein waarop het programma zijn werk doet, te verkleinen naar korte nieuwsberichten. Zoals iemand die ooit doorklikt naar de Reuters-artikelen waar we bij Tweakers.net over schrijven weet, zijn deze artikelen vaak kort en bondig geschreven in enigzins formeel taalgebruik. Artikelen geschreven tussen september 2000 en augustus 2002 werden in de computer ingevoerd en door een statistisch programma verwerkt. De technieken om uit de woordenbrij informatie te halen leenden de onderzoekers van de genetische biologie. De manier van zinnenbouwen werd opgeslagen en vergelijkingen tussen verschillende zinnen met woorden van dezelfde betekenis werden gemaakt, net zoals biologen zoeken naar gelijkenissen in genetisch materiaal. Nadat voldoende informatie was toegevoegd kon de computer op eigen houtje gelijkwaardige zinnen produceren.
Op het moment dat het programma gevraagd wordt een zin te herschrijven, zoekt het naar woorden van gelijke betekenis en zinsbouwen waarin woorden met dezelfde kenmerken gebruikt kunnen worden. Als nu, over bijvoorbeeld het geweld in het Midden-Oosten, een artikel tot tien regels wordt ingevoerd kan het programma 61 procent van de zinnen herschrijven. Op het moment dat de informatie over een langer artikel wordt uitgespreid daalt de succeskans echter snel. Niettemin zullen zulke technieken in de toekomst zeer waardevol blijken. Tekstverwerkers die zelf samenvattingen van artikelen kunnen schrijven, programma's die plagiaat kunnen constateren zelfs als de tekst enigzins is verwerkt en zoekmachines die hele zinnen kunnen verwerken behoren tot de mogelijkheden.