Terwijl we gisteren berichtten over computers die kunnen leren door het lezen van boeken, blijkt er vandaag een bericht te zijn over machines die de betekenis van woorden leren door gebruik te maken van een zoekmachine. Zoals gisteren al werd gesteld is het voor een computer moeilijk om de exacte betekenis van woorden te begrijpen en om verbanden te leggen tussen verschillende begrippen: om bijvoorbeeld te begrijpen dat hond en kat beiden tot de groep huisdier behoren.
Vroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd, tegenwoordig grijpen twee wetenschappers van het Amsterdamse Centrum voor Wiskunde en Informatica (CWI) hiervoor naar de bekende zoekmachine Google. Paul Vitanyi en Rudi Cilibrasi gebruiken de zoekmachine om te zoeken hoe vaak twee woorden samen voorkomen en op deze manier de waarschijnlijkheid te schatten dat de twee begrippen met elkaar te maken hebben.
Hiervoor gebruiken zij een statistische indicator gebaseerd op het aantal keren dat de woorden samenkomen, die een maat aangeeft voor hoe nauw, of juist niet, het verband is. Zij noemen deze indicator de genormaliseerde Google-afstand; hoe groter de afstand, hoe kleiner het verband. Door veel woorden te combineren en de afstand op te slaan, is het mogelijk om een kaart te construeren die de verbanden tussen alle begrippen weergeeft. Vanaf deze kaart kan een computer de betekenis van de woorden inschatten. Op deze manier is het al mogelijk om kleuren, cijfers, godsdiensten en schilders van elkaar te onderscheiden, zo hebben de onderzoekers getest.