Zoekmachines ingezet om computers begrippen te leren

Terwijl we gisteren berichtten over computers die kunnen leren door het lezen van boeken, blijkt er vandaag een bericht te zijn over machines die de betekenis van woorden leren door gebruik te maken van een zoekmachine. Zoals gisteren al werd gesteld is het voor een computer moeilijk om de exacte betekenis van woorden te begrijpen en om verbanden te leggen tussen verschillende begrippen: om bijvoorbeeld te begrijpen dat hond en kat beiden tot de groep huisdier behoren.

Google logo (3 regels hoog) zonder marges Vroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd, tegenwoordig grijpen twee wetenschappers van het Amsterdamse Centrum voor Wiskunde en Informatica (CWI) hiervoor naar de bekende zoekmachine Google. Paul Vitanyi en Rudi Cilibrasi gebruiken de zoekmachine om te zoeken hoe vaak twee woorden samen voorkomen en op deze manier de waarschijnlijkheid te schatten dat de twee begrippen met elkaar te maken hebben.

Hiervoor gebruiken zij een statistische indicator gebaseerd op het aantal keren dat de woorden samenkomen, die een maat aangeeft voor hoe nauw, of juist niet, het verband is. Zij noemen deze indicator de genormaliseerde Google-afstand; hoe groter de afstand, hoe kleiner het verband. Door veel woorden te combineren en de afstand op te slaan, is het mogelijk om een kaart te construeren die de verbanden tussen alle begrippen weergeeft. Vanaf deze kaart kan een computer de betekenis van de woorden inschatten. Op deze manier is het al mogelijk om kleuren, cijfers, godsdiensten en schilders van elkaar te onderscheiden, zo hebben de onderzoekers getest.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Tamara van Hal

Nieuwsposter

Feedback • 01-02-2005 14:25
24 • submitter: Zarc.oh

01-02-2005 • 14:25

Submitter: Zarc.oh

Bron: New Scientist

Lees meer

Gpgpu-techniek maakt onderzoek naar kunstmatige intelligentie goedkoper Nieuws van 19 juni 2013

Zoekterrein Google gaat van nu tot nul Nieuws van 11 februari 2006

'Yahoo beste zoekmachine op Nederlands gebied' Nieuws van 7 november 2005

Google trekt deel sancties verzekeraars in, schuldvraag rijst Nieuws van 5 juni 2005

Google wil videobeheer aan repertoire toevoegen Nieuws van 5 april 2005

Nieuwe zoekmachine richt zich op persoonlijke gegevens Nieuws van 23 maart 2005

Onderzoekers willen computer laten leren door te lezen Nieuws van 31 januari 2005

Computerbesturing via hersenen realiteit geworden Nieuws van 14 oktober 2004

Meer producten en artikelen

Wetenschap

IT-banen

Meer vacatures

Reacties (24)

-Moderatie-faq

Wijzig sortering

Kaw 1 februari 2005 14:28

Vroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd

En wat is google dan?
Het enige verschil is dat deze voor iedereen berijkbaar is en dat de database al bestond en een redelijke replica is van de werkelijkheid, maar het blijft een enorme database met verbanden. Het nieuwe van dit verhaal is niet dat er geen database is met een enorme hoeveelheid verbanden, maar dat men de database van google gebruikt.

StoicTundra @Kaw • 1 februari 2005 14:32

Google is ook wel een grote database, maar google is er al en hoeft niet speciaal voor dat project aangelegd te worden

TD-er

@Kaw • 1 februari 2005 15:26

Die database die google heet is meer de testset.
Het uiteindelijke begrip wat op die manier verkregen kan worden bestaat uit niet meer dan een lijstje met afstanden tussen woorden.
Dat lijstje is peanuts met wat ze in het verleden vermoedden wat nodig zou zijn.
Je hoeft in je apparaat dus geen google of internet-verbinding te bouwen, maar alleen dat lijstje heb je maar nodig.
In eerste instantie zou je zeggen dat zo lijstje nog best wel groot is (n! afstanden voor n begrippen), maar waarschijnlijk laten ze de afstanden die erg groot zijn weg en dan zou je best eens aardig richting een lineair verband kunnen gaan.

Verwijderd @TD-er • 1 februari 2005 18:46

Tussen n begrippen zijn slechts 0.5n*(n-1) verbindingen, dus dat valt inderdaad nogal mee. Zeker wanneer alle afstanden groter dan 'heel groot' worden weggelaten en daarmee worden gezien als 'ongerelateerd'.

Verwijderd @TD-er • 1 februari 2005 22:09

Dat testset is het resultaat van een query in een database die juist veel groter is dan wat men ooit in gedachte had. De kracht van deze database is echter dat Google omdat het een zoekmachine is een beschrijvende database is en geen klassieke database waarin alles opgeslagen is.

veltnet 1 februari 2005 14:37

doet me denken aan star trek wel handig dit hoor kan je bijvoorbeeld zo je computer vragen wat er mis met je is als je ziek ben bijvoorbeeld zo van"zeg wat je voelt" nou dan kan je computer ook een analyse maken VERY handy

Dan moet Google wel de ads 'excluden'.
Anders voel je je een beetje slapjes en geeft Google meteen de suggestie om Viagra te proberen.

TWeaKLeGeND 1 februari 2005 15:18

Begrippen leren... met een zoekmachine

Hmm dan denk ik aan een kunstmatig neuraal netwerk.. http://www.20q.net

20Q.net is an experiment in artificial intelligence. The program is very simple but its behavior is complex. Everything that it knows and all questions that it asks were entered by people playing this game. 20Q.net is a learning system; the more it is played, the smarter it gets.

Alleen dan is het : The more it reads the smarter it gets.

Iets ingewikkelder maar in feite hetzelfde, de computer gewoon leren dingen met elkaar in verband te brengen en uiteindelijk een computer te krijgen die 'veel kennis heeft'

edit: Mischien zelfs minder ingewikkeld...

SH4D3H @TWeaKLeGeND • 1 februari 2005 15:26

Werkt nog ook

Iedereen zou het moeten proberen ^^

Verwijderd @TWeaKLeGeND • 1 februari 2005 21:15

offtopic:
vind het maar een slechte site, hij heeft tot 2x toe het niet geraden (zelfs niet na 30 vragen).
1e was zijpaneel van computerkast, 2e was woordenboek (leek me toch vrij simpel...).

Verwijderd @Verwijderd • 2 februari 2005 15:58

hij snapt ook niet dat something iets anders is als een animal. lijkt me toch wel duidelijk

mguilmot 1 februari 2005 14:39

Google is een database met links. Je kunt links als een soort verbanden bekijken, maar wat zij bedoelen is: een database met verbanden, speciaal voor dat nut.
Google is niet aangelegd opdat een computer het verband tussen een kat en een hond zou kunnen vinden.

To_Tall

1 februari 2005 14:51

dekn dat je ht moet vergelijken met het woord

CURRICULUM VITAE www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=CUR RICULUM+VITAE&lr=

en Economische administratie www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=Eco nomische+administratie+&lr=

zoals je in eerste zoek bewrking zal zien is dat google veel zal vinden met CURRICULUM VITAE daar waar je ook kan zien dat er een verband is. de computer koppeld de verschillende gevallen van uitleg aan elkaar haalt daar keywords uit en gebruikt deze weer met de volgende zoekbewerking.

als je gaat zoeken op Economische administratie komt google met veel minder opties tot die tekst. en zal de computer moeten koppelen met de gegevens die in zijn DB zal staan.

daarvoor zou denk ik wel veel reken kracht nodig zijn dat er voor 1 word wel al meerdere betekenissen zal kunnen bestaan. neem het word ZIN maar. "ik heb ergens zin in" of "die zin slaat nergens op"

MrE 1 februari 2005 15:23

Hmmm, zit er niet zoiets in Google zelf?
Google kan toch bij drie opgegeven waarden een reeks waarden teruggeven die tot dezelfde groep behoren?
Als je bijvoorbeeld BMW, Mercedes, en Opel ingeeft, dan komt hij met nog eens een set automerken. (wat de code daarvoor is in Google, weet ik zo niet, maar op de pagina van Soople staat er in de linker kolom een vakje voor.

Ik vraag mij overigens ook af hoe een computer 'stroking my wife's pussy' gaat leren. Volgens mij zijn er evenveel hits (als het er al niet meer zijn) voor de sex variant, als voor de normale variant.

edit:

Net even op die set zoek mogelijkheid van Soople gezocht op Snake, monkey, pussy (synoniemen voor geslachtsdelen), maar hij komt braaf met een reeks dieren

Verwijderd 1 februari 2005 15:53

Toch blijft het hier slechts bij verbanden leggen. De computer weet dus nog niet wát precies het verband is. Het enige wat het kan is statistische gegevens gebruiken. Niks nieuws onder de zon behalve dat nu Google gebruikt wordt.

CyberArt @Verwijderd • 1 februari 2005 21:01

ja inderdaad dacht ik..
alleen, op den duur kan ie natuurlijk wel (ook via google) er achter wat sites beschrijven als specifiek voor een appel. en of die teksten ook voorkomen bij websites over peren.

verder zat ik te denken aan google's definitions. typ in google "define: appel" en hij komt met sites die beschrijven wat een appel allemaal zou kunnen zijn.

Venator

1 februari 2005 14:45

Ik zie de pc's en servers van Martijn Bevelander al voor me, die zijn eigen opgestelde spam beginnen te versturen op basis van dit verhaal

Trouwens mguilmot, Google is meer dan alleen een database met links. Wel eens die omschrijvingen gezien? Wel eens gebruik gemaakt van de cachefuncties?
Ze bieden wel meer dan alleen maar links..

mguilmot @Venator • 1 februari 2005 15:04

Zei ik dan dat er alleen links instonden ?
Ik kan het nergens lezen in mijn post

Acers2k 1 februari 2005 14:27

impressive

over 10 jaar hoor je het en zie je het in boeken

"de genormaliseerde Google-afstand"

kan niet veel commentaar geven, het is in principe erg afhankelijk van het internet, maar alsof die ooit verloren gaat, doubt it.

0vestel0 1 februari 2005 14:30

Tja, kunnen ze beter eerst de wikipedia doorspitten. Als ie dat snapt, mag i verder zoeken

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (24)

Sorteer op:

Weergave: