Hoofdcategorieën
Device Settings

Zoekmachines ingezet om computers begrippen te leren

Door Tamara van Hal, dinsdag 1 februari 2005 14:25
Bron: New Scientist, submitter: Zarc.oh, views: 9.089

Terwijl we gisteren berichtten over computers die kunnen leren door het lezen van boeken, blijkt er vandaag een bericht te zijn over machines die de betekenis van woorden leren door gebruik te maken van een zoekmachine. Zoals gisteren al werd gesteld is het voor een computer moeilijk om de exacte betekenis van woorden te begrijpen en om verbanden te leggen tussen verschillende begrippen: om bijvoorbeeld te begrijpen dat hond en kat beiden tot de groep huisdier behoren.

Google logo (3 regels hoog) zonder margesVroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd, tegenwoordig grijpen twee wetenschappers van het Amsterdamse Centrum voor Wiskunde en Informatica (CWI) hiervoor naar de bekende zoekmachine Google. Paul Vitanyi en Rudi Cilibrasi gebruiken de zoekmachine om te zoeken hoe vaak twee woorden samen voorkomen en op deze manier de waarschijnlijkheid te schatten dat de twee begrippen met elkaar te maken hebben.

Hiervoor gebruiken zij een statistische indicator gebaseerd op het aantal keren dat de woorden samenkomen, die een maat aangeeft voor hoe nauw, of juist niet, het verband is. Zij noemen deze indicator de genormaliseerde Google-afstand; hoe groter de afstand, hoe kleiner het verband. Door veel woorden te combineren en de afstand op te slaan, is het mogelijk om een kaart te construeren die de verbanden tussen alle begrippen weergeeft. Vanaf deze kaart kan een computer de betekenis van de woorden inschatten. Op deze manier is het al mogelijk om kleuren, cijfers, godsdiensten en schilders van elkaar te onderscheiden, zo hebben de onderzoekers getest.

Volgende 15:21 HP en Cisco ontwikkelen samen Blade-switch
Vorige 11:35 Sun verandert prijsstelling Java Enterprise System
Advertentie

Reacties

«  1  2  »

impressive :P
over 10 jaar hoor je het en zie je het in boeken :p
"de genormaliseerde Google-afstand"

kan niet veel commentaar geven, het is in principe erg afhankelijk van het internet, maar alsof die ooit verloren gaat, doubt it.

Vroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd
En wat is google dan?
Het enige verschil is dat deze voor iedereen berijkbaar is en dat de database al bestond en een redelijke replica is van de werkelijkheid, maar het blijft een enorme database met verbanden. Het nieuwe van dit verhaal is niet dat er geen database is met een enorme hoeveelheid verbanden, maar dat men de database van google gebruikt.

Google is ook wel een grote database, maar google is er al en hoeft niet speciaal voor dat project aangelegd te worden

Die database die google heet is meer de testset.
Het uiteindelijke begrip wat op die manier verkregen kan worden bestaat uit niet meer dan een lijstje met afstanden tussen woorden.
Dat lijstje is peanuts met wat ze in het verleden vermoedden wat nodig zou zijn.
Je hoeft in je apparaat dus geen google of internet-verbinding te bouwen, maar alleen dat lijstje heb je maar nodig.
In eerste instantie zou je zeggen dat zo lijstje nog best wel groot is (n! afstanden voor n begrippen), maar waarschijnlijk laten ze de afstanden die erg groot zijn weg en dan zou je best eens aardig richting een lineair verband kunnen gaan.

Tussen n begrippen zijn slechts 0.5n*(n-1) verbindingen, dus dat valt inderdaad nogal mee. Zeker wanneer alle afstanden groter dan 'heel groot' worden weggelaten en daarmee worden gezien als 'ongerelateerd'.

Dat testset is het resultaat van een query in een database die juist veel groter is dan wat men ooit in gedachte had. De kracht van deze database is echter dat Google omdat het een zoekmachine is een beschrijvende database is en geen klassieke database waarin alles opgeslagen is.

Tja, kunnen ze beter eerst de wikipedia doorspitten. Als ie dat snapt, mag i verder zoeken ;)

leuk ik zie het al voor me ja. je zegt tegen je computer EN WAT IS EEN KAT. JA heel knap een huisdier, moet je je computer gaan opvoeden heb je dalijk een computer die meer sex worden kent dan normale worde aangezien het helle internet over spoelt word met Sex en porne

of een computer die hellemaal into War games is omdat je te veel surft naar game sites en/of Tweakers.net ;)

doet me denken aan star trek wel handig dit hoor kan je bijvoorbeeld zo je computer vragen wat er mis met je is als je ziek ben bijvoorbeeld zo van"zeg wat je voelt" nou dan kan je computer ook een analyse maken VERY handy

doet me denken aan star trek wel handig dit hoor kan je bijvoorbeeld zo je computer vragen wat er mis met je is als je ziek ben bijvoorbeeld zo van"zeg wat je voelt" nou dan kan je computer ook een analyse maken VERY handy
Dan moet Google wel de ads 'excluden'.
Anders voel je je een beetje slapjes en geeft Google meteen de suggestie om Viagra te proberen.

Google is een database met links. Je kunt links als een soort verbanden bekijken, maar wat zij bedoelen is: een database met verbanden, speciaal voor dat nut.
Google is niet aangelegd opdat een computer het verband tussen een kat en een hond zou kunnen vinden.

pff, als ik dat geweten had, had ik vast rijk kunnen worden. Ik gebruik Google al zolang als ik me kan herinneren om woorden die ik niet ken te begrijpen, hoe meer resultaten hoe beter was ook mijn redenatie...

Exactly dat doe ik dus ook al een hele tijd en het werkt perfect. Het is sneller dan een (online) woordenboek gebruiken.

Ik zie de pc's en servers van Martijn Bevelander al voor me, die zijn eigen opgestelde spam beginnen te versturen op basis van dit verhaal ;)

Trouwens mguilmot, Google is meer dan alleen een database met links. Wel eens die omschrijvingen gezien? Wel eens gebruik gemaakt van de cachefuncties?
Ze bieden wel meer dan alleen maar links..

Zei ik dan dat er alleen links instonden ?
Ik kan het nergens lezen in mijn post ;)

dekn dat je ht moet vergelijken met het woord

CURRICULUM VITAE www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=CUR RICULUM+VITAE&lr=

en Economische administratie www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=Eco nomische+administratie+&lr=

zoals je in eerste zoek bewrking zal zien is dat google veel zal vinden met CURRICULUM VITAE daar waar je ook kan zien dat er een verband is. de computer koppeld de verschillende gevallen van uitleg aan elkaar haalt daar keywords uit en gebruikt deze weer met de volgende zoekbewerking.

als je gaat zoeken op Economische administratie komt google met veel minder opties tot die tekst. en zal de computer moeten koppelen met de gegevens die in zijn DB zal staan.

daarvoor zou denk ik wel veel reken kracht nodig zijn dat er voor 1 word wel al meerdere betekenissen zal kunnen bestaan. neem het word ZIN maar. "ik heb ergens zin in" of "die zin slaat nergens op"

Begrippen leren... met een zoekmachine

Hmm dan denk ik aan een kunstmatig neuraal netwerk.. http://www.20q.net

20Q.net is an experiment in artificial intelligence. The program is very simple but its behavior is complex. Everything that it knows and all questions that it asks were entered by people playing this game. 20Q.net is a learning system; the more it is played, the smarter it gets.

Alleen dan is het : The more it reads the smarter it gets.

Iets ingewikkelder maar in feite hetzelfde, de computer gewoon leren dingen met elkaar in verband te brengen en uiteindelijk een computer te krijgen die 'veel kennis heeft'

edit: Mischien zelfs minder ingewikkeld...

Werkt nog ook :)
Iedereen zou het moeten proberen ^^

offtopic:
vind het maar een slechte site, hij heeft tot 2x toe het niet geraden (zelfs niet na 30 vragen).
1e was zijpaneel van computerkast, 2e was woordenboek (leek me toch vrij simpel...).


hij snapt ook niet dat something iets anders is als een animal. lijkt me toch wel duidelijk
«  1  2  »

Op dit item kan niet meer gereageerd worden.

Volgende 15:21 HP en Cisco ontwikkelen samen Blade-switch
Vorige 11:35 Sun verandert prijsstelling Java Enterprise System
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011