Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 24 reacties
Bron: New Scientist, submitter: Zarc.oh

Terwijl we gisteren berichtten over computers die kunnen leren door het lezen van boeken, blijkt er vandaag een bericht te zijn over machines die de betekenis van woorden leren door gebruik te maken van een zoekmachine. Zoals gisteren al werd gesteld is het voor een computer moeilijk om de exacte betekenis van woorden te begrijpen en om verbanden te leggen tussen verschillende begrippen: om bijvoorbeeld te begrijpen dat hond en kat beiden tot de groep huisdier behoren.

Google logo (3 regels hoog) zonder margesVroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd, tegenwoordig grijpen twee wetenschappers van het Amsterdamse Centrum voor Wiskunde en Informatica (CWI) hiervoor naar de bekende zoekmachine Google. Paul Vitanyi en Rudi Cilibrasi gebruiken de zoekmachine om te zoeken hoe vaak twee woorden samen voorkomen en op deze manier de waarschijnlijkheid te schatten dat de twee begrippen met elkaar te maken hebben.

Hiervoor gebruiken zij een statistische indicator gebaseerd op het aantal keren dat de woorden samenkomen, die een maat aangeeft voor hoe nauw, of juist niet, het verband is. Zij noemen deze indicator de genormaliseerde Google-afstand; hoe groter de afstand, hoe kleiner het verband. Door veel woorden te combineren en de afstand op te slaan, is het mogelijk om een kaart te construeren die de verbanden tussen alle begrippen weergeeft. Vanaf deze kaart kan een computer de betekenis van de woorden inschatten. Op deze manier is het al mogelijk om kleuren, cijfers, godsdiensten en schilders van elkaar te onderscheiden, zo hebben de onderzoekers getest.

Moderatie-faq Wijzig weergave

Reacties (24)

Vroeger dacht men altijd dat hiervoor enorme databases met verbanden moesten worden aangelegd
En wat is google dan?
Het enige verschil is dat deze voor iedereen berijkbaar is en dat de database al bestond en een redelijke replica is van de werkelijkheid, maar het blijft een enorme database met verbanden. Het nieuwe van dit verhaal is niet dat er geen database is met een enorme hoeveelheid verbanden, maar dat men de database van google gebruikt.
Google is ook wel een grote database, maar google is er al en hoeft niet speciaal voor dat project aangelegd te worden
Die database die google heet is meer de testset.
Het uiteindelijke begrip wat op die manier verkregen kan worden bestaat uit niet meer dan een lijstje met afstanden tussen woorden.
Dat lijstje is peanuts met wat ze in het verleden vermoedden wat nodig zou zijn.
Je hoeft in je apparaat dus geen google of internet-verbinding te bouwen, maar alleen dat lijstje heb je maar nodig.
In eerste instantie zou je zeggen dat zo lijstje nog best wel groot is (n! afstanden voor n begrippen), maar waarschijnlijk laten ze de afstanden die erg groot zijn weg en dan zou je best eens aardig richting een lineair verband kunnen gaan.
Tussen n begrippen zijn slechts 0.5n*(n-1) verbindingen, dus dat valt inderdaad nogal mee. Zeker wanneer alle afstanden groter dan 'heel groot' worden weggelaten en daarmee worden gezien als 'ongerelateerd'.
Dat testset is het resultaat van een query in een database die juist veel groter is dan wat men ooit in gedachte had. De kracht van deze database is echter dat Google omdat het een zoekmachine is een beschrijvende database is en geen klassieke database waarin alles opgeslagen is.
doet me denken aan star trek wel handig dit hoor kan je bijvoorbeeld zo je computer vragen wat er mis met je is als je ziek ben bijvoorbeeld zo van"zeg wat je voelt" nou dan kan je computer ook een analyse maken VERY handy
Dan moet Google wel de ads 'excluden'.
Anders voel je je een beetje slapjes en geeft Google meteen de suggestie om Viagra te proberen.
Begrippen leren... met een zoekmachine

Hmm dan denk ik aan een kunstmatig neuraal netwerk.. http://www.20q.net

20Q.net is an experiment in artificial intelligence. The program is very simple but its behavior is complex. Everything that it knows and all questions that it asks were entered by people playing this game. 20Q.net is a learning system; the more it is played, the smarter it gets.

Alleen dan is het : The more it reads the smarter it gets.

Iets ingewikkelder maar in feite hetzelfde, de computer gewoon leren dingen met elkaar in verband te brengen en uiteindelijk een computer te krijgen die 'veel kennis heeft'

edit: Mischien zelfs minder ingewikkeld...
offtopic:
vind het maar een slechte site, hij heeft tot 2x toe het niet geraden (zelfs niet na 30 vragen).
1e was zijpaneel van computerkast, 2e was woordenboek (leek me toch vrij simpel...).
hij snapt ook niet dat something iets anders is als een animal. lijkt me toch wel duidelijk
Werkt nog ook :)
Iedereen zou het moeten proberen ^^
Toch blijft het hier slechts bij verbanden leggen. De computer weet dus nog niet wt precies het verband is. Het enige wat het kan is statistische gegevens gebruiken. Niks nieuws onder de zon behalve dat nu Google gebruikt wordt.
ja inderdaad dacht ik..
alleen, op den duur kan ie natuurlijk wel (ook via google) er achter wat sites beschrijven als specifiek voor een appel. en of die teksten ook voorkomen bij websites over peren. :P

verder zat ik te denken aan google's definitions. typ in google "define: appel" en hij komt met sites die beschrijven wat een appel allemaal zou kunnen zijn.
Google is een database met links. Je kunt links als een soort verbanden bekijken, maar wat zij bedoelen is: een database met verbanden, speciaal voor dat nut.
Google is niet aangelegd opdat een computer het verband tussen een kat en een hond zou kunnen vinden.
dekn dat je ht moet vergelijken met het woord

CURRICULUM VITAE www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=CUR RICULUM+VITAE&lr=

en Economische administratie www.google.nl/search?hl=nl&rls=GGLD%2CGGLD%3A2004-50%2CGGLD%3Anl&q=Eco nomische+administratie+&lr=

zoals je in eerste zoek bewrking zal zien is dat google veel zal vinden met CURRICULUM VITAE daar waar je ook kan zien dat er een verband is. de computer koppeld de verschillende gevallen van uitleg aan elkaar haalt daar keywords uit en gebruikt deze weer met de volgende zoekbewerking.

als je gaat zoeken op Economische administratie komt google met veel minder opties tot die tekst. en zal de computer moeten koppelen met de gegevens die in zijn DB zal staan.

daarvoor zou denk ik wel veel reken kracht nodig zijn dat er voor 1 word wel al meerdere betekenissen zal kunnen bestaan. neem het word ZIN maar. "ik heb ergens zin in" of "die zin slaat nergens op"
Hmmm, zit er niet zoiets in Google zelf?
Google kan toch bij drie opgegeven waarden een reeks waarden teruggeven die tot dezelfde groep behoren?
Als je bijvoorbeeld BMW, Mercedes, en Opel ingeeft, dan komt hij met nog eens een set automerken. (wat de code daarvoor is in Google, weet ik zo niet, maar op de pagina van Soople staat er in de linker kolom een vakje voor.

Ik vraag mij overigens ook af hoe een computer 'stroking my wife's pussy' gaat leren. Volgens mij zijn er evenveel hits (als het er al niet meer zijn) voor de sex variant, als voor de normale variant.

edit:

Net even op die set zoek mogelijkheid van Soople gezocht op Snake, monkey, pussy (synoniemen voor geslachtsdelen), maar hij komt braaf met een reeks dieren
.
Ik zie de pc's en servers van Martijn Bevelander al voor me, die zijn eigen opgestelde spam beginnen te versturen op basis van dit verhaal ;)

Trouwens mguilmot, Google is meer dan alleen een database met links. Wel eens die omschrijvingen gezien? Wel eens gebruik gemaakt van de cachefuncties?
Ze bieden wel meer dan alleen maar links..
Zei ik dan dat er alleen links instonden ?
Ik kan het nergens lezen in mijn post ;)
impressive :P
over 10 jaar hoor je het en zie je het in boeken :p
"de genormaliseerde Google-afstand"

kan niet veel commentaar geven, het is in principe erg afhankelijk van het internet, maar alsof die ooit verloren gaat, doubt it.
Tja, kunnen ze beter eerst de wikipedia doorspitten. Als ie dat snapt, mag i verder zoeken ;)

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Google Pixel Apple iPhone 7 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True