Nieuwe zoekmachine moet menselijke taal begrijpen

Het Amerikaanse bedrijf Powerset heeft een nieuw soort zoekmachine gepresenteerd dat natuurlijke, menselijke taal moet begrijpen. Het bedrijf laat nog deze maand een selecte groep bètatesters los op hun zoeksysteem.

Powerset heeft een belangrijk deel van de techniek voor de zoekmachine onder licentie gekocht van Xerox' Palo Alto Research Center. De site maakt het mogelijk om complete zinnen in te typen als zoekcriteria en probeert daaruit de context van woorden te ontdekken. Bij conventionele zoekmachines worden pagina's geïndexeerd op trefwoorden en hoe meer trefwoorden overeenkomen met de zoektermen, hoe hoger een pagina in de zoekresultaten staat. De Powerset-zoekmachine daarentegen indexeert pagina's op hun betekenis, of, met een deftig woord, op de semantiek.

Bezoekers van de site kunnen Powerset helpen het zoekalgoritme te verbeteren door gebruik te maken van Use Cases en Powermouse. Use Cases is een techniek waarbij de resultaten van Powerset naast die van een andere zoekmachine, die op trefwoorden zoekt, worden gelegd. De gebruiker kan aangeven welke zoekresultaten het beste zijn en welke niet nuttig zijn. Powerset hoopt met deze tool duidelijk te maken hoe goed hun zoekmachine werkt ten opzichte van traditionele algoritmes.

De tweede techniek, Powermouse, laat gebruikers zoeken in de semantische feitendatabase die de zoekengine heeft vastgelegd. De Powerset-zoekmachine wordt in 2008 toegankelijk gemaakt voor het grote publiek.

Vorig nieuwsartikel Volgend nieuwsartikel

Door René Gerritsen

Feedback • 18-09-2007 18:27
36 • submitter: aliencowfarm

18-09-2007 • 18:27

Submitter: aliencowfarm

Lees meer

Google maakt ocr voor gescande teksten mogelijk Nieuws van 1 november 2008

'Microsoft koopt zoekmachine Powerset' Nieuws van 27 juni 2008

Powerset presenteert semantische zoekmachine voor Wikipedia Nieuws van 12 mei 2008

Nieuwe koers Ask.com betekent einde van strijd met Google Nieuws van 5 maart 2008

Wikipedia-bijdragen vervangen werkstukken Nieuws van 31 oktober 2007

Software Xerox herkent gevoelige informatie Nieuws van 15 oktober 2007

CBP onderzoekt sites die omgekeerd nummerzoeken aanbieden Nieuws van 24 september 2007

Google.com-domein viert tiende verjaardag Nieuws van 15 september 2007

Amerikanen contenter over Yahoo dan over Google Nieuws van 14 augustus 2007

Wikia-zoekmachine in stroomversnelling na overname webcrawler Nieuws van 28 juli 2007

EU steekt 120 miljoen in Duitse zoekmachine Nieuws van 24 juli 2007

Microsoft gaat zoekgegevens na 18 maanden anonimiseren Nieuws van 23 juli 2007

Ask.com presenteert anonieme zoekmachine Nieuws van 21 juli 2007

Google in hoger beroep tegen Belgische uitgevers Nieuws van 4 juli 2007

EU neemt meer zoekmachines onder de loep Nieuws van 22 juni 2007

'Topresultaten zoekmachines steeds verder uiteen' Nieuws van 18 juni 2007

China blokkeert toegang tot Flickr Nieuws van 14 juni 2007

Algoritme leert zelf grammatica van taal Nieuws van 1 september 2005

Nieuwe zoekmachine 'begrijpt' natuurlijke taal Nieuws van 10 juni 2002

Meer producten en artikelen

Bedrijfsnieuws Zoekmachines

IT-banen

Meer vacatures

Reacties (36)

-Moderatie-faq

Wijzig sortering

fennepa 18 september 2007 19:15

Ik heb liever een zoekmethode waarbij ik mag aangeven hoever de woorden uit de opdracht maximaal uit elkaar mogen staan.
ik loop nog regelmatig tegen het probleem aan dat ik onzin resultaten krijg omdat Pietje het bovenaan de pagina heeft over mijn eerste woord en 50 reacties later gebruikt Jantje het andere woord.

lekker relevant...

Dragonslaughter @fennepa • 18 september 2007 20:12

Of iets anders wat ik regelmatig mis is de optie om mee te laten wegen hoe recent de pagina is. Veel te vaak krijg ik informatie die er al lang niet meer toe doet.

Bijvoorbeeld dat als je naar een vergelijkende test van iets zoekt, dat je een test krijgt met producten van 5 jaar geleden die tegenwoordig verouderd zijn en niet eens meer te koop zijn. Dan mis ik de optie om te zeggen dat ik bijvoorbeeld geen pagina's wil zien die ouder zijn dan 2 jaar. Of om dus zwaar te kunnen laten meewegen hoe recent de pagina is.

Verwijderd @Dragonslaughter • 18 september 2007 20:30

Maar dat kan dus niet, want als ik een site maak in php en laat de pagina telkens bijwerken vanuit de database dan blijft de datum van de pagina hetzelfde... Of iemand moet daar een trucje voor uitvinden (een zoekmachine die wijzigingen in een pagina kan zien bijv).
Wat Noyh zegt vind ik trouwens wel een goddelijke functie, hij heeft helemaal gelijk.

Even ontopic: ik heb zo'n idee dat deze zoekmachine geen topper gaat worden, simpelweg omdat de resultaten er niet beter van zullen worden (denk ik).

[Reactie gewijzigd door Verwijderd op 23 juli 2024 04:53]

David Mulder @Verwijderd • 18 september 2007 21:22

Als je hem via php touched (zoek op php.net op touch volgens mij) dan kan dat zonder probleem.

Coju @fennepa • 18 september 2007 20:12

Lijkt me inderdaad een goede feature. Veel lange verticale pagina's zoals blogs, fora, en rss feeds duikelen hoog op in zoekmachines omdat er nu eenmaal veel tekst in staat. Dergelijke pagina's zouden dan ook per segment geindexeerd moeten worden zodat tekst die bij elkaar hoort bij elkaar blijft, en tekst die er los van staat wordt weggelaten.

Blaise @fennepa • 18 september 2007 20:36

Google kijkt wel hoe dicht woorden bij elkaar staan, wat zijn invloed heeft op de zoekresultaten. Maar zelf aan kunnen passen zou inderdaad handig zijn.

Quacka 18 september 2007 18:53

Zijn ze hier in Europa ook niet mee bezig? Volgens mij was oa Siemens daarbij betrokken. Het scheen nogal ingewikkeld te zijn.
De EU sponsort een en ander nog.
Als de amerikanen nu al een werkende techniek hebben?

gevonden:
http://life.tweakers.net/...n-Duitse-zoekmachine.html

[Reactie gewijzigd door Quacka op 23 juli 2024 04:53]

Verwijderd @Quacka • 18 september 2007 21:04

Ja dat is er, gewoon in Nederland:

http://www.nbic.nl/research/biorange/projects/SP4/sp4t1/sp411/

Alleen niet voor algemene tekst, maar voor specifieke domeinen zoals life sciences.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 04:53]

SWINX @Verwijderd • 18 september 2007 22:37

Prof. dr. C.H.A. Koster
en dan heb je als email kees@....

Verwijderd 18 september 2007 18:45

uit het gebruikte voorbeeld blijkt alleen dat de zoekmachine ca. net zo veel menselijke taal begrijpt als de windows-help: als je in office in zou typen "hoe krijg ik die fucking assistent weg", wordt er gezocht op "assistent", veel voorkomende woorden worden automatisch weggelaten uit de zoekopdracht en fucking kan hij nergens vinden, want pc's zijn nu eenmaal very pc.

een stuk informatiever zou het artikel zijn - en dat zou tegelijk misschien ook iets meer fundament leveren voor de kop - als er iets stond geschreven over de manier waarop de indexering plaatsvindt.

Verwijderd @Verwijderd • 18 september 2007 20:07

gaat nog wel iets verder... als je het plaatje bekijkt (beetje blurry) wordt er volgens mij een link gelegd tussen 'politicians' en bv. 'George W. Bush' en ook 'Winston Churchil'

Verwijderd @Verwijderd • 18 september 2007 21:50

ik zag het, maar het plaatje is van alles, alleen geen bewijs voor het herkennen van taal, daarvoor is inzicht nodig in de opbouw van de zgn. semantische database: het is geen kunst om "bush" en "churchill" te mappen op "politicians", veel interessanter voor de vraag of het echt om taalherkenning gaat, is de vraag *hoe* dat wordt gemapped.

[Reactie gewijzigd door Verwijderd op 23 juli 2024 04:53]

still_the_same 18 september 2007 20:10

Was dit niet wat www.askjeeves.com vroegah al had?

AugmentoR @still_the_same • 19 september 2007 01:06

Een van de meest bekende ja. Ook leuk: http://swoogle.umbc.edu/

Verwijderd 18 september 2007 18:54

Q-Go doet ook zoiets.

brompot758 @Verwijderd • 19 september 2007 08:32

Q-Go maakt een zoekmachine op basis van linguistische bomen. Daar wordt de vraag van de 'klant' vergeleken met modelvragen. Het doel daarvan is het snel beantwoorden van vragen van mensen die al bewust op jouw site aangeland zijn. De set waarin gezocht wordt is dan ook vooraf bepaald. Het werkt trouwens wel angstvallig snel.

Wat Q-Go maakt is heel nuttig voor bedrijven die hun klanten snel willen helpen, maar het is totaal iets anders dan in dit artikel beschreven wordt.

Meer info op http://www.q-go.com

Als je het eens in actie wil zien dan moet je eens zoeken bij de postbank of uwv, die gebruiken het.

Verwijderd 18 september 2007 21:55

Ik denk niet dat zo iets op kan tegen Google maar goed het is leuk bedacht en iniedergeval beter dan de gemiddelde onzin search site.

mjtdevries @Verwijderd • 19 september 2007 11:29

Waarom zou zo iets niet op kunnen tegen google?

Mensen kunnen van de ene op de ander dag naar een andere engine switchen als die een klein voordeel geeft.
Ik geloof er niets van dat mensen zo trouw zijn aan een bepaalde searchengine

AltaVista heeft waarschijnlijk ook ooit gedacht dat google niet tegen hun op kon....

Verwijderd 18 september 2007 20:18

Hmm, veel van de reacties die ik hier zie doen me denken aan het verhaal van Google en hoe iedereen ze wegwuifde onder het motto "We hebben toch al een zoekmachine?", terwijl iedereen weet hoe dat gelopen is.

Ik ben best benieuwd hoe goed dit op termijn gaat werken. Ik (en veel hier met mij) heb inmiddels wel geleerd aan te voelen hoe je welke termen aan Google moet voeren om de beste resultaten te krijgen, maar ik denk dat wanneer dit goed werkt best een uitkomst kan zijn voor minder computervaardige gebruikers (en wanneer het heel goed wordt op termijn ook voor wel vaardige gebruikers).

OddesE @Verwijderd • 18 september 2007 21:05

De mensen die dit soort nieuws al een tijdje volgen zijn gewoon sceptisch aangezien er al tig zoekmachines zijn geweest waarbij je kon zoeken op natuurlijke taal, maar er is eigenlijk nooit wat van gekomen.

Als deze zoekmachine echt semantisch kan zoeken dan zou je bijvoorbeeld kunnen zoeken op "Apple computer" en dan geen pagina's over fruit vinden, maar wel pagina's waar over apple (het merk) wordt gesproken zonder dat het woord computer op die pagina voor hoeft te komen.

Dat zou mijns insziens dus wel degelijk een vooruitgang kunnen betekenen.. Maar ja, vertalen lukt ook nog steeds niet echt goed toch? Ik denk dat we deze toepassingen pas echt goed krijgen als we AI hebben.

Auteur

Grrrrrene

@OddesE • 19 september 2007 09:05

Ik zou het heel fijn vinden. Ik ben aan het afstuderen met iets dat met composieten te maken heeft: vezelversterkte kunststoffen. Een vezel is een fibre in het Engels, lekker, want dat zit ook in voedsel

En als je dan de benatting van de vezel gaat zoeken, kom je uit op impregneren, oftewel: impregnation, waardoor je allerlei zwangerschapsmeuk vindt. Door goed keywords te combineren en af en toe een minteken te gebruiken als een term heel consequent in foute zoekresultaten terecht komt, kom je er uiteindelijk wel uit, maar iets semantisch zou inderdaad heel handig zijn.

Ik ben in ieder geval erg benieuwd naar de werking...

the_stickie 18 september 2007 18:58

Als ik me niet vergis zijn er sinds de jaren 90 al tientallen bedrijven geweest die semantische zoekopdrachten beloofden. Maar uiteindelijk heeft dat imho zo goed als niks opgeleverd.
Google heeft volgens mij zelfs bewezen dat de zoekbegrippen niet zozeer het pobleem zijn (dus lose kernwoorden tov volzinnen oid), maar eerder de rangschikking van de resultaten en de user-interface.
Ik wens de makers van deze zoveelste search-engine avalst succes bij het opboksen tegen de hegemonie van Google

iceheart 18 september 2007 19:06

mijn eerste gedachte: http://bash.org/?446471

maargoed, wat is nou de *meerwaarde* boven zoekwoorden? daar wordt het uiteindelijk toch wel naar vertaald en je krijgt het er alleen maar moeilijker mee (minder controle, weet minder goed wat er precies gebeurt...) dus zal dit hoogstens als speeltje een paar keer leuk zijn, lijkt me...

Abom @iceheart • 19 september 2007 09:57

Ik vind het anders ontzettend handig want Google wordt met de dag slechter. Ik typ vaak volledige zinnen in Google en zet woorden die bij mekaar horen tussen quotes. Maar ik zie met de dag dat er meer sites hoog in de zoek opdrachten komen die gewoon veel meuk indexeren omdat ze alle gecombineerde zoek termen van mij op hun site hebben staan.

Darude1234 19 september 2007 19:27

Het zou mij niets verbazen als Google dit bedrijf binnenkort overneemt.
Het lijkt wel een mooie nieuwe functie, maar ik heb met de huidige manier van zoeken ook totaal geen problemen. Ik denk eerlijk gezegd dat er meer rotzooi tussen de resultaten komt te staan als ze zo'n soort functie gaan implementeren.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (36)

Sorteer op:

Weergave: