IBM ontwikkelt nieuwe zoektechnologie

Na recente introducties van nieuwe zoekmachines en desktop search tools blijkt nu dat ook IBM zich op deze markt richt. Een journalist van de New York Times praatte met enkele onderzoekers bij Big Blue over de toekomst van zoekdiensten en -technologie. International Business Machines zoekt echter in een heel andere hoek dan de traditionele diensten zoals Google en houdt het voorlopig bij demo's en concepten, maar een gebruiksklaar product is er nog niet. Desondanks blijkt de technologie veelbelovend te zijn. Onlangs lanceerde IBM de software OmniFind, het eerste programma dat gebruikmaakt van de nieuwe zoekstrategie. De onderzoekers duiden deze technologie van de derde generatie zoekmachines aan met de term 'Unstructured Information Management Architecture' (UIMA). De eerste generatie zoekdiensten maakte gebruik van 'keyword match' door gewoon op zoek te gaan naar documenten die een of meer van de opgegeven zoektermen bevatten.

loep (zoeken) De zoekmachines van de tweede generatie werken volgens hetzelfde principe als Google, door verschillende andere factoren in de zoekresultaten mee te nemen, waaronder de mate waarin er naar de gevonden documenten gelinkt wordt. Volgens IBM zal de derde generatie zoeksoftware in staat zijn de achterliggende betekenis van een query te begrijpen en documenten of bestanden, ongeacht het formaat waarin deze opgeslagen zijn, kunnen opzoeken op basis van de betekenis. Experts staan echter nogal wantrouwend tegenover het idee van 'natural language processing', aangezien deze technologie experts al jarenlang bezighoudt, maar men nog steeds niet geslaagd is om een echte begrijpende computer te bouwen.

Vorig nieuwsartikel Volgend nieuwsartikel

Door Yoeri Lauwers

Eindredacteur

Feedback • 28-12-2004 10:17
19 • submitter: MacWolf

28-12-2004 • 10:17

Submitter: MacWolf

Bron: New York Times

Lees meer

IBM presenteert semantisch zoektooltje Nieuws van 20 december 2007

Mogelijke Google-rivaal koopt nlp-technologie van PARC Nieuws van 10 februari 2007

Namen websites meest voorkomende zoekopdracht Nieuws van 22 januari 2006

Microsoft zet gratis bedrijfsspeurneus op de wereld Nieuws van 15 november 2005

'Yahoo beste zoekmachine op Nederlands gebied' Nieuws van 7 november 2005

IBM gaat UIMA-zoekplatform vrijgeven Nieuws van 8 augustus 2005

Ask Jeeves ontwikkelt zoekmachine voor mobiele apparaten Nieuws van 22 januari 2005

IBM koopt bedrijf gespecialiseerd in identiteitsbeheer Nieuws van 8 januari 2005

IBM wil capaciteit tapes uitbreiden tot 100TB Nieuws van 26 december 2004

IBM demonstreert strained germanium in chips Nieuws van 7 december 2004

Microsoft zal donderdag eigen zoekmachine introduceren Nieuws van 10 november 2004

Web 2.0 Conference; over de toekomst van het web Nieuws van 9 oktober 2004

IBM heeft de trouwste klanten in de it-sector Nieuws van 22 september 2004

KDE-ontwikkelaars werken aan nieuw zoeksysteem Nieuws van 27 augustus 2004

Yahoo wil Microsoft beconcurreren met desktopzoektools Nieuws van 6 augustus 2004

Blinkx introduceert nieuwe zoektechnologie Nieuws van 24 juli 2004

Meer producten en artikelen

Wetenschap

IT-banen

Meer vacatures

Reacties (19)

-Moderatie-faq

Wijzig sortering

Verwijderd 28 december 2004 10:53

Om dit te bewerkstelligen zal er meer interactie met de gebruiker moeten zijn.
De computer moet vragen kunnen stellen, om het antwoord zo goed mogelijk te vinden.

Als ik tegen iemand zeg: ik zoek sleutels,

Vraagt die persoon: wat voor sleutels? autosleutels, fietssleutels, huissleutels?

Dan zeg ik: autosleutels

De persoon vraagt dan weer verder: wat voor kleur, wat voor merk auto, of iets dergelijks.

De meeste mensen stellen namelijk niet in 1 keer de goede vraag; zo van: Waar zijn mijn donkerblauwe autosleutels van mijn porsche.

eigenlijk is zoeken op het internet, een specialistisch vak.
Ik ken veel mensen, die bijna nooit vinden wat ze zoeken.
Ikzelf vindt daarentegen werkelijk alles, door zelf associatief te denken en de juiste syntax te gebruiken. woorden tussen "aanhalingstekens" of 'gedeelten van zinnen'. etc.

DWZ @Verwijderd • 28 december 2004 13:54

Juist niet.

Dat is het hele idee van het "begrijpen".

Sleutels, ja ze komen in allerlei soorten en maten.
Het is juist de bedoeling de computer te leren dat wanneer jij om je sleutels vraagt, de computer vanuit de context weet dat jij jouw autosleutels bedoelt (en welke auto dat is met welke kleur etc)

Bekijk deze site eens: http://www.cyc.com/
De Cyc methode voor Natural-language processing is door het aanmaken van een complete database met betekenissen. Aan de hand van de context weet de computer de juiste betekenis te vinden.

Voorbeeld van de site:
1. Fred saw the plane flying over Zurich.
2. Fred saw the mountains flying over Zurich.

betekenissen:
1. Fred ziet een vliegtuig die over Zurich vliegt.
2. Fred ziet de bergen toen hij over Zurich vloog.

De computer zal niet zeggen dat Fred bergen over Zurich zag vliegen, want de database vertelt dat bergen niet kunnen vliegen.

http://www.cyc.com/

Verwijderd @DWZ • 28 december 2004 14:49

Toch vreemd dat het eerste wat ik las dat Fred toch echt de bergen zag vliegen. Misschien wel omdat ik het woord "while" miste in de zin.

progster @Verwijderd • 28 december 2004 19:50

of een komma :-)

Superstoned @DWZ • 28 december 2004 14:54

het lullige is natuurlijk dat je als mens nog wel kan hypothetiseren dat bergen kunnen vliegen; computers zouden dan toch wel aardig in de war raken ;-)

TinusH777 @Verwijderd • 28 december 2004 11:57

Dat is precies de reden dat www.pagina.nl zo successvol is: Navigeren naar wat je zoekt, resultaten zijn beoordeeld door pagina-eigenaren dus kwaliteit is hoog.

Verwijderd 28 december 2004 16:07

Ik denk niet dat dit nodig is.

Als je aan het zoeken bent weet je meestal ongeveer 6 seconden na het openen van een pagina met enige zekerheid of de pagina bevat wat je zoekt door naar de kop en naar de structuur van het document te kijken. Uiteraard kan dit mis gaan, soms bevat het document de informatie wel maar niet expliciet (in dat geval is verder zoeken meestal een efficiëntere oplossing dan lezen). Wat IBM hier voorstelt is een 'intelligente' zoekstrategie die mensen zelf niet gebruiken, dus het is de vraag of dit wel zo'n intelligente zoekmethode is. Het zou best kunnen dat de zoekmachine betere resultaten geeft, maar in heel moeilijk voor mensen te doorzoeken documenten (waardoor we al snel er vanuit zouden gaan dat het slechte resultaten zijn en dat zijn het dan eigenlijk ook)

Ik zet mijn geld in ieder geval in op Google.

fub @Verwijderd • 28 december 2004 16:45

Tja, d'r zijn nog maar weinig search engines die gebruik maken van de feedback van de gebruiker om de query te verfijnen. Zogenaamde 'relevance feedback' stelt de gebruiker in staat om van de zoekresultaten aan te geven of het in de buurt kwam of juist niet. Op basis van die feedback kan de zoekmachine dan trefwoorden voorstellen die juist wel of juist niet in de query zouden moeten komen. Na een aantal verfijnings-slagen kom je een heel eind.
Xapian, de zoekmachine waar ook GoT gebruik van maakt, heeft deze mogelijkheden in zich -- maar helaas wordt daar geen gebruik van gemaakt. Gemiste kans, wat mij betreft.

Het paradoxale van zoeken is natuurlijk dat je gevraagd wordt naar een omschrijving van de inhoud van het document dat je zoekt (geabstraheerd tot een query). Maar natuurlijk heb je die inhoud niet -- je bent er immers naar op zoek! Deze paradox wordt door Belkin de 'anomalous state of knowledge' genoemd.
De gebruiker kan wel direct herkennen of een document enigszins relevant is of niet -- en de zoekmachine, die de abstracte beschrijvingen van de inhoud van alle documenten bezit (de index), kan de gebruiker zo naar het juiste punt 'sturen'.

Verwijderd 28 december 2004 11:10

ze zouden een hoofdstukje ergens in het middelbare schoolonderwijs er bij moeten voegen: zoeken m.b.v regular expressions

http://etext.lib.virginia.edu/helpsheets/regex.html

Verwijderd 28 december 2004 11:16

Volgens IBM zal de derde generatie zoeksoftware in staat zijn de achterliggende betekenis van een query te begrijpen en documenten of bestanden, ongeacht het formaat waarin deze opgeslagen zijn, kunnen opzoeken op basis van de betekenis.

Klikt veelbelovend moet ik zeggen. Dit gaat alleen een best latig karweitje worden voor IBM. Geloof maar dat het niet makkelijk is om begrijpende software te maken, zeker niet als mensen het moeten gaan gebruiken. Probeer je maar eens te bedenken hoe je zoiets zou kunnen maken : 'het begrijpen van een query' en niet zoeken op iets wat in een query staat. (vannuit de ogen van een onwikkelaar gekeken dus)

Keep up the good work !

UnderFlow 28 december 2004 14:49

Nobel streven die derde generatie, maar ik vraag me af of dat op het moment (of in de nabije toekomst) al echt haalbaar is op technisch nivo. Het zoeken zal toch behoorlijke queries gaan genereren en om die goed af te kunnen handelen zul je toch behoorlijk wat rekenkracht nodig hebben, laat staan als de techniek publiekelijk wordt, dan moet je ook nog eens massaal die queries af kunnen handelen.

Maar het ziet er interessant uit en zolang de mens een drang naar informatie heeft zal de ontwikkeling naar nieuwe vormen om die informatie te verkrijgen uiteraard niet stil staan. Ik vraag me alleen af over welke termijn we het dan hebben.

Cybergamer 28 december 2004 16:04

IBM blijft mij verbazen. Maar goed, 9 van de 10 keer lukt het hun toch weer. Dus dit zal denk ik ook wel in hun vermogen liggen om te kunnen maken.

locke960 28 december 2004 20:33

Klinkt interesant, maar ik betwijfel of dat gaat lukken. Vooral omdat je met bronnen (internet) te maken hebt die het liefst je zoekfunktie misbruiken om maar bovenaan te komen.

Kortom, ik geloof het pas als je kunt zoeken op "free porn" en dan resultaten krijgt zonder commerciele pornosites erin.

Of, andersom, op de naam van een willekeurige bekende vrouwelijke artiest zonder op porno te stuiten...

Verwijderd 30 december 2004 00:24

Ach, ik moet het allemaal nog maar zien. De eerdere zoeksystemen van IBM zijn nooit een groot success geworden. In concept uitstekend, maar de praktische uitwerking......

Persoonlijk vindt ik associatief zoeken met een grafische interface nog steeds een van de betere vormen. Een voorbeeld:
http://biebaqua.utrecht.nl/

Verwijderd @Verwijderd • 28 december 2004 10:34

Als je de tweede alinea van het artikel ook had gelezen had je waarschijnlijk begrepen dat zij wel met de ontwikkeling van iets nieuws bezig zijn.

Al moet ik zeggen dat het me niet helemaal duidelijk is wat met

Volgens IBM zal de derde generatie zoeksoftware in staat zijn de achterliggende betekenis van een query te begrijpen en documenten of bestanden, ongeacht het formaat waarin deze opgeslagen zijn, kunnen opzoeken op basis van de betekenis

bedoelt wordt

Rone Moderator Tweaking @Verwijderd • 28 december 2004 10:44

Er staat duidelijk 'documenten of bestanden, ongeacht het formaat '.
Dit houdt in dat derde generatie zoekmachines kunnen zoeken in welk bestand dan ook en hem zullen begrijpen.
ursamajor hier onder mij legt het beter uit

Ursamajor @Verwijderd • 28 december 2004 10:45

Ik denk dat men hiermee bedoelt dat als je iets intypt als:"Wat is de diameter van de aarde", er wordt gezocht naar aarde als onderwerp en diameter als subgroep. Misschien zlefs dat er een link bestaat tussen de woorden "aarde" en "Diameter". Oftewel, de zoekmachine zal de query beter begrijpen omdat hij de context kan zien van de ingetypte zoekopdracht.

Mijns inziens een leuke ontwikkeling!

itsme @Ursamajor • 28 december 2004 10:54

http://www.google.nl/search?q=wat+is+de+diameter+van+de+aarde&sourceid =mozilla-search&cr=countryNL&lr=lang_nl&start=0&start=0&ie=utf-8&oe=ut f-8

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (19)

Sorteer op:

Weergave: