Powerset presenteert semantische zoekmachine voor Wikipedia

Het Californische bedrijf Powerset, dat zoeken op internet op basis van 'natuurlijke taal' mogelijk wil maken, heeft zondag zijn eerste product gepresenteerd: een zoekmachine voor de Engelstalige versie van Wikipedia.

Met de nieuwe zoektool kunnen gebruikers vragen stellen zoals "how many people were evacuated from New Orleans during hurricane Katrina" of "what was banned by the FDA". Ze krijgen dan een lijst met artikelen waarin het antwoord hoogstwaarschijnlijk te vinden is. De traditionele zoekmachines kunnen alleen maar zoeken op woorden of zinnen, iets wat de Powerset-zoekmachine trouwens ook kan.

Powerset heeft om te beginnen gekozen voor Wikipedia, omdat dit een sterk gestructureerde verzameling gegevens is, waarin relatief makkelijk gezocht kan worden. Het bedrijf is van plan om de zoektechniek te gaan uitbreiden naar andere goed georganiseerde gegevensverzamelingen zoals patenten, het CIA-factbook of Wiki-klonen. Uiteindelijk is het de bedoeling dat op heel internet kan worden gezocht, maar de realisatie hiervan kan nog wel even duren, zo bericht Reuters.

Volgens Greg Sterling, analist bij het onderzoeksbureau Sterling Market Intelligence, zal het nog vele jaren duren voordat Powerset in staat is het World Wide Web te doorzoeken op dezelfde schaal als Google. Wanneer dit echter het geval is, kon Powerset wel eens een geduchte concurrent van Google worden. Volgens geruchten heeft Microsoft, dat onlangs een bod op Yahoo introk, namelijk interesse in Powerset. Woordvoerders van zowel Microsoft als Powerset weigerden commentaar op een mogelijk samengaan van beide bedrijven.

Door Arie Jan Stapel

Nieuwsposter / PowerMod

12-05-2008 • 13:00

23

Reacties (23)

23
23
14
11
0
0
Wijzig sortering
Heeft iemand een idee wat het verschil is met 'Semantic Mediawiki' http://semantic-mediawiki.org/wiki/Semantic_MediaWiki
Dat doet precies het zelfde en is open source.
Je zegt het haast alsof commerciele/closed-source software een eng iets is... eerlijk gezegd zou ik het ook flink exploiteren indien ik een zoekengine als deze had gemaakt....

Google heeft tenslotte ook niet de broncode van zijn zoekalgoritmes vrijgegeven... ze zijn niet gek. Hetzelfde geld voor dit bedrijf.
Semantic MediaWiki is een een uitbreiding voor MediaWiki die het mogelijk maakt om handmatig semantische gegevens aan tekst toe te voegen en deze gegevens o.a. in machine leesbare vorm (http://en.wikipedia.org/wiki/Resource_Description_Framework) beschikbaar te maken. De zoekfuncties binnen SMW zijn momenteel nog wat gelimiteerd. Powerset richt zich met name juist op de zoekfunctie en haalt de semantische gegevens voornamelijk automatisch uit de lemma's met behulp van natuurlijke taalanalyse.
ik vind dit wel een goede ontwikkeling. Zat er natuurlijk ook al aan te komen met het "web 3.0" Oftewel het semantische web, waar het internet bijna zelf kan 'denken'. Dat komt inderdaad doordat iedere website dan zelf hun informatie moet gaan beschrijven, oftewel het stukje wat Ruudjah zo mooi uitlegde met zijn CV alleen zou je dat anders gaan beschrijven dan met BB tags imo :P Ik zou dan eerder denken aan gewone tags zoals ze bij del.icio.us en flickr doen.
Databases gaan dan communiceren met elkaar waardoor je imo een soort hersenen creëert waar continue nieuwe wegen gelegt worden tussen bepaalde soorten informatie(die tags dus). Daardoor kunnen ze informatie aan elkaar koppelen en zijn de resultaten vollediger.

Hoe zou je dit maximaal kunnen gebruiken?[en waarschijnlijk onmogelijk qua privacy voorschriften etc. :/ ] Door ieder persoon uniek te benaderen. Een soort account waaraan gekoppeld een verleden. Iets als wat google nu doet per ip, en dat gebruiken. Na verloop van tijd zou dan duidelijk worden dat het bijvoorbeeld om een klein meisje gaat. Die zal zoeken op "prinsesjes, Barbies, Paarden, Pony, assepoester etc."... als ze dan een keer zoekt op lieve poesjes krijgt ze in ieder geval het goede antwoord. Puur en alleen omdat zo'n zoekmachine dan "slim" is. Wellicht is dit zelfs nu al wel deels mogelijk met de informatie die google nu al weet van iedereen :X
Zo zie je meteen hoe stout je vader/broer/zus/moeder is wanneer je gebruikt maakt van diegene zijn/haar account :P O-) :>
Even om de verwachtingen wat te temperen: het Semantisch Web (aka Web 3.0) gaat NIET zelf denken, zelfs niet "bijna".

De meerwaarde zit hem in het feit dat er meer geautomatiseerd verwerkbare informatie beschikbaar is/komt waarvan de semantiek (tot op zekere hoogte) gestructureerd is vastgelegd. Hierdoor wordt het mogelijk betere resultaten te krijgen uit informatieverwerkende systemen zoals zoekmachines. De "intelligentie" moet nog steeds uitgeprogrammeerd worden, mede omdat er geen "allesomvattend" model is waarmee echt alle informatie aan elkaar gelinkt kan worden.

Doordat het Semantic Web gebaseerd is open standaarden kunnen (in theorie) ook méér verschillende systemen met elkaar samenwerken.

Maar zelf "denken": not by a long shot.

[Reactie gewijzigd door Herko_ter_Horst op 6 augustus 2024 01:06]

Ok, daar moet ik je helemaal gelijk in geven. Het zal niet zelf denken, maar doordat heel veel informatie aan elkaar gekoppeld gaat worden wil het voor de n00b nog wel zo lijken.

Als het web zelf moet gaan denken dan gaat het slimmer worden dan ons :P

Het zou wel kunnen dat we betere inzichten gaan krijgen als informatie gekoppeld gaat worden. Web 3.0 zoekmachine's zullen dus waarschijnlijk wel nieuwe inzichten leveren. Koppelingen die we nu nog niet gemaakt hadden.
Het is inderdaad wel heel praktisch als zoekmachines ook zo gemakkelijk gaan worden om onze taal en teksten "te begrijpen", waardoor wij in de toekomst steeds meer natuurlijke vragen kunnen stellen; die de computer vervolgens uit context (van overal op het internet) kan opzoeken en beantwoorden, of in ieder geval relevante links kan sturen.

Momenteel werken de vragen nog niet, hoogstens krijg je advertenties die speciaal ingekocht/gemaakt zijn om je naar de site te lokken i.p.v. relevante informatiestukken.

Het nadeel is dat taal zo ingewikkeld is, en zo moeilijk is om in programeertaal "vast" te zeggen, dat het ontzettend veel werk gaat worden om dit overal te laten werken.

Websites als Google kunnen zoiets al, bijvoorbeeld "5 inch in cm" en bepaalde andere syntaxen, en ook Live Search maakt er steeds meer reclame voor (nadeel is dat het hier niet werkt zoals in dit artikel genoemd wordt).

Zodra zoiets mogelijk is, wordt het internet veel gemakkelijker, ook voor beginners. Want zij hoeven niet na te gaan denken over goede trefwoorden, en manieren om iets te vinden, maar kunnen dan gewoon hun vraag stellen en krijgen informatie.
Voordeel is gelijk dat er gescanned kan worden hoe goed/professioneel websites zijn qua taalgebruik & manier van schrijven: want voor ons is het gemakkelijk beoordelen op basis van taal (en indeling) wat een site als doel heeft, en hoe die opgebouwd is. Computers moeten dit nog leren begrijpen, en de komende tijd zal dit nog niet zo veranderen denk ik.

[Reactie gewijzigd door vmsw op 6 augustus 2024 01:06]

Anoniem: 16536 12 mei 2008 14:51
Ik heb net even de volgende vragen ingevoerd..

What was the biggest fireworks accident in history?
en
Which actor won the most oscars ever?

Beide vragen werden niet goed beantwoord, de tweede kwam zelfs bij een LOTR artikel als eerste hit.

Mijns inziens is dit dus nog steeds stukken slechter dan handmatig zoeken want als ik zelf op wiki zoek naar:

Fireworks accidents of Best Actor

dan vind ik ze vrijwel direct.
Ik vind het eigenlijk behoorlijke onzin. Als ik wil weten wanneer John Lennon is doodgeschoten, tik ik toch gewoon in Google in "death John Lennon" en ga ik niet helemaal "When was John Lennon shot" uittikken? Ik neem aan dat ieder mens wel zo slim is om vervolgens de resultaten te interpreteren en te kijken welke hit hoogstwaarschijnlijk de door jou gezochtte informatie geeft. Of ik ga gewoon direct naar de John Lennon wiki pagina. Zo is het toch met alles :?
Het gaat erom dat je het denkwerk steeds meer aan de computer over gaat laten. Wij zijn er nu al op ingesteld dat we zelf de zoekresultaten globaal voorspellen -- of toch zeker de kwaliteit ervan. Omdat we weten dat je met die hele zin waarschijnlijk een minder zinnig resultaat geeft dan je wenst, formuleer je je zoekquery anders. Dit zal je ondertussen wel doen zonder er bij na te denken, maar het neemt voor een toekomstige generatie weer een stap weg.

Daarnaast gaat het niet alleen om zoekresultaten. Dat is een eerste toepassing en is nog ver verwijderd van het voeren van een zinnig gesprek met je computer, maar ook dat komt steeds dichter bij door dit soort ontwikkelingen.
Das 't leuke: Het is de bedoeling dat je de interpretatie kan overslaan. Ik heb je vraag 'When was john lennon shot' ingevoerd in het ding; en het tweede resultaat bevatte het gemarkeerde antwoord.
Dus waar Google korte websites en korte lapjes tekst als antwoord geeft, geeft deze methode gemarkeerde tekst als antwoord.
Nog leuker is 'How many people live in Amsterdam', dat geeft een getal en geen tekst als antwoordt.
Anoniem: 234484 @Peedy12 mei 2008 16:41
En hoe zit het dan met je Moeder, of je Oma? Die is hoogstwaarschijnlijk niet zo handig dat ze dat "gewoon even intikt." En daar gaat het nou juist om, of hoe zit het met al die lieve kinderen die op zoek zijn naar plaatjes van jonge katjes...
Was dit niet hetzelfde bij Ask Mr. Jeeves? Dat was wel aardig, maar werkte niet echt denderend.
Daar zat Teoma achter. Volgens Wikipedia zat daar de CLEVER technologie achter van IBM, en op Tweakers heeft geloof ik nog gestaan dat ask.com (opvolger van askjeeves) zich nu speciaal ging richten op 'huisvrouwen'.
Anoniem: 140057 12 mei 2008 14:07
Ik ben benieuwd hoe hoe dit werkt; op basis van compositionaliteit (delen van de zin construeren de betekenis van het geheel), voorgeprogrammeerde vragen, herkent de software onderwerp/bijvoegelijk naamwoorden, etc? Of stiekem toch gewoon brute associatie?

Waarschijnlijk werkt het ongeveer zo..
'wat is een tafel?'

dan herkent de zoekmachine het werkwoord is en het woord tafel
en zoekt het naar een zin in wikipedia met diezelfde woorden maar dan zonder tafel, zoiets:
'een tafel is ...'
Omdat de informatie die doorzocht is door Powerset semantische informatie heeft, kan de zoekmachine betekenis 'begrijpen'. Als ik mijn CV publiceer op het internet, en geef aan in het document dat het een CV is, dan kan de computer hiermee verder. Als ik vervolgens mijn adres in het CV zet, wat ik vervolgens ook aangeef, dan kan de computer hier ook mee aan de gang. Voorbeeld:
[CV]
[name]Ruudjah[/name]
[address]Street 1, 1234 AB Somewhere[/address]
[/CV]
Nu kan de computer óók mijn CV lezen. En in plaats van mijn adres tonen als een stuk tekst, kan hij bijvoorbeeld besluiten direct een foto van mijn huis van Google StreetView te trekken. Of een google maps plaatje.

Als nu iemand gaat zoeken op "what is Ruudjah's address"? Dan zal Powerset de zin ontleden "Ruudjah" has an address". Mocht hij mijn CV gecrawled hebben, dan zal die opspringen als een resultaat.

In wikipedia gebeurt dit blijkbaar al min of meer, dat informatie semantische metainfo heeft. Als nu de rest van het web óók op iedere webpage semantiek gaat toepassen, dan wordt het voor Powerset mogelijk om ook de rest van het web te indexeren.
Ik zou liever zien dat ze een spellchecker in de searchengine inbouwen, net zoals google heeft gedaan. Zodat kleine typefoutjes toch het gewenste resultaat opleveren.
Anoniem: 140057 @SirBlade12 mei 2008 14:11
Dat hebben ze ook.
Het lijkt mij dat dit bedrijf beter binnen google (met als core activities advertenties en zoekmachines) dan binnen microsoft (een vrij algemeen software bedrijf) past... ach ja uiteindelijk zullen ze wel voor het meeste geld gaan zoals de meeste bedrijven.
Lijkt me toch dat je dan zo lang mogelijk onafhankelijk moet proberen te blijven. Des te later je wordt overgenomen, des te meer ben je waard, des te meer verdien je. Of beter nog: Blijf zelfstandig en wordt het nieuwe Google ;)
Iemand een idee hoevel de energierekening van hun serverpark zou bedragen?
Nou, als je gebruikers aantallen zakken, kun je wel proberen zo lang mogelijk zelfstandig te blijven, maar dat levert je toch weinig op.

Overigens ben ik een enorm voorstander van zelfstandigheid en niet beurs genoteerd. (voor je 't weet heb je zo'n hedgefund die je wil opsplitsen en je hele bedrijfsmodel aan gort knaagt omdat een derde rangs analist het beter denkt te weten)
Wat ik me vooral afvraag is waarom de site heeft gekozen om bepaalde woorden te laten eindigen met een Z ipv een S.
Op de frontpage van hun site zie je staan "Search Tipz & Examples" en een stukje verder op "Discover Factz".
wat zou de rede hier achter zijn? ik vind het namelijk erg onprofessioneel over komen.

Op dit item kan niet meer gereageerd worden.