Nederlandse wetenschappers verbeteren voorspelling van zoekopdrachten

Wetenschappers van de Universiteit van Amsterdam hebben een methode ontwikkeld om beter te kunnen voorspellen waar een gebruiker van een zoekmachine naar zoekt. Dit doen zij door te kijken naar de tijd van het jaar en het profiel van de gebruiker.

Een samenvatting van het onderzoek werd door de Universiteit van Amsterdam op haar website gepubliceerd. Onderzoeker Fei Cai ontwikkelde de methode, die voor een verbetering van 7 procent in de voorspelling van zoekopdrachten moet zorgen. De wetenschappers vergelijken zichzelf met een andere state-of-the-art-methode voor het automatisch aanvullen van zoekopdrachten, maar het is niet duidelijk welke dat precies is.

De methode van Cai werkt door de tijd van het jaar mee te nemen in het voorspellen van een zoekopdracht. Zo is het bijvoorbeeld aannemelijker dat een gebruiker die "hallo" typt op "halloween" wil zoeken als het eind oktober is, vergeleken met de rest van het jaar, aldus de UvA. Ook neemt het algoritme van Cai persoonlijke eigenschappen mee bij het automatisch aanvullen van zoekresultaten. De UvA noemt als voorbeeld de locatie van de gebruiker.

Vooralsnog is niet duidelijk wanneer de ontwikkelde technologie in de praktijk zal worden gebruikt. Mogelijk hebben zoekmachines interesse in de voorspellende gaven van het algoritme van Cai, maar hierover is niets gezegd. De resultaten zijn aangekondigd tijdens een wetenschappelijk congres, maar zijn nog niet in een erkend vaktijdschrift gepubliceerd.

Vorig nieuwsartikel Volgend nieuwsartikel

Door RoD

Forum Admin Mobile & FP PowerMod

Feedback • 29-11-2014 10:04
31 • submitter: dvdgrs

29-11-2014 • 10:04

Submitter: dvdgrs

Lees meer

Yahoo wordt standaardzoekmachine in Amerikaanse versie Firefox Nieuws van 20 november 2014

Amerikaanse rechter: Google mag zoekresultaten zelf samenstellen Nieuws van 18 november 2014

'China blokkeert privacybewuste zoekmachine DuckDuckGo' Nieuws van 22 september 2014

Wetenschap Websites en community's Nederland Zoekmachines

IT-banen

Meer vacatures

Reacties (31)

-Moderatie-faq

Wijzig sortering

GlowMouse 29 november 2014 15:26

Mogelijk hebben zoekmachines interesse in de voorspellende gaves van het algoritme van Cai, maar hierover is niets gezegd.

Yahoo Labs heeft een van de auteurs uitgenodigd om een praatje te geven een half jaar geleden.

De methode van Cai werkt door de tijd van het jaar mee te nemen in het voorspellen van een zoekopdracht. Zo is het bijvoorbeeld aannemelijker dat een gebruiker die "hallo" typt op "halloween" wil zoeken als het eind oktober is, vergeleken met de rest van het jaar, aldus de UvA.

Dit is niet wat de onderzoekers hebben bijgedragen; zoekmachines doen dit momenteel al. Wat ook al bestond is dat je betere voorspellingen kunt doen omdat mensen vaak zoekopdrachten exact of met enkele aanpassingen herhalen, omdat ze nog niet gevonden hebben wat ze zochten. De onderzoekers hebben beide methoden gecombineerd. De methode is daarom alleen getest bij sessies met meer dan één zoekopdracht ("Sessions with more than one query are considered."). Alleen bij deze sessies wordt een verbetering van 7% gehaald.

De methode is getest aan de hand van twee datasets waarvan eentje uit 2006 van AOL, en eentje van 2013 van het audiovisueel archief. Aangezien de zoekmachines die veelal worden gebruikt een stuk beter zijn dan de genoemde zoekmachines, doe je minder zoekqueries in één sessie, en is het onderzoek dus minder relevant. Helaas wordt dit in het wetenschappelijke artikel niet aangestipt.

[Reactie gewijzigd door GlowMouse op 23 juli 2024 23:56]

afraca 29 november 2014 10:26

Ik heb gelukkig wel toegang tot de publicatie en heb ik even gezocht met welke state-of-the-art ze zich vergelijken. Ook in hun paper is het niet heel expliciet, maar ze verwijzen naar:

Whiting, S., & Jose, J. M. (2014, April). Recent and robust query auto-completion. In Proceedings of the 23rd international conference on World wide web (pp. 971-982). International World Wide Web Conferences Steering Committee.

Dit is abstract dat hoort bij de UVA publicatie en is misschien net wat duideljker:

Abstract
Query auto-completion (QAC) is a prominent feature of modern
search engines. It is aimed at saving user’s time and enhancing
the search experience. Current QAC models mostly rank matching
QAC candidates according to their past popularity, i.e., frequency.
However, query popularity changes over time and may vary drasti-
cally across users. Hence, rankings of QAC candidates should be
adjusted accordingly. In previous work time-sensitive QAC mod-
els and user-specific QAC models have been developed separately.
Both types of QAC model lead to important improvements over
models that are neither time-sensitive nor personalized. We pro-
pose a hybrid QAC model that considers both of these aspects:
time-sensitivity and personalization.
Using search logs, we return the top
N
QAC candidates by pre-
dicted popularity based on their recent trend and cyclic behavior.
We use auto-correlation to detect query periodicity by long-term
time-series analysis, and anticipate the query popularity trend based
on observations within an optimal time window returned by a re-
gression model. We rerank the returned top
N
candidates by in-
tegrating their similarities with a user’s preceding queries (both in
the current session and in previous sessions by the same user) on
a character level to produce a final QAC list. Our experimental re-
sults on two real-world datasets show that our hybrid QAC model
outperforms state-of-the-art time-sensitive QAC baseline, achiev-
ing total improvements of between 3% and 7% in terms of MRR

[Reactie gewijzigd door afraca op 23 juli 2024 23:56]

Chip. @afraca • 29 november 2014 11:01

De publicatie staat trouwens in dit geval niet achter een paywall. Via scholar.google.com...

https://staff.fnwi.uva.nl...tions/cikm2014-fp-qac.pdf

wica @afraca • 29 november 2014 10:52

/total offtopic
Aangezien jij wel toegang hebt tot de publicatie en andere niet, Veel wetenschappelijke publicaties staan achter een paywall of je moet een abo hebben.

Kan jij mijn mening delen, dat publicaties door iedereen te lezen zouden moeten zijn? Of wel in het publiek domein dienen te vallen?

Chip. @wica • 29 november 2014 10:59

Gaat gebeuren als het aan Staatssecretaris Dekker ligt...

"Staatssecretaris Dekker van het ministerie van Onderwijs, Cultuur en Wetenschap wil dat in 5 jaar 60% en in 10 jaar 100% van alle Nederlandse wetenschappelijke publicaties open access is."

http://vsnu.nl/nieuws/nie...richting-open-access.html

wica @Chip. • 29 november 2014 12:21

Dan hebben we het dus alleen over de Nederlandse publicaties. Ik heb het over alle wetenschappelijke publicaties. Zodat iedereen er toegang tot heeft.
Dus ook die van Duitsland, de UK, Japan, .... en ga zo maar door.

Ik denk dat deze informatie voor iedereen beschikbaar moet kunnen zijn, zonder dat er kostenaan verbonden zijn. Is niet aan de uitgever om er geld aan te verdienen.

swtimmer @wica • 29 november 2014 12:36

Daar ben je niet alleen in. Mijn universiteit (Cambridge) heeft zelfs extra funding mogelijkheden om te zorgen dat jouw publicatie open access gaat. Het is alleen afwachten tot Elsevier ook haar business model naar deze eeuw brengt.

Meerdere funding bodies (Wellcome Trust, Gates etc) verplichten je al om open access te publiceren, als dit doorgaat moet Elsevier wel aanpassen of ze gaan alle grote publicaties missen.

wica @swtimmer • 29 november 2014 13:08

En daar zit een probleem. Je hebt funding nodig om het open te krijgen,
Voor iets wat al openbaar hoort te zijn.

Daarbij krijgen nog niet de wetenschappelijke publicaties openbaar die bij een de grotere uitgevers zitten.
Ik denk dat een globale wetwijziging nodig is, om deze te openbaren voor een ieder of de wet nietig te maken door de publicaties te openbaren.

Thekilldevilhil @Chip. • 29 november 2014 11:29

In theorie een heel erg goed plan natuurlijk maar in praktijk gaat het betekenen dat ik straks niets meer van elsevier (uitgever niet het opinie blad) kan krijgen. En in biofarmaceutische/biomedische wetenschappen en toxicologisch onderzoek hebben zij een ontzettend hoop te bieden. Laten we het zo stellen, van mijn laatste review waren 12 van de 71 bronnen papers uitgegeven door elsevier. En dat is echt een hoop...
Zeker als je werkt aan een vrij recent onderwerp waar nog weinig over gepubliceerd is kan dat voor studenten een hoop schelen.

En naar het schijnt zijn zei niet de enige die weigeren, the cell wil ook niet. Voor de mensen die de cell niet kennen, dat is een soort heilig blad voor mensen die in de cellbio/biomedische kant zitten. Als iedereen zou meewerken zou het echt geweldig zijn maar een halve oplossing is in dit geval erger dan niet hoeven betalen.

Edit: Dit is allemaal via LUMC die vanaf komende zomer (?) zijn abbo bij elsevier en the cell opgezegd schijnt te hebben

[Reactie gewijzigd door Thekilldevilhil op 23 juli 2024 23:56]

pauldebra 29 november 2014 10:24

Wat ik hier vooral zie is dat de wetenschappers van de UvA beter zijn dan anderen in publiciteit maken/krijgen voor hun onderzoek.
Typ in Google nu maar even "sint" en de eerste sugestie is meteen "sinterklaas". Google zou niet gebruik maken van de tijd van het jaar en dat ik de vraag vanuit Nederland stel?
De onderzoekers hebben vast een nieuwe techniek ontwikkeld die te moeilijk is om in een krantenknipsel of artikel op Tweakers uit te leggen. Maar het basisprincipe van een gebruikersprofiel en de context (meer dan alleen tijd van het jaar) meenemen in de voorspelling dat wordt al meer dan 20 jaar onderzocht, ook in Nederland. Dus wat hier nu nieuw aan is? Dat zullen we dan toch in het ACM CIKM artikel moeten lezen. Alleen maar het nieuwsbericht lezen geeft helemaal een "wiel opnieuw uitgevonden" gevoel en dat is jammer want er zit vast meer achter.
(Ik ben "toevallig" ook onderzoeker in dit gebied, en president van User Modeling Inc.)

mad_max234 @pauldebra • 29 november 2014 11:38

Ja dingen als locatie, tijd/datum, persoonlijke zoekgeschiedenis, etc neemt google allemaal mee. Wat nu bij jou bovenaan staat hoeft bij mij niet bovenaan te staan, laat staat voor een amerikaan of zo.

Googel gebruikt volgens eigen zeggen 200 unieke variabele om te bepalen welke zoekresultaten voor de zoeker geschikt is.

http://www.google.com/ins...archworks/algorithms.html

zvbhvb @mad_max234 • 29 november 2014 11:49

Bovendien als oma de zoekopdracht wat moeilijker maakt door heel wat karrakters verkeerd in te voeren dan nog weet google in tegenstelling tot bijvoorbeeld Yahoo dat er Sinterklaas wordt bedoeld ipv een of andere schrijver of intertoys.

s#]interkees

HMC @zvbhvb • 29 november 2014 11:59

Verkeerde karakters worden hier op Tweakers ook regelmatig ingevoerd.
Kijk maar naar mad_max234 reactie, waar je op reageert.
Toch begrijpen we hem goed genoeg om er op te reageren.

Zo verschrikkelijk belangrijkl zijn die verkeerde karakters niet.
Zo kunnen wij een zin waar alle klinkers uit weggelaten zijn ook gewoon lezen.

Dat kan Google ook, vooral met de achterliggende database erbij, die al die dingen al weet.

Dit "onderzoek" is inderdaad een beetje...redundant?

Verwijderd @pauldebra • 29 november 2014 14:45

Typ in Google nu maar even "sint" en de eerste sugestie is meteen "sinterklaas". Google zou niet gebruik maken van de tijd van het jaar en dat ik de vraag vanuit Nederland stel?

HIer krijg ik anders:
1. Sint (2010) ... an original slasher movie
2. Sint Franciscus Gasthuis
3. Sint Janskerk
30 pagina's zoekresultaten verder -nooit geweten dat er zóveel Brabantse en Vlaamse plaatsen en verenigingen naar een of andere sint vernoemd zijn- ben ik nog maar één verwijzing naar het sinterklaasfeest tegengekomen (sinterklaasjournaal).

Zo te zien kan Google dus nog wel wat aan zijn voorspelling interpretatie van zoekopdrachten verbeteren.

jvdmeer @Verwijderd • 29 november 2014 22:30

[...]

HIer krijg ik anders:
1. Sint (2010) ... an original slasher movie
2. Sint Franciscus Gasthuis
3. Sint Janskerk
30 pagina's zoekresultaten verder -nooit geweten dat er zóveel Brabantse en Vlaamse plaatsen en verenigingen naar een of andere sint vernoemd zijn- ben ik nog maar één verwijzing naar het sinterklaasfeest tegengekomen (sinterklaasjournaal).

Zo te zien kan Google dus nog wel wat aan zijn voorspelling interpretatie van zoekopdrachten verbeteren.

Logisch als je zoekt op "Sint" . Pauldebra bedoelde het automatisch aanvullen. Dus je typt "Sint" in de zoekbalk (zonder enter) en je wacht even. De bovenste suggestie is bij ook Sinterklaas.

__Tripps__ 29 november 2014 11:20

Afgaand op sommige van bovenstaande reacties voorspel ik negatieve reacties van mensen die 3 tot 7% weinig vinden. Waar zijn jullie briljante oplossingen? Waarschijnlijk gebaseerd op testcollecties (artikel niet gelezen), maar de veranderingen die 3 tot 7% verbetering opleveren zijn toch wel het lezen en horen waard.

CIKM is in de IR wereld niet zomaar een conferentietje of zo weet je.....

[Reactie gewijzigd door __Tripps__ op 23 juli 2024 23:56]

zvbhvb @__Tripps__ • 29 november 2014 11:56

Als je het huidige zoek algoritme van bijvoorbeeld Google met 3 to 7% weet te verbeteren is dat bestwel knap.

fastbikkel 29 november 2014 15:13

Dit soort ontwikkelingen vind ik nooit erg per definitie. Maar hoe worden ze toegepast....
Ik vind dat bepaalde zoekmachines nogal "gedwongen" werken. Daarmee bedoel ik dat ik niet veel vrijheid lijk te hebben om opties in te stellen.

Sommigen hier noemden het al, de machine bepaalt wel even een soort zoekresultaat voor je terwijl je mischien gewoon echt "random" wilt zoeken en niet alleen vanuit NL perspectief o.i.d.

Google gebruik ik al heel lang niet meer om andere redenen. Bing is al jaren mijn vriend.
Maar volgens mij ging het artikel ook meer om zoekmechanismes in het algemeen.

JwJw01 @fastbikkel • 29 november 2014 21:35

Hiermee ben ik het helemaal eens. Wanneer men zoekt op een woord zijn er mijn inziens twee uitersten:
1. Google zoekt door de gehele database naar dat woord en geeft alle gevonden sites in een willekeurige volgorde.
2. Google 'weet' precies wat de gebruiker zoekt en geeft meteen de juiste link.

Dat tweede is natuurlijk een utopie en het eerste is totaal niet bruikbaar. Maar Google zou de gebruiker wel meer vrijheid kunnen geven om het resultaat van de zoekactie te kunnen beïnvloeden. Hierbij denk ik aan een systeem, zoals die er ter dele nu al is, waarbij je bepaalde algoritmes uit of aan kunt zetten. De Safe-Search, in welke taal zoeken en de landen optie zijn daar voorbeelden van. Maar dit kan natuurlijk veel uitgebreider. Een toevoeging op dit idee zijn 'sliders' achter de algoritmes die aan of uit gezet kunnen worden. Die 'sliders' kun je verschuiven (doh) en daarmee de weging bepalen op het zoekresultaat.

Voor vele gebruikers is dit overbodig maar Google zou hiermee wel de transparantie vergroten. Op dit moment kan Google heel erg bepalen wat jij vindt. Waarom worden de meeste zoekwoorden aangevuld? Maar als ik Youpor type dan moet ik zelf de laatste n invullen. Een ander voorbeeld is dat torrentsites niet snel meer op pagina 1,2 of 3 verschijnen wanneer er wordt gezocht naar een film of album. Ik begrijp uiteraard wel waarom maar door de gebruiker meer controle te geven over dit soort zaken zal de gebruiker zich minder gestuurd voelen en Google een opener imago geven. En het belangrijkste is: betere zoekresultaten voor de gebruiker.

pauldebra 29 november 2014 10:38

De waarde van het onderzoek zit in het implementeren en combineren van bekende ideeën en het uitvoerig experimenteren om quantitatief aan te kunnen geven hoeveel dit nu scheelt. Dat is toch heel wat anders dan het publieks-gerichte artikeltje vertelt. Belangrijke les voor andere wetenschappers is dat ze naast hun wetenschappelijke publicaties veel meer de publiciteit naar het grote publiek moeten zoeken. Ik zou op basis van zo'n onderzoeksresultaat nooit op het idee zijn gekomen om hiermee grotere publiciteit op te zoeken. Weer een wijze les geleerd!

brunoj 29 november 2014 14:34

3-7% in dit vakgebied is een behoorlijk forse verbetering. Het punt in veel commentaren, dat Google dit al doet, is het hem exact! Vaak hebben commerciele bedrijven algoritmes die ze geheim houden, dus technisch gezien "bestaan" deze algoritmes niet in de poel van de algemene wetenschappelijk kennis. Dit is echter een (mogelijk) uitleg van hoe Google het doet (of zelfs een verbetering erop, maar dat kan je objectief niet meten), maar dan wel een die wetenschappelijk onderbouwd en voor iedereen beschikbaar is; het doel van de wetenschap is immers de kennis van de mensheid als geheel bevorderen en niet winst maken.

Off topic, maar een leuke anecdote is dat Maarten de Rijke (co-auteur van deze publicatie) een paar jaar geleden een publicatie had waarin hij o.a. de hoeveelheid en verloop van reacties op nieuws voorspelde, op Tweakers.

mattie2013 1 december 2014 00:47

Doordat ik op een engelse ubuntu werk en meestal op engelse fora zit (volgende suggesties):

1. sint maarten <-- bijna goed
2. sint eustasius
3. sintomas del ebola

Helaas zal dit voorbeeldprobleem niet verholpen zijn met de nieuwe methode omdat dit een zoekopdracht van een woordt is

Daarintegen als ik iets met programmeertalen intoets geeft ie altijd goede hits

Google zijn voorspellende krachten als zoekmachine hebben me wanneer ik dat nodig ben uit de brand geholpen. Hoewel google als bedrijf ook moet bestaan en dit doet om advertenties te leveren. Denk bijvoorbeeld aan apperatuur analyse (jij heb een smartfone / tablet van merk A dus als jij computer intikt sturen wij reclame van producten van merk A). Of analyse van je foto's op product herkenning.

Helaas kan ik niet veel opmaken uit het stukje dat gepost is. Wel vindt ik dat het zo is met zoekmachines dat mensen ook moeten leren om ze te gebruiken voordat je er meer informatie uit kan halen. Hiernaast is het zo dat er ook iets is als publicatiedruk wat altijd de % wat mooier laat lijken.