Cookies op Tweakers

Tweakers maakt gebruik van cookies, onder andere om de website te analyseren, het gebruiksgemak te vergroten en advertenties te tonen. Door gebruik te maken van deze website, of door op 'Ga verder' te klikken, geef je toestemming voor het gebruik van cookies. Wil je meer informatie over cookies en hoe ze worden gebruikt, bekijk dan ons cookiebeleid.

Meer informatie

Door , , 57 reacties

Uit recente documenten zou blijken dat de Wikimedia Foundation werkt aan een zoekmachine. Zo heeft de organisatie een beurs ontvangen van 250.000 dollar om aan dit project te werken. Voorzitter Jimmy Wales bestrijdt echter dat er plannen zijn voor een zoekmachine.

De Wikipedia-krant The Signpost bracht onlangs het verhaal dat Wikipedia zou werken aan een project dat eerst de naam 'Knowledge Engine' droeg en nu bekendstaat als 'Wikimedia Discovery'. Het project zou tot doel hebben een zoekmachine te ontwikkelen. Dit vermoeden wordt echter door Wikimedia zelf tegengesproken. Er zou dan ook geen sprake zijn van het feit dat de organisatie 'een tweede Google' zou bouwen, aldus Wikimedia-voorzitter Jimmy Wales. Het project zou de eigen CirrusSearch-infrastructuur moeten verbeteren.

Naar aanleiding van het artikel in The Signpost heeft Wikimedia nu de verleningsbrief van de beurs gepubliceerd. Daaruit zou blijken dat het project wel degelijk op het ontwikkelen van een zoekmachine is gericht, aldus The Signpost. Zo zou het doel van het project zijn om 'een systeem voor het vinden van betrouwbare publieke informatie op het internet' te bouwen. De beurs van omgerekend 223.000 euro is afkomstig van de Knight Foundation, die zich inzet voor innovatie en verbetering op gebieden als journalistiek en media.

Uit de brief blijkt verder dat de Knowledge Engine het ontdekken van media, nieuws en informatie moet democratiseren. In tegenstelling tot commerciële zoekmachines moet dit project een 'transparante zoekmachine' voortbrengen, die 'relevante informatie toegankelijk moet maken en vrij van commerciële doeleinden moet zijn'. Ook zou uit een uitgevoerde risico-inschatting blijken dat 'het grootste risico voor het project is als Google of Yahoo met eenzelfde idee komen'.

De details over de beurs van de Knight Foundation waren in eerste instantie niet publiekelijk bekend. Volgens The Register was dit een van de factoren die speelden bij het vertrek van Wikimedia-bestuurslid James Heilman in December. Hij zou het bestuur onder druk hebben gezet om informatie over het project naar buiten te brengen. Ook was hij tegen het aannemen van de beurs, maar uiteindelijk stemde het bestuur voor.

Uit de brief blijkt verder dat het gehele project zo'n 2,5 miljoen dollar moet gaan kosten en dat de eerste fase tot 31 augustus dit jaar zal duren.

knowledge engine          Ontwerp van een zoekpagina, zoals getoond aan de Knight Foundation

Moderatie-faq Wijzig weergave

Reacties (57)

Ik vind het een leuk idee om meer diversiteit te krijgen op deze markt... maar kan je als search expert nu ook al de bottom line geven: het gaat niet op het kwaliteitsniveau komen dat het ook maar enigszins concurrerend is.

Wie ben ik dan om dat te vinden? Nou, for one, ik bouw al sinds 1999 aan zoekmachines, volg vrijwel alle publicaties en bezoek af en toe conferenties. Mensen huren mij primair in vanwege mijn expertise rondom zoekmachines.

Het grote punt van search engines dat alle non-experts gruwelijk onderschatten is de complexiteit van de algoritmes om goede zoekresultaten te fabriceren. 250K dollar? Dat soort bedragen kan je echt niets voor. Je wilt echt niet weten hoeveel Google en Microsoft hierin hebben geÔnvesteerd... en dan heb ik het niet specifiek over servers, maar in man-uren R&D, servers, etc, etc.

Slechts een klein deel van wat er in deze wereld gebeurt wordt gepubliceerd. Microsoft publiceert daarbij nog best veel - en zelfs dat is nog maar het topje van de ijsberg. Van hetgeen wat gepubliceerd wordt, kan je best aardige resultaten halen met Lucene... maar meer dan "aardig" zou ik het ook niet noemen. Niet-gepubliceerde truuks die ik al ken kan je de score ongelofelijk hard mee verbeteren -- en dat verbleekt nog bij wat Google en Microsoft allemaal kunnen op dit gebied.

En dan heb ik het nog niet eens over de waarde van query logs voor het verbeteren van de kwaliteit van zoekmachines... Meer data kan je betere resultaten mee maken. Google, Yahoo en Microsoft hebben redelijk wat query logs (waarbij je ook niet moet onderschatten wat die partijen halen van websites via analytics!), Wikimedia heeft dat niet. Alleen dat punt al is voor mij voldoende reden om te kunnen zeggen dat het niet op een vergelijkbare kwaliteit komt.

Het gaat me echt te ver om hier een uitgebreid relaas hierover te schrijven... maar als je een glimps wilt krijgen van deze wereld, nodig ik je uit om een keer de publicaties van bijv. ACM SIGIR te lezen. (En nogmaals, dit is alleen nog maar wat er gepubliceerd is).
Vind je het niet veel grappiger dat het grootste risico wat ze denken is dat google stopt met het commericeel uitbuiten van de zoekresultaten. Wat namelijk het orginele idee is wat ze hebben.
Blijkbaar snappen ze ook niet helemaal waar google zijn geld vandaan haalt en hoe groot adwords wel niet is.

Als je ergens nog wil innoveren qua zoekmachines is , binnen app's kunnen zoeken via een zoekmachine.

[Reactie gewijzigd door citegrene op 16 februari 2016 05:35]

Vind je het niet veel grappiger dat het grootste risico wat ze denken is dat google stopt met het commericeel uitbuiten van de zoekresultaten. Wat namelijk het orginele idee is wat ze hebben.
Ik denk dat dit iets te eenvoudig geredeneerd is. Alle commerciele (web) search engines (lees: Google, Yahoo en Bing gebruiken dit sowieso) werken tegenwoordig via 'learning to rank'. Learning to rank houdt in dat je op basis van features over gebruikers probeert te leren welke formule leidt tot de beste zoekresultaten.

Goed wordt gedefinieerd op basis van query logs, waarbij (sterk vereenvoudigd) de laatste 'klik' op een link binnen een 'search sessie' wordt gezien als de 'juiste klik'. Meer query logs leiden dus tot betere zoekresultaten - maar ook de kwantiteit en kwaliteit van features spelen een belangrijke rol.

Iemand van Microsoft vertelde een paar maanden geleden op een conferentie dat ze iets meer dan 1000 features gebruiken. Ter vergelijk, Lucene werkt standaard op basis van een TF.IDF variant met ongeveer +/- 5 features. De vraag is dus: welke features zijn dat dan? Uiteraard gaan ze (beiden) dit niet vertellen -- maar wat we wel vrij zeker weten is dat persoonsgebonden features en clusters van mensen hier een rol in spelen.

Kijkend naar hun portfolio, verwacht ik dat 'commerciele features' zoals informatie uit Analytics en Adwords ook een rol spelen. Waar organische zoekresultaten vroeger een onafhankelijke search engine waren, moet je dit denk ik tegenwoordig zien als een klein onderdeel van het enorme ecosysteem aan search functionaliteiten die allemaal werken op een enorme set aan features. Wat de AI algoritmes leren is wel iets anders.

Linksom of rechtsom weet ook niemand meer hoe precies die AI algoritmes hun werk doen. Je kan je afvragen of dat "commercieel uitbuiten" is of niet, omdat ook "commerciele features" waarschijnlijk in de mix meespelen. Hoe dan ook gaan ze het niet zomaar "uitzetten", want dan vernietig je een deel van de feature set - en dat kan niet goed zijn.

Op dit punt is het belangrijk om te vermelden dat je AI algoritmes wel een kant op kan sturen. Microsoft is hier (gelukkig!) heel open over. Om je een idee te geven: Microsoft heeft bijv. een (ethisch) experiment gedraaid, waarbij ze probeerden mensen te beinvloeden via hun organische zoekresultaten. Het doel hiervan was uit te zoeken in hoeverre je de mening van mensen kan beinvloeden via zoekresultaten - om te bepalen of hier wellicht (ivm ethiek) wetten voor moeten komen. Mensen met een 'rechtse' of 'linkse' politieke voorkeur probeerden ze te beinvloeden door meer resultaten te laten zien over 'de andere kant' van het spectrum. Beide resultaten zijn technisch gezien even 'correct', maar door mensen langzaam een kant op te duwen, hoop je dat ze hun mening bijstellen. Dat laatste kunnen ze meten uit de query logs. De bottom line: het experiment was een succes, je kan inderdaad mensen zo beinvloeden.

*ough* Ja, ik schrok me dood

Stel je eens voor, we gaan kinderen beinvloeden om meer te roken. Of we gaan mensen beinvloeden om op 'rechts' te stemmen. Of om een specifiek spel te spelen. Of om een specifiek medicijn te kopen. Of... ik hoef je vast niet te vertellen hoe scary dit allemaal is - en hoeveel marktwaarde dit heeft! En let wel: in alle gevallen zijn de organische zoekresultaten technisch / objectief gezien "even goed", dus daar doe je geen compromis aan... en het gaat hier om zulke kleine nuance-verschillen, dat deze voor de gebruiker niet eens merkbaar zijn. Scary as hell.
Blijkbaar snappen ze ook niet helemaal waar google zijn geld vandaan haalt en hoe groot adwords wel niet is.
Check. Op Google HQ heb ik dat met eigen ogen kunnen zien... werkelijk, je hebt geen idee :)
Als je ergens nog wil innoveren qua zoekmachines is , binnen app's kunnen zoeken via een zoekmachine.
Uiteraard is dat allang bedacht. Search in specifieke verticals is voor mij veel interessanter dan web search. De tijd van mijn web search engines is allang voorbij... Het is voor mij totaal niet lucratief om te concurreren met Google, Yahoo en Microsoft... die strijd is allang beslist - als ik dat wil doen, ga ik wel gewoon bij een van die partijen werken. :)
Zal de qoute even qouten, want je begrijpt me niet:
'relevante informatie toegankelijk moet maken en vrij van commerciŽle doeleinden moet zijn'.
Dus geen reclames of mogelijkheid tot een advertisement hoog in de zoekresultaten zoals bijvoorbeeld google doet. Je kan je plek dus niet kopen.

En vervolgens zeggen ze :
Ook zou uit een uitgevoerde risico-inschatting blijken dat 'het grootste risico voor het project is als Google of Yahoo met eenzelfde idee komen'.

Ofwel google zou het idee moeten gaan komen om geen geld meer te verdienen aan de zoekmachine, ik geef dat heel weinig kans. En zien ze als grootste risico ?..

Het grootste risico is zeer onwaarschijnlijk dat het gebeurd..
Ah op die fiets. Check, eens, gaat niet gebeuren om alle bovengenoemde redenen.
Wat je zegt klinkt aannemelijk, maar dergelijke zoekmachine kan ook op andere vlakken waarde leveren. Bijvoorbeeld een goede ethos, bijzonder makkelijk gebruik, diepe integratie of specialisatie voor een bepaald type content.
Uiteraard is hier ook uitgebreid onderzoek naar gedaan, o.a. door (jawel) Microsoft en Google, maar ook door een aantal universiteiten.

Ethos en makkelijk gebruik ga je het op afleggen. Er zijn hier in de afgelopen 10 jaar heel veel experimenten mee gedaan, waarbij gebruikers de "Google" manier van zoeken eigenlijk gewoon prefereren "in de praktijk".

Ik weet niet wat je precies bedoelt met "diepe integratie" bij Wikimedia. Bedrijven zoals Autonomy (HP) hebben bijv. integratie in Office waarbij het document gebruikt wordt als zoekvraag. Ja, dat kan en heeft toegevoegde waarde.

Specialisatie voor type content heet "vertical search". Dit is weer zo'n lastige... Ja, dit heeft toegevoegde waarde, mits de doelgroep ook een specifieke doelgroep waarbij een deel van de (impliciete) zoekvraag al bekend is. Als je bijv. zoekt in een politiesysteem naar een crimineel, ben je niet op zoek naar een post op T.Net.

Maar nee, met alleen deze punten ga je er simpelweg niet komen: mensen verwachten een bepaalde kwaliteit van zoekresultaten en als je daar (gevoelsmatig) niet bij in de buurt komt, vinden ze je zoekmachine vrij snel waardeloos. De kwaliteit die ze verwachten, moet gevoelsmatig in de buurt komen van Google - voelen ze dat niet zo, ben je de gebruikers binnen de maand weer kwijt. Vergis je niet, dat is een absurd hoge kwaliteitsstandaard. En daarmee zijn we weer terug bij mijn conclusie... (PS: Hier heb ik geen academisch onderzoek voor liggen om het te onderbouwen -- maar dit is wel mijn ervaring van de afgelopen 15+ jaar).

Dat klinkt vrij grim voor mijn toekomst, maar valt wel mee. :) In een hoop gevallen is het wel mogelijk om nog een hoop te doen met search. Denk aan bijv. specifieke vragen (bijv. vacatures voor recruiters). In het geval van Wikimedia zie ik alleen deze combinatie niet zo -- en zeker niet zoals ik het artikel lees.
Je valt een beetje in herhaling hier terwijl je ook lijkt te bevestigen wat ik zei. Dat kan, want ik was het al met je eens. Case closed dus.
Ze moeten wel uitkijken met de activiteiten die ze ontwikkelen. Omdat ik Wikipedia vaak gebruik doneer ik enkele euro's als ze weer een inzamelronde doen, maar als ze andere activiteiten gaan ontwikkelen en beurzen binnenhalen ga ik daar volgende keer wel extra over nadenken.

Let wel: ik oordeel nog niet over deze activiteit: misschien is zo'n echt onafhankelijke zoekmachine wel een heel goed idee.

[Reactie gewijzigd door Me_Giant op 15 februari 2016 13:21]

Wikimedia is veel groter dan alleen wikipedia.
Een "belangenloze" zoekmachine zou misschien helemaal niet verkeerd zijn en juist een goede ontwikkeling nu deze zoekmachine macht (in het westen) vrijwel voor de gehele 100% bij enkel Google en Microsoft ligt. In de EU is Bing vrij waardeloos (VK uitgezonderd) en hier is Google de "monopoly".

Dus een zoekmachine vanuit een organisatie die enkel en alleen het best zijn van het Internet (tot nu toe) voor ogen heeft.... graag zelfs. Een zoekmachine is momenteel het meest machtigste onderdeel van het WWW -startpagina.nl was hier niets bij- wat ik liever niet in de grijpgrage vingertjes van Google of MS zie.

Beetje van toepassing, maar zo gebruiken daadwerkelijk veel mensen "het internet" https://www.youtube.com/watch?v=Sr3bWDBWnPE

[Reactie gewijzigd door batjes op 15 februari 2016 14:50]

Ok maar belangenloos betekent nog steeds dat ergens geld vandaan geharkt moet worden om de bouw en runtime kosten te kunnen dragen. Ik ga me sterk afvragen hoe Wikimedia dat gaat doen. Meer banners die vragen om donaties?
Ik denk ook dat het een heel goed idee is.

Ook denk ik dat het opzich helemaal niet slecht hoeft te zijn als bedrijven activiteiten ontwikkelen die bijvoorbeeld aansluiten bij hun kernactiviteit. Het wordt pas problematisch als ze dat doen om ten koste van de markt bepaalde eigen doelstellingen te halen (als ze er een agenda op nahouden, heet dat dan). Daar heb je dan weer mededingingsautoriteiten voor, iets waar MS om dat soort dingen tegenaan liep en waar Google ook nog wel mee te maken krijgt. Wikimedia zit wat dat betreft voorlopig nog wel goed lijkt me.

[Reactie gewijzigd door mae-t.net op 15 februari 2016 16:36]

Oh je denkt nu dat je aandeelhouder bent ? Even serieus, kijk in je achtertuin hoe groot hij is en realiseer je dat je wellicht geen Richard Branson bent ;)

Je kunt het gratis gebruiken dus je euro's zijn prima besteed.
Toch heeft @Me_Giant wel een punt. Als er om geld gevraagd wordt om alles live te houden, is dit soort nieuws en achtergrondinformatie iets dat een beslissing om al of geen geld te geven snel naar de 'niet' kant doet uitslaan.
Uhm dat geld is voor wikipedia, de zoekmachine is vanuit een beurs. Daar doneer je dus ook niet voor
Er wordt niet gevraagd, er wordt de optie gegeven. Hierna mogen zij er mee doen wat ze willen... je kunt ze zelf hierna volgen en/of besluiten je donatie niet nog een keer uit te voeren.

Je bent donateur maar niet een verbonden donateur.
Wat @Me_Giant dus aangeeft is dat hij de volgende keer misschien besluit niet te doneren en dat er meer mensen kunnen zijn die die afweging maken in deze situatie.
Ik probeer toch het beleid niet te bepalen? Ik heroverweeg slechts mijn toekomstige ondersteuning. Los daarvan begrijp ik ook niet waarom ik een gigantisch vermogen zou moeten hebben om ergens een aandeel in te hebben, maar goed.

[Reactie gewijzigd door Me_Giant op 15 februari 2016 15:31]

Ik denk dat het een welkome toevoeging zou kunnen zijn voor studenten. Indien het bedoelt is als zoekmachine binnen de Wikipagina's en binnen betrouwbare bronnen. Zoals Google Scholar maar dan zonder al die linken er tussen van partijen waar je geld voor moet betalen.
Ik twijfel er aan of dat mogelijk zou zijn. Als ik als master student een Wikipedia pagina zou citeren kan je er donder op zeggen dat ik een onvoldoende ontvang voor die paper. Het gaat er juist om dat je peer-reviewed artikelen gebruikt omdat de kans groter is dat de informatie die je hier in vindt correct is. Helaas is het zo dat de wereld van academic journals ontzettend oneerlijk en commercieel is. Met andere woorden: je gaat nauwelijks waardevolle informatie vinden als je alleen maar kosteloze websites laat zien.

Daar naast: elke universiteit heeft abonnementen op deze journals, dus ik zie het probleem niet met Google Scholar?
Niet iedereen die geinteresseerd is in wetenschappelijk papers heeft ook toegang tot het netwerk en/of bibliotheek van een universiteit en dan moet je er dus (dik) voor betalen. Maar voor de rest geef ik je wel gelijk
Daarnaast is zoeken naar artikelen in de gemiddelde universiteitszoekmachine een drama. Dan gebruik ik liever google scholar. Artikelen die dan niet beschikbaar zijn zoek ik, als ik auteurs etcetera heb, dan wel weer op via de universiteitsbibliotheek.
Ik weet niet hoe het bij universiteiten is geregeld, maar als je via een proxy kunt surfen kun je de artikelen vinden met scholar en de url daarvoor dan bezoeken via de proxy waardoor je gratis toegang hebt
Ik reageerde op @Datazor die aangeeft dat het een welkome toevoeging zou zijn voor studenten. Dat spreek ik dus tegen. Voor non-studenten ben ik het weer met jou eens :).

[Reactie gewijzigd door DiederikvandenB op 15 februari 2016 15:03]

Op bijvoorbeeld ArXiv en in de repositories van universiteiten is steeds meer goede informatie gratis beschikbaar. Een hele thesis of paper zul je er niet mee kunnen onderbouwen, maar als je geen alternatief hebt is het een goede start.
Waarom? We hebben al DuckDuckGo en StartPage. Meer smaken hebben we echt niet nodig. Zeker niet als het weer wordt gefinancierd via giften, stop dat geld lekker in Wikipedia.

Ik moet wel bekennen dat je bij DDG wel erg vaak !gnl moet gebruiken om de correcte zoekresultaten te krijgen. Vooral bij Nederlandse zaken is dat het geval. Laatst werd ik op DDG nog naar een rommelsite gestuurd omdat ik het Koreaanse Hyundai verkeerd had getypt, zoiets komt bij Google niet voor. Rommelsites worden eruit gefilterd.

[Reactie gewijzigd door ChicaneBT op 15 februari 2016 13:15]

Waarom? We hebben al DuckDuckGo en StartPage. Meer smaken hebben we echt niet nodig. Zeker niet als het weer wordt gefinancierd via giften, stop dat geld lekker in Wikipedia.
Jij zou ook tevreden zijn wanneer er maar 2 supermarkten waren, of 2 banken etc. Dit is gewoon een vrije markt, en wie weet werkt deze nieuwe wel veel beter dan alle bestaande.
Laatst werd ik op DDG nog naar een rommelsite gestuurd omdat ik het Koreaanse Hyundai verkeerd had getypt, zoiets komt bij Google niet voor.
En dat zal je bij DuckDuckGo altijd blijven houden, maar daar kies je dan zelf ook bewust voor.
[...]

En dat zal je bij DuckDuckGo altijd blijven houden,
want?
Om dat soort fouten te verbeteren van mensen en rommelwebsites te weren is het personalizeren van google nodig :)
Personaliseren is nergens voor nodig. Er zullen weinig mensen zijn die als ze op Huyndai zoeken niet naar Hyundai zullen willen zoeken, en voor die mensen biedt Google dan ook de optie om auto-correctie weer uit te zetten.

Google doet het wel beter op dat soort dingen, maar dat heeft niets met personaliseren te maken. Ik merk bij DuckDuckGo helaas ook vaak dat met name Nederlandse websites aanmerkelijk slechter te doorzoeken zijn dan via google.nl. Via google.com krijg ik vergelijkbare resultaten met DDG, dus ook dat heeft weinig met personalisatie te maken maar meer met lokalisatie / indexeren van niet-Nederlandse teksten.
Veranderd er niets aan dat het nog steeds (onderdeel is van) personalizeren is. Of dit nou op grote schaal voor iedereen gebeurd of jou persoonlijk.

DDG is mijn standaard search engine in Palemoon (momenteel mijn dagelijks gebruik browser) maar ga zelf handmatig 9/10 keer maar naar Google omdat dat gepersonalizeer eigenlijk wel verrekte handig is.

Als ik trouwens Huyndai intik in DDG krijg ik gewoon de vraag "Did you mean Hyundai?" Dus dat beetje personalizeren doet DDG gewoon.
Gelokaliseerd zoeken heeft DDG niets tegen bij mijn weten, ze doen het gewoon niet (goed). www.ixquick.nl doet dat bijvoorbeeld ook beter, maar die schermen er wel mee om privacy-vriendelijk te zijn, itt Google.

Ikzelf heb niets tegen lokalisatie van zoekresultaten ieder geval. Het gepersonaliseer van Google op basis van interesses en andere persoonlijke eigenschappen heb ik wel iets tegen, maar dat is ook niet iets wat mij meerwaarde biedt.
DDG is lokaal inderdaad gewoon waardeloos, ik neem niet eens de moeite meer iets nederlands-achtig op DDG op te zoeken :)

Nederlandse zoektermen lijken redelijk goed te gaan op ixquick, deze maar even gebookmarkt, eens even kijken of dat wat wordt.

Voor de rest vergelijkbaar als jou, wat ik zelf als data opgeef (dmv search bv) aan Google en voor Google mag Google best gebruiken -ook voor advertentiedoeleinden- maar dat passief volgen waar ik op het internet ook kom gaat mij veelste ver (of mijn mail doorlezen, oh u heeft net een headset gekocht, hier...misschien is 1 van deze headsets iets voor u -.-)
Ikzelf gebruik alleen maar DDG (dus geen !gnl)
Om een Nederlandse bron te vinden is het wel zo ongeveer verplicht om de regioswitch om te zetten (rechts naast de zoekresultaten)
Zonder kan ik ook niet veel Nederlandstalige sites vinden
Ixquick is hier bijzonder traag bij het gebruik van https.
Personaliseren is hetgeen waar Google nu juist een voorsprong mee heeft weten te bereiken. Dit gebeurt echter op manieren die niet meteen overduidelijk zijn. Een mogelijk beter voorbeeld dan Hyundai is bijvoorbeeld "auto pech". In zo'n geval is de context van groot belang. Heb ik autopech en wil ik dit oplossen? Wil ik weten welke auto's pech gevoelig zijn? Vergeet ook niet dat een aanzienlijk deel van de zoekopdrachten per mobiel wordt gedaan en dat het gebruik van uitgebreide opdrachten, zoals: "Meeste pechgevallen per auto merk" vaak te lastig is. De context snappen is dan van belang.

Hoe snapt Google context? Ze hebben ervoor gekozen om jou als gebruiker beter te leren kennen. Ze kennen je zoekhistorie; ben je bijvoorbeeld op zoek geweest naar nieuwe auto's of bijvoorbeeld de ANWB? Google houdt verder bij wat voor een soort antwoord je op welk type vragen wilt hebben; ben je bijvoorbeeld iemand die van veel achtergrondinformatie houdt? Of liever social media/blogs leest? Dit is het serviceniveau waar Google naartoe heeft gewerkt en dan kijk je nog niet eens naar het snappen van taal, het intrinsiek snappen van taal door computers.

Machine learning is hoe de grote jongens hun zoekmachines verder ontwikkelen. Als grootste zoekmachine heeft Google ook de meest data en dus een bijna onmogelijk in te halen voorsprong. Wat hierboven beschreven wordt over specialisatie en verticalisatie zijn dus zeker opties voor een Wikimedia zoekmachine. Maar onderschat niet wat personalisatie doet voor je zoekopdrachten.
Toch wel, want Google kent mij niet. Ik gebruik Google zo goed als niet, alleen zo nu en dan voor Nederlandse pagina's. Bovendien heb ik zelf voldoende ervaring met zoekmachinetechnologie om juist die steekwoorden als zoektermen op te geven die het beste resultaat geven.

Google wordt op DNS-niveau en dmv een firewall geblokkeerd. Dingen als gmail, maps, Android houdt ik mij verre van. google.com levert mij nagenoeg gelijke resultaten op aan duckduckgo. Regelmatig doet DuckDuckGo het zelfs nog beter door direct al een stuk van de betreffende wikipedia-pagina te laten zien of linkjes te labelen met 'Official Site'. Daar kan Google nog wat van leren.

Zoals gezegd, alleen voor lokalisatie heeft Google een streepje voor, en die informatie geef ik ze op het moment van de zoekopdracht door google.nl te gebruiken ipv google.com.

Google doet heel veel dingen met persoonsgegevens die ze verzamelen, maar het is verre van essentieel voor goede zoekresultaten. Hun hoofddoel ermee is dan natuurlijk ook gepersonaliseerde advertenties tonen en zelfs daar slagen ze niet in - als ik naar jouw voorbeeld gezocht hebt op nieuwe auto's, en er vervolgens eentje aanschaf,dan zie je daarna nog weken advertenties voor de nieuwe Skoda, BMW of weet ik wat voor auto. Beetje laat. Dit is dus een situatie die ik heel vaak bij anderen zie voorkomen. Zelf blokkeer ik alle advertenties dus heb ik er sowieso geen last van.
Ik ben het absoluut met je eens dat personalisatie in principe niet het sleutelbegrip is voor goede zoekresultaten. Daarin is en blijft een goede zoekopdracht naar mijn idee koning. Mijn ervaring m.b.t. tot het nut van personalisatie en lokalisatie verschilt wel erg met die van jou.

Daarnaast is personalisatie voor veel mensen ook een toevoeging doordat men niet de moeite wil doen voor een goede zoekopdracht. Denk aan Google's theorieŽn over "want-to-know-moments" etc. (thinkwithgoogle.com). Voor die mensen levert de data verzameld via o.a. Google Analytics (cross site following), Addwords, zoekhistorie en partners een wezenlijke stijging in relevante zoekopdrachten op. Google is naar mijn idee gewoon erg goed geworden in het zoeken van dingen, wanneer je zelf nog niet helemaal weet wat je zoekt. Dus bijvoorbeeld als je gewoon wat meer wilt weten over de techniek achter auto's, voordat je er ťťn aanschaft.

Misschien is het ook wel zo dat veel mensen uiteindelijk hun gewoontes aanpassen aan het aanbod. Mijn zoekgewoontes zijn bijvoorbeeld sterk bepaald door de sterkte positie van partijen als Wikipedia toen ik dieper het web in moest. Hierdoor wil ik tot de dag van vandaag graag Wikipedia artikelen vinden en daardoor past DuckDuckGo mij ook goed als zoekmachine. DuckDuckGo heeft overigens Łberhaupt een vrij goede slag gemaakt in het bepalen van algemene relevantie zonder de verzameling van persoonlijke data. Het "profilen" van "klanten" en zelfs van "niet-Google-klanten" en die vervolgens een goed zoekaanbod voorschotelen levert naar mijn idee wel een wezenlijk verschil op. Dit is echter net zoals met zaken als "de search bubble" erg subtiel en vaak niet merkbaar als individu.
Dat is absoluut niet nodig, maar er moet wel ingegrepen worden. Dat is ook weer hinderlijk als je wel degelijk op de verkeerde spelling wilde zoeken. De filosofie van Google is dan dat zij beter weten wat je bedoelde dan jijzelf, dus extra gemak (en soms ergernis) terwijl DuckDuckGo ervan uitgaat dat je precies weet wat je doet.
Omdat DuckDuckGo geen data verzameld, en die heb je nodig wil je kunnen optimaliseren etc.
Buiten de content die op Wikipedia zelf is te vinden komt er content van de meest uiteenlopende bronnen beschikbaar binnen je zoekopdracht. Als het dan ook nog eens zo is dat je niet tussen alle click-bait en advertenties naar relevante content moet zoeken.

Lijkt me zeer een goed initiatief als dit van de grond komt.

Edit: Typo

[Reactie gewijzigd door eheijnen op 15 februari 2016 14:06]

Als Wikipedia slim is maken ze niet alleen een zoekmachine maar gebruiken ze ook hun eigen data voor een degelijke Answer Engine. Een groot deel van alle zoekopdrachten zijn eigenlijk vragen waar antwoorden op zijn te geven. Google heeft al een zogenaamde Answer Engine in Knowledge Graph. Dat is het deel van Google dat informatiekaarten weergeeft bij zoekopdrachten als 'Wie is de vrouw van Barack Obama?'

Wikipedia wordt overigens al lang als de meest voorname bron van gestructureerde, betrouwbare informatie gebruikt door Information Retrieval wetenschappers en bedrijven, o.a. door Google zelf voor Knowledge Graph (bron).

[Reactie gewijzigd door rjbruin op 15 februari 2016 13:38]

Misschien maken ze alleen een betere interne zoekmachine zoals SOLR en elasticsearch?

[Reactie gewijzigd door thomasmoors op 15 februari 2016 16:26]

Helemaal geen gek idee. Het punt is namelijk dat Wikipedia-auteurs voor het schrijven van artikelen gebruik moeten maken van betrouwbare, onafhankelijke bronnen. Die bronnen worden tegenwoordig veel vaker op internet gevonden dan in de bibliotheek. En daar wordt dus vaak Google voor gebruikt. Google is echter zelf niet onafhankelijk en spitst zich ook niet toe op het vinden van specifiek dit soort bronnen, dus een zoekmachine die zich meer richt op het vinden van geschikte bronnen voor Wikipedia zou zeker een waardevolle toevoeging zijn.
En toen kwamen ze niet meer in de zoekresultaten voor
Dat zou de zoekmachine alleen maar schaden, Wikipedia is een hele nuttige toevoeging aan zoekresultaten, die weglaten is niet handig.
Ik zoek op duckduckgo trouwens vaak genoeg met !w erachter, ofwel, maak hier meteen een wikipedia zoekactie van.
Doelde op de Google resultaten
Snap ik, het is voor wikipedia niet negatief als google niet meer resultaten naar wikipedia weergeeft, immers iedereen weet dat je de informatie ook op wikipedia kan vinden.
Echter stelt het Google in een negatief daglicht, gezien ze doelbewust hun marktpositie misbruiken om wikipedia een voet dwars te zetten.
Niet negatief? Durf te stellen (ken getallen niet) dat ze meer dan de helft van hun Traffic uit Google searches krijgen en dat 95+% anders niet op Wikipedia voor hun vraag was gaan kijken
"wiki Tweakers" geeft in DDG net als in Google netjes de wikipedia pagina aan. Die search engine parameters zijn meer voor de sier.
nope, het geeft de mogelijkheid om de zoekresultaten pagina over te slaan.
"Tweakers !w" zal je dus meteen naar de wikipedia pagina brengen, zonder eerst de zoekresultaten van ddg te zien.
Dan heb ik niets gezegd want dat is inderdaad best handig.
Door alle bedrijven die het liefste weten hoe groot je geschapen bent snap ik enerzijds wel waarom er privacy "vriendelijke" (dat laatste graag met een korrel zout nemen) zoekmachines opstaan. Of het zin gaat hebben is een tweede ;)
Zoalng de wereld denkt dat je betere zoekresultaten krijgt als je de grootte van je geslachtsdeel opgeeft, en ach die deel ik wel want ik heb niets te verbergen...

Op dit item kan niet meer gereageerd worden.



Apple iOS 10 Microsoft Xbox One S FIFA 17 Sony PlayStation VR AMD Radeon RX 480 4GB Battlefield 1 Google Android Nougat Watch Dogs 2

© 1998 - 2016 de Persgroep Online Services B.V. Tweakers vormt samen met o.a. Autotrack en Carsom.nl de Persgroep Online Services B.V. Hosting door True