Hoofdcategorieën
Device Settings

Gedecentraliseerde opensource-zoekmachine YaCy gaat live

Door Yoeri Nijs, dinsdag 29 november 2011 16:16, views: 15.219

Programmeurs hebben de eerste versie van een opensource-zoekmachine uitgebracht. YaCy is volledig gedecentraliseerd door middel van peer-to-peer, zodat er geen privacygevoelige informatie op één plek wordt opgeslagen.

De YaCy-makers stellen naar eigen zeggen de privacy van de gebruikers voorop. De engine draait niet op een centrale server, maar maakt gebruik van verschillende peers. Zoektermen worden versleuteld en kunnen niet op een server opgeslagen en geanalyseerd worden. In plaats daarvan genereert de gebruiker zijn eigen index en een eigen ranking. "Veel dingen die we doen op internet hebben betrekking op zoeken. Dat is een vitale link tussen ons en de informatie waarnaar we zoeken. Daarvoor kunnen we niet vertrouwen op enkele grote bedrijven", zegt projectleider Michael Christen.

De opensource-zoekmachine draait inmiddels met ruim zeshonderd peers. Verschillende websites, waaronder de Free Software Foundation, werken al met YaCy. De ontwikkelaars hebben daarnaast een werkend exemplaar online gezet. YaCy kan gratis worden gedownload voor verschillende platforms. De software kan zowel offline als online worden gebruikt.

De bedoeling is dat de zoekmachine dankzij nieuwe peers gaat uitbreiden. Het is echter de vraag of dat zal gebeuren. Wikia, de 'social' opensource-zoekmachine van Wikipedia-oprichter Jimmy Wales, werd na ruim een jaar opgedoekt, omdat hij onvoldoende aandacht van het grote publiek kreeg. De mensen achter YaCy hopen echter dat de zoekmachine uiteindelijk een alternatief wordt voor Google en Bing.

Volgende 16:51 Carrosserie Toyota-conceptauto fungeert deels als display
Vorige 15:49 Nieuwe Toshiba Regza-tv verbruikt 0W in stand-by
Advertentie

Reacties

«  1  2  3  »

Het idee is erg goed, maar ik denk dat het grote publiek hier totaal geen gebruik van gaat maken. Google is niet te verslaan... Nu niet, nooit niet.

[Reactie gewijzigd door Beunhaas91 op dinsdag 29 november 2011 16:20]


Google is wel te verslaan maar dat vraag veel Peers, om het hele Web te kunnen indexen en een beter ranking algoritme.

Als ik zoek op "Google" http://search.yacy.net/yacysearch.html?query=google
Dan krijg ik:
1 : http://www.google.com/favicon.ico
2 : http://picasaweb.google.com/s/c/bin/slideshow.swf
3 : http://feedproxy.google.c...aop-291452-08-07-2011.m4v

Bing is b.v. wel hard gegroeid omdat als je daarop naar "Kinect dll Sqmapi" zoekt je echt 76 resultaten krijgt waar deze termen op staan, en niet zoals google 115,000 resultaten waarbij nummer 2 al niet meer de zoektermen bevat.

In theorie is het inderdaad mogelijk om Google te verslaan. Hoeveel peers denk je daar voor nodig te hebben? Google is nu eenmaal dé zoekmachine. Welke computergebruiker kent Google niet? Iedereen kent het en iedereen gebruikt het.

Ik geef het weinig kans, al is het idee erg goed!

Hoeveel peers denk je daar voor nodig te hebben?
De zoekmachine Bing heeft een index van 10.000.000.000 pages. Stel dat je alle grote bestanden skipt dan kan je binnen 5sec. de meeste webpages in het geheel wel downloaden. Per computer kan je dan 6.307.200 pages indexen per jaar, oftewel je hebt 1600 peers nodig, wil je gemiddelde elke website elk jaar indexen.

Maar dan ben je nog alleen maar bezig met het maken van 1 index, reken daar de overhead bij van het dubbel cachen van die eindexes, het distrueren naar de verschillende nodes, het nog het allermeest alle peers die nodig zijn voor het doorzoeken van de index, dus ik denk dat je toch wel over het hondervoud als niet duizendvoud aan actieve peers nodig hebt voordat je een serieuze speler *begint* te worden, want daarna komen ook nog dingen zoals "real time updates" "kwaliteit van algoritmes" "snelheid" etc. spelen.

edit:
Scrap that, iedere peer heeft blijkbaar z'n eigen cache als ik het goed begrijp. En als dat echt het geval is, dan is dit systeem gewoon totaal onhaalbaar, want geen 1 van die peers zal de infrastructuur van google hebben.


edit:
Scrap that as well, ik ga er vanavond eens in duiken net zo lang totdat ik het wel goed begrijp :P

[Reactie gewijzigd door GreatSlovakia op dinsdag 29 november 2011 17:30]


Het is maar hoe je het bekijk:

Een standaard dual core machine met 2GB RAM kan ruwweg 15 pagina's per seconde downloaden, parsen, links verwerken, content analyzeren en wegschrijven naar een geinverteerde index. Dus je zou zeggen dat het wel moet lukken.

Het gaat ineens moeilijk worden als je 10 miljard records door moet spitten om semi-duplicaten eruit te vissen en andere rare uitwassen te detecteren. Ook de linkscore berekenen is zeer zwaar omdat dit over de gehele linkgraaf (~15x zoveel als aantal pagina's) moet berekend moet worden met een power iteration algoritme. Dan is het ineens vrijwel onmogelijk om 10 miljard pagina's met 1600 machines te verwerken.

Ik heb het afhandelen van zoekopdrachten nota bena nog buiten beschouwing gelaten.

Google doet bij ons op tweakers al snel 250.000 tot 300.000 pageviews per dag. Gezien hoeveel er veranderd vragen zij de meest recente content meerdere keren per dag op.

Wil je elke website van die 10B pages elke dag 4 keer bezoeken, dan heb je dus 1600 * 365 * 4 = 2.3 miljoen peers nodig om bij google in de buurt te komen.

Ik heb zojuist YaCy geinstalleerd en ik word gelimiteerd op 3000 Pages Per Minuut. Dat haal ik uiteraard niet altijd, maar ik zit altijd boven de 1200 PPM. In dat geval zou je dus 1.576.800.000 pagina's kunnen indexeren per peer per jaar en heb je veel minder peers nodig om elke website elk jaar te indexeren. Sterker nog: servers en mensen met een snellere verbinding dat mijn verbinding kunnen die 3000 PPM waarschijnlijk wel aantikken. In dat geval klopt de berekening van Kees hierboven dus ook niet.

[Reactie gewijzigd door Xirt op woensdag 30 november 2011 16:25]


Alles is altijd te verbeteren...
Ik vind dat bvb duckduckgo.com wel een paar leuke ideetjes in hun site verwerken:
  • Een informatief stukje boven de hits met mogelijks wat uitleg/context bij je eigen zoektermen. (zero-click info zoals ze dat zo mooi noemen)
  • Geen profilering van de gebruikers en dus geen gecustomiseerde results
  • Mogelijkheid tot het gebruik van de google keywords (intitle:, site:, filetype:, etc..)
  • Rechtstreeks zoeken op andere sites via de !bang syntax: bvb "!monster programmeur"
Als nadeel vind ik ze wat traag, maar dat verbetert misschien nog wel.

Zag dat Google voor allerlei dingen al een soort one-boxes boven de zoekresultaten wil gaan zetten, heb er al voorbeelden van gezien. Je eerste node komt daardoor binnenkort te vervallen, we zullen zien.

Interessant, concurrentie is altijd goed en ik heb niets tegen google. Integendeel. :)

Nog een puntje voor duckduckgo:
De searches in duckduckgo worden ook automatisch uitgebreid. Als je scrollt voorbij hit 10, laden automatisch hit 11 tot 20. Je hoeft niet te klikken dus. Vind ik ook prachtig.

Ik vind het wel knap dat ze zich kunnen onderscheiden in een markt waar google al jaren heer en meester is!

Om Google te verslaan heb je niet alleen technologie nodig. Wat nog veel belangrijker is dan de technologie die je zoekmachine gebruikt is je marketing. En laat opensource organisaties nou net typisch die soort organisatie zijn die zo goed als geen geld heeft en dus ook geen marketing budget vergeleken met Google.

Om die reden alleen al zal het nooit wat worden.

Of google in de beginjaren zo'n goede marketing had. Google werd populair omdat het werkte. Als er nu weer een zoekmachine komt die werkt en revolutionair is op een unieke manier, kan deze de strijd met google vast wel aan. Tenzij google het opkoopt of aanklaagt.

Ik ga het iig ff testen vandaag .

Google werd populair omdat Yahoo! en AltaVista (wie kent hem nog) steken liet vallen (omdat je nog "SEO" kon doen door je hele frontpage vol te spammen met populaire termen als 'sex' en 'dvd') en Google er op het juiste moment insprong met PageRank.

[Reactie gewijzigd door Herko_ter_Horst op dinsdag 29 november 2011 20:44]


Genoeg peers kunnen ze mss nog wel halen. Maar de kwaliteit van het google ranking algoritme zie ik ze wel niet rap halen. Daar hebben al zoveel hooggeleerden aan gesleuteld dat het heel moeilijk zal zijn dat nog te evenaren.

Ze hadden ook beter nog wat gewacht voor ze live gingen, want zelf voor heel basic searches vind ik bijna geen resultaten.

Ze hadden ook beter nog wat gewacht voor ze live gingen, want zelf voor heel basic searches vind ik bijna geen resultaten.
Tja dat lijkt me logisch, daar zul je eerst genoeg peers voor nodig hebben.

Overigens wat in het bericht niet helemaal duidelijk wordt is hoe de techniek nu precies werkt.
Ik bedoel, je typt bijvoorbeeld 'tentoonstelling' in als zoekterm, maar die zoekterm moet dan wel bij een van de peers bekend zijn, maar wie bepaald welke zoektermen bij welke resultaten horen?
Of is het zo dat de pagina's gewoon door Yacy zelf geïndexeerd worden en de peers alleen maar gebruikt worden als decentrale 'server' voor opslag van de data die deze indexeringstaak genereerd.
Of net zoiets al seti dat je bijvoorbeeld bepaalde pakketjes van yacy krijgt toegewezen met sites die nog geïndexeerd moeten worden en die vervolgens d.m.v. de vele verbonden clients in rap tempo geïndexeerd kunnen worden.

Dat lijkt me niet logisch. Een product staat of valt bij de eerste kennismaking. Als die is "ik zoek google en krijg rotzooi" ben je snel je potentiële gebruikers kwijt. Een zoekmachine zal voor die online gegooid wordt eerst een bepaald niveau van informatie moeten hebben. Heb je dat niet ben je gedoemd te mislukken.

Ik snap op zich wel wat je bedoeld, maar een dienst moet toch ergens beginnen.
Je vergaart niet zomaar 10 miljoen gebruikers, dat heeft tijd nodig. Ze hadden het misschien wel beter op een wat gestructureerdere manier kunnen uitrollen, bijvoorbeeld via nieuwsgroepen eerst een selecte groep informeren met het feit dat er op dit moment nog weinig content beschikbaar is. En op die manier de groep stukje bij beetje op meer media uitbreiden i.p.v. in 1x het product aan de hele wereld te tonen.

Het idee is erg goed, maar ik denk dat het grote publiek hier totaal geen gebruik van gaat maken. Google is niet te verslaan... Nu niet, nooit niet.
Dat werd in een niet zo ver verleden ook gedacht van Microsofts Internet Explorer...
Verder zou het inderdaad wel eens kunnen dat het grote publiek hier geen gebruik van zal maken... tenzij er natuurlijk voldoende (en langdurende) media-aandacht komt, dan zou het wel eens een ander verhaal kunnen worden.
Laat ons hopen dat dit het geval is... wat concurrentie kan nooit kwaad...

Dat is natuurlijk appels met peren vergelijken. Microsoft moest de consument kunnen laten kiezen, daardoor zijn er ontzettend veel mensen overgestapt op bijvoorbeeld Mozilla Firefox en Google Chrome.

De vergelijking tussen Microsoft Windows en andere besturingssystemen zou een betere zijn...

Firefox heeft een heleboel marktaandeel op eigen houtje geworven door simpelweg een betere browser te zijn. Daar heeft het browserkeuzescherm niets mee te maken.

Als er een betere zoekmachine komt dan Google, dan zal ik waarschijnlijk ook overstappen, maar naar mijn mening is die er op dit moment niet.

De verplichte browserkeuze heeft geen of nauwelijks effect gehad. Je gaat voorbij aan het feit dat massaal mensen de keuze hebben gemaakt andere software te installeren en te gaan gebruiken dan hetgeen ze al voorhanden hadden en waaraan ze gewend waren.

Dat is tamelijk uniek.

We gaan eens praten als de VS hun censuur regels er door kan krijgen om de entertainment industrie te cateren en Google bepaalde entries zal moeten verwijderen.

P2P based search en DNS zal naar mijn gevoel de volgende evolutie zijn.

Google is niet te verslaan... Nu niet, nooit niet.
juist, net zoals netscape, second life, hotbot, napster, myspace, america online, ... nooit waren te verslaan

Napster is helaas verloren gegaan d.m.v. legaliteitsproblemen, dus niet echt 'verslaan', dat was nog eens leuk met amerikanen chatten 's-nachts.

Google is niet te verslaan... Nu niet, nooit niet.
Ik wil niet uit de hoogte doen of zo, maar gezien je naam ben je van 1991 en die uitspraak getuigt van weinig internet-historisch besef. Vóór google waren er anderen waarvan hetzelfde gezegd werd. En kijk naar internet explorer met z'n 95% marktaandeel nog niet zo lang geleden, dat werd ook onaantastbaar geacht. Geen enkele machtspositie houd voor altijd stand, zie bijvoorbeeld het Romeinse rijk. Hooguit op de korte en middellange termijn heb je gelijk.

Google is niet te verslaan, dat riepen ze van Yahoo, Philips, KPN, WorldOnline, Goldman Sachs, ING, IBM en Microsoft ook. Op een gegeven moment worden dit gewoon molochen die niet te laat op markt trends reageren en verkeerde strategische besissingen nemen.

Ik weet nog dat google net kwam kijken, het kan snel gaan als je een innovatief product op de markt brengt wat mensen aanspreekt.

overigens zie ik dit niet als een concurrent van google, dit is een specifieke dienst voor mensen die bepaalde eisen hebben, henk en ingrid kan het weinig schelen of men iets over hun surfgedrag weet (todat het misbruikt wordt).

- Altavsita is niet te verslaan (of nee wacht: Google did it)
- IBM is niet te verslaan (of nee wacht: Microsoft did it)
- Yahoo is niet te verslaan (of nee wacht: Google & Microsoft did it)
- Samsung is een B-merk (of nee wacht: ze staan nu boven Apple qua smartphone sales)
- Het Romeinse Rijk is het eeuwige rijk (spreek jij Latijn in je dagelijks leven, oh nee dat is een dode taal, Grieks wordt overigens ook niet door ons gesproken, voor diegene die weet waar ik het dan over heb)

History 101: nothing lasts forever...and also: nothing is too big to fail...

Tenzij ik een wit vlak zoek lijkt de website het niet te doen....

"There is currently massive load on this page because of press releases today. A search might be not successful now." ;)

De reden waarom ze geen goed alternatief voor Google of Bing worden:
There is currently massive load on this page because of press releases today. A search might be not successful now.
Al kan ik dit soort initiatieven wel waarderen :)

Nee. Als er een reden zou zijn dat ze geen goed alternatief voor Google of Bing worden, dan is het dat mensen als jij het meteen afschrijven in plaats van een peer te worden. Iets wat de zoekmachine beter zou maken zodat het in de toekomst geen problemen meer heeft met "massive loads".

Sorry dat ik een beetje bot ben maar ik ben gewoon gevoelig voor dit soort pessimisme.

jammer dat search.yacy.net oflline is

Wanneer je het wilt gaan testen, dan kun je toch zelf een peer opzetten? :)

Ik denk dat Yacy beter een perenboom kan opzetten als ze gehoord willen worden. :+ 8-)

Ja - dat heb ik gedaan...

Maar de resultaten vallen tot nu toe erg tegen. De load van de machine giert omhoog, een Java proces vraagt een boel resources. Dat maakt het beheren van het apparaat er niet eenvoudiger op. Zelfs een Lynx localhost:8090 is niet vooruit te branden...

Een zoek machine zou eigenlijk helemaal geen privacy moeten opslaan zolang de gebruiker dan niet explicit aangeeft. Gelukkig is dit een goed begin, in de wereld waarop dit moment google van iedereen weet wat, wie, hoe en waar.

Natuurlijk zou dat niet zo moeten zijn echter het mooie is als Truus zoekt op haar bling bling schoenen en daar al 10x op gezocht heeft is Google beter in staat Truus te vertellen wat ze zoekt tov dit soort projecten. Ja ze zijn leuk, ja ze zullen allicht wel ergens bij een niche intresse, nee ze zijn niet geschikt voor het merendeel van de bevolking die toch niet snapt wat een cookie is laat staan dat ze stil staan dat ze levenslang meegaan. Sterker nog privacy is iets waar men wakker van ligt zodra ze er bewust van zijn wat de consequenties zijn, laat dit nou net niet het geval zijn bij Truus die bij alles waar een naam in te vullen is, dit volautomatisch doet.

Dus ja leuke techniek maar ik vraag me ten sterkste af of hier ergens draagvlak voor is behalve wat enthousiastelingen in een duister hoekje.

Ik geloof overigens niet dat Google de graal is, net zoals Altavista dit vroeger was. Uiteindelijk zal er wel weer een betere search engine komen alleen in welke smaak dat blijft nog de vraag.

Erg mooi alternatief en zeker de technieken die we hier zien vind ik erg interessant! Hopelijk lukt het Yacy wel om aandacht te krijgen van het 'gewone volk' en zien we deze zoekmachine snel terug.

Als ik het goed begrijp kun je deze zoekmachine zelf opzetten, dus het nadeel is misschien dat er slechts enkele minder grote zoekmachines komen, of begrijp ik dat verkeerd?

Het grootste nadeel is volgens mij dat de index afhankelijk is van het aantal peers. Ik heb zojuist drie keer een query gedaan op de website. De eerste twee zoektermen kreeg ik niets terug, dus toen heb ik als derde term 'xxx' gebruikt: 155 resultaten in totaal, dat lijkt mij heel weinig ;-). Maar als er meer peers komen wordt er meer geindexeerd en krijg je dus ook meer resultaten.

De link werkt helaas (nog) niet, misschien bezweken onder de belangstelling?
In ieder geval is dit een leuk initiatief

Ik vind het een mooi project, maar de naam alleen al, doet me twijfelen. Lijkt ook alsof de beste man zijn presentatie niet tiptop heeft voorbereid.

Concurrentie is altijd goed, ik wil het zeker wel eens proberen.

Als ik op de link van het "werkend exemplaar" klik, krijg ik interne server fout :?

Lijkt me wel interessant. Iedereen kan dus een eigen peer opzetten die deze zoekmachine kan gebruiken.

Maar als ik het goed begrepen hebt, gebeurt er geen automatisch crawl?

Ik kreeg ook zo'n fout, maar na een keer herladen werkte het wel.
Op de site zelf staat ook: "There is currently massive load on this page because of press releases today. A search might be not successful now."
Het zoeken gaat dan ook nog niet helemaal soepel. Tot nu toe heb ik alleen een resultaat gehad met de zoekterm "hello". Andere woorden gaven (nog) geen resultaat.

En @ woutervdh: Ik vind de naam ook wat vreemd en zou niet weten hoe ik 'm uit moet spreken. Dat is inderdaad niet heel handig bedacht van ze.

edit: als ik zoek naar "yacy" krijg ik het volgende resultaat: "Did you mean: yachthafen | yachting | yachten | legacy | tracy"

[Reactie gewijzigd door Nonstop decay op dinsdag 29 november 2011 16:50]


Eén tip: verander die naam
Naar wat? Geen idee. Maar YaCy slaat echt nergens op,
ligt niet goed in de mond, niet in de hand en kan amper uitgesproken worden...

"jaasie" of "jaakie", lijkt me toch niet slechte in de mond liggen dan google.

Uitgesproken als "ya see", volgens Wikipedia.

http://en.wikipedia.org/wiki/YaCy

Eén tip: verander die naam
Naar wat? Geen idee. Maar YaCy slaat echt nergens op,
ligt niet goed in de mond, niet in de hand en kan amper uitgesproken worden...
YaCy spreek je uit als "ya see", een combinatie van "you" in straattaal en see. Het slaat dus wel ergens op en is niet zo moeilijk uit te spreken. Vergelijk het bijvoorbeeld maar met Google in het Nederlands: koekel, goochel...

Iets algemener: grootste nadeel van YaCy blijft dat er geen fatsoenlijke manier is om zoekresultaten in een voor de gebruiker handige volgorde te krijgen. YaCy kan niet omgaan met contexten, en dat is jammer.

Nee, zo zou niemand het uitspreken. Al is het wel hoe men blijkbaar wil dat het gelezen wordt.
Bij het "Ya" deel kan ik me iets voorstellen, maar bij "Cy" loopt het spaak. Als je de uitspraak van "see" wilt hebben, zou je toch met alleen "C" moeten werken.
YaC.
Nu wordt het de eerste lettergreep van Cyborg.

Als deze naam blijft hangen zal het naar mijn vrees eerder iets zijn als Yahtzee!

Zeker belangrijk. Met zo'n naam gaat het niet aanslaan bij het grote publiek.

Maar ik vraag me ook af hoeveel peers er nodig zijn om de search engine echt goed te maken. Je moet namelijk iets installeren als je zelf peer wil zijn en de meeste mensen hebben daar geen zin in.

edit: het programma vraagt ook nog eens 30GB HD ruimte.

[Reactie gewijzigd door Bonez0r op woensdag 30 november 2011 14:07]


Ik heb geen idee hoe het precies werkt, maar volgens mij moet het kunnen werken. Die peers stellen allemaal een stukje cpu-power en wat opslagruimte ter beschikking aan het netwerk. Als dat genoeg is kunnen die peers samen websites gaan cachen en de data daarvan op de een of ander manier georganiseerd verdelen over de nodes. Volgens mij is het technisch gezien een beetje een kruising tussen een cloud en een botnet.

Een nadeel t.o.v. een centrale zoekmachine is dat de peers meestal pc's thuis zullen zijn en dus altijd down kunnen zijn. Het opvangen daarvan kan een te groot deel van de beschikbare bronnen in beslag nemen.

Overigens vind ik dit wel heel erg interessant. Het is niet commercieel, dus vrij van reclamezooi. Ook is de werking ervan open en waarschijnlijk vrij implementeerbaar in software of op websites. Dat biedt een hoop mogelijkheden...

[Reactie gewijzigd door blorf op dinsdag 29 november 2011 19:54]

«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 16:51 Carrosserie Toyota-conceptauto fungeert deels als display
Vorige 15:49 Nieuwe Toshiba Regza-tv verbruikt 0W in stand-by
VNU Media logo Hosted by True

© 1998 - 2012 Tweakers.net B.V. - Alle rechten voorbehouden - Contact - Jouw privacy - Algemene Voorwaarden

Uitgever van:

Website van het jaar 2011