Gedecentraliseerde opensource-zoekmachine YaCy gaat live

Programmeurs hebben de eerste versie van een opensource-zoekmachine uitgebracht. YaCy is volledig gedecentraliseerd door middel van peer-to-peer, zodat er geen privacygevoelige informatie op één plek wordt opgeslagen.

De YaCy-makers stellen naar eigen zeggen de privacy van de gebruikers voorop. De engine draait niet op een centrale server, maar maakt gebruik van verschillende peers. Zoektermen worden versleuteld en kunnen niet op een server opgeslagen en geanalyseerd worden. In plaats daarvan genereert de gebruiker zijn eigen index en een eigen ranking. "Veel dingen die we doen op internet hebben betrekking op zoeken. Dat is een vitale link tussen ons en de informatie waarnaar we zoeken. Daarvoor kunnen we niet vertrouwen op enkele grote bedrijven", zegt projectleider Michael Christen.

De opensource-zoekmachine draait inmiddels met ruim zeshonderd peers. Verschillende websites, waaronder de Free Software Foundation, werken al met YaCy. De ontwikkelaars hebben daarnaast een werkend exemplaar online gezet. YaCy kan gratis worden gedownload voor verschillende platforms. De software kan zowel offline als online worden gebruikt.

De bedoeling is dat de zoekmachine dankzij nieuwe peers gaat uitbreiden. Het is echter de vraag of dat zal gebeuren. Wikia, de 'social' opensource-zoekmachine van Wikipedia-oprichter Jimmy Wales, werd na ruim een jaar opgedoekt, omdat hij onvoldoende aandacht van het grote publiek kreeg. De mensen achter YaCy hopen echter dat de zoekmachine uiteindelijk een alternatief wordt voor Google en Bing.

Helaas!
De video die je probeert te bekijken is niet langer beschikbaar op Tweakers.net.

Reacties (74)

Total-Control 29 november 2011 23:04

Ik heb het een jaar geleden al geprobeerd en helaas is het niet veel beter geworden.

Plus punten: Altijd leuk om iets te vinden wat andere zoekmachines nog niet hebben gevonden.

Min punten: Traag, verbruikt zeer veel geheugen, sommige websites zoals hyves, facebook kunnen je bij te veel crawlen blokkeren voor 1 of meerdere dagen.

Alternatieve zoekmachines zijn zeker gewenst; keuze is een goed iets.
Sterker nog een zoekmachine gigant als Google heeft het grootste gedeelte van haar succes te danken aan de concurrentie. Concurrentie zorgt voor innovatie drang en houd je scherp.

Beunhaas91 29 november 2011 16:20

Het idee is erg goed, maar ik denk dat het grote publiek hier totaal geen gebruik van gaat maken. Google is niet te verslaan... Nu niet, nooit niet.

[Reactie gewijzigd door Beunhaas91 op 24 juli 2024 01:47]

djexplo @Beunhaas91 • 29 november 2011 16:25

Google is wel te verslaan maar dat vraag veel Peers, om het hele Web te kunnen indexen en een beter ranking algoritme.

Als ik zoek op "Google" http://search.yacy.net/yacysearch.html?query=google
Dan krijg ik:
1 : http://www.google.com/favicon.ico
2 : http://picasaweb.google.com/s/c/bin/slideshow.swf
3 : http://feedproxy.google.c...aop-291452-08-07-2011.m4v

Bing is b.v. wel hard gegroeid omdat als je daarop naar "Kinect dll Sqmapi" zoekt je echt 76 resultaten krijgt waar deze termen op staan, en niet zoals google 115,000 resultaten waarbij nummer 2 al niet meer de zoektermen bevat.

Beunhaas91 @djexplo • 29 november 2011 16:29

In theorie is het inderdaad mogelijk om Google te verslaan. Hoeveel peers denk je daar voor nodig te hebben? Google is nu eenmaal dé zoekmachine. Welke computergebruiker kent Google niet? Iedereen kent het en iedereen gebruikt het.

Ik geef het weinig kans, al is het idee erg goed!

djexplo @Beunhaas91 • 29 november 2011 16:40

Hoeveel peers denk je daar voor nodig te hebben?

De zoekmachine Bing heeft een index van 10.000.000.000 pages. Stel dat je alle grote bestanden skipt dan kan je binnen 5sec. de meeste webpages in het geheel wel downloaden. Per computer kan je dan 6.307.200 pages indexen per jaar, oftewel je hebt 1600 peers nodig, wil je gemiddelde elke website elk jaar indexen.

Kees BOFH @djexplo • 29 november 2011 19:16

Google doet bij ons op tweakers al snel 250.000 tot 300.000 pageviews per dag. Gezien hoeveel er veranderd vragen zij de meest recente content meerdere keren per dag op.

Wil je elke website van die 10B pages elke dag 4 keer bezoeken, dan heb je dus 1600 * 365 * 4 = 2.3 miljoen peers nodig om bij google in de buurt te komen.

David Mulder @djexplo • 29 november 2011 17:22

Maar dan ben je nog alleen maar bezig met het maken van 1 index, reken daar de overhead bij van het dubbel cachen van die eindexes, het distrueren naar de verschillende nodes, het nog het allermeest alle peers die nodig zijn voor het doorzoeken van de index, dus ik denk dat je toch wel over het hondervoud als niet duizendvoud aan actieve peers nodig hebt voordat je een serieuze speler *begint* te worden, want daarna komen ook nog dingen zoals "real time updates" "kwaliteit van algoritmes" "snelheid" etc. spelen.

edit:
Scrap that, iedere peer heeft blijkbaar z'n eigen cache als ik het goed begrijp. En als dat echt het geval is, dan is dit systeem gewoon totaal onhaalbaar, want geen 1 van die peers zal de infrastructuur van google hebben.

edit:
Scrap that as well, ik ga er vanavond eens in duiken net zo lang totdat ik het wel goed begrijp

[Reactie gewijzigd door David Mulder op 24 juli 2024 01:47]

m17 @djexplo • 29 november 2011 19:02

Het is maar hoe je het bekijk:

Een standaard dual core machine met 2GB RAM kan ruwweg 15 pagina's per seconde downloaden, parsen, links verwerken, content analyzeren en wegschrijven naar een geinverteerde index. Dus je zou zeggen dat het wel moet lukken.

Het gaat ineens moeilijk worden als je 10 miljard records door moet spitten om semi-duplicaten eruit te vissen en andere rare uitwassen te detecteren. Ook de linkscore berekenen is zeer zwaar omdat dit over de gehele linkgraaf (~15x zoveel als aantal pagina's) moet berekend moet worden met een power iteration algoritme. Dan is het ineens vrijwel onmogelijk om 10 miljard pagina's met 1600 machines te verwerken.

Ik heb het afhandelen van zoekopdrachten nota bena nog buiten beschouwing gelaten.

Xirt @djexplo • 30 november 2011 16:23

Ik heb zojuist YaCy geinstalleerd en ik word gelimiteerd op 3000 Pages Per Minuut. Dat haal ik uiteraard niet altijd, maar ik zit altijd boven de 1200 PPM. In dat geval zou je dus 1.576.800.000 pagina's kunnen indexeren per peer per jaar en heb je veel minder peers nodig om elke website elk jaar te indexeren. Sterker nog: servers en mensen met een snellere verbinding dat mijn verbinding kunnen die 3000 PPM waarschijnlijk wel aantikken. In dat geval klopt de berekening van Kees hierboven dus ook niet.

[Reactie gewijzigd door Xirt op 24 juli 2024 01:47]

LxxFxx @Beunhaas91 • 29 november 2011 17:29

Alles is altijd te verbeteren...
Ik vind dat bvb duckduckgo.com wel een paar leuke ideetjes in hun site verwerken:

Een informatief stukje boven de hits met mogelijks wat uitleg/context bij je eigen zoektermen. (zero-click info zoals ze dat zo mooi noemen)
Geen profilering van de gebruikers en dus geen gecustomiseerde results
Mogelijkheid tot het gebruik van de google keywords (intitle:, site:, filetype:, etc..)
Rechtstreeks zoeken op andere sites via de !bang syntax: bvb "!monster programmeur"

Als nadeel vind ik ze wat traag, maar dat verbetert misschien nog wel.

KoalaBear84 @LxxFxx • 29 november 2011 20:59

Zag dat Google voor allerlei dingen al een soort one-boxes boven de zoekresultaten wil gaan zetten, heb er al voorbeelden van gezien. Je eerste node komt daardoor binnenkort te vervallen, we zullen zien.

LxxFxx @KoalaBear84 • 5 december 2011 14:19

Interessant, concurrentie is altijd goed en ik heb niets tegen google. Integendeel.

Nog een puntje voor duckduckgo:
De searches in duckduckgo worden ook automatisch uitgebreid. Als je scrollt voorbij hit 10, laden automatisch hit 11 tot 20. Je hoeft niet te klikken dus. Vind ik ook prachtig.

Ik vind het wel knap dat ze zich kunnen onderscheiden in een markt waar google al jaren heer en meester is!

GeoBeo @djexplo • 29 november 2011 16:40

Om Google te verslaan heb je niet alleen technologie nodig. Wat nog veel belangrijker is dan de technologie die je zoekmachine gebruikt is je marketing. En laat opensource organisaties nou net typisch die soort organisatie zijn die zo goed als geen geld heeft en dus ook geen marketing budget vergeleken met Google.

Om die reden alleen al zal het nooit wat worden.

Bliksem B

@GeoBeo • 29 november 2011 17:15

Of google in de beginjaren zo'n goede marketing had. Google werd populair omdat het werkte. Als er nu weer een zoekmachine komt die werkt en revolutionair is op een unieke manier, kan deze de strijd met google vast wel aan. Tenzij google het opkoopt of aanklaagt.

Ik ga het iig ff testen vandaag .

Herko_ter_Horst

@Bliksem B • 29 november 2011 20:43

Google werd populair omdat Yahoo! en AltaVista (wie kent hem nog) steken liet vallen (omdat je nog "SEO" kon doen door je hele frontpage vol te spammen met populaire termen als 'sex' en 'dvd') en Google er op het juiste moment insprong met PageRank.

[Reactie gewijzigd door Herko_ter_Horst op 24 juli 2024 01:47]

seba @djexplo • 29 november 2011 21:35

Genoeg peers kunnen ze mss nog wel halen. Maar de kwaliteit van het google ranking algoritme zie ik ze wel niet rap halen. Daar hebben al zoveel hooggeleerden aan gesleuteld dat het heel moeilijk zal zijn dat nog te evenaren.

Ze hadden ook beter nog wat gewacht voor ze live gingen, want zelf voor heel basic searches vind ik bijna geen resultaten.

Darude1234 @seba • 29 november 2011 23:15

Ze hadden ook beter nog wat gewacht voor ze live gingen, want zelf voor heel basic searches vind ik bijna geen resultaten.

Tja dat lijkt me logisch, daar zul je eerst genoeg peers voor nodig hebben.

Overigens wat in het bericht niet helemaal duidelijk wordt is hoe de techniek nu precies werkt.
Ik bedoel, je typt bijvoorbeeld 'tentoonstelling' in als zoekterm, maar die zoekterm moet dan wel bij een van de peers bekend zijn, maar wie bepaald welke zoektermen bij welke resultaten horen?
Of is het zo dat de pagina's gewoon door Yacy zelf geïndexeerd worden en de peers alleen maar gebruikt worden als decentrale 'server' voor opslag van de data die deze indexeringstaak genereerd.
Of net zoiets al seti dat je bijvoorbeeld bepaalde pakketjes van yacy krijgt toegewezen met sites die nog geïndexeerd moeten worden en die vervolgens d.m.v. de vele verbonden clients in rap tempo geïndexeerd kunnen worden.

humbug @Darude1234 • 30 november 2011 10:23

Dat lijkt me niet logisch. Een product staat of valt bij de eerste kennismaking. Als die is "ik zoek google en krijg rotzooi" ben je snel je potentiële gebruikers kwijt. Een zoekmachine zal voor die online gegooid wordt eerst een bepaald niveau van informatie moeten hebben. Heb je dat niet ben je gedoemd te mislukken.

Darude1234 @humbug • 1 december 2011 22:17

Ik snap op zich wel wat je bedoeld, maar een dienst moet toch ergens beginnen.
Je vergaart niet zomaar 10 miljoen gebruikers, dat heeft tijd nodig. Ze hadden het misschien wel beter op een wat gestructureerdere manier kunnen uitrollen, bijvoorbeeld via nieuwsgroepen eerst een selecte groep informeren met het feit dat er op dit moment nog weinig content beschikbaar is. En op die manier de groep stukje bij beetje op meer media uitbreiden i.p.v. in 1x het product aan de hele wereld te tonen.

edeboeck @Beunhaas91 • 29 november 2011 16:27

Het idee is erg goed, maar ik denk dat het grote publiek hier totaal geen gebruik van gaat maken. Google is niet te verslaan... Nu niet, nooit niet.

Dat werd in een niet zo ver verleden ook gedacht van Microsofts Internet Explorer...
Verder zou het inderdaad wel eens kunnen dat het grote publiek hier geen gebruik van zal maken... tenzij er natuurlijk voldoende (en langdurende) media-aandacht komt, dan zou het wel eens een ander verhaal kunnen worden.
Laat ons hopen dat dit het geval is... wat concurrentie kan nooit kwaad...

Beunhaas91 @edeboeck • 29 november 2011 16:31

Dat is natuurlijk appels met peren vergelijken. Microsoft moest de consument kunnen laten kiezen, daardoor zijn er ontzettend veel mensen overgestapt op bijvoorbeeld Mozilla Firefox en Google Chrome.

De vergelijking tussen Microsoft Windows en andere besturingssystemen zou een betere zijn...

Sh4wn @Beunhaas91 • 29 november 2011 16:55

Firefox heeft een heleboel marktaandeel op eigen houtje geworven door simpelweg een betere browser te zijn. Daar heeft het browserkeuzescherm niets mee te maken.

Als er een betere zoekmachine komt dan Google, dan zal ik waarschijnlijk ook overstappen, maar naar mijn mening is die er op dit moment niet.

Verwijderd @Beunhaas91 • 29 november 2011 18:00

De verplichte browserkeuze heeft geen of nauwelijks effect gehad. Je gaat voorbij aan het feit dat massaal mensen de keuze hebben gemaakt andere software te installeren en te gaan gebruiken dan hetgeen ze al voorhanden hadden en waaraan ze gewend waren.

Dat is tamelijk uniek.

simplicidad @Beunhaas91 • 29 november 2011 16:36

We gaan eens praten als de VS hun censuur regels er door kan krijgen om de entertainment industrie te cateren en Google bepaalde entries zal moeten verwijderen.

P2P based search en DNS zal naar mijn gevoel de volgende evolutie zijn.

Verwijderd @Beunhaas91 • 29 november 2011 17:12

Google is niet te verslaan... Nu niet, nooit niet.

juist, net zoals netscape, second life, hotbot, napster, myspace, america online, ... nooit waren te verslaan

KoalaBear84 @Verwijderd • 29 november 2011 21:01

Napster is helaas verloren gegaan d.m.v. legaliteitsproblemen, dus niet echt 'verslaan', dat was nog eens leuk met amerikanen chatten 's-nachts.

Bonez0r @Beunhaas91 • 29 november 2011 19:10

Google is niet te verslaan... Nu niet, nooit niet.

Ik wil niet uit de hoogte doen of zo, maar gezien je naam ben je van 1991 en die uitspraak getuigt van weinig internet-historisch besef. Vóór google waren er anderen waarvan hetzelfde gezegd werd. En kijk naar internet explorer met z'n 95% marktaandeel nog niet zo lang geleden, dat werd ook onaantastbaar geacht. Geen enkele machtspositie houd voor altijd stand, zie bijvoorbeeld het Romeinse rijk. Hooguit op de korte en middellange termijn heb je gelijk.

Blonde Tux @Beunhaas91 • 29 november 2011 20:34

Google is niet te verslaan, dat riepen ze van Yahoo, Philips, KPN, WorldOnline, Goldman Sachs, ING, IBM en Microsoft ook. Op een gegeven moment worden dit gewoon molochen die niet te laat op markt trends reageren en verkeerde strategische besissingen nemen.

blouweKip @Beunhaas91 • 29 november 2011 21:56

Ik weet nog dat google net kwam kijken, het kan snel gaan als je een innovatief product op de markt brengt wat mensen aanspreekt.

overigens zie ik dit niet als een concurrent van google, dit is een specifieke dienst voor mensen die bepaalde eisen hebben, henk en ingrid kan het weinig schelen of men iets over hun surfgedrag weet (todat het misbruikt wordt).

Verwijderd @Beunhaas91 • 29 november 2011 23:53

- Altavsita is niet te verslaan (of nee wacht: Google did it)
- IBM is niet te verslaan (of nee wacht: Microsoft did it)
- Yahoo is niet te verslaan (of nee wacht: Google & Microsoft did it)
- Samsung is een B-merk (of nee wacht: ze staan nu boven Apple qua smartphone sales)
- Het Romeinse Rijk is het eeuwige rijk (spreek jij Latijn in je dagelijks leven, oh nee dat is een dode taal, Grieks wordt overigens ook niet door ons gesproken, voor diegene die weet waar ik het dan over heb)

History 101: nothing lasts forever...and also: nothing is too big to fail...

beany 29 november 2011 16:20

De reden waarom ze geen goed alternatief voor Google of Bing worden:

There is currently massive load on this page because of press releases today. A search might be not successful now.

Al kan ik dit soort initiatieven wel waarderen

wdvjb @beany • 29 november 2011 18:57

Nee. Als er een reden zou zijn dat ze geen goed alternatief voor Google of Bing worden, dan is het dat mensen als jij het meteen afschrijven in plaats van een peer te worden. Iets wat de zoekmachine beter zou maken zodat het in de toekomst geen problemen meer heeft met "massive loads".

Sorry dat ik een beetje bot ben maar ik ben gewoon gevoelig voor dit soort pessimisme.

Verwijderd 29 november 2011 16:28

Daarvoor kunnen we niet vertrouwen op enkele grote bedrijven", zegt projectleider Michael Christen.

Helemaal mee eens.
Het word tijd dat de "kleuring" uit zoekresultaten gaat en we onze privacy terugkrijgen.

Alleen ontgaat het mij hoe je zou kunnen zoeken zonder online te zijn.
Dat kan dan alleen historische resultaten opleveren lijkt me.

@snirpsnirp:

PulpFiction 1994 quote:
"Life is full of unrealistic motherfuckers, we don' wanna be unrealistic, now do we ?"

[Reactie gewijzigd door Verwijderd op 24 juli 2024 01:47]

Verwijderd @Verwijderd • 29 november 2011 18:08

Spreek voor jezelf. Ik deel met alle liefde mijn persoonlijke voorkeuren om daarvoor in de ruil gerichte advertenties en goede zoekresultaten te krijgen.

Ik vind het een goede deal.

tomhagen @Verwijderd • 29 november 2011 19:44

Spreek voor jezelf. Ik deel met alle liefde mijn persoonlijke voorkeuren om daarvoor in de ruil gerichte advertenties en goede zoekresultaten te krijgen.

Maar vind je het ook nog steeds een goede deal als de zoekresultaten gekleurd worden door degene die het meest betaalt?

Stel jij wilt informatie over scheerapparaten (wellicht handig als je veel in de file staat), maar Gilette betaalt meer dan Braun, dus de eerste 15 pagina's gaan enkel over natscheren. Zoek 't vaak genoeg op en je gelooft niet meer dat je ook met een scheerapparaat kunt scheren. Zover is 't nu wellicht nog niet, maar uiteindelijk gaan we uiteraard wel die kant op. Oh ja, en op elke site die je daarna bezoekt, zie je natuurlijk gilette banners. Sterkte.

Verwijderd @tomhagen • 1 december 2011 07:30

Dit is een heel ander verhaal dan de privac waar ik hierboven op in ging.

Niettemin mijn reactie: de sortering van zoekresultaten zal altijd 'gekleurd' zijn. Als het niet door financiele middelen is, dan wel door het zoek algoritme. Gebaseerd op mijn ervaring met Google leidt een systeem waarin bedrijven kunnen meebepalen consitent tot goede zoekresultaten.
Dat is ook niet verwonderlijk als je er over nadenkt. Google en de meebetalende bedrijven hebben een gedeeld belang dat het resultaat voor de zoeker relevant moet zijn. Als Disney gaat zorgen dat ze hoger komen in de resultaten voor 'scheerapparaat' zou het verspillend zijn. De marktwerking heeft ook hier een corrigerende werking.

Het is ironisch, maar jouw voorbeeld met "scheerapparaat" is een uitstekend voorbeeld. Google toont eerst drie gesponsorde links: shavershop, bol.com en philips.nl/sensotouch. De advertentiebalk rechts toont braun.com/series etcetera.
De zoekresultaten tonen vergelijkingssites, wikipedia, braun en blokker.

Er is ook geen enkele reden om aan te nemen dat het "uiteraard" een andere kant op gaat. Deze krachten zullen dezelfde balans zoeken als ze nu hebben gevonden.

maceddy2004 29 november 2011 16:20

Tenzij ik een wit vlak zoek lijkt de website het niet te doen....

Beunhaas91 @maceddy2004 • 29 november 2011 16:21

"There is currently massive load on this page because of press releases today. A search might be not successful now."

dotcode 29 november 2011 16:21

Een zoek machine zou eigenlijk helemaal geen privacy moeten opslaan zolang de gebruiker dan niet explicit aangeeft. Gelukkig is dit een goed begin, in de wereld waarop dit moment google van iedereen weet wat, wie, hoe en waar.

n4m3l355

Zoekmachines

@dotcode • 29 november 2011 16:35

Natuurlijk zou dat niet zo moeten zijn echter het mooie is als Truus zoekt op haar bling bling schoenen en daar al 10x op gezocht heeft is Google beter in staat Truus te vertellen wat ze zoekt tov dit soort projecten. Ja ze zijn leuk, ja ze zullen allicht wel ergens bij een niche intresse, nee ze zijn niet geschikt voor het merendeel van de bevolking die toch niet snapt wat een cookie is laat staan dat ze stil staan dat ze levenslang meegaan. Sterker nog privacy is iets waar men wakker van ligt zodra ze er bewust van zijn wat de consequenties zijn, laat dit nou net niet het geval zijn bij Truus die bij alles waar een naam in te vullen is, dit volautomatisch doet.

Dus ja leuke techniek maar ik vraag me ten sterkste af of hier ergens draagvlak voor is behalve wat enthousiastelingen in een duister hoekje.

Ik geloof overigens niet dat Google de graal is, net zoals Altavista dit vroeger was. Uiteindelijk zal er wel weer een betere search engine komen alleen in welke smaak dat blijft nog de vraag.

Verwijderd 29 november 2011 17:24

Ik heb het dus even geprobeerd en ten eerste is het deelnemen aan het P2P netwerk direct 'bye bye' als je achter NAT zit. Dus geinstalleerd op mijn router (bij mij niets anders dan een oude PC). Wat opvalt is dat de web-interface compleet onoverzichtelijk is. Of de netwerk-last ingesteld kan worden is compleet onduidelijk. Je hebt er uiteraard Java voor nodig, wat toch redelijk wat resources van je systeem vreet (in vergelijking met Google, waar je alleen je browser voor nodig hebt). En het indexeren van mijn eigen pagina wilde niet lukken. De site is prima te vinden onder Google en Bing, maar Yacy gaat over zijn nek. De reden daarvoor is dat ik voor de site een eigen gebouwde web-server draai (klein hobby projectje) en deze niet kan omgaan met de header 'connection: keep alive'. Tot mijn vreugde vond ik een optie ergens verstopt in de web-interface waarme ik 'keep alive' uit kon zetten. Mijn vreugde werd echter snel omgezet in teleurstelling nadat ik moest vaststellen dat er nog steeds een keep-alive op mijn server werd afgeschoten.

Conclusie: Het idee is leuk, de uitwerking lijkt echter nog amateuristisch. Als ik Vuze opstart is NAT in principe geen probleem. Hij zal dan met minder peers kunnen verbinden en het downloaden/uploaden zal hier en daar het iets minder doen, maar in principe werkt het. Ook het beperken van het netwerk verkeer is w.m.b voor zoiets een basis en is makkelijk te vinden in Vuze. Ik weet dat Vuze geen search-engine/indexer is, maar ze basseert ook op P2P en is tevens geschreven in Java.

TMDevil

@Verwijderd • 29 november 2011 19:39

Om te zoeken kan je gewoon naar http://search.yacy.net/ gaan. Wil je deelnemen aan de engine, dan moet je hem idd installeren.

Verwijderd @TMDevil • 29 november 2011 23:09

Ik snap dat ik naar http://search.yacy.net/ kan gaan maar als 99.99% van de mensen naar deze URL springen dan is het idee van een P2P search natuurlijk ver te zoeken, vandaar dat die site zelf nu ook zo traag als .... is.

Xirt @Verwijderd • 30 november 2011 16:49

Het idee is dat jouw zoekopdracht verdeeld wordt over alle peers volgens mij. Bovendien indexeren die peers momenteel het web en niet bovenstaande website. Probleem is alleen dat ik niet weet hoe mijn resultaten in een zoekbox van een ander komen (of dat uberhaupt gebeurd). Zojuist 'voor de grap' nu.nl laten crawlen tot drie lagen diep (owk, hij is natuurlijk nog steeds bezig...), dus ik zou denken dat die resultaten ergens gebruikt kunnen worden (behalve dan op mijn local search ;-)).

TheNephilim

29 november 2011 16:21

Erg mooi alternatief en zeker de technieken die we hier zien vind ik erg interessant! Hopelijk lukt het Yacy wel om aandacht te krijgen van het 'gewone volk' en zien we deze zoekmachine snel terug.

Als ik het goed begrijp kun je deze zoekmachine zelf opzetten, dus het nadeel is misschien dat er slechts enkele minder grote zoekmachines komen, of begrijp ik dat verkeerd?

Xirt @TheNephilim • 30 november 2011 16:02

Het grootste nadeel is volgens mij dat de index afhankelijk is van het aantal peers. Ik heb zojuist drie keer een query gedaan op de website. De eerste twee zoektermen kreeg ik niets terug, dus toen heb ik als derde term 'xxx' gebruikt: 155 resultaten in totaal, dat lijkt mij heel weinig ;-). Maar als er meer peers komen wordt er meer geindexeerd en krijg je dus ook meer resultaten.

woutervh 29 november 2011 16:26

Eén tip: verander die naam
Naar wat? Geen idee. Maar YaCy slaat echt nergens op,
ligt niet goed in de mond, niet in de hand en kan amper uitgesproken worden...

Verwijderd @woutervh • 29 november 2011 16:40

"jaasie" of "jaakie", lijkt me toch niet slechte in de mond liggen dan google.

Verwijderd @woutervh • 29 november 2011 16:47

Uitgesproken als "ya see", volgens Wikipedia.

http://en.wikipedia.org/wiki/YaCy

The Zep Man

Browsers
Google
Open source

@woutervh • 29 november 2011 16:56

Eén tip: verander die naam
Naar wat? Geen idee. Maar YaCy slaat echt nergens op,
ligt niet goed in de mond, niet in de hand en kan amper uitgesproken worden...

YaCy spreek je uit als "ya see", een combinatie van "you" in straattaal en see. Het slaat dus wel ergens op en is niet zo moeilijk uit te spreken. Vergelijk het bijvoorbeeld maar met Google in het Nederlands: koekel, goochel...

Iets algemener: grootste nadeel van YaCy blijft dat er geen fatsoenlijke manier is om zoekresultaten in een voor de gebruiker handige volgorde te krijgen. YaCy kan niet omgaan met contexten, en dat is jammer.

Verwijderd @The Zep Man • 29 november 2011 18:06

Nee, zo zou niemand het uitspreken. Al is het wel hoe men blijkbaar wil dat het gelezen wordt.
Bij het "Ya" deel kan ik me iets voorstellen, maar bij "Cy" loopt het spaak. Als je de uitspraak van "see" wilt hebben, zou je toch met alleen "C" moeten werken.
YaC.
Nu wordt het de eerste lettergreep van Cyborg.

Als deze naam blijft hangen zal het naar mijn vrees eerder iets zijn als Yahtzee!

Bonez0r @woutervh • 29 november 2011 19:22

Zeker belangrijk. Met zo'n naam gaat het niet aanslaan bij het grote publiek.

Maar ik vraag me ook af hoeveel peers er nodig zijn om de search engine echt goed te maken. Je moet namelijk iets installeren als je zelf peer wil zijn en de meeste mensen hebben daar geen zin in.

edit: het programma vraagt ook nog eens 30GB HD ruimte.

[Reactie gewijzigd door Bonez0r op 24 juli 2024 01:47]

blorf @Bonez0r • 29 november 2011 19:47

Ik heb geen idee hoe het precies werkt, maar volgens mij moet het kunnen werken. Die peers stellen allemaal een stukje cpu-power en wat opslagruimte ter beschikking aan het netwerk. Als dat genoeg is kunnen die peers samen websites gaan cachen en de data daarvan op de een of ander manier georganiseerd verdelen over de nodes. Volgens mij is het technisch gezien een beetje een kruising tussen een cloud en een botnet.

Een nadeel t.o.v. een centrale zoekmachine is dat de peers meestal pc's thuis zullen zijn en dus altijd down kunnen zijn. Het opvangen daarvan kan een te groot deel van de beschikbare bronnen in beslag nemen.

Overigens vind ik dit wel heel erg interessant. Het is niet commercieel, dus vrij van reclamezooi. Ook is de werking ervan open en waarschijnlijk vrij implementeerbaar in software of op websites. Dat biedt een hoop mogelijkheden...

[Reactie gewijzigd door blorf op 24 juli 2024 01:47]

vanaalten 29 november 2011 16:45

Zolang de burger totaal niets om privacy geeft en daar zelfs een award voor krijgt zal deze zoekmachine niet succesvol worden.

Leg een gemiddelde nederlander maar eens uit waarom hij zou moeten stoppen met Google. Gaat je niet lukken! Enkel als de zoekresultaten minstens even goed zijn, het gebruiksgemak even hoog en het een minstens zo catchy naam heeft als Google maakt het enige kans.
Het 'unique selling point', privacy, is voor de meeste mensen ongeveer niets waard.

Op dit item kan niet meer gereageerd worden.

Lees meer

Reacties (74)

Sorteer op:

Weergave: