Hoofdcategorieën

'Google-killer Cuil is website-killer'

Door Mick de Neeve, woensdag 3 september 2008 19:50
Submitter: Devil_Inside, views: 43.029

De onlangs door voormalige Google-medewerkers opgerichte zoekmachine Cuil wordt beschuldigd van het bombarderen van sites die het wil indexeren met requests, waardoor er al verschillende zouden zijn platgegaan.

De searchengine werd eind juli voor het publiek toegankelijk gemaakt door de voormalige Google-employees, die onder meer de Teragoogle-index ontwierpen, de rankingalgoritmes van de zoekgigant, maar ook de nieuwe zoekmachine van eBay. Ze willen hun ex-werkgever naar de kroon steken door sites niet zozeer op populariteit maar meer op inhoud te ranken, maar ook door een grotere zoekindex in te zetten. Dat laatste lijkt volgens Techcrunch niet helemaal goed te gaan, de indexeringsbot zou vele uren met sites bezig zijn, en is dan naar verluidt onder meer op zoek naar gedeeltes die niet via links vanaf de hoofdpagina terug zijn te vinden.

Cuil Een van de getroffen beheerders zegt dat hij na 24 uur Cuil-activiteit de toegestane traffic van de indexeringsbot tot 2 pakketjes per seconde heeft beperkt, een andere zegt dat er binnen een maand 2GB aan traffic op zijn site is verstookt door Cuil. De nieuwe zoekmachine wordt beschuldigd van een amateuristische aanpak: er zouden 'pseudo-willekeurige' url's worden gegenereerd om te zien of die bestaan.

De slachtoffers hebben contact gezocht met Cuil, en die heeft gereageerd door te stellen dat de indexeringsbot, Twiceler, nog in het experimentele stadium verkeert. James Akler, Cuils operational officer, impliceerde overigens dat de bot zich mogelijk niet aan het robots.txt-bestand houdt om sites, of delen ervan, te negeren en heeft de klagers aangeboden ze handmatig op een lijst van uit te sluiten websites te plaatsen. De man verweerde zich overigens ook door te stellen dat het bedrijf een aantal crawlers heeft waargenomen die zich voordoen als de Cuil-bot.

Volgende 21:06
Vorige 18:34

Reacties

«  1  2  3  »

Ik denk dat je willen profileren als 'google-killer' de grootste en eerste fout is, die je als dev. kan doen ...

Hun technologie blijkt de 2e fout, veel kleine sites mogen max. 5 gig / maand verstoken, als er natuurlijk 2 gig naar 1 zoekrobot gaat, weet ik wat er in de robots.txt zal verschijnen ... en is het niet net hu doel om veel sites te veroveren ? Error logs zullen er ook mooi uitzien als ie willekeurige urls zoekt ...

geen goede start alvast !

[Reactie gewijzigd door ebx]


Het gaat hier om het indexeren van de site, een kleine site is snel geïndexeerd natuurlijk, dus het bandbreedte gebruik staat dan in verhouding.

Net de laatste log gescant op een sociaal netwerk website die 2TB/maand aan verkeer verwerkt, en voorheen kwam Cuil met hun Twiceler-0.9 bot alleen maar eens per week voor en de laatste tijd elke dag.

38.99.44.105
64.1.215.163
64.1.215.164

Zijn altijd de IPs die dan gebruikt worden, maar het is natuurlijk best mogelijk dat het ook op andere manieren scant en zich dan niet keurig aanmeld via:

"Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html"

Op de gemelde pagina staat tevens de volledige lijst met IPs die door Cuil worden gebruikt:

38.99.13.121 -- 38.99.44.101 -- 64.1.215.166 -- 208.36.144.6
38.99.13.122 -- 38.99.44.102 -- 64.1.215.162 -- 208.36.144.7
38.99.13.123 -- 38.99.44.103 -- 64.1.215.163 -- 208.36.144.8
38.99.13.124 -- 38.99.44.104 -- 64.1.215.164 -- 208.36.144.9
38.99.13.125 -- 38.99.44.105 -- 64.1.215.165 -- 208.36.144.10
38.99.13.126 -- 38.99.44.106

Dus het is ook heel gemakkelijk om die te blokkeren op firewall/router niveau als het teveel wordt.

Het valt me trouwens op dat alle scans eerst keurig beginnen met een verzoek naar /robots.txt, en ik heb juist een honeypot folder opgezet om crawlers in de gaten te houden. De map bevat een valse website met wat sleutelwoorden die normaal niet voorkomen, zodat ik tevens kan controleren via een zoek opdracht of de data ook daadwerkelijke geïndexeerd is en opgezocht kan worden. De map wordt echter keurig met rust gelaten door Cuil, dus weet niet precies hoe ik de opmerking van 'James Akler' moet lezen.

Of 2GB per maand veel is, is maar relatief. Ik heb een site waar Google per dag zo'n 800MB komt ophalen. Dat is al bijna 25GB per maand. Ik begrijp dus de hele ophef niet.

Als je 25GB te veel vind kun je dat ook mooi instellen bij google, daar kun je aangeven hoe vaak ze langs moeten komen.

Hmm, ik zou voorstellen om er de sticker bèta op te plakken...


Ik kan me niet herinneren dat ze op tweakers.net aan mij hebben gevraagd of ik het eens was met de laatste veranderingen.. Of is tweakers.net ook beta?

In gmail sla je anders wel veel meer persoonlijke data op dan op tweakers, dus jouw vergelijking gaat niet helemaal op. Hoewel ik niet verwacht dat ze je gegevens zouden stelen, tenslotte is google een erg succesvol bedrijf. Wat ik me echter wel kan voorstellen is dat ze de verkeerde persoon de verkeerde machten hebben gegeven, zodat die je gegevens zou kunnen stelen.

Volgens jou dus: Omdat het type informatie van een andere orde (meer betrouwbaar) is mag er dus alleen iets veranderd worden met toestemming van de gebruiker (mits het béta label erop geplakt wordt).. Dat lijkt me een beetje krom. Over stelen van informatie heb ik het niet eens gehad.

Volgens mij is bèta niets meer dan in ontwikkeling zijnde software < zie wikipedia. En heeft dit verder geen juridische implicaties (zoals PolarBear hieronder ook al aangeeft).

Je mag er misschien geen rechten aan ontlenen (maar of dat bij gratis producten mag vraag ik me sowieso af). En volgens mij staat er heel vaak in de algemene voorwaarde (zelfs bij betalende producten) dat er geen rechten aan mogen worden ontleent.

[Reactie gewijzigd door DutchStoner]


Zoals jullie al lang doorhadden hintte ik een beeetje naar Google.. De beta plakker is meer een indekking dat er nog wat mis kan gaan. Ik bedoel, dit is natuurlijk een stomme fout, en om het dan al final mee te geven..

de beta status heeft niets met aanpassing te maken, maar met de rechtzaal
iets in beta is niet stabiel en dan mag je geen klacht indienen, dat is dan ook de reden dat vele dingen in beta blijven hoewel ze al lang stabiel zijn

Ik kom dat wel vaker tegen dat het iets met de rechtzaal te maken heeft. Maar voorzover ik weet bestaat het woord beta in juridische termen niet, of althans niet voor software (wel in de onderwijssfeer).

Als je een dienst aanbiedt aan het grote publiek en dat geruime tijd doet kan je volgens mij je echt niet achter het woordje beta verschuilen. Als een autofabrikant hetzelfde zou doen zou de wereld te klein zijn, als een bank een beta rekening opent en je geld is opeens weg dan denk je er ook ander over denk ik.

Maar voorzover ik weet bestaat het woord beta in juridische termen niet,
Maar in het Nederlandse recht is het wel zo dat een product dat je koopt aan de verwachtingen moet voldoen die de verkoper (niet de fabrikant!!) bij de verkoop geschapen heeft. Een product dat als 'beta' verkocht wordt zou dan logischerwijze lagere verwachtingen scheppen dan een product dat als 'final' verkocht wordt. Echter, je koopt helemaal niks van Google, je hebt geen juridische overeenkomst met ze dus er valt helemaal niks te eisen in het kader van gebruiksgemak iets dergelijks.

Leuk is dat, ik maak een beta-crawler en ik kan het hele internet platleggen onder het mom van 'beta' en 'je betaalt er toch niet voor'. zou leuk worden :P

Dit is weer een heel ander verhaal... Je mag natuurlijk ook niet een béta-overval plegen, of een béta-hack uitvoeren.

De rechten en plichten op het internet zijn vaak nog een grijs gebied voor de rechters. Een rechtszaak zou hier duidelijkheid in kunnen scheppen.

@jeroenr:
Je accepteert hun algemene voorwaarden. Dat is dan ook het enige juridische overeenkomst die er is. In die algemene voorwaarden staat gemeld dat het om een beta product gaat en dat je geen rechten kunt ontlenen. Er is dus vastgelegd wat je zoal mag verwachten van de dienst/product en daar ga je bij het gebruik mee akkoord.

Tuurlijk valt er wel wat te eisen. Als het niet voldoet aan wat er is afgesproken mag dat. Of het een juridische grond heeft is vers 2.

Dat je iets niet koopt betekent overigens niet dat er daarom geen overeenkomst is of geen juridische grond. Die zijn er vaak namelijk wel degelijk. Beste voorbeeld wat je daarvan zou kunnen geven is muziek met een bepaalde licente en freeware software. Je hoeft niet per definitie te betalen voor muziek omdat de licentie gewoon gratis gebruik toestaat. De Creative Commons is dan een licentie die voor dat soort dingen vaak toegepast wordt. Afhankelijk van die licentie mag je er bepaalde dingen wel en niet mee. Als je die overtreedt ben je gewoon in overtreding van de auteurswetgeving. Bij freeware geldt hetzelfde verhaal: de licentie bepaald wat je er mee kunt doen en als je je daar niet aan houdt ben je veelal gewoon in overtreding van de auteurswetgeving.
Beiden gratis, beiden met een juridische overeenkomst.

Bovenstaande is overigens de reden geweest dat met name de open source wereld een hele boze open brief heeft gestuurd aan organisaties zoals St. BREIN en de BIG omdat zij wel erg stellig waren in hun "software downloaden = illegaal" leus.

Je zou het Met expertenverslagen en getuigen wel aannemelijk kunnen maken dat iets niet meer beta is, ook al plakken ze dat stickertje erop. Met andere woorden, als er iets mis gaat met jouw data en jij kunt voldoende bewijs aanvoeren dat de applicatie niet beta is, dan kun je wel wat te eisen hebben.

Aan de andere kant: hoe zit het met een beta en gebruik van persoonsgegevens, al is het dan met toestemming van die personen? Bij het testen van medische software moet je bijvoorbeeld een fake database gebruiken, je mag geen RL gegevens gebruiken (althans in de UK). Misschien kun je daar ook wel een zaak van maken.

Wat is dat toch steeds met rechtszaal hier op t.net. Vrijwel alle gratis software wordt geleverd 'as is', je kunt geen enkele aanspraak maken - beta, brak of niet. Als @live volgende week al je mail kwijt is, met welke wetten ga je ze dan om de oren slaan?

Noem mij 1 voorbeeld van een vergelijkbare rechtszaak. Ever & where-ever. En gewonnen.

De slachtoffers hebben contact gezocht met Cuil, en die heeft gereageerd door te stellen dat de indexeringsbot, Twiceler, nog in het experimentele stadium verkeert.
Ik zou toch eigenlijk wel mogen aannemen dat zo'n bot eerst eens degelijk getest wordt voor ze zoiets loslaten in het wild. Blijkt nu mooi een paar websites platgelegd te hebben, zijn de Cuil beheerders/ontwikkelaars/eigenaren nu ook aansprakelijk voor geleden schade? In de tijd dat een website offline geweest is door een brakke bot van een ander zijn er ook bijvoorbeeld geen inkomsten qua ads en dergelijke geweest.

Maar is trouwens een beperkte bereikbaarheid ook meteen 'plat leggen'..?

Natuurlijk zijn zij aansprakelijk. Niemand heeft hen gevraagd om de desbetreffende sites te indexeren. Daarmee zijn zij dus een doodnormale bezoeker, zij het geautomatiseerd.

Met plat leggen kan inderdaad van alles bedoeld worden. Ik denk echter, gezien het dataverkeer en de tijdsduur waar over gesproken wordt, dat het gaat om een overschrijding van het limiet van dataverkeer waardoor hosters een site off-line halen. Ik kan me moeilijk voorstellen dat de bot zo slecht gebouwd zou zijn dat hij zo veel en snel requests genereert dat een server er daadwerkelijk aan ten onder zou kunnen gaan. Dat lijkt bevestigd te worden door een andere beheerder, die zegt dat de bot in 1 maand 2GB aan data heeft verstookt. Hoewel erg veel voor een bot, lang niet genoeg om een server down te halen (mits enigzinds verspreid).

Wie een Cuil graaft voor een ander?
Moet eerst nog even door graven wellicht? (programmeren)

Wat is eigenlijk het nut van willekeurige url's op te vragen? om de statuscode te verkrijgen ofzo?

"Verborgen" pagina's vinden (die dus nergens gelinkt staan) en hopen dat google deze pagina's niet heeft. Dit levert ze (dat hopen ze) een grotere index op.

En wat is exact het nut voor het grote publiek dat deze bot pagina's kan vinden die de beheerders blijkbaar niet eens belangrijk genoeg vinden om binnen hun site te linken?

Lijkt me vrij duidelijk:
Om gewoon de concurrent te pesten met het feit dat hun meer pagina's geïndexeerd hebben en om zo ook eventueel toch belangrijke pagina's te vinden die anders verborgen zouden blijven.

Tja , als je de resultaten van de zoekmachine bekijkt , dan zie ik daar weinig relevante info op, meestal allemaal porno/spam. Je bent niks met de grootste index als daar niks relevants in te vinden is.

[Reactie gewijzigd door ieperlingetje]


Wat het nut ervan is kun je je afvragen, feit is wel dat ook Google links vindt die niet via normaal surfen gevonden zouden kunnen worden. Denk vooral aan PDF- en Worddocumenten.

Op mijn site had ik een PDF-document geupload die nergens gelinkt werd maar alleen via e-mail werd doorgegeven, en toch heeft Google 'm weten te vinden.

Mailtje verstuurd via gmail?
Kan natuurlijk ook zo zijn dat iemand anders een linkje op een page heeft gezet naar jouw pdf file...

[Reactie gewijzigd door CMG]


ok, maar dat is toch allemaal onnozel. Stel dat die zoekrobot al zo 'slim' genoeg is om te kunnen detecteren hoe de structuur van de site is (bijv pagina.php?id=een_nummer) , dan kan hij tot het oneindige blijven optellen (pagina.php?id=9999999999999 bij wijze van spreken)

Hopelijk is die dan wel zo intelligent dat hij na 2000 foute requests ophoud?!

Ik zie geen een voorbeeld van een website die plat gegaan is. Dat hij veel dataverkeer trekt is niet normaal, maar vind de titel in deze wel zwaar overtreden.

Verder moet je een nieuw bedrijf met een nieuwe techniek wel de kans geven. Als ze er nu aan werken zie ik niet in dat er grove fouten gemaakt zijn, maar dat de bot teveel zijn best doet pagina's te willen vinden die er misschien weleens niet zouden zijn. En dat de bot veel dataverkeer wil is logisch, als je wilt dat de bot van google zo vaak langs komt haalt 'ie dat ook als je niet oppast. Ook developers moeten met de bot om kunnen gaan natuurlijk..

Een kans oké, maar dit gaat ten koste van een aantal websites en de beheerders daarvan, die er maandelijks kosten aan hebben. En extra kosten voor deze zoekmachine. Dat ze een zoekmachine op willen zetten, oké, maar laat het dan niet ten koste (letterlijk) gaan van websitebeheerders.

Omdat de "grote" sites die het waard zijn om vermeld te worden, sterk genoeg zijn om een flinke DOS van zo'n robot aan te kunnen wel voldoende bandbreedte hebben.
De kleine sites maakt het niks uit en weten er niks van. De hosters daarentegen weer wel.

Zoek maar op twiceler, en je komt veel berichten tegen dat hosters de IPs van deze bot zelfs blacklisten.

Ik heb dat ook gedaan, toen ik merkte dat ik opeens enorme pieken krijgt. Ik dacht dat ik geDDOSsed werd, maar het blijk de twiceler bot te zijn.

Ben het met je eens, voor hetzelfde geld kwam google later langs (terwijl er nog 5mb van het dataverkeer over zou zijn)... En waren hun dan de schuldigen? Of de bezoeker die net de laatst beschikbare KB opvraagt....

Ik kan me ook wel voorstellen dat grote sites(zoals tweakers) veel meer data kwijt zijn aan indexatie als piets homepage die 5 pagina's heeft.

Dus ja 2Gb is wel veel opzich maar hangt volledig van de site af (vooral de grootte).

Ik vind het dus een onzinbericht, het wordt gewoon veel erger gemaakt dan het is..

Google heeft er ook een handje van hoor. Ik ben moderator op een heel groot forum, en wij hebben Google van de site moeten weren (ook googlebot luistert niet goed naar robots.txt!) totdat we een nieuwe server hadden die het geweld wel aan kon. In een normale maand is googlebot goed voor 130 tot 150 GB....

de bot zich mogelijk niet aan het robots.txt-bestand houdt om sites, of delen ervan, te negeren en heeft de klagers aangeboden ze handmatig op een lijst van uit te sluiten websites te plaatsen.
Dit is toch ongehoord. Er word net op vertrouwd dat op zen minst de goede bots zich hieraan houden, waarom dan een exemplaar bouwen dat deze kan negeren? Dan kunnen ze al beter een opt-in gaan aanbieden.

Ik heb eens even gekeken naar die zoekmachine, maar ik moet zeggen: petje af hoor. Qua interface is het een vooruitgang. Er worden netjes categorieën getoond.

alleen de zoekresultaten zijn matig tot zelfs slecht...

alleen de zoekresultaten zijn matig tot zelfs slecht...
Zoals met elke nieuwe zoekmachine, is dat slechts een kwestie van crawltijd.

helaas.. alleen een heleboel / nog meer pagina's indexeren helpt je niks. Het gaat juist om de relevantie te vinden, sterker nog, om te gokken welke relevantie de bezoeker bedoeld, aangezien genoeg woordjes in meerdere contexten voor komen. Meer pagina's leiden juist tot meer 'vervuiling'. Het zal allicht beter worden, als ze verder aan hun techniek werken. Tot die tijd, hoop ik dat ze zich niet blind staren op 'aantal pagina's' -- aangezien ook hier de 90/90 regel opgaat - zeg maar - 90% van de bezoekers haalt 90% van zijn informatie uit 10% van de websites.

Eerst een pikzwarte pagina en dan opeens knal wit bij resultaten? Dit wordt niks

Juist wel is vet man, dat zwarte is is wat anders dan een google cloon!

Tsja, een catchy naam blijft toch ook wel belangrijk. Ik was het al weer vergeten eerlijk gezegd.
«  1  2  3  »

Op dit item kan niet meer gereageerd worden.

Volgende 21:06
Vorige 18:34
VNU Media logo Powered by True

© 1998 - 2008 Tweakers.net - Alle rechten voorbehouden

Uitgever van: