'Google-killer Cuil is website-killer'

De onlangs door voormalige Google-medewerkers opgerichte zoekmachine Cuil wordt beschuldigd van het bombarderen van sites die het wil indexeren met requests, waardoor er al verschillende zouden zijn platgegaan.

De searchengine werd eind juli voor het publiek toegankelijk gemaakt door de voormalige Google-employees, die onder meer de Teragoogle-index ontwierpen, de rankingalgoritmes van de zoekgigant, maar ook de nieuwe zoekmachine van eBay. Ze willen hun ex-werkgever naar de kroon steken door sites niet zozeer op populariteit maar meer op inhoud te ranken, maar ook door een grotere zoekindex in te zetten. Dat laatste lijkt volgens Techcrunch niet helemaal goed te gaan, de indexeringsbot zou vele uren met sites bezig zijn, en is dan naar verluidt onder meer op zoek naar gedeeltes die niet via links vanaf de hoofdpagina terug zijn te vinden.

Cuil Een van de getroffen beheerders zegt dat hij na 24 uur Cuil-activiteit de toegestane traffic van de indexeringsbot tot 2 pakketjes per seconde heeft beperkt, een andere zegt dat er binnen een maand 2GB aan traffic op zijn site is verstookt door Cuil. De nieuwe zoekmachine wordt beschuldigd van een amateuristische aanpak: er zouden 'pseudo-willekeurige' url's worden gegenereerd om te zien of die bestaan.

De slachtoffers hebben contact gezocht met Cuil, en die heeft gereageerd door te stellen dat de indexeringsbot, Twiceler, nog in het experimentele stadium verkeert. James Akler, Cuils operational officer, impliceerde overigens dat de bot zich mogelijk niet aan het robots.txt-bestand houdt om sites, of delen ervan, te negeren en heeft de klagers aangeboden ze handmatig op een lijst van uit te sluiten websites te plaatsen. De man verweerde zich overigens ook door te stellen dat het bedrijf een aantal crawlers heeft waargenomen die zich voordoen als de Cuil-bot.

IT-banen

Reacties (59)

Confuzer 4 september 2008 10:43

Hier de email die ik stuurde en het antwoord:

Rutger wrote:
>
> Hiya,
>
> In may and June, your crawler generated like 90GB a month extra
> traffic. This will costs me a total of 100 euro’s.
>
> Can you please stop the insane crawling, or just block the IP of
> Confuzion.nl? Thanx
>
> Rutger
>
> The Netherlands

Dear Rutger,

Twiceler is the crawler that we are developing for our new search engine. It is important to us that it obey robots.txt, and that it not crawl sites that do not wish to be crawled. I will add confuzion.nl to our list of sites to exclude pending a request from you to be included in the index.

We do recommend that sites have a robots.txt file in place. That is the standard mechanism for controlling robot access and behavior.
You can read about it at
http://www.robotstxt.org/wc/exclusion-admin.html
and there a simple generator of the file here http://www.mcanerin.com/EN/search-engine/robots-txt.asp.

Like all startups, we hope to launch sooner rather later, but exactly when that will be, I don't know. Watch our web site (www.cuill.com) for the announcement.

Recently we have seen a number of crawlers masquerading as Twiceler, so please check that the IP address of the crawler in question is one of ours. You can see our IP addresses at http://cuill.com/twiceler/robot.html

We only ever crawl on port 80, requesting web pages. We do not connect to any other port, nor do we scan ports or mount DOS or any other type of internet attack. We only follow links we have found on the web.

Incorrectly formed URLs are usually the result of links we have picked up from earlier crawls - usually from some other unrelated site that has a stale or mangled link to yours. We have no way of knowing their validity until we try to access them.

I apologize for any inconvenience this has caused you and please feel free to contact me if you have any further questions.

Sincerely,

James Akers
Operations Engineer
Cuill, Inc.

Verwijderd 4 september 2008 10:22

Die bot van hun is niet de enige die de robots.txt negeert en je een hoop zorgen oplevert.

Als je wilt dat de bots die je robots.txt bestandje negeren worden geblokkeerd moet je gewoon een link naar bv. www.site.nl\verboden\blokeer.php zetten op je homepage en in je bots bestandje zet je dat bots daar niet mogen komen.
De bots die robots.txt negeren worden dan geblokeerd.

ebx 3 september 2008 19:54

Ik denk dat je willen profileren als 'google-killer' de grootste en eerste fout is, die je als dev. kan doen ...

Hun technologie blijkt de 2e fout, veel kleine sites mogen max. 5 gig / maand verstoken, als er natuurlijk 2 gig naar 1 zoekrobot gaat, weet ik wat er in de robots.txt zal verschijnen ... en is het niet net hu doel om veel sites te veroveren ? Error logs zullen er ook mooi uitzien als ie willekeurige urls zoekt ...

geen goede start alvast !

[Reactie gewijzigd door ebx op 28 juli 2024 21:07]

Verwijderd @ebx • 3 september 2008 20:56

Het gaat hier om het indexeren van de site, een kleine site is snel geïndexeerd natuurlijk, dus het bandbreedte gebruik staat dan in verhouding.

Net de laatste log gescant op een sociaal netwerk website die 2TB/maand aan verkeer verwerkt, en voorheen kwam Cuil met hun Twiceler-0.9 bot alleen maar eens per week voor en de laatste tijd elke dag.

38.99.44.105
64.1.215.163
64.1.215.164

Zijn altijd de IPs die dan gebruikt worden, maar het is natuurlijk best mogelijk dat het ook op andere manieren scant en zich dan niet keurig aanmeld via:

"Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html"

Op de gemelde pagina staat tevens de volledige lijst met IPs die door Cuil worden gebruikt:

38.99.13.121 -- 38.99.44.101 -- 64.1.215.166 -- 208.36.144.6
38.99.13.122 -- 38.99.44.102 -- 64.1.215.162 -- 208.36.144.7
38.99.13.123 -- 38.99.44.103 -- 64.1.215.163 -- 208.36.144.8
38.99.13.124 -- 38.99.44.104 -- 64.1.215.164 -- 208.36.144.9
38.99.13.125 -- 38.99.44.105 -- 64.1.215.165 -- 208.36.144.10
38.99.13.126 -- 38.99.44.106

Dus het is ook heel gemakkelijk om die te blokkeren op firewall/router niveau als het teveel wordt.

Het valt me trouwens op dat alle scans eerst keurig beginnen met een verzoek naar /robots.txt, en ik heb juist een honeypot folder opgezet om crawlers in de gaten te houden. De map bevat een valse website met wat sleutelwoorden die normaal niet voorkomen, zodat ik tevens kan controleren via een zoek opdracht of de data ook daadwerkelijke geïndexeerd is en opgezocht kan worden. De map wordt echter keurig met rust gelaten door Cuil, dus weet niet precies hoe ik de opmerking van 'James Akler' moet lezen.

TheBorg @ebx • 3 september 2008 22:33

Of 2GB per maand veel is, is maar relatief. Ik heb een site waar Google per dag zo'n 800MB komt ophalen. Dat is al bijna 25GB per maand. Ik begrijp dus de hele ophef niet.

CMG @TheBorg • 4 september 2008 10:38

Als je 25GB te veel vind kun je dat ook mooi instellen bij google, daar kun je aangeven hoe vaak ze langs moeten komen.

sleezball 3 september 2008 20:00

De slachtoffers hebben contact gezocht met Cuil, en die heeft gereageerd door te stellen dat de indexeringsbot, Twiceler, nog in het experimentele stadium verkeert.

Ik zou toch eigenlijk wel mogen aannemen dat zo'n bot eerst eens degelijk getest wordt voor ze zoiets loslaten in het wild. Blijkt nu mooi een paar websites platgelegd te hebben, zijn de Cuil beheerders/ontwikkelaars/eigenaren nu ook aansprakelijk voor geleden schade? In de tijd dat een website offline geweest is door een brakke bot van een ander zijn er ook bijvoorbeeld geen inkomsten qua ads en dergelijke geweest.

Maar is trouwens een beperkte bereikbaarheid ook meteen 'plat leggen'..?

Nijn @sleezball • 3 september 2008 21:27

Natuurlijk zijn zij aansprakelijk. Niemand heeft hen gevraagd om de desbetreffende sites te indexeren. Daarmee zijn zij dus een doodnormale bezoeker, zij het geautomatiseerd.

Met plat leggen kan inderdaad van alles bedoeld worden. Ik denk echter, gezien het dataverkeer en de tijdsduur waar over gesproken wordt, dat het gaat om een overschrijding van het limiet van dataverkeer waardoor hosters een site off-line halen. Ik kan me moeilijk voorstellen dat de bot zo slecht gebouwd zou zijn dat hij zo veel en snel requests genereert dat een server er daadwerkelijk aan ten onder zou kunnen gaan. Dat lijkt bevestigd te worden door een andere beheerder, die zegt dat de bot in 1 maand 2GB aan data heeft verstookt. Hoewel erg veel voor een bot, lang niet genoeg om een server down te halen (mits enigzinds verspreid).

Tarabass 3 september 2008 20:09

Ik zie geen een voorbeeld van een website die plat gegaan is. Dat hij veel dataverkeer trekt is niet normaal, maar vind de titel in deze wel zwaar overtreden.

Verder moet je een nieuw bedrijf met een nieuwe techniek wel de kans geven. Als ze er nu aan werken zie ik niet in dat er grove fouten gemaakt zijn, maar dat de bot teveel zijn best doet pagina's te willen vinden die er misschien weleens niet zouden zijn. En dat de bot veel dataverkeer wil is logisch, als je wilt dat de bot van google zo vaak langs komt haalt 'ie dat ook als je niet oppast. Ook developers moeten met de bot om kunnen gaan natuurlijk..

kmf @Tarabass • 3 september 2008 23:45

Omdat de "grote" sites die het waard zijn om vermeld te worden, sterk genoeg zijn om een flinke DOS van zo'n robot aan te kunnen wel voldoende bandbreedte hebben.
De kleine sites maakt het niks uit en weten er niks van. De hosters daarentegen weer wel.

Zoek maar op twiceler, en je komt veel berichten tegen dat hosters de IPs van deze bot zelfs blacklisten.

Ik heb dat ook gedaan, toen ik merkte dat ik opeens enorme pieken krijgt. Ik dacht dat ik geDDOSsed werd, maar het blijk de twiceler bot te zijn.

YopY @Tarabass • 3 september 2008 21:15

Een kans oké, maar dit gaat ten koste van een aantal websites en de beheerders daarvan, die er maandelijks kosten aan hebben. En extra kosten voor deze zoekmachine. Dat ze een zoekmachine op willen zetten, oké, maar laat het dan niet ten koste (letterlijk) gaan van websitebeheerders.

watercoolertje

Google
Zoekmachines

@Tarabass • 4 september 2008 08:25

Ben het met je eens, voor hetzelfde geld kwam google later langs (terwijl er nog 5mb van het dataverkeer over zou zijn)... En waren hun dan de schuldigen? Of de bezoeker die net de laatst beschikbare KB opvraagt....

Ik kan me ook wel voorstellen dat grote sites(zoals tweakers) veel meer data kwijt zijn aan indexatie als piets homepage die 5 pagina's heeft.

Dus ja 2Gb is wel veel opzich maar hangt volledig van de site af (vooral de grootte).

Ik vind het dus een onzinbericht, het wordt gewoon veel erger gemaakt dan het is..

Verwijderd @watercoolertje • 4 september 2008 09:29

Google heeft er ook een handje van hoor. Ik ben moderator op een heel groot forum, en wij hebben Google van de site moeten weren (ook googlebot luistert niet goed naar robots.txt!) totdat we een nieuwe server hadden die het geweld wel aan kon. In een normale maand is googlebot goed voor 130 tot 150 GB....

vgroenewold 3 september 2008 21:40

Tsja, een catchy naam blijft toch ook wel belangrijk. Ik was het al weer vergeten eerlijk gezegd.

ieperlingetje 3 september 2008 20:08

Wat is eigenlijk het nut van willekeurige url's op te vragen? om de statuscode te verkrijgen ofzo?

Verwijderd @ieperlingetje • 3 september 2008 20:16

"Verborgen" pagina's vinden (die dus nergens gelinkt staan) en hopen dat google deze pagina's niet heeft. Dit levert ze (dat hopen ze) een grotere index op.

curry684 @Verwijderd • 3 september 2008 20:25

En wat is exact het nut voor het grote publiek dat deze bot pagina's kan vinden die de beheerders blijkbaar niet eens belangrijk genoeg vinden om binnen hun site te linken?

Joshua @curry684 • 3 september 2008 20:31

Lijkt me vrij duidelijk:
Om gewoon de concurrent te pesten met het feit dat hun meer pagina's geïndexeerd hebben en om zo ook eventueel toch belangrijke pagina's te vinden die anders verborgen zouden blijven.

ieperlingetje @Joshua • 3 september 2008 20:34

Tja , als je de resultaten van de zoekmachine bekijkt , dan zie ik daar weinig relevante info op, meestal allemaal porno/spam. Je bent niks met de grootste index als daar niks relevants in te vinden is.

[Reactie gewijzigd door ieperlingetje op 28 juli 2024 21:07]

Not Pingu @curry684 • 4 september 2008 09:19

Wat het nut ervan is kun je je afvragen, feit is wel dat ook Google links vindt die niet via normaal surfen gevonden zouden kunnen worden. Denk vooral aan PDF- en Worddocumenten.

Op mijn site had ik een PDF-document geupload die nergens gelinkt werd maar alleen via e-mail werd doorgegeven, en toch heeft Google 'm weten te vinden.

CMG @Not Pingu • 4 september 2008 10:36

Mailtje verstuurd via gmail?
Kan natuurlijk ook zo zijn dat iemand anders een linkje op een page heeft gezet naar jouw pdf file...

[Reactie gewijzigd door CMG op 28 juli 2024 21:07]

ieperlingetje @Verwijderd • 3 september 2008 20:26

ok, maar dat is toch allemaal onnozel. Stel dat die zoekrobot al zo 'slim' genoeg is om te kunnen detecteren hoe de structuur van de site is (bijv pagina.php?id=een_nummer) , dan kan hij tot het oneindige blijven optellen (pagina.php?id=9999999999999 bij wijze van spreken)

ajmwegman @ieperlingetje • 4 september 2008 09:29

Hopelijk is die dan wel zo intelligent dat hij na 2000 foute requests ophoud?!

tikimotel

3 september 2008 20:06

Wie een Cuil graaft voor een ander?
Moet eerst nog even door graven wellicht? (programmeren)

Blokker_1999

Websites en community's
Google

3 september 2008 20:41

de bot zich mogelijk niet aan het robots.txt-bestand houdt om sites, of delen ervan, te negeren en heeft de klagers aangeboden ze handmatig op een lijst van uit te sluiten websites te plaatsen.

Dit is toch ongehoord. Er word net op vertrouwd dat op zen minst de goede bots zich hieraan houden, waarom dan een exemplaar bouwen dat deze kan negeren? Dan kunnen ze al beter een opt-in gaan aanbieden.

xp2002 3 september 2008 20:52

Ik heb eens even gekeken naar die zoekmachine, maar ik moet zeggen: petje af hoor. Qua interface is het een vooruitgang. Er worden netjes categorieën getoond.

airliner @xp2002 • 3 september 2008 21:19

alleen de zoekresultaten zijn matig tot zelfs slecht...

Fireshade @airliner • 4 september 2008 09:41

alleen de zoekresultaten zijn matig tot zelfs slecht...

Zoals met elke nieuwe zoekmachine, is dat slechts een kwestie van crawltijd.

Verwijderd @Fireshade • 4 september 2008 10:59

helaas.. alleen een heleboel / nog meer pagina's indexeren helpt je niks. Het gaat juist om de relevantie te vinden, sterker nog, om te gokken welke relevantie de bezoeker bedoeld, aangezien genoeg woordjes in meerdere contexten voor komen. Meer pagina's leiden juist tot meer 'vervuiling'. Het zal allicht beter worden, als ze verder aan hun techniek werken. Tot die tijd, hoop ik dat ze zich niet blind staren op 'aantal pagina's' -- aangezien ook hier de 90/90 regel opgaat - zeg maar - 90% van de bezoekers haalt 90% van zijn informatie uit 10% van de websites.

Op dit item kan niet meer gereageerd worden.

Lees meer

IT-banen

Reacties (59)

Sorteer op:

Weergave: