'Bots nemen 61 procent verkeer websites voor hun rekening'

Van al het verkeer op websites, bestaat het overgrote deel uit bots. Dat blijkt uit statistieken die het beveiligingsbedrijf Incapsula onder zijn klanten heeft verzameld. Van de bots heeft slechts de helft goede bedoelingen, stelt Incapsula.

Dit jaar bestond slechts 38,5 procent van het verkeer op websites uit bezoeken van mensen, stelt Incapsula. Vorig jaar was dat nog 49 procent: het verkeer van bots is dus toegenomen van 51 naar 61,5 procent. Het bedrijf, dat als cdn en 'beschermlaag' voor een website fungeert en vergelijkbaar is met het bekendere Cloudflare, verzamelde de gegevens onder zijn klanten, waardoor de gegevens dus niet representatief hoeven te zijn voor alle websites.

Volgens Incapsula bestond 31 procent van het verkeer uit bots met goede bedoelingen. Dan gaat het bijvoorbeeld om bots van zoekmachines, zoals Google. Het verkeer van 'goede' bots nam in het afgelopen jaar bovendien met 55 procent toe. Bij 5 procent gaat het om scrapers. Die kunnen bijvoorbeeld content stelen of e-mailadressen harvesten, waarschuwt Incapsula. Er zijn echter ook scrapers die weinig kwaad in de zin hebben: of die zijn meegerekend met de goede bots of met de scrapers, is onbekend.

Van het verkeer bestaat 4,5 procent uit hackingtools, stelt Incapsula, die bijvoorbeeld sql-injecties proberen te plegen of data proberen buit te maken. In 0,5 procent van de gevallen zou het om spammers gaan, die bijvoorbeeld malafide links in reactievelden dumpen. Twintig procent bestaat volgens Incapsula uit andere 'impersonators', die bijvoorbeeld geavanceerdere ddos-attacks uitvoeren of de bandbreedte van een site opsouperen.

Bots stats

Door Joost Schellevis

Redacteur

13-12-2013 • 10:12

51

Reacties (51)

51
51
35
4
0
10
Wijzig sortering
Ik kan het me niet voortstellen. Als je al die onderzoeken naar dataverkeer optelt, kom je eerder op 200% uit, dan op 100%.

Bots nemen 61,5% voor hun rekening.
In een ander artikel ( nieuws: Onderzoekers: YouTube genereert meer dataverkeer in Europa dan http staan de volgende getallen)
Youtube 28% , http 13,6%, p2p 18% (facebook staat met 4,6% apart genoemd, maar dat laat ik maar onder http verkeer vallen)
Dan kom ik al uit op 121,1 %. Als ik wat verder in de nieuwsdatabase zou zoeken, dan haal ik die 200% wel ;-) In hetzelfde artikel wordt bijvoorbeeld al gezegd dat Netflix en Youtube samen meer dan 50% van het verkeer voor hun rekening nemen, wat zou betekenen dat je bij die 121,1 % ook nog eens minimaal 22% voor Netflix moet optellen.

Wie/wat moet je nou geloven?

[Reactie gewijzigd door Mr_Big op 28 juli 2024 21:17]

Dat zijn toch gewoon 2 verschillende statistieken?

Als je ze samen bekijkt zou je kunnen stellen dat van de 28% Youtube bezoekers 61% bots zijn. Dus zo'n 16% van het internet verkeer zijn bots die naar Youtube gaan, en 12% van het totale verkeer zijn mensen die naar youtube gaan.

Net zoals er niet 200% mensen zijn omdat er 50% mannen, 50% vrouwen, 20% Chinezen en 80% niet-Chinezen zijn.

Nog 2 nota's bij deze opmerking:
- Ik heb de percentages niet berekend, maar geschat ter illustratie
- Youtube is waarschijnlijk een enorm slecht voorbeeld omdat die bots minder vlug een video volledig zullen bekijken. Het gaat hem om het principe.
Komt nog eens bij dat de een het over bezoekers van websites heeft en de ander over dataverkeer in zijn algemeen (dat Tweakers.net het bagger vertaald is een heel ander verhaal), die twee statistieken staan geheel los van elkaar. Net zoals je over het aantal auto's niet kan beoordelen hoeveel mensen er in iedere auto zitten omdat je die gegevens mist. Komt bij dat een hoop bots geen images/filmpjes downloaden, terwijl de mensen dat juist wel doen...
De 100% van dit artikel is een verdere uitsplitsing van de 13,6% (HTTP) van dat andere artikel. Het gaat hier alleen over bezoeken aan websites, terwijl die andere over al het verkeer gaat. Om maar iets te noemen, de streams van Netflix tellen voor dit artikel niet mee (bezoeken aan de website van Netflix wel).
Het is heel simpel het statement over de bots geldt enkel voor hun eigen netwerk, die mensen zitten niet voor niks met tussenlaag ;) Het zegt dus niet zo veel over het hele internet imho...
Van al het verkeer op websites, bestaat het overgrote deel uit bots. Dat blijkt uit statistieken die het beveiligingsbedrijf Incapsula onder zijn klanten heeft verzameld.
Ik zit in de bitcoinwereld en bijna alle exchanges gebruiken dit soort tussenlagen (voornamelijk Cloudflare) om hackattemps beter op te vangen en een directe link naar de server onmogelijk te maken, maar een site waar niks te halen valt zal niet zo snel dure maatregelen nemen om niet gehackt te worden en dus niet (zo snel) bij z'n bedrijf hosten...

[Reactie gewijzigd door watercoolertje op 28 juli 2024 21:17]

Verkeer wordt gegenereerd door mensen of niet-mensen, de verhoudingen die jij noemt gaan over het soort verkeer, niet diegene of datgene wat het genereerd. Je telt dan dus dubbel 8)7
Ik ben bang dat ik het met deze stelling eens moet zijn.
Nouja, heeft mij opmerking in ieder geval duidelijker gemaakt hoe je deze cijfers moet plaatsen. ;-)
Uit het bronartikel:
For the purpose of this report we observed 1.45 Billion bot visits, which occurred over a 90 day period. The data was collected from a group of 20,000 sites on Incapsula’s network, which consists of clients from all available plans (Free to Enterprise). Geographically, the traffic covers all of the world’s 249 countries, per country codes provided by an ISO 3166-1 standard.
Ik neem aan dat Youtube en Netflix niet bij die 20,000 sites zitten. Het gaat hier denk ik ook meer over calls naar een site dan de data die een site dan weer teruggeeft. Dus 61% van alle hits op
websites zijn van bots. Dit in tegenstelling tot 61% van alle data die over de lijnen gaat is van bots.
Wat een enorm percentage! Wat ik me nu afvraag: Rekenen Google Analytics-gebruikers door al die bots dan consistent met te hoge bezoekersaantallen? Of zou GA deze bezoeken er succesvol uit filteren en zien we als website-eigenaren alleen de echte bezoekers?

Edit: Bedankt voor de reacties, dat valt weer weer mee :)

[Reactie gewijzigd door geert1 op 28 juli 2024 21:17]

Die doen al mee voor de 31% als het goed is. Ook een heel fors percentage.

Ik ben het meeste benieuw wat de other impersonators inhouden.
Zie http://www.incapsula.com/...0-bot-traffic-report-2013

Blijkbaar zijn het:
- Layer 7 DDoS attacks (gewoon heel vaak een website opvragen op browserniveau, totdat de server(s) het niet meer aan kan/kunnen),
- marketing intelligence gathering (ik vermoed dingen als continu prijzen van andere webwinkels checken op wijzigingen),
- bandwidth consumption and parasitic drag (DoS attacks, maar dan met minder bandbredete, zodat de site niet down gaat, maar minder soepel werkt)
4.5% hacking tools is wel veel.. och och NSA.
Anoniem: 126717 @Keiichi13 december 2013 10:20
Ik ben het meeste benieuw wat de other impersonators inhouden.
Zie dit plaatje in de bron: http://www.incapsula.com/images/bot-traffic-report-2013.jpg
Waarschijnlijk proberen kwaadwillende bots zich niet te identificeren als bots. Dit omdat bots zich houden aan robots.txt

@batjes dan heb ik mij inderdaad vergist en het gedrag van bots verkeerd geïnterpreteerd, bedankt voor de toevoeging.

[Reactie gewijzigd door thomasmoors op 28 juli 2024 21:17]

Oh ja? ik heb het al zeker een jaar niet meer bijgehouden verder. Maar Bing, Google en toen nog Yahoo en andere negeerden mijn robots.txt gewoon. Ze indexeerden het niet in de zoekmachine, maar dmv loggen zag ik ze wel overal een kijkje (proberen te) nemen.
In zoverre worden mijn robots.txt genegeerd dat mijn pagina's wel worden opgenomen maar zonder beschrijving.

Bing: "Wij willen hier een beschrijving geven, maar de site die u nu bekijkt staat dit niet toe."
Google: "Er is geen beschrijving beschikbaar voor dit resultaat vanwege robots.txt – meer informatie."
Scrapers doen zich voor als Google bots.
Voor zover ik weet laden de meeste bots geen javascript in (enkel plain html). Google Analytics werkt enkel via javascript, dus al die bots worden niet meegerekend.
Google Analytics kun je ook serverside uitvoeren bijv. door php-ga of daar een python port van. Dan kun je zelfs het hele javascript gedeelte verwijderen van de pagina (de bezoeker heeft in dat geval dus niet door dat zijn gegevens worden gedeeld met Google).
javascript is juist het allerbelangrijkst voor de kwaadwillende bots! Via javascript kom je elke machine binnen!
Niet door gewoon een Javascript file in te lezen maar door een Javascript file te serveren aan een bezoeker...
Nee, de meeste bots voeren geen JavaScript uit en worden daardoor niet gemeten in Google Analytics.
De beste capcha is dan ook met JS zonder de gebruiker te storen :)
De beste captcha is een onzichtbaar textfield die je leeg laat. Als er toch iets instaat bij post? Spam! Die bots vullen namelijk 99 vd 100 keer alle velden in.
Klopt meestal doe ik dat dus met jquery :) Maar CSS pakken ze vaak ook niet!
Lang niet alle bots laden de volledige pagina in, inclusief de Google Analytics. Als de bots alleen de HTML inladen en dan een formpje gaan herkennen en volspammen, laden ze de GA niet in.
GA rekent, voor zover ik weet, alleen clients die cookies accepteren. Dat doen de meeste bots niet.

Maar verder is dit wel heel erg een 'wij van WC-eend' onderzoek. Lijkt me heel sterk afhankelijk van de site wat die percentages zijn. Kan me de cijfers die genoemd worden eigenlijk niet voorstellen, zeker niet op basis van de sites die ik ken. Die 60% haal je alleen als je een site hebt die veel wordt vernieuwd en nauwelijks wordt bezocht door 'normale' bezoekers.
Als bots zich netjes aanmelden als zijnde bot zullen deze niet meegeteld worden, alleen doen ze dit niet allemaal. Laat staan luisteren naar robots.txt
GA gebruikt een Javascript, dit is cliëntside code. Deze wordt bij zo ongeveer alle bots niet uitgevoerd. Conventionele analytics (server-side) die niet naar de user-agent kijken rekenen de crawlers en bots wel mee.
Kijkende naar het verschil in traffic dat ik zie tussen AWStats en GA, komen deze stats vrij goed uit. GA toont inderdaad nog geen 40% van de pageviews die AWStats rapporteert op basis van logs. Dit legt heel veel uit om eerlijk te zijn. Ik wist al langer dat er en hoop bot traffic was, maar het verschil tussen de cijfers die ik zag leek me echt veel te groot om puur door bots verklaard te kunnen worden. Blijkbaar komt het dus toch door bots.
Dit impliceerd dat Google de concurrentie verdrinkt in het door haar genereerde verkeer.

In theorie: als je zelf de informatie her-indexeerd en daarmee tegelijkertijd het internet voor iedereen langazmer maakt en dan de toegang to deze informatie sneller presenteert (aan de hand van het Spdy protocol), dan het reguliere internet, lijkt het net alsof je beter bent dan de rest.
Er zijn meer zoekmachines dan google, de grootte van een "naam" heeft niet direct een relatie met de mate van dataverkeer.
Maw: op basis van deze data is jou stelling/suggestie dat google het internet langzamer maakt door opzettelijk meer dan noodzakelijk dataverkeer te veroorzaken en zo via spdy goede sier te maken toch behoorlijk vergezocht.
Het gaat denk ik niet niet alleen om search engine robots, maar om de gehele web 2.0 structuur.

Google heeft dus langzaam aan een gecentraliseerd framework opgezet, waarvan bijna alle websites afhankelijk zijn en iedereen daarin weten te vangen.

Toch met alles bij elkaar lijkt mij dat er hiermee toch nog steeds niet voldoende verkeer gegenereerd kan worden om deze cijfers te verklaren.
Vooral die scrapers geloof ik wel. Hoe vaak kom je wel niet als je iets zoekt iets op bigresource.com bijvoorbeeld tegen in plaats van de originele website... Heel irritant.
BigResource, eFreedom, questionhub, allemaal van dat soort tuig.
Zelf heb ik een add-on geinstalleerd die deze resultaten filtert uit mijn Google Resultaten. Maar wat mij betreft zouden ze dit soort websites verboden moeten maken.
Google en Bing zouden ze uit de index moeten verwijderen. Dit is gewoon internetvervuiling en contentduplicatie.
Anoniem: 539986 13 december 2013 10:22
4.5% aan hacking tools.
Dat is echt bizar veel! :o

Als ze dit zo goed kunnen analyzeren, waarom kunnen ze het dan niet blokeren of stoppen?
hacking tools, waarschijnlijk die scriptjes die op onze routers/modems proberen in te loggen met admin-admin
Precies, ip nummers waar die hacking attempts vandaan komen 1 voor 1 blokkeren, dan dicht het net zich wel.
Weten we meteen dat het steeds lucratiever wordt voor Internet reclame bedrijven door geld te verdienen door 'neppe' gebruikers te simuleren. We (bedrijven) worden massaal opgelicht met zgn hits blijkbaar?
Een beetje site analyseert dat en haalt ze uit de stats. Overigens zie ik op Tweakers ongeveer 20%-25% botverkeer maar die komen niet op http://tweakers.net/stats/
Dit wordt met name veroorzaakt door zoekmachines die steeds vaker en intensiever pagina's bezoeken. Niet echt veel nieuws onder de zon.
Anoniem: 259336 13 december 2013 11:09
Bender stop using the Internet so much! xD
Vaak wordt de Java ook geladen met een clickbot omdat de content simpelweg ook in java is.
Als je hier voorbij bent dan spreek je al niet meer over een clickbot.
Er is nauwelijks meer content in Java te vinden op het internet.
bots die doorklikken op ads zodat er clicks ontstaan :D geniaal.

Ik zie een verdien model :p

[Reactie gewijzigd door Dr.Root op 28 juli 2024 21:17]

Dat is een zogemaand 'clickbot' en je doet er click fraude mee http://en.wikipedia.org/wiki/Click_fraud Niet echt nieuw ;)

Op dit item kan niet meer gereageerd worden.