Reddit werkt robots.txt-bestand bij om webcrawlers van AI-diensten te blokkeren

Reddit gaat zijn robots.txt-bestand aanpassen om automatische webcrawlers te blokkeren. Dat bevestigt het bedrijf. Het socialemediaplatform doet dit na berichten dat AI-start-ups de voorwaarden van Reddit negeerden om content voor hun AI-systemen te scrapen.

Reddit bevestigt de aanpassingen aan zijn robots.txt-bestand, dat aangeeft welke delen van een website bezocht mogen worden door webcrawlers, in een blogpost. Het bedrijf gaat die naar eigen zeggen 'in de komende weken' toepassen, maar noemt geen concrete datum voor de wijziging. Naast het bijwerken van zijn robots.txt-bestand, zegt Reddit dat het 'onbekende' bots en crawlers actief blijft blokkeren en rate-limits toepast, waarbij het netwerkverkeer van bots op het platform wordt beperkt.

Reddit sloot eerder een licentiedeal met Google voor het trainen van AI-modellen op basis van Reddit-content. De robots.txt-wijzigingen hebben geen invloed op die overeenkomst. Het bedrijf benadrukt daarnaast dat partijen die 'te goeder trouw handelen', bijvoorbeeld organisaties als Internet Archive en onderzoekers, toegang tot Reddit behouden voor niet-commercieel gebruik.

Reddits voorwaarden verbieden al enkele weken dat AI-bedrijven zonder toestemming de content van het platform verzamelen. De aanpassing van het robots.txt-bestand moet dat dan ook voorkomen. Bedrijven kunnen dat bestand echter ook negeren. Nieuwsmedium Wired beschuldigde AI-zoekmachine Perplexity daar onlangs bijvoorbeeld van. De dienst kon artikelen van Wired samenvatten, hoewel die afgeschermd moesten zijn onder het robots.txt-bestand van dat medium. Business Insider claimde onlangs dat ook OpenAI en Anthropic de robots.txt-bestanden van websites negeren.

Door Daan van Monsjou

Nieuwsredacteur

26-06-2024 • 11:51

72

Lees meer

Reddit is voor het eerst winstgevend
Reddit is voor het eerst winstgevend Nieuws van 30 oktober 2024

Reacties (72)

Sorteer op:

Weergave:

In hoeverre mag perplexity eigenlijk gaan? Dat ze de data op websites niet mogen gebruiken voor trainingsdoeleinden begrijp ik wel, maar als ik als eindgebruiker aan een AI vraag om een samenvatting te geven of bij een aantal websites te kijken waar ik de goedkoopste variant van een product kan kopen, mag dat dan gewoon? Wat is bij dat laatste het verschil als ik een collega of een vriend zou vragen om dat voor mij te doen?
In hoeverre mag perplexity eigenlijk gaan? Dat ze de data op websites niet mogen gebruiken voor trainingsdoeleinden begrijp ik wel, maar als ik als eindgebruiker aan een AI vraag om een samenvatting te geven of bij een aantal websites te kijken waar ik de goedkoopste variant van een product kan kopen, mag dat dan gewoon? Wat is bij dat laatste het verschil als ik een collega of een vriend zou vragen om dat voor mij te doen?
Dat weet niemand. Er zijn geen wetten die daar echt op aansluiten.

Persoonlijk ben ik van mening dat de focus op "kunstmatige" intelligentie verkeerd is. Dat is als je druk maken over vraag of een vliegtuig wel echt vliegt als het niet met de vleugels klappert zoals een vogel, of een boot vaart of zwemt. We weten niet eens precies wat menselijke intelligentie is, dus hoe moeten we dan het verschil met kunstmatige intelligentie maken?

Ik vind het inderdaad geen verschil vragen of ik aan een AI vraag om een pagina van internet te halen, of dat aan mijn collega vraag. Je kan het ook nog omdraaien, als de AI aan mij vraagt om even een pagina te downloaden omdat de AI het zelf niet mag, is dat dan anders?

Om een goed antwoord te vinden moeten we balanceren tussen filosofische aspecten als de vraag at AI nu precies is, en praktische aspecten als geld verdienen.
vind het inderdaad geen verschil vragen of ik aan een AI vraag om een pagina van internet te halen, of dat aan mijn collega vraag. Je kan het ook nog omdraaien, als de AI aan mij vraagt om even een pagina te downloaden omdat de AI het zelf niet mag, is dat dan anders?
Ik denk dat @LOTG een valide punt heeft. Als jij of je collega naar een website gaat kun je middels advertenties overgehaald worden om iets anders te kopen. Je betaalt dus met je aandacht. Zolang AI niet de middelen heeft om zelf geld uit te geven (bijvoorbeeld naar aanleiding van advertenties) of anderen te overtuigen tot aankopen (zoals minderjarigen dat kunnen) heb je vanuit inkomstenperspectief (en laten we wel zijn, daarom bestaan internetdiensten zoals websites en fora) een wezenlijk verschil tussen AI en mens.
Ik denk dat @LOTG een valide punt heeft. Als jij of je collega naar een website gaat kun je middels advertenties overgehaald worden om iets anders te kopen. Je betaalt dus met je aandacht.
Het is een beetje een zijstraat, maar ik vind het een interessante gedachte dat je als zakelijk gebruiker naar advertenties moet kijken die gericht zijn op het beinvloeden van personen. Mag ik mijn collega een opdracht geven die er op neer komt dat die collega een uur lang naar reclame voor gokken, drank of pikante dames moet kijken? Zeker als ik zelf geloof dat advertenties werken en ik mijn collega dus misschien richting een verslaving duw?

Als ik op een bedrijfsfeestje zou verplichten dat iedereen alcohol moet drinken dan zouden de poppen aan het dansen zijn. Als ik als baas iedere middag over de intercom vertel dat je dit weekend op sport moet gokken zou het ook niet geaccepteerd worden.

Van de andere kant, al vakkenvuller in de supermarkt hoor en zie je ook de hele dag reclame en nog wel voor de producten van je eigen werkgever. Ergens is dat ook niet zuiver (al heb ik ook geen idee hoe dat anders zou kunnen).
Zolang AI niet de middelen heeft om zelf geld uit te geven (bijvoorbeeld naar aanleiding van advertenties) of anderen te overtuigen tot aankopen (zoals minderjarigen dat kunnen) heb je vanuit inkomstenperspectief (en laten we wel zijn, daarom bestaan internetdiensten zoals websites en fora) een wezenlijk verschil tussen AI en mens.
Goed punt, ik bekeek het meer vanuit de techniek. Onhandig aan robots.txt is dat het al verschillende toepassingen heeft gehad waardoor je er op verschillende manieren naar kan kijken. Vanuit het oogpunt van overbelasting van servers, via copyright-bescherming naar een middel om het kijken van advertenties af te dwingen. Een hele reis.
Het is een beetje een zijstraat, maar ik vind het een interessante gedachte dat je als zakelijk gebruiker naar advertenties moet kijken die gericht zijn op het beinvloeden van personen.
Dat is zeker een zijstraat, maar wel een interessante vraag. Ik denk ook dat iedereen onbewust beïnvloed wordt, ook door reclames (en zij die dit ontkennen waarschijnlijk meer dan anderen omdat ze zich er niet bewust van zijn). Het zou weer een interessant fenomeen worden als de EU gaat afdwingen dat iedereen recht heeft op een reclamevrije werkplek.
@allemaal

Het is erger dan dit.
Ik ben ervan overtuigd dat we volledig de verkeerde weg in zijn gegaan.

Jongeren en ouderen zitten vastgekleefd aan sociale media. Wat is de reactie? "Misschien een beetje minder" of "misschien moeten we daar een app voor bouwen".
Jongeren worden beschadigd door de nieuwste trend: "sorry zeggen". Dat wordt gefilmd en verspreid.
Er is een duidelijke ontwikkeling dat men niet meer normaal contact heeft maar alleen maar urenlang "in" (jazeker IN) die stomme smartphone zit.
Waar grootmachten waar je niet omheen kunt, de dienst uitmaken.
En opnieuw is de reactie "tjonge kunnen we misschien iets verbeteren hier, het anders aanpakken daar".

Iedereen, jong en oud, heeft nu of binnenkort te maken met AI. Dan zit men niet alleen maar "in" zijn telefoon, maar dan geeft die telefoon zelfs de antwoorden. In plaats van de normale mens, de échte deskundige, de echte pers, je vriendje of vriendinnetje.

Wat ik wil zeggen: (1) we moeten stoppen met dat marginale denken van "een beetje meer, een beetje minder". In plaats daarvan moeten we (2) denken in harde principes.

Het eerste (1) noem ik "relatief denken". Het bekende schipperen, de dubbele agenda, de acceptatie van alles dat fout is omdat dit het meeste geld oplevert.
Het tweede noem ik "absoluut denken". Dat moet veel meer gebeuren.

Voorbeeld: facebook/meta/whatsapp is bewezen zeer schadelijk, het bedrijf doet dit welbewust al 20+ jaar, dus er MOET een eind aan komen. Geen geschipper.

Weg met het gerommel en de goedpraterij en de leugentjes. De wereld is bezig stuk te gaan. Je ziet het aan de jongeren, vastgekleefd in hun telefoon en binnenkort luisteren ze zelfs naar diezelfde telefoon, in plaats van naar hun omgeving. En dan zijn ze de werkelijkheid nog verder kwijt.

Nog iets: we waren er in de afgelopen jaren van overtuigd dat "wij" de baas zijn over computers en wat die doen. Echter dat is sinds 2-3 jaar afgelopen. Die grootmachten stoppen ons er namelijk doelbewust in, stapje voor stapje, met allerlei slinkse trucs zoals een verplicht account bij Microsoft (W11). Zo kun je er nog 10-20 noemen. Daar kun je niet tegenop, je HEBT dus niets te kiezen. Dat denkbeeld (wij zijn de baas) is intussen voorbij. En zeg niet "het verplicht aanmaken van een account kun je omzeilen" want dat is een pure truc en 99% van de mensen weet daar niets van. Wat de grootmachten doen, is een fuik. Ik weet er iets van, als je die 10-20 trucs wilt belemmeren of omzeilen: het lukt je alleen met uren aandacht en veel verstand.

Oja. NB ik verbiedt elke communicatie van AI met deze tekst en met mijn gedachten / analyses. Ik laat me niet uitzuigen door AI die deze data misbruikt om derden nog verder in te palmen en weg te zuigen van de werkelijkheid. Ik sta niet toe dat AI via statistieken mijn ideeën versmelt met de domme massa en dan als "advies" of zelfs "gesprek" weergeeft. Die AI die om krachtige commerciële redenen zo hard mogelijk loopt, zonder goede controle, die niet weggestemd kan worden, overal maar op gezet wordt door die grootmachten (het zit al in Edge en Office) zonder dat de burger erop kan stemmen, of aanklagen, voor de rechter slepen, of zelfs maar contact mee kan hebben. Dat wordt allemaal effectief afgeremd of geblokkeerd. Zelfs de wet wordt overtreden (Facebook/Meta, al 10-15-20 jaar en doelbewust).
Ik heb je comment even door ChatGPT gehaald om de kernpunten/synopsis eruit te halen:

Synopsis
Het bericht uit zich in een kritische toon over de toenemende afhankelijkheid van technologie, vooral sociale media en AI, en de invloed daarvan op de maatschappij. De schrijver benadrukt dat zowel jongeren als ouderen verslaafd zijn aan hun smartphones, wat leidt tot een verlies van normaal menselijk contact. De schrijver is van mening dat de reactie op deze problemen vaak oppervlakkig is en pleit voor een radicale verandering in denken en handelen.

Emotionele Lading en Tonaliteit
-Verontwaardiging en Urgentie:
De toon is verontwaardigd en er is een gevoel van urgentie. De schrijver gelooft dat er dringend actie moet worden ondernomen om de huidige situatie te veranderen.
-Wantrouwen en Verzet:
Er is een duidelijk wantrouwen jegens grote technologiebedrijven en hun motieven.
-Pessimisme en Fatalisme:
Er is een pessimistische kijk op de toekomst, met een gevoel dat de situatie al ver voorbij een kritisch punt is en dat drastische maatregelen nodig zijn om verdere schade te voorkomen.
Dat scheelt weer een boel extra leeswerk, bedankt!
Is de focus op AI omwille van de AI of is er iets anders?

Mij lijkt de hele discussie eerder te gaan over verdienmodel. Iemand genereert content met een bepaald verdienmodel (en maakt daar kosten voor). AI lijkt vandaag alles te scrapen, daarmee inkomsten te genereren voor zichzelf, ten koste van de originele contentmaker (die verliest inkomsten, en ziet zijn eigen kosten mogelijks zelfs stijgen als het scrapen de pan uit swingt).

Als je je collega vraagt om een pagina voor je samen te vatten, heeft hij wél het verdienmodel “gevoed” van de content maker (reclame gezien - eventjes adblockers daar gelaten, betaalt voor abbo, etc.). Als je het zelf doet, idem. Als de AI het doet: noppes.
Het wachten is op ads die zo soepel in de content passen dat de AI bij het samenvatten niet meer doorheeft waar de reclame zit....

"Prins Charles is in 2023 gekroond tot koning van Engeland. Tijdens de kroning dronk hij een blikje coca-cola"...
Dat weet je helemaal niet.
Als die AI een leuke advertentie tegenkomt voor een supersnelle SSD, dan kan het zo maar zijn dat hij die gewoon aanschaft...
Ik denk dat het stompzinnig is om te zeggen dat informatie niet gevat mag worden in een AI model, want informatie is vrij. Echter heeft dit meer weg van het kopiëren naar een database van de volledige tekst, beelden etc, die wel degelijk door copyright zijn beschermd, dan dat het ‘leren van informatie’ is. Wetenschappers en journalisten hebben uitgebreid aangetoond dat zowel bronmateriaal als persoonlijke gegevens letterlijk terug te krijgen zijn door middel van de juiste prompts.

De ambiguïteit en problematiek zijn gecreëerd door het willens en wetens inzetten van disfunctionele technologie. Een paar iteraties technologische ontwikkeling verder en het probleem is verdwenen, is mijn voorspelling.
Van wat ik begrepen heb, is dit inderdaad de grootste reden waarom robots.txt vaak genegeerd wordt. Dan zie je als beheerder toch die bots langs komen ondanks je je robots.txt heb gezet, en die bots bekend zouden staan dat ze het honoreren. Dat klopt dan, omdat ze inderdaad de site niet scrapen voor trainingsdoeleinden, maar doen andere taken dan wel. Dus wordt de website gescraped voor een specifiek prompt maar belandt dat dan niet de leerset.

Hoe dan ook vind ik het hele robots.txt een waardeloos systeem, het is opt-out, als je niet gescraped wil worden moet je op de hoogte zijn van elke bestaande bot en daar regels voor toevoegen dat ze iets niet mogen. Sommige bots (zoals yandex) heeft er stuk 10 verschillende. En dan moet je er maar vanuitgaan dat die bots dat honoreren en dan (zoals in mijn vorige paragraaf) heb je dan dus alsnog traffic.

Als je dan toch al opt-out bezig ben, kan je vaak beter de user agents blocken. Weet wel dat ik een hekel heb aan die Claudebot die doodleuk honderden pagina's per minuut probeert te scrapen op low-end hardware die dat niet trekt. Allemaal blocken die meuk.
het is opt-out, als je niet gescraped wil worden moet je op de hoogte zijn van elke bestaande bot en daar regels voor toevoegen dat ze iets niet mogen.
User-agent: *
Disallow: /


Blokkeert alle bots in robots.txt.
Blokkeren is een verkeerd woord in deze context. Robots.txt kan namelijk gewoon genegeerd worden door scrapers/indexers/bots. Het geeft hooguit aan dat je een useragent uit wil sluiten, maar deze agent moet toch echt zelf bepalen of hij daar wat mee doet of niet. De meeste (legitieme) scrapers houden zich hier netjes aan, maar genoeg die er niks mee doen.

[Reactie gewijzigd door bakakaizoku op 22 juli 2024 15:20]

Zoals de AI scrapers in grote getalle zo is inmiddels gebleken.
Verbod was beter geweest dan blokkade inderdaad. Punt was meer dat je geen losse regel nodig hebt voor elke bot. Het is een beetje hetzelfde als een lintje in een pretpark, je geeft huisregels aan en dat lintje 'blokkeert' je toegang of verbied je erin te gaan. Maar in werkelijkheid kun je ook gewoon onder dat lintje door.
Als je dan toch al opt-out bezig ben, kan je vaak beter de user agents blocken. Weet wel dat ik een hekel heb aan die Claudebot die doodleuk honderden pagina's per minuut probeert te scrapen op low-end hardware die dat niet trekt. Allemaal blocken die meuk.
User Agents blokkeren heeft alleen zin als je te klein bent voor zo'n bot om zich druk om jou te maken. Als je bij een partij als Reddit geblokkeerd wordt, zet je de User Agent voor die site gewoon op een standaard Chrome string en kom je overal weer bij. Of wellicht zijn er onvriendelijke bots die dit voor alle sites doen, en wat ga je dan blokkeren? De UA string is afhankelijk van de goodwill van de partij die de request doet.
Robots.txt is evengoed afhankelijk van de goodwill, en desondanks dat bots claimen robots.txt te honoreren, scrapen ze toch. Een UA-block werkt dan absoluut 100x beter.

Mijn punt is dus, UA's blocken werkt beter dan robots.txt.
Geen van beide houden malafide/anonieme bots tegen.
Ik denk dat er een wezenlijk verschil is hoe je de website gebruikt en hoeveel delen van de website.

Daarnaast werken deze site doorgaans met reclame inkomsten en jou vriend/collega zal deze zien.

Ik zou de vraag stellen of je zelf met de hand tooling zou mogen gebruiken waarmee je deze informatie op haalt zonder de site te gebruiken op de manier waarop een mens dat zou doen.

Staat in de voorwaarden dat jij dat mag of staat er dat het niet mag.

[Reactie gewijzigd door LOTG op 22 juli 2024 15:20]

Volgens mij is het helemaal niet te verkopen. Als een miljoen stukjes data publiek beschikbaar en legaal zijn kan geen enkele selectie daaruit ineens in strijd met de wet zijn.
Ooit gehoord van copyright?
Vervelend, dan mag een browser het ook niet openen. De informatie wordt op dat moment namelijk al gekopieerd.
Copyright/auteursrecht draait om de exploitatie van de werken, niet om de weergave.

Je mag een passage uit een boek ook gewoon aanhalen (mits met de juiste attributie), maar niet een volledig hoofdstuk of zelfs het hele boek.

Door de data zonder toestemming (of ondanks een expliciet verbod) te verwerken overtreden ze m.i. dit recht (een IP jurist zal hier het zuivere van weten).

Bron: auteursrecht.nl
"Als iemand iets origineels heeft gemaakt, is het natuurlijk niet de bedoeling dat iemand anders daar zomaar mee aan de haal kan gaan. Daarom is het auteursrecht in het leven geroepen. Auteursrecht wordt met een Engels term ook wel 'copyright' genoemd. Het auteursrecht biedt iedereen die werken creëert auteursrechtelijke bescherming. Dit betekent dat de maker van zo'n werk, ook wel auteur genoemd, als enige mag beslissen over de exploitatie van de werken die hij heeft gecreëerd. Daarnaast worden deze werken beschermd tegen misbruik door anderen. Het auteursrecht is daardoor een constante stimulans voor mensen om creatief te blijven."
Je mag alles doen met informatie die door de verstrekkende partij zelf openbaar is gemaakt, behalve herpubliceren met of zonder wijzigingen. Er is geen probleem met analyse door software. Ook niet als de resultaten daarvan winstgevend zijn.
Een probleem dat ik met 'AI' op dit moment heb is dat het een ultra-globalistisch spel is van corporate reuzen in een wedloop om wie de meeste data kan verzamelen. De generatieve/LLM kunstjes zijn slechts marketing en betekenen niet zo veel. Dit wordt overeind gehouden met software-constructies die het aanbod beperken tot slechts deze partijen. De besturingssystemen...

[Reactie gewijzigd door blorf op 22 juli 2024 15:20]

Tja, ook in het nieuws deze week is dat die AI diensten zich niks aantrekken van robots.txt :+
Het voelt alsof we afstormen op het einde van robots.txt in de huidige vorm, de belangen (en de winsten) zijn te groot aan het worden om zich te houden aan vrijwillige afspraken. Ik voorzie wetgeving die het respecteren van robots.txt verplicht, en/of een (hernieuwde) wapenwedloop tussen scrapers en rate-limiters.

Dat is allemaal makkelijker gezegd dan gedaan want in de cloud kan ik a la minuut 10.000 nieuwe instanstances starten die allemaal 1 pagina scrapen en er dan weer mee verdwijnen om plaatst te maken voor 10.000 nieuwe instances. Dat loopt allemaal door elkaar met diensten van anderen dus je kan ze niet makkelijk blokkeren zonder die hele cloud-omgeving te blokkeren.

Voor Reddit zou dat misschien nog werken omdat hun gebruikers vooral thuis zitten op een consumenten internetverbinding die eenvoudig als zodanig is te herkennen. Andere sites zullen minder makkelijk hele cloudomgevingen kunnen blokkeren.
Er zit in inmiddels ook aardig wat geld achter/in AI dus ik verwacht niet dat er op korte termijn wetten gerealiseerd worden die nadelig zijn voor AI.
Er zit in inmiddels ook aardig wat geld achter/in AI dus ik verwacht niet dat er op korte termijn wetten gerealiseerd worden die nadelig zijn voor AI.
Ja, maar al die techreuzen doen aan verschillende wedstrijden tegelijk mee. Iedereen wil tegenwoordig z'n eigen AI bouwen maar ook hebben ze allemaal toegang tot een flinke berg data van hun gebruikers en klanten. Allemaal zouden ze het liefst zelf alle data gebruiken maar hun concurrenten dat verbieden.

Ik verwacht een serie licentiedeals waarbij de grootste spelers van de markt elkaar effectief de vrije hand geven maar alle kleine concurrenten buitensluiten. Ik verwacht dat gebruikers onder druk gezet worden om met hun data te betalen voor alle mooie dienstverlening, en daar eigenlijk weinig in te kiezen hebben omdat alle alternatieven hetzelfde doen én het zo verweven wordt met andere software dat je effectief niet kan weigeren zonder jezelf af te sluiten van 90% van de softwaremarkt (net als mensen die nu geen Android of iPhone willen kopen, het is mogelijk maar wel enorm beperkend en al snel een stuk duurder, en haast niet vol te houden als je technisch niet sterk in je schoenen staat).

We hebben hier in Europa gelukkig al wat wetgeving die grenzen stelt aan wat bedrijven van je mogen vragen en hoe ze dat mogen afdwingen, maar ik geloof niet dat het laatste woord daar al over gezegd is.
Vroeger nog scraping proberen tegen te houden van een hele grote internationale speler.
Alle mogelijke maatregelen genomen en paar dagen later komen ze af met duizenden residentiele ip's die we niet kunnen blokkeren om geen klanten te verliezen en was het game over.
Ik voorzie wetgeving die het respecteren van robots.txt verplicht, en/of een (hernieuwde) wapenwedloop tussen scrapers en rate-limiters.
Wat let mij om een bot te maken die bij elke request een nieuwe useragent genereert, die niet af is te vangen met wat regex? Deze respecteert dan gewoon de robots.txt, maar omdat de useragent er niet in staat kan hij gewoon z'n werk doen.

robots.txt is in deze tijd hopeloos ouderwets, omdat deze van de goodwill van de andere kant uit gaat. Als er een wet komt die zegt dat je robots.txt moet volgen, dan vinden ze wel een andere creatieve oplossing om dit te omzeilen.

De enige manier om dit tegen te gaan is om alle indexers/scrapers verplichten een lijst van IP adressen of hostnames op te geven waarmee wordt gescraped zodat dit op firewall niveau kan worden geblokkeerd. Je hebt dan nog steeds de niet legitieme scrapers, maar daar kom je met de beste wil van de wereld toch niet van af.
Wat let mij om een bot te maken die bij elke request een nieuwe useragent genereert, die niet af is te vangen met wat regex? Deze respecteert dan gewoon de robots.txt, maar omdat de useragent er niet in staat kan hij gewoon z'n werk doen.


robots.txt is in deze tijd hopeloos ouderwets, omdat deze van de goodwill van de andere kant uit gaat. Als er een wet komt die zegt dat je robots.txt moet volgen, dan vinden ze wel een andere creatieve oplossing om dit te omzeilen.
Dat is precies waarom ik het een wapenwedloop noem. Met een beetje creativiteit is er flink om heen te werken. Respecteren zou ik dat overigens niet noemen, als je elkaar respecteert ga je niet proberen om de regels te ontwijken ;)
De enige manier om dit tegen te gaan is om alle indexers/scrapers verplichten een lijst van IP adressen of hostnames op te geven waarmee wordt gescraped zodat dit op firewall niveau kan worden geblokkeerd. Je hebt dan nog steeds de niet legitieme scrapers, maar daar kom je met de beste wil van de wereld toch niet van af.
Ik vrees ook dat het die kant op gaat, ik had daar een stukje over geschreven maar heb het maar weggelaten omdat het te pessimistisch wordt. Er is wel een oplossing tegen niet-legitieme scrapers. Pas op, ik zeg niet dat het een goede of fijne oplossing is, het is uitkomst die vrees.

De "oplossing" is namelijk niemand toelaten tot je de identeit hebt gecontroleerd. Als je die identiteit weet kun je weer rate-limitten of blokken. Dat maakt het ook aantrekkelijk om heel internet achter een betaalmuur te stoppen en niks te tonen (behalve reclame en lokkertjes) zonder je te identificeren te betalen voor toegang.

Het is ook de "oplossing" voor het "cookie-probleem". Als iedereen direct identificeerbaar is hoe je mensen ook niet meer te tracken, dat doen ze zelf al bij ieder bezoek. Dan heb je geen cookies meer nodig.
(let op de dikke laag sarcasme).

Een paar jaar geleden was dat nog ondenkbaar geweest omdat niemand er aan mee zou willen werken. Door de AI/Privacy/Scraping/Tracking/Cookiemuren zie ik dat nu dichterbij komen.

In China zijn ze al een paar stappen verder die kant op, er ligt een hoop techniek klaar die hier ook zou kunnen worden ingezet als we daar sociaal/politiek rijp voor zijn.
Ik voorzie wetgeving die het respecteren van robots.txt verplicht, en/of een (hernieuwde) wapenwedloop tussen scrapers en rate-limiters.
Op dit moment blokkeert 99% van de media websites alle AI bots behalve google. Waarom zouden we in Europa een wet maken die het mogelijk maakt voor een Amerikaanse gigant om een met de wet versterkte monopolie te maken. Als we wetgeving maken moeten ze IMHO zorgen voor een gelijk speelveld. Dus bijv. alle AI bots wel of niet, alle nieuws bots wel of niet, alle web crawl bots wel of niet.
Je hebt de laatste kolom van het artikel overgeslagen zeker? Daar staat dit letterlijk inclusief linkjes naar de betreffende artikelen.
Dat kan, maar ik zou gewoon wijzen naar de voorwaarden dan waarin waarschijnlijk ook staat dat het niet mag. Het is makkelijk om te zeggen dat robots.txt geen verplichting is, maar in principe is het shorthand voor de algemene voorwaarden die geautomatiseerd kunnen worden gelezen.
Tja, ook in het nieuws deze week is dat die AI diensten zich niks aantrekken van robots.txt :+
En zoekmachines?
De grote zoekmachines honeren dat wel, ik heb ooit aan een grote website gewerkt waar we een robots.txt hebben waarin staat dat /foo wel en /bar niet geïndexeerd mag worden, en /bar is een decennia later nog steeds niet vindbaar via Google of Bing.
Ik werk voor een verzekeringsmaatschappij en kan je vertellen dat onze concurrenten zich er ook niets van aantrekken. Wij worden dagelijks door tienduizenden robots aangevallen die onze prijzen proberen te scrapen. Gelukkig biedt Cloudflare voor nu nog een oplossing
We hebben AI geleerd hoe je op bruggen of bussen of fietsen klikt op Captcha foto's en nu kunnen de robots alles omzeilen.
Dit is het begin van Skynet
'blokkeren'... Alsof een scraper bij het zien van een robot.txt accuut omdraait en wegrent..
Dat was wel de insteek voor dat bestand. En het werkte best goed tot aan ongeveer 2020
In principe een gentlemen's agreement natuurlijk - moet iedereen wel braaf meedoen.
Het kan wel een signaal geven en mocht je die negeren dat Reddit de boel blokkeert zodra ze de bot detecteren.
Dat zou wel moeten inderdaad. En als iets of iemand zich daar niet aan gaat houden gaat ze gewoon op de blokkadelijst en komen ze er helemaal niet meer op, vrij simpel :)
Is er een blokkadelijst waar bots huiverig voor zijn om op te komen? Heb wel lijstjes gevonden, maar nog niet echt een grote bekende lijst met reputatie.
Ik heb geen idee, maar bedoelde meer je eigen firewall of blocklist.
Als de betreffende ai bot crawler zich niks aantrekt van robots.txt dan scrapen ze hem als nog. Dus leuk voor op papier, maar het blokkeert niks
Zou Reddit niet ook gewoon op server niveau de requests blokkeren van deze bots? Lijkt me onwaarschijnlijk dat ze het puur op de robots.txt laten aankomen.
Wat als de scrapers dezelfde user agent gebruiken als normale browsers? En IP's ui diverse ranges van overal ter wereld? Dan kan je als server deze echt niet herkennen...

[Reactie gewijzigd door Tadango op 22 juli 2024 15:20]

Tot nu toe is dat niet wat ik zie, maar dat zal ongetwijfeld komen als ze overal op user agent geblokkeerd worden.

IP ranges zijn overigens niet heel relevant, tenzij je preventief probeert te blokkeren. Ik heb de voorkeur om dat niet op range te doen, maar aantal requests, of user agent (voor zolang als dat nog werkt).
Is niet zo'n punt, je kunt aan het dataverkeer over het algemeen redelijk goed zien wat een gebruiker en wat een "bot"/scraper is.

Een automatische regel ergens in je firewall oid toevoegen voor dat soort gedrag is relatief eenvoudig.

Nou word het een iets ander verhaal als ze gebruikers patronen nabootsen, maar dat betekent per definitie niet 24/7 en op een relatief lage snelheid scrapen
Dat kan wel 24/7, als je maar voldoende IP adressen hebt.
Dat je het niet ziet, betekent nog niet dat het niet gebeurt. Juist bij slimme op AI draaiende bots ga je het verschil niet zien. Het enige wat je dan nog kan doen is het blokkeren van datacenter IP adressen.
Rate limits volgens het nieuwsartikel, is ook niet echt volledig blokkeren natuurlijk.
Als de betreffende ai bot crawler zich niks aantrekt van robots.txt dan scrapen ze hem als nog. Dus leuk voor op papier, maar het blokkeert niks
Met die redenatie hoef je je deuren ook nooit op slot te doen, want inbrekers trekken zich niks van je slot aan en komen dus toch wel binnen...
Rare vergelijking, een slot verzorgt ook echt een fysieke barriere die hetgeen je probeert te stoppen lastiger maakt, dit is bij een robots.txt bestandje natuurlijk niet het geval.

De vergelijking met een slot zou eerder bijvoorbeeld de ingestelde rate-limiting kunnen zijn.
Nee, bedrijven die de algemene voorwaarden EN de robots.txt negeren. Het is bijna alsof het internet nog steeds het wilde westen is. En er geen echte regels voor dit soort gebruik zijn. Misschien toch maar onder copyright schending gooien en alle AI crawlers terug het stenen tijdperk in procederen.
Feitelijk zou perplexity gewoon de user agent van de cliënt moeten clonen en probleem opgelost.

Want in feite delegeer je nu een AI agent die voor jou websites na kijkt. Wat volgens mij gewoon moet kunnen.

[Reactie gewijzigd door dutchruler op 22 juli 2024 15:20]

Het niet kijken van AI-crawlers naar robots.txt heeft mij enige tijd geleden doen besluiten om alle content op mijn websites achter een inlogsysteem te plaatsen. Tot op heden is daar nog geen crawler doorheen gekomen. Het is jammer dat het zo moet, want ik had het liever openbaar gehouden, maar het is niet anders.
Als ze de robots.txt negeren zou ik dat niet blokkeren, maar random troep of een rickroll returnen naar de scraper.
Met webcrawlers voor AI-training zijn bedrijven toch bezig met een vorm van diefstal? Het lijkt mij nog erger dan een illegale kopie van een vorm van media downloaden van een Torrent-site.
Of zie ik dit verkeerd?
Oké, als ik het goed begrijp mag alleen Google zijn AI-systeem door Reddit laten spitten, en ik neem aan dat deze twee bedrijven het harst zullen 'gillen' dat deze afspraken en regels gerespecteerd moet worden door andere.

Waarom bekruipt mij nu het gevoel in de maag dat Google ook van mening is dat zij op andere websites wel ongesigneerd mag gaan spitten en diens voorwaarden mag negeren onder de noemer "vrije informatie".

Op dit item kan niet meer gereageerd worden.