Google wil dat websites controle behouden over AI-crawling en roept op tot debat

Google wil een debat op gang brengen waarin nagedacht wordt over nieuwe protocollen die web publishers keuze geven en controle laten behouden over hoe hun webcontent gecrawld kan worden door kunstmatige intelligentie.

Het Amerikaanse internetbedrijf meent dat web publishers voldoende controle moeten kunnen blijven behouden over hoe hun content op het web wordt gebruikt. De huidige tools om dat te doen, zoals de implementatie van robots.txt, zijn volgens Google ontwikkeld in een tijd waarin er van kunstmatige intelligentie nog geen sprake was en dus moet er volgens Google nagedacht worden over nieuwe bijkomende protocollen. Vandaag de dag kunnen websitebeheerders via tekstbestand robots.txt aangeven welke delen van een website door een zoekmachine gecrawld mogen worden, en welke niet.

Google wil een debat op gang brengen waarbij spelers uit zowel de internetindustrie als de AI-wereld met elkaar in dialoog gaan. Het Amerikaanse internetbedrijf wil heel wat verschillende stemmen horen en nodigt ook mensen van de academische wereld en andere sectoren uit om de komende maanden met elkaar in gesprek te gaan.

Door Jay Stout

Redacteur

08-07-2023 • 13:18

92

Reacties (92)

92
91
62
3
0
18
Wijzig sortering
Pff, dat is wel een beetje hypocriet inderdaad... Al kan ik me voorstellen dat ze, om niet compleet achterop te geraken, meedoen met de kudde totdat er regels voor opgesteld zijn.
Nou ja, nou ja, dit is zoals mijn opa het noemt "Voor de muziek uit lopen."

Kan je mooi je eigen regels bedenken.
Beetje hypocriet? Hypocrieter dan dit wordt het niet.
Wat Google wil is een monopolie op AI. Lekker iedereen verbieden om websites te crawlen en er zelf eigen standaarden op nahouden in een grijs gebied. Ze zullen wel een truc hebben om websites te forceren Google toe te staan maar andere partijen niet.

Eigenlijk hetzelfde verhaal weer als met die "privacy sandbox" in Chrome: ze verwachten dat adverteerders hun sandbox gaan gebruiken, zodat die geen toegang meer hebben tot eigen data en afhankelijk worden van Google, die de data beheerd. Hypocrisie ten top. Ook een van de redenen dat ik zelf al jaren niks meer met Google te maken wil hebben.
Ik ben een soort van blij dat er nu snel nog een complete kopie van het web wordt gemaakt. Niet om dat ik wil dat er maar zo veel mogelijk feitjes in een AI-taalmodel kunnen worden verwerkt, maar omdat het de laatste keer in onze geschiedenis gaat zijn dat er op zo'n grote schaal door mensen geschreven teksten beschikbaar zullen zijn. Mogelijke copyrightschending nu is niet leuk, maar ik verwacht dat AI straks alleen nog maar gebruik maakt van taalmodellen om teksten of data te kunnen analyseren en verwerken tot een goed leesbaar stuk voor mensen en dat ze voor de daadwerkelijke 'intelligentie' gebruik van maken van betrouwbaardere en recente bronnen.
Goede dataset inderdaad, maar het valt in het niet bij wat Google (bijna dagelijks!) allemaal scrapet!
Ik zag laast een .org domein die ook scraped. 8TB van 2 maanden crawlen. Dus zo'n 50 TB per jaar aan pagina's. Wel interessant. Wikipedia english only is 90 GB, die ga ik gebruiken bij mijn woordvoorspeller en nog 50 GB aan andere data
Ik ben benieuwd naar je resultaat!
Zal tzt wel voorbij komen bij forum software ontwikkeling, wat heb je gemaakt. Maar ik ben druk momenteel met de basis, gebruikt geen sql maar een eigen object store. die gebruikt binary search en lezen van kleine aantallen gaat supersnel.

Echter synchroniseren van objecten (wordt een achtergrond taak) 1 miljoen objecten duurt 170 seconden momenteel. Ga denk ik per 16 miljoen pagina's de boel opslaan. Die dingen hoeven enkel 1x te synchroniseren en als dat dan 50 minuten duurt vind ik prima. Daarna kan ik er supersnel op filteren.

Leuke hobby / werk combinatie
Ik ben ook geen voorstander van deze AI ontwikkelingen. Het internet is nu al een grote bende geworden van misinformatie en manipulering, en als een groot deel van de teksten straks door AI geschreven gaan worden weet je helemaal niet meer wat je wel en niet kunt vertrouwen. Hoe weet je of de AI een correcte bron heeft gebruikt? Hoe weet je of een AI niet getraind is met verkeerde informatie? Wie bepaalt überhaupt wat verkeerde informatie is als alles door AI gedaan wordt?

Social media was al erg genoeg. Iedere nobody met een mening kreeg ineens een platform om deze te verkondigen aan een potentieel groot publiek, inclusief degenen met schadelijke bedoelingen en de complete idioten. En nu krijgen we de kunstmatige idioten er ook nog eens bij. Als het zo door gaat wordt het internet nog minder bruikbaar dan het momenteel nog is. Moet je je eens voorstellen als je de 2 combineert en die verrotte social media vol zit met AI bots die niet meer van mensen te onderscheiden zijn (misschien bestaat dat al wel?). Plus nog meer dominantie voor grote multinationals als Google, die het liefst het hele internet als hun eigendom zouden willen. Klinkt misschien als een opa, maar het internet was vroeger inderdaad beter. Straks is het internet alleen nog bruikbaar voor robots, niet meer voor mensen. Kunnen ze lekker allemaal de AI teksten van andere bots gebruiken als leermateriaal en tegen elkaar gaan kleppen. |:(
Ik ben een stuk optimistischer dan jij bent. Ik denk dat voor het vinden van waardevolle informatie, de belangrijkste voorwaarde blijft dat veel andere pagina's naar de pagina met deze informatie verwijzen. Dit is al hoe zoekmachines werken en grotendeels kunnen blijven werken. Verder denk ik dat AI juist ook kansen geeft en kan voorkomen dát het hele internet wordt volgespamd met automatisch gegenereerde teksten. Immers, als je nu iets met de wereld wilt delen moet je dit zo mooi mogelijk verwoorden, mooie plaatjes erbij om de aandacht te trekken, etc. In de nabije toekomst zal het meer gaan om te zorgen dat ("betrouwbare") mensen in hetzelfde vakgebied op de hoogte gebruik moeten worden van de door jou verstrekte informatie, vindingen of ideeën en hier zelf weer naar moeten verwijzen. Je kan dan veel factueler zijn en dingen gewoon puntsgewijs opsommen. AI kan lezers dan helpen het voor hen begrijpbaar te verwoorden.
Het lijkt een soort goudkoorts. Ik denk niet dat dit lang gaat duren. Straks gaan er mensen betaald worden voor opgeslagen web-data. :+
Buiten dat bericht om, letterlijk het hele business model van Google Search is gebaseerd op web-crawling, het hele business model van Google News is gebaseerd op web-crawling...
Google functioneert niet als één entiteit, met eenduidige ideeën en beleid. Het is meer een federatie van onderling strijdende en (in de meeste gevallen) langs-elkaar-heen-werkende facties.
Misschien is het juist een inzicht dat daardoor is ontstaan dat men deze mogelijkheid wilt bieden? Het hoeft allemaal niet alleen maar slecht te zijn wat Google doet.
Best wel ironisch hoe snel de "do no evil" mantra geschrapt werd in het voordeel van "mijn nieuwe jacht mag wel 110 meter zijn in plaats van 100 meter"

Page en Brin blijven wijselijk uit de spotlights maar zijn twee van de meest afschrikwekkende individuen in de hele industrie , tegenover hun is Zuckerberg een engeltje

[Reactie gewijzigd door kristofv op 27 juli 2024 12:49]

One Rule for me, another rule for thee!
Ik zie er persoonlijk weinig meerwaarde in op dit moment.

Zolang als er geen wetgeving is welke het ook daadwerkelijk aanpakt als protocollen genegeerd worden, maakt het eigenlijk ook niets uit.

Puntje bij paaltje vinden niet heel veel mensen het erg als een "Goed bedoelende partij" hun website crawled. Als ze dat wél erg vinden, zijn er vrij makkelijke manieren om dit te voorkomen, vooral omdat deze partijen er nog wel eens naar willen luisteren.

De andere kant van deze munt zijn partijen met slechte intenties. Deze zullen zich niet aan de protocollen houden en dus heeft het geen zin, want dat zijn degenen waar we tegen willen waken.

Eerst zorgen dat die zaken negeren strafbaar wordt, daarmee meteen de protocollen bepalen. Good-faith werkt gewoon niet op het internet. Niet in de echte wereld.
Er is best een flink verschil tussen een zoekmachine jouw website laten crawlen (feitelijk vrijwel integraal kopiëren naar hun eigen database) en een LLM of AI trainingssysteem datzelfde te laten doen.

Bij zoekmachines krijg je er nog iets voor terug, verkeer bijvoorbeeld, én de zoekmachine laat duidelijk zien waar het vandaan komt dus het levert je herkenning of naamsbekendheid op. De huidige LLM's kopieren ook de complete inhoud maar doen vervolgens net alsof ze die gegevens zelf geproduceerd hebben en sturen geen mensen naar jouw site.

Kortom, een zoekmachine werkt voor jou, een LLM concurreert met jou op basis van data die ze zonder toestemming van jou gekopieerd hebben. Er is als website eigenaar dus wel iets te zeggen voor het laten toestaan van zoekrobots terwijl je LLM en AI robots tegen houdt.

[Reactie gewijzigd door Maurits van Baerle op 27 juli 2024 12:49]

Zo bekeek ik het inderdaad niet helemaal, maar volgens mij zijn we het dan met elkaar eens, toch?

Mijn punt was vooral dat protocollen geen zin hebben als er geen onderliggende (strafbare) wetgeving onder ligt. Anders gaan ze het tóch wel doen.
Nou ja, ik denk dat het uitbreiden van Robots.txt wel zin heeft, al is het alleen maar om later in een rechtszaak tegen OpenAI aan te kunnen geven dat OpenAI jouw data gestolen heeft als delen van jouw tekst integraal in ChatGPT antwoorden opduiken terwijl jij dat expliciet verboden had.

Maar, er is inderdaad wel een groot hiaat juridisch gebied op dit moment. Ik zal nooit ThePirateBay verdedigen maar als je ziet hoe die strafrechtelijk vervolgd zijn voor het verspreiden van andermans content (maar waar ze de bron niet verdoezelden) terwijl Sam Altman nog steeds niet vervolgd wordt (die andermans content verkoopt als zijn eigen) dan is er nog wel flink wat werk aan de winkel.
En hoe voorkom je dat je iets nieuws te melden hebt dat alleen op jou website staat. Als iemand anders dat kopieert en de ai kopieert de kopie en geen weet heeft van jou website. Het is allemaal grijs gebied. Het internet is open. Wil je dat niet moet je er een login voorzetten. Wil je niet dat er gescraped wordt, rate limiter met ban tot gevolg. Die robots.txt is alleen maar een suggestie
Nee, dat is het niet. Ze hebben geen licensie op die content. Het is exact hetzelfde als met de afbeeldingen waar website-eigenaren soms blafbrieven voor krijgen, dat je een bron gevonden hebt maakt nog niet dat het legaal is en je het dus mag gebruiken.
Dus als ik op jouw website een tekst vind met een licentie die mij toestaat om de tekst op mijn website te plaatsen dan mag dat mogelijk toch niet? Oftewel, ik ben verplicht om te controleren of jij wel de rechten hebt?

Wat nou als ik het lees, ervan leer, en vervolgens delen ervan in een iets andere vorm (maar nog steeds herkenbaar) weergeef op mijn website? Mag dat wel? Dat is namelijk het proces wat ik dagelijks doorloop met artikelen, (studie)boeken, magazines, etc. Eigenlijk hetzelfde als wat AI doet toch?
Volgens mij laat google tegenwoordig ook steeds meer info zien op haar eigen site zonder dat je hoeft door te klikken.
Je moet vandaag de dag eens door de access logs van een website gaan die iets of wat bekend is en je zou versteld staan van hoeveel robots er langskomen. Elke. Dag. Opnieuw! En het is maar de vraag of de meeste van die bots wel effectief een bijdrage leveren aan het genereren van meer bezoekers voor jouw.

Bijkomend heeft Google een voordeel bij het voorstel dat zij hier maken, want Google kan de site nog altijd crawlen want zij hebben een search engine, maar OpenAI zou dan ineens geblokkeerd worden. Moet OpenAI dan ineens zelf een (slechte) search engine bouwen? Dan kunnen ze ook gewoon weer alle sites gaan crawlen. Google komt hier met een voorstel waar ze zelf voordeel uit kunnen halen. Want uiteindelijk is robots.txt al genoeg want de crawler voor een AI is ook gewoon een robot.

Daarnaast heeft MS met de integratie van ChatGPT met Bing ook aangetoont dat we in de toekomst wel eens op een andere manier kunnen gaan zoeken op het internet, dat de grens tussen een search engine en een LLM chatbot vervaagt. Hoe wil je dat dan gaan doen?
Daarbij komt nog eens dat het technisch prima is voor de zoekmachines om robots.txt of de metadata in de header van de sites te negeren. Wie zegt dat persoon of bedrijf x geen AI maakt die gewoon schijt heeft aan de gemaakte afspraak en de boel toch kopieert.
Tsja een betaalmuur, maar google bot mag indexeren en dan raar opkijken dat een andere crawler ook kan indexeren. Welke meta data, copyright? Ik ben van mening dat alles wat je op internet zet publiekelijk deelt tenzij je met een goede login werkt en niemand toegang geeft tot jou area. Daarnaast kan ook een andere partij een kopie maken en zo krijg je kopie van kopie.
Dat is ook de kracht van het internet en van ai. Hoe vaker het voorkomt hoe vaker er naar gerefereerd wordt. Vindt je robots.txt een afspraak?
Dit op tweakers:
User-agent: MJ12bot
Disallow: /

User-agent: Exabot
Disallow: /

User-agent: proximic
Disallow: /

Waarom zouden die crawlers hier gehoor aan geven en google gewoon door mogen gaan. Dat is eigenlijk discriminatie / marktwerking.

Je user agent instellen als googlebot en je hebt toegang.

Ik vind de huidige situatie prima. Maar er wordt alleen maar rekening gehouden met Google.

Nu heb ik net een bedrijf en deze aangemeld bij Google. Heb 50 adres opvragingen per maand en geen enkele website bezoek. Dat zijn dus 50 crawlers die actief zijn. Nu kun je headless crawlen in een browser beter doen dan via curl. Dan weet Google namelijk minder goed dat je een service bent en betaal je je niet scheel aan de search apis.
Het is toch te zot voor woorden dan Google gratis mag crawlen en als je via de Google api wilt zoeken 5 euro per 1000 opdrachten betaald. Dat is dan toch marktwerking
Niet als het aan Google ligt. Zie ook dingen als knowledge graph en quick answers. Google’s doel is al lang niet meer dat jij naar de juiste webpagina gaat. ;)
Ja, heb je hier in Nederland te maken met Azië / China, als je die ip blokkeert ben je al een heel eind. En voor hen een apart domein geven kan ook
Zodat we het hele internet kapot maken. Ik zit nu in China en kan nog geen eens op een normale manier inloggen hier, want de "ik ben geen robot", ( zal wel van google zijn ) wordt hier dus geblokkeerd. De rest van de site werkt nog.
Veel sites hebben dus Google integratie en werken dus behoorlijk slecht hier.
Daarnaast met een VPN weten die chinezen dat dan wel weer te omzeilen.
Het is altijd beter als een branche eerst zelf dingen probeert te regelen. Pas als dat niet lukt moet je aan wetgeving gaan denken. IETF en 3GPP zijn brancheorganisatie en die hebben toch aangetoond dat je wereldwijd werkende systemen kunt bouwen (zonder ook maar 1 commerciële leverancier een voordeel te geven) zonder overheidsbemoeienis en wetgeving. Dat wil je voor AI ook eigenlijk.
Zonder discussie komt er ook geen wetgeving.
Op zich is het natuurlijk goed dat er een discussie op gang komt en er wellicht een standaard "do not craw for IA" tag komt, of dat elke website een "creative commons" -achtig statement in de hoofdfolder van de website kan plaatsen. Dat zal in elk geval veel discussie over het eventueel schenden van auteursrechten voorkomen. Daar hoef je niet eens een wet voor te maken.

Het is natuurlijk wel huichelachtig dat Google eerst een groot deel van het internet afschraapt en vervolgens een discussie op gang wil brengen, waarbij het vooral de concurrentie na hun moeilijker wordt gemaakt. Aan de andere kant, beter laat dan nooit.

Persoonlijk zou ik ook graag zien dat een Scraper wat statistieken achterlaat zodat de beheerder van een website ook kan zien wanneer de scraaper langs geweest is en wat er is geschraapt.
Statistieken gaan via de accesslogs. Daarin kun je je verkeer zien. Je wilt op text auteursrecht krijgen? Schrijf een boek. Op internet is het public domein en dan is het openbare data. Zo was het, zo is het en zo zou het moeten blijven. Als je een exacte kopie maakt krijg je kans dat er geklaagd wordt en je kans van slagen hebt bij de rechter. Echter algemene kennis zou geen copyright op moeten zitten.
Alles op internet onder het public domain rekenen is beslist niet de goede weg.
Sterker nog, als ik hieronder een copyright statement zet, is dat ook rechtsgeldig. Er zijn niet voor niets een aantal standaard Creative Commons varianten die mensen kunnen gebruiken om aan te geven hoeveel vrijheid "gebruikers" hebben om teksten, beeld materiaal of apps te (her)gebruiken.

Algemene kennis bestaat niet. Iedereen maakt daar zijn eigen definitie van. De best beschermde boeken zijn nu net de leerboeken, inclusief de boeken waar bijna elke Nederlander op ze basisschool zijn basiskennis uit heeft geleerd. Ook een groot deel van de journalistiek kan je onder basiskennis rekenen, maar daarmee maak je de journalisten juist brodeloos en valt de journalistiek weg. Het is daarom niet gek dat veel journalisten nog steeds voor kranten werken en de kranten hun online content grotendeels achter paywalls zetten. Heb jij toegang tot de content achter zo'n paywall, dan zal je rekening moeten houden met de bijbehorende copyright regels. De berichten zijn beslist niet voor het open domain.
Dan moet dat toch via wetgeving gaan gebeuren, want met robots.txt kan je helemaal niks afdwingen, enkel vriendelijk vragen om mij aub niet te doorzoeken.
Wel als in de wet staat van wel. Artikel 15o Auteurswet bepaalt dat je mag crawlen voor data mining (dus ook training van ML modellen) tenzij op technisch leesbare en gestandaardiseerde manier een voorbehoud is gemaakt. Een verbod via robots.txt lijkt me een prima manier.
Ha, klinkt een beetje als barrieres opwerpen voor partijen die al verder zijn met hun AI implementatie (Bing)... Maar goed, er zit wel wat in.
Ik vind het hooguit triest. Veel robots.txt laten Google hun pagina scannen en omdat ik geen Google ben mag ik dat niet. Zo houdt je Google in stand en sluit je de rest buiten. Als je als developer de search api wilt gebruiken van Google, kost dat per 1000 calls al 5 euro. Waarom er geen concurrentie is heeft ook met robots.txt te maken. Bing is nog duurder
robots.txt is slechts een gentlemens agreement, niets houdt tegen dat je data alsnog doorzocht, dan wel gedownload wordt
Je hebt tegenwoordig middleware en daarmee zou je iets leuks kunnen doen. Bijvoorbeeld 500 paginas per dag per ip, daarboven een ban.
Maar dat houdt ook Google tegen, want die wachten echt niet tot het volgende uur na 500 pagina's.

Wat mij betreft ook prima, maar je gaf als voorbeeld dat Google wel mag; een website kan geen onderscheid maken tussen Google of een andere partij tenzij ze op IP-adres gaan checken, en dat is nogal wat moeite om Google wél toe te staan. Alles behalve IP-adres is te spoofen.
Verwijderd @Oon9 juli 2023 14:25
Je zou de limit voor de user agent kunnen instellen dat googlebot het dubbele mag.
Maar daar heb je niks aan want een andere crawler kan gewoon diezelfde user agent gebruiken. IP-adres is het enige dat niet zomaar te spoofen is.
Verwijderd @Oon9 juli 2023 15:08
Al die zogenaamde Google bots komen naar dezelfde rate limiter. Als je dan een dns look up doet van die ip's en er geen google.com in voorkomt zou je die kunnen blokkeren wellicht
robots.txt is slechts een gentlemens agreement, niets houdt tegen dat je data alsnog doorzocht, dan wel gedownload wordt
Sterker nog, laat je crawler zich identificeren als googlebot en je krijgt vaak betere/completeren pagina's voorgeschoteld om te crawlen. ;)
En daarom dat vele bedrijven robots.txt ook gewoon negeren. En dat gaat met AI niet anders zijn. Je kan op een open internet niet veel afdwingen. In het beste geval een rate limit.
En dat is maar goed ook. Sinds google een werkwoord is geworden verafschuw ik het bedrijf. Het is makkelijk in gebruik maar al die data, het is van de zotte. Dat dat mag, maar een paar boerderijen te veel en Europa staat op de kop.

Het zijn eigenlijk allemaal onbenullen die politici. Hebben het over de verkeerde dingen en de belangrijke dingen gaan mis. Google verliest zijn positie binnenkort en dat is maar goed ook. Nu meta nog en het internet wordt alweer leuker. Ai wordt je assistent en er komen evenveel ais als mensen. Iedereen 1 ai. Ik zie alleen al leuke interacties tussen ai plaats vinden en zo doende nieuwe ideeën.
De Bing API is voor developers praktisch gratis. Ik heb er al een tijdje niet mee gespeelt, maar je moet de 10.000den of 100.000den (beetje afhankelijk van welke functie je gebruikt) requests per dag over, wil je gelimiteerd worden (of de knip moeten trekken)
Hetzelfde goldt indertijd voor de (door)ontwikkeling van dingen als robots.txt en bepaalde metatags etc.
In principe werp je barrières op voor iedereen, alleen sommige bedrijven zijn wat verder, en opereren (deels bewust) in een juridisch grijs gebied. Als je daar (trots) als pionier je in beweegt, moet je niet verrast zijn als je soms wordt teruggefloten / omgeleid.
Dat was ook de reden van Musk om het aantal tweets te kunnen lezen/posten omdat a.i. van verscheidene bedrijven aan het crawler zijn, wat voor veel verkeer en bandwijdte overlast zorgde.
Maximum 10.000 tweets is per gebruiker / ai per dag is ook prima. De ai scant het nieuws, pakt er een paar tweets bij en je bent er voor die dag
Een crawler / a.i is geen gebruiker.
Voor de website of app eigenaar veroorzaakt elke a i. / crawler extra onkosten qua bandbreedgebruik.
Dat kan voor een bedrijf als Twitter al
duizenden dollars schelen op jaarbasis. Dus dan zou je een dief van je eigen portemonnee zijn
Waarom denk je dat een crawler geen gebruiker is? En die duizenden dollars is voor een miljarden concern stuivers. Je hebt al 10 TB traffic / maand voor 10 euro, 10.000 tweets x 1kb = 10 MB en dit past dan weer ruim een miljoen keer, dus 1 miljoen gebruikers per maand voor 10 euro.
De reden is wellicht hetzelfde, maar de uitvoering niet. Waar Twitter een limiet op alle niet-leden legde wil Google dat niet.
Dit werkt alleen voor de 'good guys'. Kleinere spelers of zelfs individuen die kunnen alsnog hun AI de flags laten negeren en vervolgens de crawled data weer doorverkopen aan 3den die vervolgens hun handen in onschuld wassen 'ja we kochten het uit een bedrijfje in China, volgens hen volledig legaal oh we vinden ze niet meer raar'.
Daarom ben ik niet zo blij met de huidige setup van robots.txt in de root. Ik had liever gezien dat het per map zou zijn. Dan hoef je alleen maar het tekstbestandje neer te zetten in die mappen die je liever verborgen houdt. Liever dat dan in de root een "Hallo, willen jullie allemaal even uit de mappen 'Wachtwoorden' en '{wp-admin}' blijven?" moeten plakken.
Het idee is meestal ook dat de publieke webmap zo min mogelijk bestandjes / mappen heeft. Anders moet je die weer afschermen met een htaccess bijvoorbeeld. De meeste frameworks van vandaag verwijzen allemaal naar een onderliggende map zodat ie is afgeschermd van de buitenwereld. Je voorbeeld (wordpress) doet / deed dat niet goed vroeger met veel exploits tot gevolg
Bor Coördinator Frontpage Admins / FP Powermod @mischaatje28 juli 2023 18:54
Een robots.txt is geen wet en kan zeer makkelijk genegeerd worden. Dat is juist een voorbeeld hoe je het eigenlijk niet wil.
Het komt mij een beetje hypocriet over. Het crawlen is iets waar Google groot mee is geworden (voor de zoekmachine, profielen opbouwen, enz.). Dat op dit moment andere partijen dezelfde functionaliteiten voor een ander doel gebruiken wat concurrentie oplevert voor Google/Alphabet is dan mijn inziens eerlijk. Echter zou het crawler wel echt geforceerd geblokkeerd mogen worden als je als content maker dit niet wilt (voor welk doel dan ook).
Hoezo is het hypocriet? Google levert iets terug aan de site-eigenaar, namelijk dat een site beter vindbaar is en als gevolg daarvan potentieel meer bezoekers en omzet. Wil je dit niet dan bieden ze mogelijkheden om ze buiten de deur te houden en gehoorzamen dat.

Bij het crawlen voor doeleinden zoals het trainen van AI is nog maar de vraag of je er als site-eigenaar iets voor terug krijgt of dat het enkel maar servercapaciteit en bandbreedte kost. Dat is nog afgezien van de vraag of dergelijke crawlers iets aantrekken van robots.txt.
Nee ze gebruiken dezelfde tag als Google, want die mag dat en de rest niet. Het openbaren van een document op internet heeft gewoon consequenties. Als eigenaar ben je verantwoordelijk ervoor. Een ai is gewoon een extra bezoeker en die kosten zijn niet zo hoog vaak. En waarom zou je van een bezoeker iets terug verwachten. Meestal schotel je hem reclame voor wat geld opleverd. Nu de ai reclame kan onderscheiden van content levert die bezoeker Niets op en kost je dan een paar cent, boeien...
Dat je iets openbaart op het internet betekent niet dat iedereen er dan maar mee aan de haal kan gaan. Vergelijk het met een fysieke winkel die voor iedereen vrij toegankelijk is. Dat wil niet zeggen dat je alles kunt permitteren in een winkel, er zijn regels waar je je als bezoeker aan te houden hebt.

Meeste sites hebben een verdienmodel en stellen voorwaarden aan het gebruik van een site. In mijn optiek heb je die dan ook te respecteren. De realiteit is echter dat het nog veel te vrijblijvend is en er misbruik wordt gemaakt omdat het technisch eenvoudig is om andermans content toe te eigenen.
Meeste sites hebben een verdienmodel en stellen voorwaarden aan het gebruik van een site. In mijn optiek heb je die dan ook te respecteren. De realiteit is echter dat het nog veel te vrijblijvend is en er misbruik wordt gemaakt omdat het technisch eenvoudig is om andermans content toe te eigenen.
Zo stelt een site van mij in de algemene voorwaarden van 500 pagina's in BMP-formaat dat iedere geautomatiseerde toegang tot de site 5000 EUR/dag kost. In mijn optiek heb je dat dan ook te respecteren.

Mijn optiek en de werkelijkheid zijn helaas twee verschillende dingen. :+

[Reactie gewijzigd door The Zep Man op 27 juli 2024 12:49]

Wat is misbruik. Een site blokkeert een crawler om performance redenen. Niet om de inhoud. Het is toch erg dat tweakers bijvoorbeeld google wel toestaat maar andere niet. Andere sites hebben weer dat als de user agent google is, je alles mag zien. Waarom google wel, andere niet ?

Als je de inhoudt wil blokkeren voor algemeen gebruik plaats je het achter een login.
Anders geef je inderdaad toestemming voor algemeen gebruik en dan mag alles, zelfs je eigen spellingcontrole verbeteringen met tekst. Kopie voor thuisgebruik, heb je al heffing voor betaald zoals je nu ook voor plastic bakjes betaald. Waar zijn de kartonnen bakjes dan, slechter voor het milieu want kost een boom. Crawlen kost 1 miljoenste deel van 10 euro per pagina gemiddeld.

In sommige winkels heb je inderdaad huisregels. Op internet moet dat achter een login, anders kom je er niet
Waarom is het slecht dat tweakers de crawler van Google toestaat maar andere niet? Daar gaan ze helemaal zelf over. De reden zal vrijwel zeker zijn omdat het indexeren door zoekmachines veel verkeer vanuit de zoekmachines oplevert en tweakers er profijt van heeft.

Inhoud voor algemeen gebruik achter een login zetten om crawlers buiten de deur te houden is in mijn optiek de verkeerde oplossing om het probleem van een wildgroei aan crawlers aan te pakken. Voor de gewone gebruikers zoals jij en ik zorgt dit ervoor dat het internet steeds minder toegankelijk wordt. Steeds meer content verdwijnt achter een muur waarvoor je dient in te loggen, te betalen, cookies moet accepteren of een app moet gebruiken.

Wat denk je dat de meeste site-eigenaren zouden zeggen wanneer een bedrijf (vooraf) netjes toestemming komt vragen of hun site voor commerciële doeleinden gecrawld mag worden? De kans is groot dat veel bedrijven dan nee zeggen tenzij er iets tegenover staat waar ze zelf ook belang bij hebben.
Google heeft dit afgekeken van Musk / Twitter.
Is dit niet een beetje hypocriet van de grootste crawler op het internet?
Nope. Als een van de grootste crawlers respecteert Google dingen als robots.txt prima, waarmee je als content-eigenaar kan aangeven of je wel of niet wil dat Google crawlt.
Dat is bij een indexerende crawler best simpel in te regelen, nu we bij AI-trainingsdata-scrapers aankomen is de vraag op welke manier deze crawlers je data scrapen, gebruiken, en of die data vervolgens op manieren kan worden gebruikt waar je als schrijver/eigenaar niet achter staat. Dat is wel wat complexer dan 'ja/nee', en daar zijn nog geen standaarden voor.

[Reactie gewijzigd door graey op 27 juli 2024 12:49]

Wat is Google toch hypocriet... Als zij de uitvinder of eigenaar zouden zij geweest van openAI, dan zouden ze dit nooit zeggen. Dat ze dit zeggen betekent uitsluitend dat er een bepaald belang achter schuil gaat. Ik ben benieuwd welk belang.

Dat is helaas de wereld waar we nu in leven, want geen enkel ander groot techbedrijf is hierin beter. Een nobele techgigant bestaat niet.
Exact en jarenlang hebben makers van content geklaagd over hoe Google aan de haal ging met hun content. En wat deed Google? Die sloten de zeurende contentmakers uit de zoekresultaten.
En nu Google achterloopt op het gebied van AI neemt Google het ineens op voor diezelfde contentmakers. Right.
Hypocriet is nog zwak uitgedrukt
De mensen van Google willen écht geen debat omdat dit moreel "goed" zou zijn - dit is puur financieel bejag, zo niet voor nu dan wel voor de lange termijn.
Ik denk dat de resultaten voor Google steeds minder goed gaan worden. Je kan nu heel makkelijk content maken en heel veel wat uniek is als je weet wat je doet. Waardoor je goed in Google te vinden bent.

Op dit item kan niet meer gereageerd worden.