Check alle échte Black Friday-deals Ook zo moe van nepaanbiedingen? Wij laten alleen échte deals zien

Browsers OpenAI en Perplexity omzeilen paywalls namens gebruikers

AI-browsers zoals Atlas van OpenAI en Comet van Perplexity kunnen om paywalls heen van sites die AI-scraping verbieden. Omdat het lijkt op verkeer van mensen, blokkeren de sites de browsers niet.

Veel sites werken met een clientsidepaywall met een overlay over de content waarvoor gebruikers moeten betalen en daardoor kan een AI-browser een artikel helemaal lezen, meldt Columbia Journalism Review. Als dat niet zo is, kunnen die browsers andere bronnen aanhalen die wel toegang hebben tot het hele artikel om de inhoud voor gebruikers samen te vatten.

Daarbij gaat het ook om sites, waarvan artikelen niet te benaderen zijn via ChatGPT en Perplexity zelf. Dat komt omdat het gaat om browsers en sites dat zien als bezoeken van mensen, die zij anders behandelen dan die van crawlers. Bovendien neemt Atlas van OpenAI in aanmerking of het bedrijf een licentiedeal of rechtszaak met een mediabedrijf heeft. Als het een site is van een bedrijf waarmee OpenAI in een rechtszaak zit, probeert Atlas artikelen over hetzelfde onderwerp te vinden op sites van bedrijven waarmee het een licentiedeal heeft.

De AI-browsers zijn relatief nieuw en richten zich tijdens het browsen op AI-functies, zoals het samenvatten van sites en vragen beantwoorden over de inhoud. OpenAI Atlas kwam enkele weken geleden uit. Comet verscheen begin oktober.

Door Arnoud Wokke

Redacteur Tweakers

02-11-2025 • 12:53

59

Reacties (59)

Sorteer op:

Weergave:

Tja, een beetje spelen met de z-index van divs op een website, om content die je al wel verstuurd hebt te 'verstoppen', is misschien niet zo'n handig mechanisme.
't Is iets genuanceerder, natuurlijk. Zo hebben consumenten een "residential IP-adres", waarbij doorgaans minder gefilterd wordt dan de IP-blocks waar google/meta/openai scrapers vandaan komen. Met de AI-browser kunnen deze partijen dus omzeilen, door dat scrapen (distributed) uit te besteden aan consumenten met zo'n AI-browser.

Individuele consumenten hebben daar op zich niet zoveel last van, maar het is natuurlijk wel de volgende stap in het verzamelen van nog meer data en het centraliseren van de macht over het internet.
Wat jij beschrijft heet een Residential Proxy en bestaat al heel lang om die IP blokkades te omzeilen.

Voor scrapen is deze browser niet nodig hoor.
Jup, maar ook die proxies zijn niet vrij van controverse, zoals op achtergrond draaiende malware of anders wel vrijwillige gebruikers die hun internet connectie "verkopen", waarbij men de contractvoorwaarden met hun ISP kan overtreden.

Als zo'n AI browser op de achtergrond pagina's staat binnen te harken, dan zou ik dat persoonlijk onder malware scharen.
Sterker nog. Op deze wijze kunnen ze meeliften op een abbo van de user.
Dat zou een groter probleem zijn ja. Maar in het artikel staat "Daarbij gaat het ook om sites, waarvan artikelen niet te benaderen zijn via ChatGPT en Perplexity zelf." Dus dat lijkt nog niet te spelen.
Ik ben benieuwd. Ik heb de privacy voorwaarden van die browsers niet gelezen maar het zou mij niet verbazen als alles waar de AI mee in aanraking komt gebruikt kan worden voor trainingsdoeleinde.
Ik heb zelf zo'n interface naar AI agent gemaakt die Edge of Chrome aanstuurt. Kostte nog geen uur en hij haalt alles keurig al navigeren binnen. Scrollt door als er nieuwe content komt en opent en sluit alle tags, uitklappers en menu's, ook in Angular en React applicaties.

Dus als ik dat in een uurtje maak, dat kunnen die grote partijen dat natuurlijk ook.

De vraag is alleen waarom krijgt dit media aandacht RPA bestaat al meer dan 20 jaar en selenium ook even als headless browsers bestaan al meer dan 8 jaar, heb ik in 2017 nog een presentatie over gegeven in hoe je 1000 browser tegelijk kunt draaien in je CI/CD pipeline met AWS Lambda om heel snel je website geautomatiseerd te testen.

Dus waarom is het nu ineens bijzonder dat automatisering een browser kan aansturen op de manier dat een gebruiker dat doet? @arnoudwokke

[Reactie gewijzigd door djwice op 2 november 2025 17:26]

Voornamelijk omdat de algemene technische kennis in verval is geraakt.

Een simpele browser extensie om de DOM aan te passen en je kan alles van bijvoorbeeld de Volkskrant zelf makkelijk lezen.

Wanneer je het zelf zo makkelijk maakt om je verdienmodel te omzeilen dan heb je als organisatie een ernstige fout gemaakt.

Front-end security bestaat niet. Zodra je het document hebt overhandigd mag die gene ermee doen en laten wat die maar wilt.
Dit zal ongetwijfeld op sommige sites meespelen. Maar bij de door Columbia Journalism aangehaald voorbeelden is dit niet zo.

Deze voorbeelden kun je vanaf een random VPSje met curl naar binnen halen en je zult zien dat de volledige content in de resulterende HTML file zit.
Maar de meeste paywalls zijn zo gemaakt dat juist crawlers die indexeren wel de content mogen zien. En die draaien juist in datacenters.
Blijft een rare situatie, als een third party stuk software is noemen we het malware dat je PC misbruikt ter distributie, maar in geval van OpenAI, kan het wel. Ai bedrijven maken misbruik van de gebruikers verbinding om zo nog meer data te vergaren, niet alleen van publieke websites maar in dit geval dan ook van bijvoorbeeld mailboxen en wat nog meer dat prive is?
Inderdaad.

Iedereen kan er omheen. "Client-side security is no security at all". Het element verwijderen in de dev tools en je kan alles lezen. Wanneer je als bedrijf die fout maakt is het toch echt je eigen schuld.
Client side paywalls werden vroeger nog veel gebruikt, maar ik ken geen grote spelers die ze nog gebruiken omdat ze vaak met simpele js/css aanpassingen te omzeilen zijn. Impact lijkt me dus beperkt tot paar kleine spelers.

Een server side paywall gaat een AI-browser niet kunnen omzeilen, menselijk gedrag of niet.
Hoe zit dat dan met bijvoorbeeld archive.ph als ik op bijvoorbeeld ad.nl of Telegraaf wat wil lezen en tegen de Paywall aanloop, dan kopieer ik de link en plak ik deze in archive.ph en kan ik het alsnog lezen hoe werkt dat dan?
Hoe dit werkt is dat archive.ph zich voordoet als de GoogleBot (oftewel: een valse user-agent in de headers gebruikt). En aangezien alle Nederlandse kranten wel graag willen dat Google hun artikelen indexeert, tonen ze geen paywall maar het volledige artikel zodra ze denken dat Google het artikel opvraagt.
Hoe werkt dit precies? Ik vind archive.ph altijd erg goed werken en vraag me al een tijdje af hoe de techniek erachter werkt? Volgens mij is het meer dan een simpele GoogleBot want als je een nog niet gearchiveerde link probeert te archiveren gaat er een flink laad proces aan vooraf voordat je het artikel achter de paywall kunt lezen. Iemand een idee?
Omdat iemand met een abonnement het al gearchiveerd heeft.
Ik heb geen abonnement en kan ook gewoon links die nog niet gearchiveerd zijn archiveren. Volgens mij gebruiken die archive.ph en archive.is-achtige websites allemaal dezelfde mechanieken. De mediabedrijven zouden eigenlijk geen client-side manier moeten gebruiken waarmee ze alsnog de volledige website-inhoud naar de gebruiker sturen, dat is eigenlijk best wel een domme implementatie. Never trust the front-end is niet voor niets het adagium bij web.
Ha, verraden door mijn eigen aanname :)
Ik heb vaak dat wanneer ik een pagina probeer te cachen als eerste dat ik ze cache met paywall melding in z'n geheel.
Wanneer ik een pagina bezoek die reeds gecached is, welke normaliter ook een paywall heeft, en het wel werktte ging ik er dus van uit dat iemand met een abo het reeds had gedaan.
Ik ben al een paar keer tegengekomen dat het pas na 24u werkt.
Ze gebruiken voornamelijk scripts om de paywalls weg te krijgen.

Kan bij archive.ph geen manier vinden om een artikel vanuit je eigen browser of met je eigen account in het archief te krijgen. Geen Chrome extensie of manier om je cookies mee te geven. Dus dan kan je niet meeliften op iemand anders z’n abonnement.
Een server side paywall gaat een AI-browser niet kunnen omzeilen, menselijk gedrag of niet.
Ze kunnen natuurlijk wel meelezen met gebruikers die toegang hebben tot de websites. Geen idee in hoeverre ze dat mogen, maar er zijn altijd wel gebruikers die er aan mee willen doen vanwege één of ander gratis voordeel.
Client side paywalls werden vroeger nog veel gebruikt, maar ik ken geen grote spelers die ze nog gebruiken omdat ze vaak met simpele js/css aanpassingen te omzeilen zijn. Impact lijkt me dus beperkt tot paar kleine spelers.
Ik ken wat grote Nederlandse sites die met Firefox en NoScript prima te lezen zijn. Daar maak ik incidenteel gebruik van als iemand een link plaatst.

[Reactie gewijzigd door wooha op 2 november 2025 13:18]

Mogen? Zolang er geen duidelijke uitspraak bij een rechter ligt dat het niet mag zal het gewoon gebeuren. Hooguit een opt-out vinkje ergens in de browser die 9 van de 10 mensen niet uitzet.
alles wat je kan opvragen is imho toegelaten, het is uiteindelijk de server die beslist wat hij verstuurd, daarom zijn al die naïeve robots.txt implementaties gewoon een nietszeggend bestand dat kan en mag genegeerd worden.
Nou ja, de spelers genoemd in het artikel zijn bepaald geen kleine nieuwssites 8-)

Maar het klopt dat de meeste sites inmiddels wel server-side rendering gebruiken om de inhoud niet richting de browser/client te sturen zodat deze alsnog via omwegen leesbar is.

De meeste Wordpress plugins die bedoeld zijn voor content protection doen het overigens altijd server-side, zowel de betaalbare als de plugins die ook nog eens provisie rekenenen over het abbo wat iemand afsluit.

Maar als een browser letterlijk kan meelezen met een ingelogde gebruiker, dan kun je natuurlijk doen wat je wilt, maar kan op die manier elke pagina door AI verzamelt worden.
Conclusie: die browsers bestaan niet om ons leven makkelijker te maken, maar voor het belang van de AI-bedrijven: gratis data via een omweg, geen gejank met licentiekosten want das niet goed voor de bottom line.

Niks nieuws natuurlijk, het zoveelste voorbeeld van 'gratis bestaat niet' in techland.
erger nog; betaalde diensten (zoals deze paywall-nieuwsmedia) staan dus ook onder druk, als je de content (of de ai-afgeleide daarvan) gewoon in je browser kunt lezen
De huidige soort AI doet niet zoveel voor het vervangen van nieuws echter, omdat het door de training cutoff altijd achterloopt. Het zal geen echte journalisten vervangen. Wel sites die niets anders doen dan nieuws van andere sites overtikken maar die voegen toch al niet veel toe.
Tegenwoordig gaan AI bots zoals Perplexity evengoed het Internet afstruinen. Bij een zoekopdracht halen ze dus 30 sites op en maken een samenvatting. Natuurlijk is de context verdwenen alsook enige vorm van zienspuntdiscriminatie dat zichtbaar is als je meerdere individuele bronnen nagaat.

Dus je bent sterk afhankelijk van welke sites de ontwikkelaar als “vertrouwbaar” bestempelt.
Ja maar alsnog kan het geen actuele journalistiek bedrijven. Het blijft afhankelijk van wat mensen reeds geschreven hebben.

[Reactie gewijzigd door Llopigat op 2 november 2025 14:05]

Journalistiek is al 20 jaar dood. Vandaag zijn de oude/grote namen allemaal online opinie blogs en zelfs een groot deel daarvan zijn vandaag geholpen of zelfs volledig geschreven met LLM. De LLM die we vandaag beschikbaar hebben bestaat al veel langer als ML-gestuurde onderzoekssoftware en databases voor “journalisten” waardoor het verhaal al heel lang door 3 of 4 grote bedrijven (waaronder Elsevier) gefiltered is.

Echte journalistiek is verdwenen naar niche podcasts over heel erg specifieke onderwerpen, moet je echt geïnteresseerd zijn in dat onderwerp en vaak een uur luisteren om degelijke informatie te krijgen.
Oh ja podcasts doe ik echt totaal nooit. Zelfs als er iets van waarde in te halen is, ik heb gewoon echt 0,0 geduld daarvoor. Videootjes (bijv Youtube) trouwens ook niet.
Dat is altijd al zo geweest. Google was niet gratis zoeken, een VW was er niet zodat we ons sneller konden verplaatsen, etc. Er zijn altijd twee perspectieven geweest. Dat van het bedrijf. En die van de consument.
Er zijn veel meer perspectieven. Die consument werkt ook weer bij een bedrijf. Ook de CEO van een bedrijf is na werktijd consument. Een bedrijf (inclusief de mensen die er werken die ook weer consument zijn) wil wat verkopen (het liefst voor zoveel mogelijk), een consument wil iets kopen (het liefst voor zo weinig mogelijk).
Uiteraard zijn er meer dan twee perspectieven. Echter, noemde ik degene die in deze thread er volgens mij (het meest) toe doen. Echter hetgeen wat jij aanhaalt zijn meer combinaties van de twee perspectieven die ik eerder noemde, namelijk: vraag en aanbod in al zijn combinaties en temporaliteit.

Mijn punt was dat mensen een soort selectieve verontwaardiging uiten over de “verborgen” doelen van een bedrijf. Selectief, omdat bij bedrijven die ze een warm hart toedragen dat niet zien of op z’n minst niet noemen. Verborgen tussen aanhalingstekens, omdat iedereen snapt dat een bedrijf geen cent uitgeeft als het niet denkt dat het op korte en/of lange termijn winst gaat genereren. Of verlies gaat mitigeren.
Onder het mom van AI pesten:
Als webdev kan je natuurlijk ook door AI klinklare onzin teksten laten genereren, en die op je site zetten, maar op zo'n manier dat normale gebruikers deze nooit zullen zien. }>
Nice. In dat geval ga ik ze misschien zelfs wel gebruiken.

Ik ben een beetje klaar met paywalls. Met name omdat ik wel eens op sites terechtkom vanuit een link. En die dan verwachten dat ik een abonnement neem om een artikel te lezen terwijl ik daar wellicht 1x in de maand op uitkom. Dat is natuurlijk onzin. Dus dan omzeil ik ze maar het is toch altijd weer een handmatige actie.
Dit kan al lang met Bypass Paywalls Clean, geen ai browser voor nodig.
Ja maar ik heb daar altijd problemen mee vreemd genoeg. Met firefox iig (Chrome doe ik niet aan)

Soms komen sites in een soort mobiele interface of het werkt gewoon niet, en archive werkt wel altijd. Ik had liever een addon gezien die daar sites in opent
Waarom wil je niet betalen voor andermans werk? En vanaf hoe vaak zou je wel willen betalen?
Omdat ik wel naar 20-30 verschillende sites geleid word zo door een maand heen. Het is gewoon onzinnig om te verwachten dat ik op allemaal een abonnement neem. Het probleem hier is dat ze alleen een optie bieden die geschikt is voor herhalende bezoekers.

En tot zo 2022 kon het allemaal wel prima uit. Opeens komen al die onzinnige paywalls uit het niets.
omzeilen paywalls namens gebruikers
Dat ljkt me hier niet de omstandigheid. Ten eerste omdat deze diensten namems de verantwoordelijke eigenaren (de bedrijven die er aan willen verdienen) zo gemaakt zijn paywalls te omzeilen. Ten tweede geven gebruikers niet zomaar de expliciete opdracht om deze paywalls te omzeilen. Ten derde lijkt er geen enkele verantwoording van de verantwoordelijke eigenaar te zijn dat deze hoe dan ook paywalls zal omzeilen tenzij de gebruiker expliciet stelt dit niet te doen. Als je als gebruiker aan een dienstverlener vraagt om content te leveren is de vraag niet zomaar om betaalde content dus maar 'gratis' aan te leveren.
Zie Nederlanders vaak gebruikmaken van archive.is of archive.ph en daarbij de paywall omzeilen. Niet gek want vroeger was slechts een klein deel achter de paywall maar tegenwoordig ruim 90 %.
Klopt die gebruik ik ook. Die werkt het best. Archive.org en google cache gebruikte ik ook maar die werken niet meer zo goed.
Zelf doe ik dit al jaren, gebruik daar archive.is (onderdeel van waybackmachine). Werkt top en voor verschillende soorten paywalls
Daar gebruik je toch archive.ph voor?
Het zou gewoon (in ieder geval in Europa en de VS) verplicht en regelmatig getoetst moeten worden om de correcte user agent strings mee te geven, voor crawlen user agents te gebruiken die dit kenbaar maken, correcte RIPE registratie voor de IP-adressen van de browsers met publieke lijsten van gebruikte IP-adressen/CIDRs te hanteren en dingen als robots.txt te honoreren.
Als dat allemaal niet wettelijk wordt afgedekt gaat dit probleem alleen maar groter worden
Als je het wel wettelijk afdekt en het net zo goed nageleefd wordt als de AVG gaat er ook niks opgelost worden. Er is nooit beloofd dat user agents en robots.txt ook maar iets wat met de waarheid te maken heeft bevatten dus dat nu ineens wettelijk gaan afdwingen gaat waarschijnlijk alleen maar tot de volgende 'cookiemuur' stijl problemen leiden...

Om te kunnen reageren moet je ingelogd zijn