Reddit laat Wayback Machine voortaan alleen homepagina archiveren

Reddit gaat de toegang van de Wayback Machine tot zijn platform beperken. De dienst van The Internet Archive kan daardoor alleen nog de homepagina van het internetforum archiveren en dus niet langer individuele posts.

Reddit geeft The Internet Archive per direct alleen nog toegang tot zijn homepagina, zegt een woordvoerder van het internetforum tegen The Verge. Onder meer de inhoud van posts en gebruikersprofielen wordt daardoor niet langer bewaard. Reddit beperkt de toegang naar eigen zeggen omdat AI-bedrijven de gearchiveerde Reddit-pagina's gebruiken voor het trainen van hun AI-modellen.

De voorwaarden van het platform verbieden al langer dat AI-bedrijven zonder toestemming content van de site verzamelen. Vorig jaar paste Reddit zijn robots.txt-bestand aan om automatische webcrawlers te blokkeren, al bleven partijen die 'te goeder trouw handelen', zoals The Internet Archive, toegang behouden. Nu zou echter blijken dat de crawlers van AI-bedrijven de blokkades omzeilen door het forum via The Internet Archive alsnog te scrapen.

"Tot The Internet Archive zijn site weet te verdedigen en voldoet aan de vereisten van het platform (zoals de privacy van gebruikers beschermen door verwijderde content te dearchiveren), beperken we de toegang tot Reddit-data om onze gebruikers te beschermen", aldus de woordvoerder. Het hoofd van The Wayback Machine, Mark Graham, zegt tegen The Verge dat het 'voortdurend gesprekken' blijft voeren met Reddit over deze kwestie.

Door Kevin Krikhaar

Redacteur

12-08-2025 • 10:09

68

Submitter: TheVivaldi

Reacties (68)

Sorteer op:

Weergave:

Crawler als browser plug-in implementeren, data crowdsourcen. Lijkt me mogelijk. Kat en muis race!
Iets als Archiveror bedoel je?

Edit: Misschien is iets als ArchiveBox meer wat je bedoelt.

[Reactie gewijzigd door oddy op 12 augustus 2025 10:31]

En dan de crawler logica binnen de browser addon/plug-in met een submit naar Wayback.

i.p.v. enkel een verzoek tot crawlen aan de Wayback servers zoals de gelinkte browser addon/plug-in doet afaict.

Servers van wayback kunnen dan een consensus vote doen of iets vergelijkbaars. Wellicht reputatie gebaseerde verficatie? Suggesties welkom!

[Reactie gewijzigd door emansom op 12 augustus 2025 10:32]

Je wilt gewoon de DOM gaan verzamelen van verschillende pagina's in de browser plugin en dan doorsturen naar Wayback?
Zoiets zou inderdaad mooi zijn. Dan kan je ook dingen archiveren die achter een paywall zitten.

Zou verwachten dat er al wel zoiets bestaat. Want archive.is staat ook vol met content die achter een paywall zit.
waarom niet gewoon die van de IA zelf? chrome firefox
edit:
vgm ben ik dom aan het doen, dit voegt zeker alleen links toe aan de queue aan IA's zijde

[Reactie gewijzigd door trick2011 op 13 augustus 2025 08:53]

Het nadeel daarvan is dat de integriteit van de gegevens zo niet beschermd wordt. De crawler kan ook de te archiveren gegevens wijzigen, zaken injecteren, etc.
Dan crawl je van 2+ bronnen om te achterhalen wat de waarheid is. Ook nog niet perfect natuurlijk maar dan heb je al een hoop gefilterd
Het lijkt mij net zo makkelijk meer crawlers 'plugins' op te zetten die precies dezelfde data injecteren/ text muteren en dat dan als geldig laten verklaren door elkaar.

[Reactie gewijzigd door iRobbery op 12 augustus 2025 11:53]

Er moet er ook maar eentje zijn die de correcte data doorstuurt, zorgt voor een mismatch die geflagged wordt wat tot een audit kan leiden (eventueel automatisch) en alle content van de abuser revert.
Hier zitten ook nog wat haken en ogen aan, maar nog even door met de problemen aan zo'n systeem fixen, en je hebt de Proof of Work blockchain opnieuw uitgevonden.
ja dat is een optie, maar wie gaat dat controleren, wie gaat die audit doen? Wayback machine archiveert wel heul veel... Ik denk dat deze niet ge-automatiseerde vlieger opgaat.
Consensus voting wellicht, op reputatie gebaseerd met nog een OK van een admin/mod?
Dan nog, als je maar één keer een gemanipuleerde pagina het archief in wilt krijgen (bijvoorbeeld de Lottotrekking van afgelopen maand) heb je genoeg aan een paar apparaten die als vertrouwd gemarkeerd staan.
Deze vraag kun je altijd stellen, bij alles wat je maar met een computer doet, dus waarom nu ineens bij crawlers?

De maker van de crawler is natuurlijk maar één van de velen die bijdraagt aan jouw systeem. Wie zegt dat je internetprovider, de maker van je OS, de makers van alle andere software op je computer wél te vertrouwen zijn?
Lijkt mij beter ook dat Wayback de energie en opslag besteed aan het opslaan van meer websites ipv elke losse reddit (shit)post.
Integendeel reddit posts over technische onderwerpen zijn soms de enige bron buiten de interne documentatie en kennis in de industrie. Mensen die de kennis die ze hebben delen met vreemden in een open discussie dat is toch fantastisch.

Nu reddit naar manieren zoekt om winstgevender te worden ligt enshittification op de loer.
En vroeger hadden we daar forums voor, zie bijvoorbeeld GoT :), terwijl dit soort partijen toegang tot zulke gegevens proberen te platformiseren door er inderdaad een betaalmuur voor te zetten.

Dus dat is ook waarom het geïndexeerd moet kunnen worden. Het is nooit hun data geweest, ondanks dat wat ze nu min of meer beweren.
Een beetje in het verlengde van Tweakers/Reddit vind ik het ook jammer dat heel veel mensen in gesloten Facebook-groepen zit, waar gewoon niet per se geheimzinnige dingen in staan, maar hobby's, foto's/interessante dingen die je eigenlijk op een open forum zou verwachten. Facebook houdt echt heel veel gesloten voor het internet met hun privégroepen. Allemaal kennis die alleen maar binnen hun gesloten ecosysteem te zien is. Zo jammer dat Facebook door hun monopolie het internet en kennisdeling er niet beter op maken en zeker niet indexeerbaar voor de buitenwereld. Maar goed, het is hun eigen platform.
Niet enkel Facebook maar ook partijen als Discord doen dat net zo hard. Wat als chat applicatie begon maar steeds vaker als forum gebruikt wordt.

[Reactie gewijzigd door Caayn op 12 augustus 2025 11:59]

Discord is ook zo eentje ja, erg jammer.
Helemaal mee eens. In het westen is dit tegenwoordig erg, maar in landen waar ze de traditionele introductie van het web niet hebben meegemaakt is het nog erger en zit nog veel meer (van zaken die niet echt prive zijn dus) achter gesloten omgevingen.

Dat het hun eigen platform is vind ik eigenlijk dan weer niet heel relevant meer omdat ze voor dat "eigen platform" wel de consument direct en indirect laten betalen. Dat begint al bij de laatste meters voor het netwerk.
Reddit is een forum, alleen toevallig de grootste...
Je begrijpt vast wel wat ik bedoel :)

Het is geen traditioneel forum meer te noemen met alle pogingen om de randjes dicht te kitten, aangezien de term juist staat voor een open / publieke locatie voor het voeren van discussies.

Dat is Reddit al lang niet meer.
Hmm, Merriam-Webster lijkt daar inderdaad naar te neigen maar andere bronnen zijn minder stellig. Bovendien is "open forum" een vrij gebruikelijke term, dus ik denk niet dat dat al zo vast in de definitie zit.

Maar goed dat wordt ook een beetje te veel semantisch gesteggel. Andere fora, zoals ook GoT, hebben ook regels die beperken wat wel en niet besproken kan worden. Dus buiten formaat en dat ze het iets anders inrichten met verschillende reply threads zie ik niet zo wat het verschil is tussen Reddit enerzijds en GoT of bv het LTT forum anderzijds.
Het zal wel persoonsafhankelijk zijn, want mijn ervaring is dat Reddit praktisch nutteloos is al bron van kennis. Ik vind het nog steeds moeilijk te begrijpen dat zo veel mensen op zo een "waardeloos" platform zitten. Maar zoals ik al aangeef, dat is persoonlijk.
Ligt heel erg aan de sub. /r/VFIO heeft toch best wat inhoudelijke kennis over VM's. /r/memes is gewoon memes.
Het gaat meer om de kennis dan het platform voor mij. Recent had ik wat moeite met een opensource software genaamd Meerk40t de orginele maker is helaas overleden en de documentatie was nog grotendeels afwezig. Ik vond een reddit post van de maker waarin hij had uitgelegd hoe de CLI gebruikt kan worden en wat bepaalde commandos doen.

Dat was overigens niet nodig als de documentatie op orde was geweest, maar dat kan je niet verwachten van ieder open source project waar een of enkele mensen aan werken.

Verder zit reddit vol met technici die leeglopen met antwoorden en oplossingen als je een vraag stelt. Net als bijvoorbeeld discord heeft reddit ook giftige subreddits waar 'domme' vragen niet op prijs worden gesteld. Maar over het algemeen waren mensen in mijn ervaring behulpzaam en realistisch met hun antwoorden.
Daarnaast is het politiek gezeik elke 20 seconden op de grotere subreddits, en genuanceerde meningen worden gewoon ge-downvote zonder reactie. Hoe komt die “divide” nou toch?
Nu reddit naar manieren zoekt om winstgevender te worden ligt enshittification op de loer.
ligt niet meer op de loer hoor. Is al lang ingezet. Begon met API aan banden leggen. Heeft ze echt wel een hoop klanten gekost, maar anderen zoals ik boeiden het toch al niet zoveel heb ik het idee. Zijn de laatste tijd best wel wat zaken veranderd die sommige communities heeft doen laten besluiten maar gewoon op te doeken.
Mensen die de kennis die ze hebben delen met vreemden in een open discussie dat is toch fantastisch.
Ja maar daar is stackoverflow ook voor. Reddit is echt te niche soms. 1 of andere sub die 4 posts heeft en 30 leden telt, waarvan er dan 1 precies jouw issue ook heeft. Ja dat is fijn om dan achter te komen, maar meestal is het niet zo bedrijfskritisch (want waarom zou je zakelijk in zee gaan met een bedrijf waarbij Reddit de help desk is?)
Ja maar daar is stackoverflow ook voor.
Sinds dat is overgenomen door mensen uit o.a. India heb je daar helaas ook weinig aan. Ze zetten wel reacties neer, maar 95 uit de 100 keer kloppen ze niet. En dan druk ik het nog vriendelijk uit.

Daarom is een open forum zo belangrijk. En aangezien Reddit die functie probeert over te nemen mogen ze best wat minder gesloten zijn.
waarom zou je zakelijk in zee gaan met een bedrijf waarbij Reddit de help desk is?
Als DevOps engineer zou je moeten weten dat zoiets achter de schermen plaatsvindt, waardoor ik dit een beetje een vreemde opmerking vind. Iedere bron is een potentieel nuttige bron van informatie om de problemen die je op professioneel gebied gaat vinden zo snel mogelijk op te lossen. Daar heeft een (andere) zakelijke partij verder weinig mee te maken, toch?

Dat je professioneel bezig bent zegt tenslotte weinig over de hoeveelheid kennis die lokaal aanwezig is.

[Reactie gewijzigd door Stukfruit op 12 augustus 2025 11:30]

Als DevOps engineer zou je moeten weten dat zoiets achter de schermen plaatsvindt
Voor kleine dingetjes zeker, maar daarom zei ik ook "bedrijfskritisch". Dan ga ik echt wel in de telefoon hangen naar de leverancier.
Iedere bron is een potentieel nuttige bron van informatie om de problemen die je op professioneel gebied gaat vinden zo snel mogelijk op te lossen.
Dat klopt, alleen maakt Reddit dat steeds vaker dusdanig moeilijk/onmogelijk dat het geen goede bron meer is.

Zo worden zoekresultaten alleen nog maar via Google getoond. Daar vind ik wel wat van. Als je dan zo "open" zou zijn.

Reddit doet dit alleen omdat ze dik geld krijgen van google om AI te trainen dat weet je he? Google heeft een exculsive op data van Reddit. De reden dat ze de wayback machine nu blocken is omdat Google niet wil dat anderen het via omwegen alsnog gaan doen.
De reden dat ze de wayback machine nu blocken is omdat Google niet wil dat anderen het via omwegen alsnog gaan doen.
Dat klinkt voor mij als een rant en niet als een feit. Heb je een bron ?
Het artikel vermeld immers als reden:
De voorwaarden van het platform verbieden al langer dat AI-bedrijven zonder toestemming content van de site verzamelen (..) Nu zou echter blijken dat de crawlers van AI-bedrijven de blokkades omzeilen door het forum via The Internet Archive alsnog te scrapen.

[Reactie gewijzigd door T-men op 12 augustus 2025 12:45]

De voorwaarden van het platform verbieden al langer dat AI-bedrijven zonder toestemming content van de site verzamelen
Die voorwaarde is er specifiek vanwege de deal met Google.


22-02-24 nieuws: Google bevestigt licentiedeal met Reddit voor trainen AI

26-06-04 nieuws: Reddit werkt robots.txt-bestand bij om webcrawlers van AI-diensten te blokkeren
Reddit sloot eerder een licentiedeal met Google voor het trainen van AI-modellen op basis van Reddit-content. De robots.txt-wijzigingen hebben geen invloed op die overeenkomst. Het bedrijf benadrukt daarnaast dat partijen die 'te goeder trouw handelen', bijvoorbeeld organisaties als Internet Archive en onderzoekers, toegang tot Reddit behouden voor niet-commercieel gebruik.
En dan nu dit bericht vandaag. dat is toch gewoon 1 + 2 = 3?
zijn soms de enige bron buiten de interne documentatie en kennis in de industrie
God help us. Waarom zou ik nog langer geinteresseerd moeten zijn tech die van security by obscurity leeft?
Of gewoon niet de kosten wil/kan doen om te documenteren wat verkuttificatie is bij definitie
Toch is het maar wat handig als je machine onderdelen op de kop tikt en iemand helpt je op weg. Het onderliggende probleem zoals je stelt is inderdaad dat veel bedrijven niet bereid zijn om documentatie aan te bieden zelfs al hebben ze het.

Als je contact zoekt met de fabrikant word je of genegeerd. Of de meest slijmerige verkoper probeert je iets nieuws aan te smeren. Wat je al niet moet doen om een pdfje te verkrijgen met de meest basale informatie!
Ik gebruik het ook zeker wel eens in mijn werk, inderdaad. Een leuk voorbeeld zijn de TMC2209 bordjes, sommige versies hebben een verkeerde aanduiding op het soldeermasker. Daardoor kan je ze verkeerd aansluiten en werken ze niet. Gelukkig is dat in online discussies terug te vinden. Anders kan je er erg lang mee klieren.
Ik had ooit het idee om een C component driver te schrijven voor die TMC2209 bordjes voor linuxcnc. En hoewel ik wel de parallelpoort werkend kreeg om naar ik herinner 8 onafhankelijke serial connections op te zetten ofwel 32 TMC2209s aan te sturen met een parallel poort. Kreeg ik de communicatie met de TMC2209 bordjes die ik van aliexpress had niet voor elkaar. Zelfs gewoon een usb naar ttl adapter wilde het niet lukken. Misschien lag het aan hetgeen wat je hier beschrijft.

Ondertussen heb ik niet veel meer van doen met open loop stappen motoren. De ethercat hardware die ik nu gebruik is betrouwbaar en eigenlijk niet heel duur. Maar voor iets als Klipper heb je die keuze niet en ben je gebonden aan step dir aansturing.
De technische onderwerpen zijn nu precies waar een hoop wannabe armchair experts/engineers aanwezig zijn. Waar vaak gewoon echt basiskennis compleet afwezig is.

Er was ooit een tijd dat discussiëren op het internet inderdaad fantastisch was. Waar mensen voor elkaar open stonden, vragen stelden en de boeken en literatuur indook wanneer er onenigheid was over hoe of wat.

Helaas is het tegenwoordig meer emotionele bende aan hit-and-run statements. Waar men al te graag persoonlijk wordt ipv logica, gedegen kennis en ervaring gebruikt. Vervolgens viert de "Ja maar iedereen zegt het" illusie met het papegaai gedrag (zeer) hoogtij. Met vaak genoeg een clubje poortwachters die vindt dat iedereen daar maar aan moet voldoen. Inclusief mensen die wel daadwerkelijk expert zijn door jaren ervaring, kennis en/of gedegen opleiding hebben.

Reddit is met name bruikbaar voor gewoon persoonlijke ervaring of eventueel een niche oplossing (SAS controller werkt niet in Proxmox oid).

Voor daadwerkelijke technisch inhoudelijke dingen, moet je een hoop met een container zout nemen.

Het hele upvote systeem is natuurlijk net als andere like-systemen niet op z'n plaats in een discussie. Soms kan het waarde hebben, maar des te vaker wordt iets beoordeelt omdat het antwoord bij velen subjectief in de smaak valt, niet of het ook daadwerkelijk correct is. Waardoor je dus (als leek) niet meer kunt beoordelen of iets nu voor subjectieve redenen ge-upvote is, of dat iets daadwerkelijk inhoudelijk goed is. Wat direct het hele principe onbruikbaar maakt.
Je zult uiteraard moeten filteren op wat goed en wat slecht advies is. Dat is makkelijker als je zelf een verwant onderwerp ooit gestudeerd hebt aan de uni. Wat je beschrijf is iets wat ik zelf meerdere malen gezien heb.

Tijdens het afronden van mijn master las ik in gepubliceerde papers keer op keer eenzelfde onwaarheid. Experimenteel kon ik laten zien dat het niet waar is. De papers suggereerde dat een bepaald printproces onmogelijk was met inkten die niet shear thinning gedrag vertoonden. Het was niet waar sterker nog juist printen zonder niet newtoniaans gedrag en met zeer lage viscositeit inkt maakte hogere resoluties mogelijk. De professor vond publicaties belangrijker dan tegen de stroom in gaan in deze.

Lap tekst met anekdotes:

Neem electrical engineering specifiek pcb design er is altijd een verwoede discussie over hoe je moet omgaan met je current return (vaak ground plane genoemd). Wat je dan op een forum als reddit ziet is dat vrijwel iedereen hetzelfde zegt namelijk: Gebruik zoveel mogelijk koper, ga los met stiching vias, signaal en current return lagen zo dicht mogelijk bij elkaar en nooit verschillende ground planes gebruiken.

In de meeste gevallen is dit prima advies veel koper zorgt ervoor dat je bord niet kromtrekt, gelijkmatige dikte heeft en dat er in vaak een current return pad bestaat onder of boven je signaal. Maar als je twee traces naast elkaar hebt met hoogfrequente signalen en je dumpt daartussen floating koper dan krijg je ongetwijfeld meer cross koppeling. Het advies is dus niet waar in dat opzicht en beter specifiek advies is maximaliseer afstand.

Stiching vias zijn helemaal prima maar vaak heb je er alleen veel nodig als je veel stroom probeert te verdelen over meerdere layers of als je hoog frequente signalen binnen wil houden. Vias die niet nodig zijn nutteloze gaten in je pcb en kosten alleen maar geld.

Dan wat betreft verschillende ground planes vorig jaar had ik een pcb gemaakt voor een BLDC motor waarop een snelle microcontroller zat maar ook 3 krachtige motor drivers. Hier was het juist wel noodzaak om de groundplanes een grid tie te geven bij de connector maar ze verder apart over het bord te laten lopen. Een vlak voor de hoogfrequente signalen en dikke traces voor de drivers. Als het advies hier gevolgd was hadden de analoge hal sensoren beïnvloed worden door de laag frequente driver stromen.

Einde lap tekst

In conclusie wat je leest kan niet zomaar overgenomen juist omdat mensen elkaar napraten. En de waarheid is waar omdat het de waarheid is. Wat (veel) mensen zeggen is niet altijd in alle gevallen de waarheid.
Ik lees regelmatig papers, ook PhD papers.
Een deel daarvan gaat direct de prullenbak in.
Met name (in de akoestiek) degene die FEM/BEM methodes toepassen.
Daarvan zijn er ZO veel gebaseerd op aannames die soms discutabel zijn, of soms gewoon compleet fout.

Overigens is dat niet helemaal het probleem.
Het grootste probleem is toch wel dat veel mensen binair denken, aka zwart-wit.
Het is OF waar, OF het iet niet waar.
De realiteit is bijna altijd grijstinten: It depends.


Deze nuances niet kunnen inschatten of begrijpen, is nu precies het probleem.
De klok horen luiden, maar........

Overigens kan dat twee kanten op gaan.
Zo ken ik mensen die theoretisch hele verhalen kunnen vertellen.
De praktijk steekt echter vaak heel anders in elkaar.
Al helemaal wanneer een bepaald ontwerp letterlijk al 20 jaar werkt, in redelijk grote aantal wordt geproduceerd, zonder enig probleem.

Of wanneer het theoretische verhaal leuk is, maar geen rekening houdt met bijvoorbeeld andere praktische dingen op een PCB (connectors, elco's etc).
GaN Fets zijn hier een heel goed voorbeeld van.

Over PCB design gesproken: Robert Feranec :)
Schat van goede interviews en lectures, met experts die soms ook niet helemaal met elkaar eens zijn.

Uiteindelijk blijft het toch allemaal onderdeel van de wet van behoud van ellende.
Er is nooit 1 oplossing dat voor alles werkt.
Al helemaal niet wanneer je alle praktische constrains mee gaat nemen.
En toch staat er naast de memes en shitposts een hele hoop waardevolle informatie op reddit die zonde zou zijn als dat verloren gaat in het geval reddit besluit ergens mee te stoppen, of een gebruiker zijn comments (automatisch) overschrijft/verwijderd.
In zekere zin gebeurt dit in de praktijk al. Wanneer een subreddit geen moderators meer heeft, wordt deze automatisch verwijderd. Geen read-only of archival modus (om spam en andere onzin tegen te gaan), nee, alle posts, comments en discussies gaan gewoon volledig verloren, omdat niemand de subreddit nog kan bezoeken. Alle content is effectief verloren gegaan.

Eigenlijk is het te bizar voor woorden dat een kleine club moderators indirect (want dit is te danken aan Reddit) de contributies van honderdduizenden mensen kan verbergen door op te stappen. Ik heb 't regelmatig zien gebeuren bij NSFW subreddits.

Het verbaast me dan ook niets dat Reddit nu eindelijk de toegang van de Wayback Machine inperkt. Gearchiveerde content (en zeker wanneer je deze kunt zien via een ander platform) levert Reddit nauwelijks iets op.
Mij lijkt het beter dat ze daarover zelf beslissen.
Juist de Reddit homepage is waar alle shitposts belanden. De niche subreddits is waar je daadwerkelijk nuttige inhoud vindt.
Waarom kan The Internet Archive zelf niet scraping van gearchiveerde Redditpagina's voorkomen?
Daar zit het verschil tussen 'kunnen' en 'willen' vermoed ik.

Ze kunnen het vast wel, maar waarom zouden ze? Het is niet hun inhoud die gescraped wordt
Waarom zouden ze? Omdat hun missie is het internet te archiveren. Nu archiveren ze reddit niet meer. Maar door bots te weren van gearchiveerde redditpaginas waar reddit zelf ook bots de toegang tot ontzegt zouden ze het wel kunnen.

Misschien is het teveel moeite of doet Reddit te moeilijk.
Captchas en anti scraping tools zijn naast complex waarschijnlijk ook tegen de ideologie van the internet archive in die toegankelijk voor iedereen wil zijn inclusief tor gebruikers en mensen met stricte privacy instellingen die bijvoorbeeld JavaScript gelimiteerd gebruiken.


Sowieso valt me op dat zoveel mogelijk inhouse wordt gedaan inclusief hosting dus dan zou het best kunnen dat captchas en anti ddos paginas tegen him beleid in zijn
Tot voor kort archiveerden ze dus nog wel Reddit, pas met deze maatregel is dat niet meer zo.

Mogelijk dat The Internet Archive nu wel gemotiveerd is om het zelf te gaan regelen, zodat de blokkade op Reddit posts ongedaan gemaakt wordt door Reddit.
Websites kunnen bij The Internet Archive ook gewoon een exclusion aanvragen, maar dan is wel meteen alles geblokkeerd.
Vraag me af of dit dan ook van toepassing is op services zoals archive.is/{URL} voor de URL te plaatsen.
Archive.is doet (zelf) geen crawling, maar gerichte, expliciete verzoeken naar URL's. Daarom negeert die robots.txt.
Dus een platform dat de content creators niet betaald is niet blij dat andere partijen die gratis content stripped al dan niet zonder toestemming? En tegelijkertijd heeft Reddit geen moeite ermee om betaald die content te verkopen aan Google zonder dat dezelfde creators daar niks voor terugzien?

Ik maak me sterk dat partijen die nu al maling hebben aan robots.txt worden tegengehouden terwijl juist belangrijke platforms zoals the internet archive hier onterecht geraakt worden. Mij komt het meer over als een stukje kosten besparing door hun af te snijden, niets meer, niets minder.
Het past wel bij de ontwikkelingen bij Reddit, in dit geval zal het te maken hebben met het 'verkopen' van data voor AI training e.d., ook de deal die je al noemt en het eigen maken daarvan. Wat raar is met dat Reddit val of staat met hun gebruikers, anders hou je niet veel over.
Beetje makkelijk zo. Die "content creators" betalen reddit ook niet voor de gratis hosting en megaveel verkeer wat ze krijgen dankzij de naamsbekendheid van reddit.

Nou kan je stellen dat ze zonder de gebruikers niet zo groot geworden zouden zijn, maar het is niet alsof reddit niks voor hen doet.
Jammer, van alle dataschrapers in de wereld is The Internet Archive toch wel de meest sympathieke. Een dienst waar iedereen iets aan heeft, niet alleen de eigenaar. Ik snap de keuze van Reddit wel maar toch vind ik het jammer. Eerlijk gezegd vind ik het een wonder dat de Wayback Machine nog steeds bestaat. Internet is zo enorm groot geworden en de techniek wordt steeds complexer en lastiger te repliceren.

Toekomstdroom: Het zou mooi zijn als we bij het bouwen van websites al rekening gaan houden met het archiveren en bewaren er van. Een beetje zoals sommige websites nu een aparte versie of aanvullende info hebben voor zoekmachines waarin ze hun informatie handig presenteren zonder overbodige fluf.

Hoe dynamischer en complexer internet wordt, hoe lastiger het wordt om websites te bewaren. Als je 20 jaar geleden een website in Flash gebouwd hebt (zoals de eerste versie van YouTube) dan kun je daar nu niks meer mee. Zelfs als je alle data hebt dan mis je de software om Flash te spelen.
Bij sommige websites kun je eenvoudige een statische kopie maken van de belangrijkste pagina's (zoals The Wayback Machine doet) maar bij steeds meer sites werkt dat niet omdat alle inhoud dynamisch geladen wordt en de bediening afhankelijk is van communicatie tussen de webbrowser van de gebruiker en een of andere backend van de website. Als de content dan ook nog gepersonaliseerd wordt dan is het helemaal lastig om een "goede" kopie te maken.

Het zou goed zijn om daar wat meer over na te denken en op laag niveau (wat dat ook precies betekent) de mogelijkheid hebben om een soort minimale export- of archief-versie te hebben die eenvoudig(er) bewaard kan worden.

[Reactie gewijzigd door CAPSLOCK2000 op 12 augustus 2025 10:33]

Ik weet niet als dit goed of slecht is. Aan de ene kant heb ik een filosofie die zegt "Data should be free", maar aan de andere kant begrijp ik de enorme last die AI-crawlers veroorzaken, al is het maar enkel voor de load die ze veroorzaken.

Maar het lijkt me wel dat Reddit bij elk ding dat ze doen precies bewust tegen de schenen van een of andere groep mensen wil stampen. Ik dacht dat een beursgenoteerd bedrijf altijd voorzichtig moest zijn, maar ze lijken wel als een olifant in een porseleinwinkel rond te stompen.
https://archive.org/robots.txt
Sitemap: https://archive.org/sitemap/sitemap.xml

##############################################
#
# Welcome to the Archive!
#
##############################################
# Please crawl our files.
# We appreciate if you can crawl responsibly.
# Stay open!
##############################################


User-agent: *
Disallow: /control/
Disallow: /report/
Jammer, was vaak een goed alternatief om posts te lezen die door Redact vernietigd waren.
Reddit is volledig afgegleden naar een verzameling van AI posts. Content wordt elke paar maanden gerecycled, of met posts die steeds hetzelfde format gebruiken.

Maar niet alleen de posts, ook reacties eronder lijken deels door een AI gegenereerd te zijn.

Ik ben er volledig mee gestopt. Het was mijn crack, meerdere pogingen gedaan ermee te stoppen, maar nu hebben ze Reddit zo onaantrekkelijk gemaakt dat het niet eens interessant meer is.

Het was de enige social media waarvan ik gebruik maakte

[Reactie gewijzigd door Vexxon op 12 augustus 2025 10:54]

Ik heb reddit altijd super kut gevonden. Rare volgorde van comments, moderation lijkt af en toe willekeurig van, oh ik ben het niet met je eens dus comment deleted. Sowieso vind ik de pagina opmaak onlogisch.

Wordt er een reddit gemaakt die fat people hate heet, gaan ze dikke mensen uitlachen, exact wat je verwacht, is dat een paar jaar later wel ineens een probleem. Terwijl het toch niet bij wet verboden is om te doen.
Rare volgorde van comments
Dat kan je zelf instellen, maar het is vergelijkbaar met Tweakers, de 'beste' komt boven aan.
moderation lijkt af en toe willekeurig van, oh ik ben het niet met je eens dus comment deleted.
Ja maar dat is ook deel de kracht van Reddit. Buiten om de basis regels van Reddit zelf, hebben subreddits ook hun eigen regels. Dat gaat niet overal altijd even goed, maar brengt ook voordelen.
Wordt er een reddit gemaakt die fat people hate heet, gaan ze dikke mensen uitlachen, exact wat je verwacht, is dat een paar jaar later wel ineens een probleem. Terwijl het toch niet bij wet verboden is om te doen.
Regels mogen veranderen toch? Dat gebeurt overal, zelfs met de wet (Al is dat hier natuurlijk democratisch)
Subreddits zoals deze zijn toen verbannen door een nieuwe anti-harrasment policy.
https://www.theguardian.c...ment-policy-cyberbullying
Terwijl het toch niet bij wet verboden is om te doen.
Geen idee wat er exact in zo'n subreddit gebeurde, maar haatzaaien is in Nederland wel verboden.
Terwijl het toch niet bij wet verboden is om te doen.
Ik zou met die uitspraak oppassen want dit kan wellicht onder eenvoudige belediging vallen (in de Nederlandse wet), je tast toch echt het eergevoel van een persoon (gericht) aan door naam en toenaam te noemen (een foto oid). Vaak is dit bijna niet te bewijzen maar dit lijkt mij als leek toch een mooi voorbeeld van doelgericht werken met wat meer voeten in de aarde.
Zal vermoedelijk ook heel erg liggen aan de subs waar je komt. Ik zie het in ieder geval niet heel veel op de subreddits waar ik kom. Maar ik kan me voorstellen dat als je bijv. veel op subs komt over de Amerikaanse politiek op het moment, of bijv. Subs die Gaza / Israel bespreken dat het een stuk meer voorkomend is. Dat soort onderwerpen lijkt de AI slop echt aan te trekken, ook op andere sites.
Veel film subs, content werd over die verschillende subs gerecycled.

En het grappige over die politieke content, die hebben maandenlang geprobeerd uit mijn feed te krijgen door aan te geven het niet te tonen. Het bleef maar komen.

Dat was nog een reden om ermee te stoppen, te weinig controle over wat je wil zien, ze blijven het volgooien met rommel

[Reactie gewijzigd door Vexxon op 12 augustus 2025 12:04]

Op dit item kan niet meer gereageerd worden.