Internet Archive gaat publieke Google+-posts opslaan

Het Internet Archive, bekend van de Wayback Machine, gaat publieke Google+-posts opslaan om later te kunnen terugzoeken. Google haalt zijn sociale netwerk binnenkort offline. Ook The Archive Team gaat posts back-uppen.

De archiveerdiensten gaan alleen publieke posts en reacties opslaan, waarbij er een maximum is van vijfhonderd reacties per post. Bovendien komen afbeeldingen en video's niet op volledige resolutie in het archief, zeggen beide diensten.

Archiveerdiensten willen Google+ nu back-uppen, omdat het sociale netwerk binnenkort van internet verdwijnt. Inhoud verdwijnt vanaf 2 april van de site, meldde Google eerder. Google+ kwam uit in de zomer van 2011 en is sinds die tijd online geweest.

Beide diensten stellen hun archieven kosteloos beschikbaar. Internet Archive roept op tot donaties, terwijl bijdragen aan The Archive Team kan door het draaien van Warrior, een tool die in een virtuele machine draait en pagina's opslaat voor in het archief.

Google+, maart 2019

Door Arnoud Wokke

Redacteur Tweakers

18-03-2019 • 07:52

26

Reacties (26)

26
26
16
1
0
8
Wijzig sortering
If you don't want this to happen, you can request removal of specific items through the Internet Archive's procedure: https://help.archive.org/...-item-page-from-the-site-
The Wayback Machine is natuurlijk geweldig.

Wat ik me wel afvraag (al ben ik geen Google+ gebruiker - puur nieuwsgierigheid) is hoe ze later data van een bepaalde gebruiker op verzoek gaan verwijderen. Wordt alles in statische HTML opgeslagen (door middel van HTTrack of iets dergelijks)? Dan lijkt me dat een behoorlijke taak om zo pagina's aan te gaan passen.

Het gaat dan wel om publieke informatie, maar als je nu veel posts hebt op verschillende plaatsen op Google+ (comments, posts etc.) kan dit na afloop op verzoek eenvoudig verwijderd worden?
Het recht om vergeten te worden gaat een interessante worden. Alle gearchiveerde websites worden vermoedelijk in een WARC bestand opgeslagen. HTTrack maakt een 'file-copy' van een website op basis van een filestructuur. WARC bestand is als een (database) container waarin alle bestanden in worden opgeslagen. Simpelweg verwijderen kan (bijna) niet omdat dit de integriteit en authenticiteit van het archiefbestand in gevaar brengen. Archiveren (iets duurzaam opslaan voor toekomstig hergebruik dmv emulatie, conversie, migratie) betekend iets anders dan bewaren (iets opslaan zonder duurzaamheidsaspecten in ogenschouw te nemen) }:O
Ookal ben ik het compleet met je eens, zie ik dit zelf niet als een extreem groot probleem. Ik zoek wel eens naar gearchiveerde dingen (voornamelijk een forum waar ik in het verleden moderator was), en ik merk dat je bijna nergens komt zonder de url waar dit stond.

Met andere woorden bedoel ik te zeggen, het is best moeilijk om iets dat gearchiveerd te vinden als je niet weet waar het staat.
Dit hangt met name af van de viewer dit wordt gebruikt. In theorie kun je best goed een WARC bestand doorzoeken en informatie beschikbaar stellen. Echter ontbreken (naar mijn beeld) goede WARC viewers.

Leuk om te weten (en waar nog nooit op tweakers aandacht voor is geweest) is dat de overheid nu verplicht is om te voldoen aan een richtlijn voor webarchivering en dat WARC formaat hier de norm is.
Ik ga hier eens wat onderzoek naar doen. Ik gebruik ze al erg lang en heb eigenlijk geen idee hoe het technisch werkt. Iets dat ik wel altijd wil weten
terwijl bijdragen aan The Archive Team kan door het draaien van Warrior, een tool die in een virtuele machine draait en pagina's opslaat voor in het archief.
Ik vraag me af wat de toegevoegde waarde is als lezer dat hun software in een "Virtuele Machine" draait.

Volgens wikipedia: "Een virtuele machine is een computerprogramma dat een computer nabootst, waar andere programma's op kunnen worden uitgevoerd."

Dus het programma Warrior draait in een omgeving waar een computer word nagebootst?
Ik kan het mis hebben, aangezien ik zelf niet bekend ben met de website, maar zoals ik het lees kan je hun helpen door zelf een vm te hosten met Warrior, waardoor je dus eigenlijk een deel van de content host. Please correct me if I am wrong.

Edit: Van de wiki
The Archive Team Warrior is a virtual archiving appliance. You can run it to help with the ArchiveTeam archiving efforts. It will download sites and upload them to our archive — and it’s really easy to do!
The warrior is a virtual machine, so there is no risk to your computer. The warrior will only use your bandwidth and some of your disk space. It will get tasks from and report progress to the Tracker.

[Reactie gewijzigd door Lagonas op 23 juli 2024 02:40]

Lichtelijk off-topic, maar ik kan me helemáál niet vinden in de volgende zinsnede uit die wiki:
The warrior is a virtual machine, so there is no risk to your computer.
Spectre, Meltdown, Spoiler, kwetsbaarheden in VM oplossingen waaronder recentelijk ook Docker geven er helaas allemaal aanleiding toe elke executie van code, onder welke omststandigheden dan ook, die op één fysieke processor architectuur plaatsvinden te wantrouwen.

De kans op problemen met het draaien van Warrior zal misschien meevallen, omdat actieve misbruikers zich doorgaans richten op grote of zeer belangrijke doelgroepen. Maar als een fysieke processor bijv. kwetsbaar is voor Spectre, dan maakt het- zoals ik het begrijp- niet meer uit of men een VM gebruikt of niet.
Spectre, Meltdown, Spoiler, kwetsbaarheden in VM oplossingen waaronder recentelijk ook Docker geven er helaas allemaal aanleiding toe elke executie van code
Docker is geen VM oplossing. Containers do not contain. De code draait nog steeds onder dezelfde Linux kernel als het host OS, zonder virtualisatielaag.
Super, dat is inderdaad een cruciaal onderscheid. Docker wordt ook in de cloud gebruikt, maar inderdaad, de containerization op Linux (en ook Windows 10) behoeft niet de overhead van een virtuele machine.

Hier nog een interessant artikel over de opzet van Docker en de voor- en nadelen daarvan.

Echter, nemend uit dat artikel zie ik helaas deze 'aanname' (die er van uit gaat dat Spectre, Meltdown, Spoiler, en waarschijnlijk nog niet gedocumenteerde andere soorten side-channel attacks niet bestaan.)
A malicious process inside of a container will not be able to access the memory of any other process outside of that container.
Namelijk juist dit, een kern-onderdeel van multi-user operating systems is wat er bij Spectre e.d. misgaat. Men kan dingen uit het geheugen ontfutselen, weliswaar met veel moeite, en dat probleem bestaat op de -2 Ring, waardoor het niet mogelijk is om dit echt correct op te lossen voor een OS, drivers, virtualisatie of wat dan ook.

[Reactie gewijzigd door Alienus op 23 juli 2024 02:40]

Zolang Spectre, Meltdown en dergelijke bestaan en je hardware daar gevoelig voor is, is er toch eigenlijk niets 100% veilig?

En als er updates voor komen die dit dichttimmeren, dan zijn eventuele virtuele machines toch ook veilig?

Even kort door de bocht maakt het dan toch weinig verschil?
En als er updates voor komen die dit dichttimmeren
Dat is dus het probleem, er zijn geen updates die dit dicht kunnen timmeren, het is een hardwarematig probleem en alle patches zijn mitigaties; ze lossen de problemen niet volledig op, en verminderen doorgaans de performance.

Kortom; om terug te komen op waar ik op agreerde; "no risk to your computer" is dus niet waar, in ieder geval, niet wanneer je op een moderne Intel draait, en ook bij AMD's recente processors zijn sommige side channel attacks van toepassing.
OK, maar dat geldt dan toch voor alles wat je met je computer doet / elk programma wat je draait. Dit programma maakt het niet gevaarlijker dan een ander programma zou doen.
Inderdaad, precies daarom ageer ik dus op die zinsnede; het gaat hier om software die het web crawlt en dus potentieel tegen alles aan loopt waar je maar tegen aan kan lopen. Misschien is het slechts een kwestie van tijd voordat er een keer malware op een website zit die uit VMs kan ontsnappen op bijv. Intels, of AMDs. Ook daar kun je dan weer voor patchen, maar dan ben je feitelijk op dezelfde manier bezig als met anti-virus software, maar dan op kernel niveau, en dat is niet zo hip/snel te doen.
Niet het hosten van de content, maar het verzamelen er van. Het zogenaamde 'crawlen'.
Kost gelukkig niet veel werk en ruimte, alle 25 G+ posts staan er zo op ;)
Kost gelukkig niet veel werk en ruimte, alle 25 G+ posts staan er zo op ;)
Ik denk dat je erg onderschat hoeveel mensen het echt gebruikt hebben. Ik heb het meerdere jaren gebruikt bij bepaalde conmunities, en alles was erg actief. Het was enkel simpelweg niet genoeg, en hele slechte keuzes zijn gemaakt door Google.
Ik denk dat je het grapje van @dakka niet snapt.
Google Plus is inderdaad best veel gebruikt, maar nooit zo als Facebook. Het is alom bekend dat Google er niet veel succes mee had. En het, net als talloze andere producten, niet succesvol heeft kunnen maken voor de massa. Zoals dat bijvoorbeeld bij Gmail wel lukte.
Volgens mij is de focus bij Google een beetje zoek. Willen ze te snel cashen en weinig moeite steken om hun producten tot een succes te maken.
Privacy zal bij Google (anders dan bij Facebook) nog minder een probleem zijn, schat ik in.
Nee hoor, ik snap hem zeker. Zie hem enkel op hetzelfde level als Bing grapjes. Dat is ook een woestijn met 2.000.0000.000+ omzet
Ik denk dat Gmail wel een succes is omdat G heel goed is in het filteren van spam en dat is weer omdat ze zo ongeveer het beste zij in het sorteren / op waarde indelen van data.

Gratis e-mail accounts zat maar goed spam filteren doen ze lang niet allemaal.

Bij G+ hadden ze al zo’n achterstand toen ze begonnen en boden ze niet iets superieurs qua puur social media platform of chat dus die strijd was redelijk kansloos.

Waardevolle elementen zijn wel gebleven, zoals recensies en foto’s bij Maps.
Anoniem: 457607 @iAR18 maart 2019 23:44
Inderdaad, alhoewel ik niet zou zeggen dat Google de focus kwijt is, ze leggen de lat echter te hoog. Ze zijn alleen geinteresseerd in het voortzetten van een produkt indien het echt de winnaar is en domineert, anders gaat de boel gewoon uit.

Google+ is daar een ultiem voorbeeld van. Ondanks alle grappen en grollen had deze dienst op zijn piek maar liefst 300-500 miljoen maandelijks actieve gebruikers, afhankelijk van wie je geloofd. Dat is geen kattepis. Dat is gewoon een van de grootste internet communities ter wereld.

Maar dat is blijkbaar niet goed genoeg voor Google. Dus laat men het afsterven. Inmiddels heeft men dit zo vaak gedaan met relatief goed lopende diensten dat het beeld van Google wel begint te kantelen lijkt me. Waarom nog uberhaupt energie in welk Google produkt dan ook steken met deze wisselvalligheid.
Ik vraag me echt af of het dat is of wat anders.
Waren die niet voornamelijk aangemaakt omdat het op youtube een tijdje verplicht was om een G+ account te hebben om reacties te kunnen plaatsen? Het aantal profielen zegt niets over het daadwerkelijk aantal actieve gebruikers. En om eerlijk te zijn ben ik nog nooit ergens op internet verwijzingen naar een G+ profiel tegen gekomen, afgezien van al die bedrijfjes die er een pagina hadden aangemaakt als promotiemiddel en wanhopig op zoek waren naar mensen die het wilden bezoeken door het te linken in hun footer. Ik ken ook niemand in mijn omgeving die het gebruikt heeft. Helemaal niet vreemd dat ze er mee stoppen...
Is google wel zo'n betrouwbaar bedrijf? We zien microsoft-kuren. Niks is nog zeker. Wil u met zo'n bedrijf in zee gaan?
Ik niet.

Op dit item kan niet meer gereageerd worden.