Google bevestigt echtheid van uitgelekte documentatie over Search

De 2500 pagina's aan interne documenten over hoe Google Search bepaalt hoe hoog websites in de zoekresultaten komen, zijn echt. Dat heeft Google bevestigd. De documentatie werd eerder deze week buiten Google om openbaar gemaakt.

Seo-specialist Rand Fishkin deelde het lek eerder deze week, nadat een bron de 2500 pagina's met hem had gedeeld. In de documenten wordt uiteengezet hoe de Search-api van Google werkt en welke informatie beschikbaar is. Zo wordt erin beschreven wat voor soort data Google verzamelt en gebruikt, welke websites naar boven worden gehaald voor gevoelige onderwerpen als verkiezingen en hoe het met kleine websites omgaat. Wel gaat het om een oudere versie van de api.

Volgens Fishkin blijkt daaruit dat Google in het verleden niet eerlijk is geweest over hoe de zoekmachine precies werkt. Zo werd eerder gezegd dat er geen Chrome-data gebruikt wordt om te bepalen waar een website in de zoekresultaten terechtkomt, maar in de documentatie staat dat dergelijke data wel gebruikt wordt.

Google laat tegenover The Verge weten dat de documenten echt zijn, maar waarschuwt voor het doen van 'onjuiste aannames over Search'. De woordvoerder stelt dat de documenten belangrijke context missen en benadrukt dat het om een oudere versie van de api gaat. "We hebben uitgebreide informatie gedeeld over hoe Search werkt en de soorten factoren die onze systemen meewegen, terwijl we ook werken aan het beschermen van de integriteit van onze resultaten tegen manipulatie.”

Door Eveline Meijer

Nieuwsredacteur

30-05-2024 • 08:58

48

Reacties (48)

48
48
35
0
0
11
Wijzig sortering
Ik denk niet dat als je 2500 pagina's aan content hebt, dat het dan "context mist". Dit is exact hoe grote bedrijven werken en het laat zien dat ze gewoon niet eerlijk zijn tegen de consument.
'Eerlijk'? De gemiddelde mens is al niet eerlijk naar elkaar, waarom zou een bedrijf, waar een hoop mensen werken, opeens wel 'eerlijk' zijn naar de producten/klanten toe? Het beste dat je kan verwachten van een bedrijf is dat ze opereren binnen de regels van de wet. Iets anders verwachten is naïef.

En dit zijn echt niet alleen grote bedrijven, dit zijn ook zat kleine bedrijven.

Je kan een 'feit' op verschillende manieren presenteren: Een glas is half vol, een glas is half leeg, het glas is niet leeg, het glas is niet vol, er zit wat in het glas, er zit water in het glas, er zit geen whiskey in het glas, etc.

Google presenteert data intern op een bepaalde manier en Google presenteert data op een andere manier naar de rest van de wereld.

Daarnaast presenteert de seo-specialist de Google data ook weer op een andere manier.

Wellicht dat geen van allen liegt, maar hoe ze ieder iets presenteren is iets heel anders. En elke partij heeft andere prioriteiten en maakt natuurlijk ook fouten. Dat geld ook voor de Tweakers.net artikel auteur.

Een voorbeeld:

Tweakers.net artikel:
Seo-specialist Rand Fishkin...
Het bron artikel:
Before we go further, a few disclaimers: I no longer work in the SEO field. My knowledge of and experience with SEO is 6+ years out of date. I don’t have the technical expertise or knowledge of Google’s internal operations to analyze an API documentation leak and confirm with certainty whether it’s authentic (hence getting Mike’s help and the input of ex-Googlers).
Is iemand die al zes jaar niet meer werkt in een specialisme, nog steeds een specialist?

Dergelijke info zal vast en zeker worden doorgespit door verschillende overheidsinstanties, zal moeten worden getoetst op toen geldende regels en de huidige regels. En zal uiteindelijk moeten worden beslist door een rechter of hier iets wel of niet door de beugel heen kon.
Maar wel of niet gebruiken van bepaalde data is niet ambigu te interpreteren; dat is een ja of nee antwoord wat je verwacht.
Gebruikt u de gegevens uit de browser om mij te tracken? Hoe interpreteer je hier 'tracken', als in 'volgen'?

Nee we gebruiken de gegevens uit de browser niet om u te tracken(volgen). [Maar de gegevens worden gebruikt om een uitgebreid profiel op te bouwen.]

Er is nooit 1 waar antwoord op een vraag, zo werkt dat alleen maar op school. Het ligt er aan hoe de vraag wordt gesteld, hoe die wordt geïnterpreteerd, hoe het antwoord wordt opgesteld en hoe het antwoord wordt geïnterpreteerd. Daarnaast nog eens hoe de vragen beantwoorder de data heeft gekregen en heeft geïnterpreteerd.

Hoeveel verkopers hebben bv. daadwerkelijk diepgaande inhoudelijke kennis van het product? En zeker in grote bedrijven waarbij kennis over heel veel vlakken gaan tussen input en output is vaak heel lang en op bepaalde lagen de algemeen geaccepteerde waarheid is, hoeft niet de werkelijkheid te zijn. Daar zit meestal geen opzet in, maar gewoon kennis overdracht die gecorrupteerd wordt. Zoals in het bron artikel vermelde ex-Googlers die deze documenten nog nooit hebben gezien en/of daar geen directe toegang tot hadden.
Er zijn wel meer plekken waar zo’n vraag en antwoord bestaan hoor. De rechtszaal is er zo eentje.
Daar interpreteert een rechter. En kan een andere rechter iets anders oordelen.
Weet je wie ook niet eerlijk zijn? SEO specialisten.

Het is eigenlijk diep triest dat een bedrijf voor veel geld iemand in huurt om op de eerste pagina van een search engine te komen.
Dan krijg je een kat en muis spel waar consumenten niks mee opschieten.

Misschien is dit nostalgie hoor maar vroeger keek je in de gouden gids bij de L naar loodgieters.

Maar goed hoe de FUCK bepaal je op een volstrekt eerlijke manier welke loodgieter er tevoorschijn komt na een search query? Iedereen loopt de boel te bedotten want geld.
Misschien is dit nostalgie hoor maar vroeger keek je in de gouden gids bij de L naar loodgieters.
Daar haal je wat aan, de Gouden Gids waren vroeger ook nogal wat nare verhalen over in omloop...
En toen waren er bedrijven die namen kozen met 'aa' aan het begin. Zo had ik rijles bij Aahaa rijschool. De eigenaar vertelde ook dat ze zo heette om bovenaan te komen.
Als je jaren aan zoekmachine-optimalisatie gewerkt hebt, weet je nog steeds honderd keer meer van het onderwerp dan iedereen, behalve hooguit iemand die er nu nog actief mee bezig is.

Heb je het stuk überhaupt gelezen? Want juist iemand die wat meer van de geschiedenis van Google / seo weet, kan deze tekst beter naar waarde schatten, aangezien de informatie jarenlang teruggaat.

Daarnaast zie ik niet wat dit afdoet aan de vrij duidelijke hoofdconclusies.
'Eerlijk'? De gemiddelde mens is al niet eerlijk naar elkaar, waarom zou een bedrijf, waar een hoop mensen werken, opeens wel 'eerlijk' zijn naar de producten/klanten toe? Het beste dat je kan verwachten van een bedrijf is dat ze opereren binnen de regels van de wet. Iets anders verwachten is naïef.
Daar heb je op zich wel een punt. Maar het is natuurlijk een zeer slechte zaak dat je zo'n grote partij als Google niet vertrouwen kan & dat terwijl ze wereldwijd wel een enorme invloed hebben op jouw privacy. Gelukkig liggen ze in de EU wel continu onder een vergrootglas & krijgen dan ook regelmatig sancties opgelegd als ze zich niet aan de wet houden.

Ik heb serieus een paar keer overwogen om alles te de-Googlen, maar helaas kunnen we amper meer om Google heen, zelfs het betalingsverkeer loopt tegenwoordig via hun in NL, aangezien veel grote banken geen eigen contactloos betalen meer aanbieden, maar dit via Google doen.
'Eerlijk'? De gemiddelde mens is al niet eerlijk naar elkaar, waarom zou een bedrijf, waar een hoop mensen werken, opeens wel 'eerlijk' zijn naar de producten/klanten toe? Het beste dat je kan verwachten van een bedrijf is dat ze opereren binnen de regels van de wet. Iets anders verwachten is naïef.
omdat die communicatie ook afgetoetst is aan de wet? Als je A zegt, maar B doet, dan heet dat misleiding en zoiets kan strafbaar zijn
Ja vind het zelf ook maar vreemd. Zelfs al is het zoals ze zeggen een "oudere api" denk niet dat dat 2500 paginas aan wijzingen heeft :P
De 'context' die je mist is dat je niet weet hoe bepaalde APIs gebruikt worden, dus dat je niet kan zeggen, Google doet X want er 1 een specifieke API die Y kan.
Het kan best zijn dat er bepaalde APIs zijn die specifiek voor bepaalde landen gebouwd zijn, of een korte periode gebruikt om tot de conclusie te komen dat ze (in de huidige) vorm niet werken, en dus niet gebruikt worden. Of dat ze die API enkel voor specifieke groepen (werknemers, onderzoeksgroepen) toepassen.

Neemt niet weg dat het overgrote deel van wat er in staat ook in productie gebruikt zal worden natuurlijk.
Dat is alvast om in te dekken als er conclusies getrokken worden die nogal gevoelig zijn.
Het gebrek aan context gaat niet over die 2500 pagina's.
Het gaat over de vergelijking tussen 'er was ooit gezegd dat' en 'er staat ergens iets anders' zonder dat dat gespecificeerd wordt.

Ik kan best begrijpen dat je Google of grote bedrijven wantrouwt maar vage uitspraken van een onbekende klakkeloos aannemen als bevestiging van je eigen vooroordelen om dan meteen maar grote bedrijven in het algemeen te beschuldigen is veel te makkelijk.

Waarom je niet afvragen wat er precies is gezegd en in welke context en wat er in de documenten staat en in weke context?
Dan zou het vrij snel duidelijk moeten worden of Google 'oneerlijk' is geweest.
"dat het om een oudere versie van de api gaat" oftewel geloof niet wat er staat en we doen het nu allemaal wel correct. Heus hoor!!!
Dat kan toch, als het echt om een oudere versie gaat, kan betekenen dat de nieuwe versie compleet anders is. En dan die 2500 paginas aan info eingelijk niet meer relevant is. Want ze kunnen het drastisch aangepast hebben.

Daarnaast zullen ze nu intern nog beter op hun hoede zijn, en de documentatie nog beter beveiligen.
En ook kijken wie die persoon intern is, en als ze die vinden, hij nergens meer terecht kan.
... kan betekenen dat de nieuwe versie compleet anders is. En dan die 2500 paginas aan info eingelijk niet meer relevant is.
Maar dat is het wel:
Volgens Fishkin blijkt daaruit dat Google in het verleden niet eerlijk is geweest over hoe de zoekmachine precies werkt. Zo werd eerder gezegd dat er geen Chrome-data gebruikt wordt om te bepalen waar een website in de zoekresultaten terechtkomt, maar in de documentatie staat dat dergelijke data wel gebruikt wordt.
Het melden van dat belangrijke context mist, is denk ik een manier om proberen verdenkingen af te zwakken.
Feit blijft dat Google op het eind van het verhaal extreem veel van ons verzamelt. Daarom is het ook zo slecht dat we zoveel Android gebruiken bijvoorbeeld. Bij Android is het zoals in je broek plassen in de winter: je moet wel om warm te blijven. Maar na vijftien jaar stinkt het wel behoorlijk.
Het melden van dat belangrijke context mist, is denk ik een manier om proberen verdenkingen af te zwakken.
Eigenlijk moeten ze voor de grap een onafhankelijke audit doen op het proces, dan kunnen ze gelijk het tegendeel bewijzen.
Wie is "ze"?
De overheid?
Die wordt op voorhand al afgekocht door Google, zelfs voordat er problemen zijn ontstaan.
Een bedrijf kan toch een onafhankelijk bedrijf raadplegen voor een audit? Dus in dit geval is "ze", Google LLC en/of Alphabet Inc.

https://nl.wikipedia.org/wiki/Auditing
Het melden van dat belangrijke context mist, is denk ik een manier om proberen verdenkingen af te zwakken.
Waarschijnlijk, maar we moeten ook geen voorbarige conclusies trekken. Zo kan deze documentatie al zeer oud zijn en van ver voor het moment dat Google aan gaf dat het geen data verzamelde via Chrome. Daarnaast is er een groot verschil tussen data verzamelen en data gebruiken. Uit dit artikel wordt het bijvoorbeeld niet duidelijk of Google data uit je Chrome installatie downloadt en opslaat (verzamelen), of dat er eenmalig naar wordt gekeken bij elke zoekopdracht zonder dit op te slaan (gebruiken).
Over het algemeen herschrijf je api's niet als het niet nodig is en waarschijnlijk ben je drukker met het toevoegen van features dan het verwijderen ervan. Ik zou Google hier niet het voordeel van de twijfel geven.
Google bevestigd alleen dat de documentatie echt is, maar dat deze verouderd is en context mist. Een hele logische verklaring.

De conclusie die jij nu trekt dat ze hiermee bedoelen dat er niets aan de hand is lijkt mij erg overdreven.
Dat is een standaard antwoord, damage control.
Het kans is enorm groot dat de "huidige api" quasi exact hetzelfde werkt.
Het is niet zo dat Google veel grote wijzigingen doet. Enkel een beetje tweaken.
Klopt, maar ik denk niet dat ze hiermee bedoelen dat ze nu wél alles correct doen.
Volgens Fishkin blijkt daaruit dat Google in het verleden niet eerlijk is geweest over hoe de zoekmachine precies werkt. Zo werd eerder gezegd dat er geen Chrome-data gebruikt wordt om te bepalen waar een website in de zoekresultaten terechtkomt, maar in de documentatie staat dat dergelijke data wel gebruikt wordt.
Ik denk oprecht dat het per definitie geen fluit uit maakt in welk digitaal eco systeem je tegenwoordig zit.
Of je nu full blown in het Microsoft kamp zit, of bij Google, Apple etc... of een mix van deze techreuzen
Zodra jij diensten van ze gebruikt, gebruiken ze je data. Ook al beweren ze anders.
Als je nu aan de hand van dit bericht ineens de ogen open gaan, dan ben je gewoon extreem naïef..

We worden gemolken, geanalyseerd en geprofileerd om alles wat we online doen.
Ik zelf kan helaas ook niet om Windows heen vanwege werk. Apple ben ik persoonlijk geen fan van en gebruik ik niet. Google daarentegen gebruik ik veelvuldig, Gmail, Youtube en een gekoppeld account op mijn Android based Samsung telefoon.

Het gemak, gecombineerd met het feit dat diensten ook veelal "gratis" zijn maakt volgens mij dat je zelf ook op je vingers na moet gaan dat er addertjes onder het gras zitten.
We zijn voor deze bedrijven gewoon geld en kennis.

[Reactie gewijzigd door Dograver op 22 juli 2024 21:25]

Dus jij zegt eigenlijk dat al die diensten die we gebruiken niet echt gratis zijn? :-D

Allemaal aan de Gmail, lekker gratis.. maar ondertussen hebben ze een profiel van je opgebouwd van heb ik jou daar...
Kijk eens wat MS doet en daar betaal je nog voor ook!
Dat heb ik ook met tegenwoordige EV's. Zijn eigenlijk smartphones op wielen. Had mijn iX1 net 2 weken en moest al 2x updates doen. Verborgen in de menu's zit een hoop mogelijkheden om gedeelde data te blokkeren of door te laten. Natuurlijk staat alles default op ON.
Voor die wagen betaal je ook - gelukkig een lease in mijn geval. Denk dat ze de waarde vd data hadden kunnen aftrekken vd aanschafprijs.
Altijd opletten als mensen zeggen dat je ze op hun blauwe ogen moet geloven. Helemaal als "oude" documenten aangeven dat ze het niet te nauw namen en nu iets mompelen over "oud" en "context".

Overigens, als ik zie wat voor bagger/niet relevante advertenties ik voorgeschoteld krijg dan is die hele gebruiker analyse-tracking een lachertje. Er zijn mensen die er nog geld aan verdienen ook. Als ze random advertenties zouden plaatsen lijkt mij de kans groter dat er eentje relevant zou zijn groter.

Google Search is ook steeds slechter. Het verwijst door naar "de bekende" webshops. Ik hoef niet meer te weten dat apparaat X op AliE of Bol te koop is. Daar kijk ik standaard al naar. Dat politicus Y zo nodig iets moet zeggen op de socials is ook al lang bekend. Goede informatie verdwijnt steeds meer achter een paywall en sommige AI gegenereerde bagger sites krijgen een hoge positie in Google Search.
Voor die AI gegenereerde reut is in maart een enorm grote (spam) update gedaan door Google. En deze had behoorlijk impact bij veel bedrijven. Dus waarschijnlijk heb je daar minder last van sindskort ;-) https://blog.google/produ...search-update-march-2024/
@EvelineM uitgaande van de versie van ExDoc (onderaan) die gebruikt is (v0.31.2) en de datum van die release-tags op GitHub, is de documentatie tussen de twee en drie maanden oud.

Gaan we er van uit dat het team van Google hun libs automatisch update, dan gaat het om informatie tussen 5 maart en 10 april 2024.

Tenzij de informatie bron zelf de ExDoc gegenereerd heeft op oudere informatie natuurlijk.
De informatie is inderdaad in die periode op GitHub verschenen. Maar Fishkin zegt zelf dat de informatie waarschijnlijk van een oudere versie is: "The most recent date I can find referenced in the API docs is August of 2023." Verder is nergens te bevestigen dat het om een meer recente versie van de API docs gaat. Dus de informatie zelf is waarschijnlijk ouder, maar dus onlangs online verschenen.
Leuk om te zien dat Google intern ook Elixir gebruikt hiervoor 💪
Wel mooie timing van Rand. Zo in d ebuurt van die rechtzaak en het AI search debacle.
Kan iemand het document even door Gemini gooien en een samenvatting maken zodat ik weet waar ik op moet letten voor SEO?

Of natuurlijk Gemini de teksten laten schrijven met het doc als context voor SEO.. O-)
Dit document gaat nu dus helemaal uitgemolken worden door SEO-bedrijven die zeggen het geheim van Google te kennen en je bovenaan de lijst te kunnen krijgen tegen X bedrag. Of door oplichters die in korte tijd zo snel mogelijk hoog willen scoren.
Ik heb dit nu al gezien op tiktok :'(
Als je reageert op mensen die je op tiktok van alles aan kastelen beloven roep je het ook wel over een beetje over jezelf af.

[Reactie gewijzigd door Polderviking op 22 juli 2024 21:25]

Volgens Fishkin blijkt daaruit dat Google in het verleden niet eerlijk is geweest over hoe de zoekmachine precies werkt. Zo werd eerder gezegd dat er geen Chrome-data gebruikt wordt om te bepalen waar een website in de zoekresultaten terechtkomt, maar in de documentatie staat dat dergelijke data wel gebruikt wordt.
Dit is toch geen verrassing? Ga er maar vanuit dat Google ALLE datapunten gebruikt die ze kunnen pakken. Voor de bühne doen ze alsof ze heel braaf zijn, maar lekt het uit dan is het "sorry", en dan is de kous af.

Op dit item kan niet meer gereageerd worden.