Google heeft enkele interne protocollen voor het uitwisselen van verschillende typen gestructureerde data opensource gemaakt. Het bedrijf hoopt dat anderen de technologie ook gaan gebruiken.
Google gebruikt intern duizenden verschillende soorten dataformats voor het uitwisselen van gegevens tussen onder andere servers, indexrecords in repositories en datasets die op verschillende geografische locaties zijn opgeslagen. De meeste van deze data wordt in gestructureerde vorm aangeboden en is dus geen platte tekst, aldus Kenton Varda, die als software-engineer bij Google werkt.
Xml zou als bestandsformaat een oplossing kunnen bieden, maar doet dat niet omdat deze bestanden te groot zouden zijn. Het verwerken kost daardoor te veel tijd en rekenkracht. Google heeft daarom een eigen interface description language ontwikkeld die de informatiegigant protocol buffers noemt.
Door protocol buffers te gebruiken hoeft slechts eenmaal te worden gedefinieerd hoe de data is gestructureerd. Met behulp van enkele meegeleverde classes kan de gecomprimeerde, gestructureerde data worden ingelezen en weggeschreven naar verschillende datastreams. Volgens Google zijn de nieuwe databestanden gemiddeld drie tot tien keer kleiner dan xml-bestanden en worden ze twintig tot honderd keer sneller verwerkt.
Google zegt de komende maanden meer van zijn interne software opensource te maken. Omdat nagenoeg al die software gebruik maakt van de protocol buffers heeft Google besloten deze als eerste vrij te geven. Welke software volgt en wanneer dat is, heeft het bedrijf niet bekendgemaakt. Wie met de nu reeds vrijgegeven software aan de slag wil kan zich uitleven op de betreffende projectpagina.