Het zijn gouden tijden voor techneuten. Iedereen met veel voldoende kennis en vaardigheden, genoeg ambitie en niet te veel scrupules kan een prachtige internet-onderneming van de grond trekken. Voor wie groot denkt, is een standaard serverpark echter niet toereikend. Bedrijven als Google, Twitter en Facebook bewaren en bewerken enorme hoeveelheden gegevens. Zij gebruiken daarvoor meestal een parallel platform als Hadoop.
Hadoop is een opensourceproject van de Apache Foundation. Het is ontwikkeld voor distributed computing en biedt onder meer een eigen bestandssysteem dat het mogelijk maakt om gegevens gedistribueerd over een netwerk op te slaan. Ook zijn er subprojecten voor het verwerken van data, zoals Hive en MapReduce, en er is een tool voor het uitvoeren van parallelle bewerkingen die Pig is genoemd. Hadoop maakt gebruik van Java en wordt onder meer ontwikkeld door medewerkers van Facebook, Yahoo, LinkedIn en Twitter.
Net voor de jaarwisseling verscheen versie 1.0, maar begin vorig jaar won het platform al de eerste prijs bij de MediaGuardian Innovation Awards. De jury legde daarbij vooral de nadruk op het belang voor innovatieve bedrijven als Twitter en Facebook.