'Hadoop wordt makkelijker in gebruik'

Het Apache Hadoop-project wordt makkelijker in gebruik, zegt de ceo van HortonWorks. De nieuwe versie komt waarschijnlijk in het tweede kwartaal van volgend jaar uit en biedt ook betere schaalbaarheid en prestaties, stelt de ceo.

Hadoop Volgens HortonWorks-ceo Eric Baldeschwieler moet de nieuwe Hadoop-versie de drempel verlagen om de software te gebruiken, zo meldt InfoWorld.

Dat moet worden bereikt door tools toe te voegen waarmee de software kan worden uitgerold, beheerd en gemonitord, stelt Baldeschwieler, zonder al te gedetailleerd uit te weiden over de plannen. HortonWorks is het bedrijf dat door onder andere Yahoo is opgericht om het Apache-project Hadoop verder te ontwikkelen en ondersteuning te verlenen aan bedrijven.

De nieuwe Hadoop-versie verschijnt waarschijnlijk in het tweede kwartaal van volgend jaar, maar moet dit jaar al als bèta verschijnen. Naast meer gebruiksgemak moet de nieuwe versie betere schaalbaarheid bieden en zijn de prestaties verbeterd. Ook komt er een nieuwe laag voor gegevensbeheer, HCatalog, die tot betere compatibiliteit met andere tools moet leiden.

Hadoop is een opensource-softwareproject van de Apache Foundation voor distributed computing en biedt onder meer een eigen bestandssysteem dat het mogelijk maakt om gegevens gedistribueerd over een netwerk op te slaan. Ook zijn er subprojecten voor het verwerken van data, zoals Hive en MapReduce, en een tool voor het uitvoeren van parallele bewerkingen, genaamd Pig. Hadoop maakt gebruik van Java en wordt onder meer ontwikkeld door medewerkers van Facebook, Yahoo, LinkedIn en Twitter.

Reacties (17)

petertee 21 juli 2011 18:14

op de website van SARA (DE Nederlands supercomputer staat daar) staat ook een stuk http://www.sara.nl/project/hadoop
SARA heeft ook een Hadoopcluster staan. Zoals al eerder genoemd hierboven is het vooral nuttig voor veel data. Een bedrijf als SARA welke ook meedoen aan het grote LHC project http://www.sara.nl/bestcase/tier-1-collaboration-with-nikhef heeft heel veel data.

mrc4nl 21 juli 2011 15:02

apache hadoop gebruik je vooral om bestanden op te slaan, maar ook om terug te vinden.Het is een soort van file- management.ik heb er wel iets over gelezen, maar nooit gebruikt.
(wat moet ik ermee?)

Jammer dat in de tet niet staat in welke punter verbetering zijn gekomen, "makkelijker in gebruik" kan iedereen wel claimen.

bassekeNL @mrc4nl • 21 juli 2011 15:06

Hadoop is een map/reduce implementatie met bijbehorende tools (hdfs, hbase, pig etc). Om (relatief) snel hele grote hoeveelheden gegevens te verwerken. Het heeft niets met filemanagement te maken.

redfox314 @bassekeNL • 21 juli 2011 18:26

hdfs lijkt me wel met filemanagement te maken hebben. maar het punt van hadoop is uiteindelijk om meerdere computers te laten samenwerken om een grote set data te verwerken. Met een map/reduce techniek kan je bijvoorbeeld redelijk gemakkelijk en snel de pagerank van een set gelinkte pagina's te berekenen.
bvb: http://weblab.infosci.cornell.edu/papers/Chokkapu2008.pdf

Overigens was het in hadoop soms niet evident om bvb. een cluster op te zetten. Veel configuratie files etc. Als dat makkelijker wordt zou dat geweldig zijn.

[Reactie gewijzigd door redfox314 op 23 juli 2024 04:49]

Eagle Creek

@mrc4nl • 21 juli 2011 15:04

Leven dit soort projecten eigenlijk wel?

Apache heeft meerdere projecten, af en toe hoor je er eens wat van maar echt populair is het (in mijn ogen dan?) niet. Of zijn het echte nicheproducten die door bepaalde bedrijven worden ingezet?

[Reactie gewijzigd door Eagle Creek op 23 juli 2024 04:49]

Katsunami @Eagle Creek • 22 juli 2011 00:49

Leven dit soort projecten eigenlijk wel?

Ik kan me voorstellen dat veel producten van de Apache Foundation bij thuisgebruikers en zelfs bij tweakers simpelweg onbekend zijn. Zo te zien is Hadoop een project waarmee een gigantische hoeveelheid data beheerd kan worden, verdeeld over meerdere computers en locaties. Dat is voor thuisgebruik niet echt nuttig; wat heet een tweaker nou aan data thuis? 1TB? 4TB? 20TB? Dat zijn hoeveelheden waar datacenters om lachen.

Hetzelfde geldt voor dingen zoals Java Enterprise (niet van Apache, maar ze hebben wel de Tomcat server daarvoor). Zeer veel gebruikt in de professionele wereld, maar er is helemaal niemand die zijn persoonlijke website daarmee gaat opzetten. Dat wil niet zeggen dat een project niet leeft of niet belangrijk is.

Hetzelfde geldt voor de meeste software.

Wie kent er eigenlijk (buiten tweakers) andere besturingssystemen dan Windows, of misschien OSX? Echter, buiten de desktopcomputer, notebook en hier en daar een server draait er eigenlijk helemaal niks op Windows of OSX. Allemaal Unix, Linux, of Unix-alike.

Wie kent er andere tekstverwerkers dan Word of WordPerfect, behalve hier en daar iemand die OpenOffice kent? Thuisgebruikers gebruiken het, en in bedrijven wordt het gebruikt voor rapporten. (Daar wordt Excel ook gebruikt om tabelletjes en "databases" te maken...) Echter, als er écht werk verzet moet worden, dan wordt er naar LaTeX gegrepen. Er is -niemand- die een wetenschappelijk boek van 1000 pagina's in Word, of welke wysiwyg-tekstverwerker gaat schrijven (als zijn leven hem lief is).

[Reactie gewijzigd door Katsunami op 23 juli 2024 04:49]

jip_86 @Eagle Creek • 21 juli 2011 15:13

als twitter en facebook het gebruiken dan is het niet echt niche meer of wel. Het is vooral nuttig voor heel heel veel data.

dasiro @jip_86 • 21 juli 2011 15:39

een handvol bedrijven (hoe groot die ook zijn) is nog steeds een niche. net zoals mainframes en supercomputers een niche-markt zijn

mux

Servers

@Eagle Creek • 21 juli 2011 15:09

Onder Apache zitten een hoop projecten die deel uitmaken van wat er in allerlei webgerelateerde zaken op de achtergrond gebeurt. Goede kans dat je er dus niets over hoort als je niet in die kringen zit.

desmond @Eagle Creek • 21 juli 2011 15:49

Leven dit soort projecten eigenlijk wel?

Sanoma gebruikt het in voor clickstream-analyse voor nu.nl. Serieuze hoeveelheden data. Misschien is er iemand hier die meer van die implementatie weet?

Phoib @Eagle Creek • 21 juli 2011 17:05

Zeker dat dit soort projecten leven! Verbetering van het artikel, mapreduce is opgezet door google, later zijn andere partijen dit gaan gebruiken.

Het is vooral populair om grote hoeveelheden data te verwerken.

CWO @Eagle Creek • 22 juli 2011 10:07

Leven wel degelijk, kijk maar op:

http://wiki.apache.org/hadoop/PoweredBy

Apache @mrc4nl • 21 juli 2011 22:56

@mrc4nl: volgens mij ben je in de war met apache jackrabbit, een JCR (java content repository) implementatie.

Verder worden de apache spullen in de wereld waarin ik zit onnoemelijk veel gebruikt. Namelijk grote schaalbare java applicaties die veel transacties zo goed als mogelijk realtime moeten verwerken incl rapportering etc.

Nu word er in elk java project al wel snel gebruik gemaakt van apache libraries en software. Maar je mag zeker niet onderschatten hoe wijdverspreid dingen als dit toegepast worden. Gelukkig ook maar, anders zouden IT projecten nog veel meer tijd kosten moesten ze niet kunnen terugvallen op libraries als dit.

Gomez12 @mrc4nl • 21 juli 2011 19:17

Makkelijker in gebruik is bij dit soort software dan ook een heel makkelijke uitspraak.

Het is geen end-user software die een wizard bevat zodat je het binnen een half uurtje geinstalleerd hebt.

DIt is eerder enterprise-software waarbij het geoorloofd is om eerst 3 dagen training te moeten volgen voordat je het kan installeren.

erwinb 21 juli 2011 20:07

De storage laag en infrastructuur van Hadoop lijkt erg op die van Google. Google heeft het GFS, wat ook een gedistribueerd file systeem is, Hadoop is hierop geïnspireerd.
De meeste clusterd file systemen worden door het toevoegen van meer nodes traag, er komt meer overhead en er is vaak een master nodig voor centraal management. Denk hierbij aan, welk datablock is vrij en waar staat mijn file.
Hadoop heeft deze funktie ook gedistribueerd, waardoor het toevoegen van meer nodes resulteerd in meer performance.
Ook lijkt dit wat op OneFS van Isilon en PFS van IBM.
Hadoop werkt met een "block size" van 64MB (Chunks)

[Reactie gewijzigd door erwinb op 23 juli 2024 04:49]

Phoib @erwinb • 21 juli 2011 21:24

Je kan ook de blocks zelf gerepliceerd hebben, wat performance ook nog eens beter "kan" maken.

http://www.michael-noll.c...linux-multi-node-cluster/ is een erg leuke tutorial hiervoor

r.stanneveld 21 juli 2011 17:41

Zit er ook een tool in die troetelbeertje heet voor SSD's ?.
Wat een namen allemaal, lijkt wel een "My first sony"
HortonWorks.... Zeken fan van die tekenfilm... (ja dus)

http://www.pcworld.com/ar...a_new_hadoop_company.html

Op dit item kan niet meer gereageerd worden.

'Hadoop wordt makkelijker in gebruik'

Lees meer

Hadoop: raamwerk voor de grote jongens

Reacties (17)

Lees meer

Hadoop: raamwerk voor de grote jongens

Reacties (17)

Sorteer op:

Weergave: