Tp big data (hadoop)
2974 mots
12 pages
TP Big Data (Hadoop) Pré-requis:
● Distribution GNU/Linux moderne.
● Java (version Sun ou OpenJDK).
La documentation de l'API Hadoop: https://hadoop.apache.org/docs/
On commence par créer le groupe et l'utilisateur qui seront spécifiques à Hadoop:
# addgroup hadoop
# adduser --ingroup hadoop hadoopuser
# adduser hadoopuser
On télécharge ensuite Hadoop, en l'installant dans un répertoire au sein de /opt: (remplacer l'URL par un des miroirs et ajuster le numéro de version)
# wget http://MIROIR/hadoop/hadoop-X.Y.Z.tar.gz …afficher plus de contenu…
Le démarrer avec les commandes: $ start-dfs.sh
$ start-yarn.sh
Hadoop est développé en Java. Les tâches MAP/REDUCE sont donc implémentables par le biais d'interfaces Java (il existe cependant des wrappers très simples permettant d'implémenter ses …afficher plus de contenu…
Là aussi, on utilise les types de données propres à Hadoop.
Au sein de la classe Reducer, c'est la fonction reduce qui va effectuer l'opération REDUCE. C'est la seule qu'on doive implémenter.
Elle prend trois arguments: la clef concernée, un Iterable java (une liste) de toutes les valeurs qui lui sont associées et qui ont été renvoyées par l'opération MAP, et enfin un objet Context java similaire à celui de la fonction map de la classe Mapper, et qui nous permettra de renvoyer notre valeur finale, associée à la clef.
Dans notre exemple, la déclaration de la fonction reduce: public void reduce(Text key, Iterable<IntWritable> values, Context