Cet enseignement porte sur la problématique du traitement des données massives. Il a pour objectif d'introduire les technologies de l'éco-système Hadoop. Après une brève introduction des langages de script orienté donnée (AWK), ce cours aborde le système de fichier HDFS (interface en ligne), le patron de conception MapReduce. Sont également étudiés le langage de manipulation de flot de données Pig Latin, le langage d'interrogation des données HiveQL et le framework de calcul distribué Spark.