Si vous souhaitez simplement vous familiariser avec les principes de base d'Hadoop, c'est-à-dire savoir comment accéder à la base de données Hadoop. Système de fichiers distribués Hadoop (HDFS), l'exécution de tâches MapReduce de base, etc., et vous pouvez alors vous passer d'un cluster ou même de plusieurs VM en réalité.
Hadoop est capable de fonctionner selon trois modes :
- Entièrement distribué
- Pseudo-distribution
-
Non-distribué (Local)
Pour les besoins de l'apprentissage, vous pouvez commencer par le mode non distribué qui fonctionne sur une seule machine. Tout fonctionne dans un seul JVM et aucun des démons d'Hadoop ne fonctionne. Il s'agit du mode le plus simple à mettre en œuvre, mais il vous permet toujours d'utiliser MapReduce, etc. Vous pouvez le faire fonctionner en quelques minutes, une fois que vous avez téléchargé le dernier paquet.
La pseudo-distribution est le niveau supérieur à la non-distribution. Il fonctionne toujours sur une seule machine, mais simule plus précisément les opérations d'un cluster. Les démons Hadoop s'exécutent dans ce mode et plusieurs JVM sont créées pour simuler les nœuds d'un cluster.
Fully-distributed est le mode utilisé par un cluster complet.