112 votes

Comment apprendre à utiliser Hadoop ?

Je veux apprendre Hadoop . Cependant, je n'ai pas accès à un cluster actuellement. Est-il possible pour moi de l'apprendre et de l'utiliser pour écrire des programmes et de l'apprendre correctement ?

Serait-il utile d'exécuter plusieurs Linux VMs et ensuite les utiliser comme des boîtes pour faire tourner Hadoop ? Ou pensez-vous qu'il s'agit plutôt d'une extension et que l'exécution sur plusieurs hôtes est identique à l'exécution sur un seul hôte (en termes de configuration, d'API Hadoop utilisée, d'architecture des programmes map-reduce, etc.)

88voto

rICh Points 1065

Je viens d'écrire un papier, _Apprendre comment apprendre Hadoop_ (format PDF), sur ce sujet précis. Il peut être utile.

75voto

Binary Nerd Points 6497

Si vous souhaitez simplement vous familiariser avec les principes de base d'Hadoop, c'est-à-dire savoir comment accéder à la base de données Hadoop. Système de fichiers distribués Hadoop (HDFS), l'exécution de tâches MapReduce de base, etc., et vous pouvez alors vous passer d'un cluster ou même de plusieurs VM en réalité.

Hadoop est capable de fonctionner selon trois modes :

  1. Entièrement distribué
  2. Pseudo-distribution
  3. Non-distribué (Local)

Pour les besoins de l'apprentissage, vous pouvez commencer par le mode non distribué qui fonctionne sur une seule machine. Tout fonctionne dans un seul JVM et aucun des démons d'Hadoop ne fonctionne. Il s'agit du mode le plus simple à mettre en œuvre, mais il vous permet toujours d'utiliser MapReduce, etc. Vous pouvez le faire fonctionner en quelques minutes, une fois que vous avez téléchargé le dernier paquet.

La pseudo-distribution est le niveau supérieur à la non-distribution. Il fonctionne toujours sur une seule machine, mais simule plus précisément les opérations d'un cluster. Les démons Hadoop s'exécutent dans ce mode et plusieurs JVM sont créées pour simuler les nœuds d'un cluster.

Fully-distributed est le mode utilisé par un cluster complet.

53voto

Sundar Points 904

Je vous suggère d'utiliser une VM à des fins d'apprentissage. Les bonnes sont La VM de Cloudera et OpenSolaris vivre Hadoop .

Plus loin :

J'espère que cela vous aidera !

16voto

Leon Katsnelson Points 274

Vous pouvez suivre un cours gratuit sur les fondements de Hadoop à l'adresse suivante http://BigDataUniversity.com . Dans le cadre du cours, vous recevrez Hadoop (BigInsights est la distribution d'Apache Hadoop par IBM). Si vous souhaitez faire l'expérience de l'exécution d'Hadoop en tant que cluster entièrement distribué, je vous recommande de le faire sur le cloud. BigDataUniversity.com propose un cours gratuit sur la façon de créer votre propre cluster Hadoop sur le nuage Amazon ou IBM. Vous pouvez également obtenir un crédit de 25 $ auprès d'Amazon.

6voto

srikanths Points 61

La meilleure façon d'apprendre Hadoop est de suivre la documentation Cloudera Hadoop .

Pour le cluster Hadoop, utilisez la VM de démonstration Cloudera, mais je vous suggère de construire le cluster à un seul nœud sur votre PC, afin de connaître les mécanismes internes d'Hadoop.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X