143 votes

Des exemples de Hadoop ?

Je suis en train d'examiner Hadoop comme un outil possible pour faire de l'analyse de journaux web. Je veux analyser plusieurs types de statistiques en une seule fois. Chaque ligne de mes fichiers de logs contient toutes sortes d'informations potentiellement utiles que j'aimerais agréger. J'aimerais obtenir toutes sortes de données à partir des journaux en une seule exécution Hadoop, mais les exemples de programmes Hadoop que je vois en ligne semblent tous faire exactement la même chose. Cela peut être dû au fait que tous les exemples de programmes Hadoop que j'ai pu trouver ne font que compter les mots. Puis-je utiliser Hadoop pour résoudre deux ou plusieurs problèmes à la fois ?

Existe-t-il d'autres exemples ou tutoriels Hadoop qui ne résolvent pas le problème du nombre de mots ?

112voto

Ryan H Points 1369

L'une des meilleures ressources que j'ai trouvées pour commencer est Cloudera. Il s'agit d'une jeune entreprise composée principalement d'anciens employés de Google et de Yahoo. Sur leur page, il y a une section de formation avec des leçons sur les différentes technologies. aquí . J'ai trouvé cela très utile pour jouer avec Hadoop, Pig et Hive. Ils ont une machine virtuelle que vous pouvez télécharger et qui a tout configuré et quelques exemples qui vous aident à coder. Tout cela est gratuit dans la section formation. La seule chose que je n'ai pas trouvée est un tutoriel sur HBase. J'en cherche un depuis un certain temps. Bonne chance.

33voto

Pete Skomoroch Points 1861

Je suis en train de terminer un tutoriel sur le traitement des fichiers journaux des pages de Wikipédia, dont plusieurs parties calculent plusieurs mesures en un seul passage (somme des pages vues, tendance sur les dernières 24 heures, exécution de régressions, etc.) Le code est ici : http://github.com/datawrangling/trendingtopics/tree/master

Le code Hadoop utilise principalement un mélange de streaming Python & Hive avec la distro Cloudera sur EC2...

18voto

cwensel Points 1156

Voici deux exemples utilisant Cascading (et API sur Hadoop)

Vous pouvez commencer par le deuxième et continuer à ajouter des paramètres.

Site du projet en cascade

13voto

Pavan Yara Points 91

Vous pouvez vous référer au livre Hadoop de Tom White pour plus d'exemples et de cas d'utilisation : http://www.amazon.com/Hadoop-Definitive-Guide-Tom-White/dp/1449389732/

10voto

Ilya Haykinson Points 520

Avec le paradigme normal Map/Reduce, vous résolvez généralement un seul problème à la fois. Au cours de l'étape Map, vous effectuez généralement une transformation ou une dénormalisation, et au cours de l'étape Reduce, vous regroupez souvent les résultats de l'étape Map.

Si vous voulez répondre à plusieurs questions sur vos données, la meilleure façon de le faire dans Hadoop est d'écrire plusieurs tâches, ou une séquence de tâches qui lisent les résultats de l'étape précédente.

Il existe plusieurs langages d'abstraction ou API de plus haut niveau (Pig, Hive, Cascading) qui simplifient une partie de ce travail pour vous, vous permettant d'écrire un code procédural ou de style SQL plus traditionnel qui, en apparence, ne fait que créer une séquence de tâches Hadoop.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X