41 votes

Comment démarrer avec Big Data Analysis

J'ai été longtemps utilisateur de R et ont récemment commencé à travailler avec Python. L'utilisation conventionnelle des systèmes SGBDR pour l'entreposage de données, et R/Python pour intensives, je ressens le besoin maintenant de me salir les mains avec de Gros d'Analyse de Données.

Je voudrais savoir comment obtenir commencé avec le Big Data crunching. - Comment commencer simplement avec Map/reduce et l'utilisation de Hadoop

  • Comment puis-je tirer parti de mes compétences en R et Python pour commencer avec l'analyse des Données Big data. À l'aide de l'Python Disco projet par exemple.
  • À l'aide de la RHIPE paquet et de trouver des jouet jeux de données et les zones à problème.
  • Trouver la bonne information pour me permettre de me décider si j'ai besoin de déplacer vers le NoSQL de SGBDR de type bases de données

Dans l'ensemble, je voudrais savoir comment commencer petit et de construire progressivement mes compétences et mon savoir-faire dans l'Analyse des Données Big data.

Merci pour vos suggestions et recommandations. Je m'excuse pour le générique de la nature de cette requête, mais je suis à la recherche pour gagner plus de point de vue à ce sujet.

  • Dure

29voto

S.Lott Points 207588

À l'aide de l'Python Disco projet par exemple.

Bon. Jouer avec ça.

À l'aide de la RHIPE paquet et de trouver des jouet jeux de données et les zones à problème.

Des beaux. Jouer avec cela aussi.

Ne vous inquiétez pas de trouver des "gros" jeux de données. Même les petits jeux de données présentent des problèmes intéressants. En effet, un ensemble de données est un point de départ.

Une fois, j'ai construit une petite étoile-schéma d'analyser les 60 M $du budget d'une organisation. La source de données dans des feuilles de calcul, et la quasi-incompréhensible. Donc j'ai déchargé dans un schéma en étoile et a écrit plusieurs d'analyse des programmes en Python pour créer simplifiée des rapports des numéros appropriés.

Trouver la bonne information pour me permettre de me décider si j'ai besoin de déplacer vers le NoSQL de SGBDR de type bases de données

Cela est facile.

Tout d'abord, procurez-vous un livre sur l'entreposage de données (Ralph Kimball est Le Data Warehouse Toolkit) par exemple.

Deuxièmement, l'étude de la "Schéma en Étoile" soigneusement -- particulièrement toutes les variantes et les cas particuliers que Kimball explique (en profondeur)

Troisièmement, réaliser la suivante: SQL est pour les Mises à jour et des Transactions.

Lorsque vous faites "analytique" de traitement (petites ou grandes) il n'y a presque pas de mise à jour de toute nature. SQL (et liées à la normalisation) n'a pas vraiment d'importance beaucoup plus.

Kimball point (et les autres aussi), c'est que la plupart de votre entrepôt de données n'est pas en SQL, c'est dans de simples Fichiers Plats. Un data mart (pour ad-hoc, tranche et dés analyse) peut être une base de données relationnelle pour permettre facile, flexible de traitement avec SQL.

De sorte que la "décision" est trivial. Si c'est transactionnelle ("ELLES"), il doit être dans un Relationnel ou OO DB. Si elle est analytique (OLAP"), il ne nécessite pas de SQL, sauf pour la tranche et dés analytics; et même alors, la DB est chargé de l'officiel de fichiers que nécessaire.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X