4 votes

petits ensembles de données pour Hadoop-MapReduce

J'essaie de me familiariser avec Hadoop-MapReduce. Après avoir étudié les connaissances théoriques sur ces concepts, je veux les mettre en pratique.

Cependant, je n'ai pas pu trouver de petits ensembles de données (jusqu'à 3 Gb) pour cette technologie. Où puis-je trouver des ensembles de données pour m'entraîner ?

OU, Comment puis-je pratiquer Hadoop-MapReduce ? En d'autres termes, existe-t-il un tutoriel ou un site web qui propose des exercices ?

7voto

saurabh shashank Points 819

des ensembles de données accessibles au public que vous pouvez télécharger et utiliser. Vous trouverez ci-dessous quelques exemples.

http://www.netflixprize.com/index - Dans le cadre d'un concours, elle a publié un ensemble de données d'évaluations d'utilisateurs afin de mettre les gens au défi de développer de meilleurs algorithmes de recommandation. algorithmes de recommandation. Les données non compressées s'élèvent à 2 GB+ . Il contient Plus de 100 millions d'évaluations de films par 480 000 utilisateurs sur 17 000 films.

http://aws.amazon.com/publicdatasets/ - Par exemple, l'un des données biologiques est un génome humain annoté d'environ 550 Go. Sous économie, vous pouvez trouver des ensembles de données, tels que le recensement américain de 2000 (environ 200 GO).

http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Université de Carnegie Mellon Language Technologies Institute de l'université de Mellon a publié l'ensemble de données ClueWeb09 pour faciliter recherche sur le web à grande échelle. Il s'agit d'une exploration d'un milliard de pages web dans 10 langues. L'ensemble de données L'ensemble de données non compressées occupe 25 To.

5voto

rolve Points 3833

Pourquoi ne pas créer vous-même des ensembles de données ?

Une chose très simple serait de remplir un fichier avec des millions de nombres aléatoires et d'utiliser ensuite Hadoop pour trouver les doublons, les triples, les nombres premiers, les nombres qui ont des doublons dans leurs facteurs, etc.

Bien sûr, ce n'est pas aussi drôle que de trouver des amis communs sur Facebook, mais cela devrait suffire pour s'entraîner un peu à Hadoop.

3voto

Praveen Sripati Points 11365

OU, Comment puis-je pratiquer Hadoop-MapReduce ? En d'autres termes, existe-t-il un tutoriel ou un site web qui propose des exercices ?

Voici quelques-unes des problèmes de jouets pour commencer. Vérifiez également Traitement de texte intensif en données avec MapReduce Il contient des pseudo-codes pour certains algorithmes tels que le classement par page, les jointures, l'indexation mis en œuvre dans MapReduce.

Voici quelques-uns des ensembles de données publiques collectées au fil du temps. Il se peut que vous deviez creuser pour trouver les plus petits.

http://wiki.gephi.org/index.php/Datasets
Télécharger des données volumineuses pour Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X