41 votes

Gratuit Grands ensembles de données pour expérimenter avec Hadoop

Connaissez-vous un grand ensemble de données gratuit ou peu coûteux pour expérimenter avec Hadoop ? Nous vous remercions pour toute indication ou tout lien.

Préférence :

  • Au moins un Go de données.

  • Données du journal de production du serveur web.

J'en ai trouvé quelques-uns jusqu'à présent :

  1. La décharge de Wikipedia

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

Pouvons-nous également utiliser notre propre robot d'exploration pour recueillir des données sur des sites tels que Wikipédia ? Toute indication sur la façon de procéder est également appréciée.

0 votes

Datanami a récemment publié cette liste de liens : datanami.com/2015/01/29/9-places-get-big-data-now - peut-être que quelqu'un a le temps de convertir ceci en une réponse appropriée.

11voto

Binary Nerd Points 6497

Quelques points concernant votre question sur le crawling et wikipedia.

Vous avez établi un lien avec le vidage des données de wikipedia et vous pouvez utiliser le Cloud9 projet de l'UMD pour travailler avec ces données dans Hadoop.

Ils ont une page sur ce sujet : Travailler avec Wikipédia

Une autre source de données à ajouter à la liste est :

  • ClueWeb09 - 1 milliard de pages web collectées entre janvier et février 2009. 5 To compressés.

L'utilisation d'un crawler pour générer des données devrait faire l'objet d'une question distincte de celle sur Hadoop/MapReduce, je dirais.

2 votes

Le lien "Working with Wikipedia" est mort. Ce lien est-il un remplacement ? lintool.github.com/Cloud9/docs/content/wikipedia.html ?

0 votes

Le lien pour ClueWeb09 est mort. Le nouveau lien semble être lemurproject.org/clueweb09 . Il semble que vous devez payer pour les données.

10voto

APC Points 69630

Une source évidente : les vidages de données de la trilogie Stack Overflow . Ceux-ci sont librement disponibles sous la licence Creative Commons.

0 votes

@toddlermenot - les Dumps sont maintenant hébergés sur l'Internet Archive. J'ai mis à jour le lien. Lisez la raison de ce changement sur cette page du blog SE .

7voto

Peter Wippermann Points 968

Il s'agit d'une collection de 189 ensembles de données pour l'apprentissage automatique (qui est l'une des plus belles applications d'Hadoop). g ) : http://archive.ics.uci.edu/ml/datasets.html

6voto

Olvagor Points 811

Ce n'est pas un fichier journal, mais vous pourriez peut-être utiliser le fichier planète d'OpenStreetMap : http://wiki.openstreetmap.org/wiki/Planet.osm

Licence CC, environ 160 GB (non emballé)

Il existe également des fichiers plus petits pour chaque continent : http://wiki.openstreetmap.org/wiki/World

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X