Gratuit Grands ensembles de données pour expérimenter avec Hadoop

Question

Gratuit Grands ensembles de données pour expérimenter avec Hadoop

Demandé el 20 de Avril, 2010: Quand la question a-t-elle été
20540 affichage: Nombre de visites la question a
4 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Connaissez-vous un grand ensemble de données gratuit ou peu coûteux pour expérimenter avec Hadoop ? Nous vous remercions pour toute indication ou tout lien.

Préférence :

Au moins un Go de données.
Données du journal de production du serveur web.

J'en ai trouvé quelques-uns jusqu'à présent :

Pouvons-nous également utiliser notre propre robot d'exploration pour recueillir des données sur des sites tels que Wikipédia ? Toute indication sur la façon de procéder est également appréciée.

Demandé el 20 de Avril, 2010 par Sundar

0 votes

Datanami a récemment publié cette liste de liens : datanami.com/2015/01/29/9-places-get-big-data-now - peut-être que quelqu'un a le temps de convertir ceci en une réponse appropriée.

Commenté el 3 de Février, 2015 par Nickolay

Answer 1

4 Réponses

Answer 2

11voto

Binary Nerd Points 6497

Quelques points concernant votre question sur le crawling et wikipedia.

Vous avez établi un lien avec le vidage des données de wikipedia et vous pouvez utiliser le Cloud9 projet de l'UMD pour travailler avec ces données dans Hadoop.

Ils ont une page sur ce sujet : Travailler avec Wikipédia

Une autre source de données à ajouter à la liste est :

ClueWeb09 - 1 milliard de pages web collectées entre janvier et février 2009. 5 To compressés.

L'utilisation d'un crawler pour générer des données devrait faire l'objet d'une question distincte de celle sur Hadoop/MapReduce, je dirais.

Répondu el 22 de Avril, 2010 par Binary Nerd (6497 Points )

2 votes

Le lien "Working with Wikipedia" est mort. Ce lien est-il un remplacement ? lintool.github.com/Cloud9/docs/content/wikipedia.html ?

Commenté el 31 de Août, 2012 par f13o

0 votes

Le lien pour ClueWeb09 est mort. Le nouveau lien semble être lemurproject.org/clueweb09 . Il semble que vous devez payer pour les données.

Commenté el 12 de Août, 2019 par user3282611

Answer 3

10voto

APC Points 69630

Une source évidente : les vidages de données de la trilogie Stack Overflow . Ceux-ci sont librement disponibles sous la licence Creative Commons.

Répondu el 20 de Avril, 2010 par APC (69630 Points )

0 votes

@toddlermenot - les Dumps sont maintenant hébergés sur l'Internet Archive. J'ai mis à jour le lien. Lisez la raison de ce changement sur cette page du blog SE .

Commenté el 9 de Août, 2015 par APC

Answer 4

7voto

Peter Wippermann Points 968

Il s'agit d'une collection de 189 ensembles de données pour l'apprentissage automatique (qui est l'une des plus belles applications d'Hadoop). g ) : http://archive.ics.uci.edu/ml/datasets.html

Répondu el 23 de Avril, 2010 par Peter Wippermann (968 Points )

Answer 5

6voto

Olvagor Points 811

Ce n'est pas un fichier journal, mais vous pourriez peut-être utiliser le fichier planète d'OpenStreetMap : http://wiki.openstreetmap.org/wiki/Planet.osm

Licence CC, environ 160 GB (non emballé)

Il existe également des fichiers plus petits pour chaque continent : http://wiki.openstreetmap.org/wiki/World

Répondu el 20 de Avril, 2010 par Olvagor (811 Points )

Gratuit Grands ensembles de données pour expérimenter avec Hadoop

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Gratuit Grands ensembles de données pour expérimenter avec Hadoop

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: