39 votes

Jeux de données pour l'exécution d'analyses statistiques sur

Quels sont les jeux de données sur Internet sur lesquels je peux exécuter une analyse statistique?

46voto

Shane Points 40885

L' datasets package est fourni avec la base de R. Exécutez cette commande pour afficher la liste complète:

library(help="datasets")

Au-delà, il y a beaucoup de paquets qui peuvent extraire des données, et bien d'autres qui contiennent des données importantes. De ces, vous pouvez commencer par regarder les HistData paquet, qui "fournit une collection de petits ensembles de données qui sont intéressant et important dans l'histoire de la statistique et de visualisation de données".

Pour les données financières, l' quantmod paquet fournit une interface commune pour extraire des données de séries chronologiques à partir de google, yahoo, FRED et les autres:

library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED (la Réserve Fédérale de Saint-Louis) est vraiment une mine de gratuit les données économiques.

De nombreux packages R sont livrés avec des données spécifiques à leur but. Donc, si vous êtes intéressé par la génétique, les modèles multiniveaux, etc., les paquets concernés ont souvent l'exemple canonique pour cette analyse. Aussi, le livre paquets sont généralement livrées avec les données nécessaires pour reproduire tous les exemples.

Voici quelques exemples de forfaits:

  • alr3: comprend des données pour accompagner Appliqué la Régression Linéaire (http://www.stat.umn.edu/alr)
  • bras: comprend certaines des données de Gelman, "l'Analyse des Données à l'Aide de la Régression et de la multi-niveaux/Modèles Hiérarchiques" (le reste des données et le code est sur le livre du site web)
  • BaM: comprend des données provenant de "Bayésien Méthodes: Sciences Sociales et du comportement de l'Approche"
  • BayesDA: comprend des données provenant de Gelman "Bayésienne de l'Analyse des Données"
  • chat: comprend des données pour l'analyse de catégories de la variable ensembles de données
  • cimis: à partir de la récupération de données à partir de CIMIS, la Californie, la Gestion de l'Irrigation Système d'Information
  • cshapes: comprend les données SIG des limites et des données
  • ecdat: des ensembles de données pour l'économétrie
  • ElemStatLearn: comprend des données provenant de "Les Éléments de l'Apprentissage Statistique, Data Mining, l'Inférence, et la Prédiction"
  • emdbook: les données de "Écologique Modèles et des Données"
  • Fahrmeir: données extraites du livre "Statistique Multivariée de la Modélisation Basée sur des Modèles Linéaires Généralisés"
  • fEcoFin: "les Données Économiques et Financières des Ensembles" pour Rmetrics
  • fds: fonctionnel des ensembles de données
  • fma: les jeux de données à partir de "Prévision: méthodes et applications"
  • gamair: les données pour "des Modèles Additifs Généralisés: Une Introduction avec R"
  • geomapdata: les données de la topographie et de la Cartographie Géologique
  • résumé: contient toutes les données de la "R en un Mot" livre
  • nytR: donne accès à des congrès vote données par le new york Times API
  • openintro: données extraites du livre
  • apprêt: comprend des données pour "Un primaire de l'Écologie avec R"
  • qtlbook: comprend des données pour les R/qtl livre
  • RGraphics: comprend les données de la "R" Graphiques livre
  • Lire.isi: accès à l'ancien Enquête Mondiale sur la Fécondité de données

6voto

doug Points 29567

Un large choix sur le Web. Par exemple, voici un énorme répertoire de sports de bases de données (tous de fournir les données de gratuit, au moins c'est mon expérience). Dans ce répertoire databaseBaseball.com qui contient, entre autres, une base de données complète pour chaque joueur qui a jamais joué au baseball professionnel depuis 1915.

StatLib est une autre excellente ressource--magnifiquement pratique. Cette unique page web des listes de 4-5 ligne des résumés de plus d'une centaine de bases de données, qui sont tous disponibles dans la plate-forme de fichier en cliquant simplement sur la "Table" lien au début de chaque jeu de données résumé.

La distribution de base de R est pré-emballé avec une grande et riche collection de datasts (122 dans la R 2.10). Pour obtenir une liste d'entre eux (ainsi que la description en une ligne):

data(package="datasets")

De même, la plupart des paquets sont livrés avec plusieurs jeux de données (parfois beaucoup plus). Vous pouvez voir ceux de la même façon:

data(package="latticeExtra")
data(package="vcd")

Ces ensembles de données sont ceux mentionnés dans les manuels des paquets et des vignettes pour un paquet donné, et utilisé pour illustrer les fonctionnalités de package.

Quelques packages R avec beaucoup de jeux de données (qui sont faciles à numériser afin que vous puissiez choisir ce qui est intéressant pour vous): AER, DAAG, et vcd.

Une autre chose que je trouve impressionnant, R son I/O. Supposons que vous voulez pour obtenir des données financières précises via le yahoo finance de l'API. Disons que la fermeture de l'ouvrir et de clôture de l'indice S&P 500 pour chaque mois à partir de 2001 à 2009, il suffit de faire ceci:

tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

Dans cette ligne de code, R a extrait les données de tiques, en forme à un dataframe et lié à "tick_data" tous les . (Voici une représentation feuille de triche w/ Yahoo Finance API symboles utilisés pour construire l'Url comme ci-dessus)

5voto

Binary Worrier Points 27424

Avez-vous envisagé des vidages de données de débordement de pile ?

Vous connaissez déjà ce que les données représentent, c’est-à-dire la logique métier qu’elle suit

5voto

Nick Allen Points 4813

http://www.data.gov.uk/data

Récemment installé par Tim Berners-Lee

Il est évident que les données basées au Royaume-Uni, mais cela ne devrait pas importer. Couvre tout, des voitures abandonnées à l'absentéisme scolaire, en passant par les indices de prix agricoles

4voto

mropa Points 2813

Un bon de commencer à regarder pour les données économiques sont toujours les trois adresses suivantes:

Un bon résumé de données, des liens pour les économistes du développement peut être trouvé à:

Edit:

La Banque Mondiale a décidé la semaine dernière d'ouvrir beaucoup de non-gratuit jeux de données et les a publiés en ligne sur la version révisée de sa page d'accueil. La nouvelle présentation sur internet a l'air assez sympa aussi.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X