Quels sont les jeux de données sur Internet sur lesquels je peux exécuter une analyse statistique?
Réponses
Trop de publicités?L' datasets
package est fourni avec la base de R. Exécutez cette commande pour afficher la liste complète:
library(help="datasets")
Au-delà, il y a beaucoup de paquets qui peuvent extraire des données, et bien d'autres qui contiennent des données importantes. De ces, vous pouvez commencer par regarder les HistData paquet, qui "fournit une collection de petits ensembles de données qui sont intéressant et important dans l'histoire de la statistique et de visualisation de données".
Pour les données financières, l' quantmod
paquet fournit une interface commune pour extraire des données de séries chronologiques à partir de google, yahoo, FRED et les autres:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED
FRED (la Réserve Fédérale de Saint-Louis) est vraiment une mine de gratuit les données économiques.
De nombreux packages R sont livrés avec des données spécifiques à leur but. Donc, si vous êtes intéressé par la génétique, les modèles multiniveaux, etc., les paquets concernés ont souvent l'exemple canonique pour cette analyse. Aussi, le livre paquets sont généralement livrées avec les données nécessaires pour reproduire tous les exemples.
Voici quelques exemples de forfaits:
- alr3: comprend des données pour accompagner Appliqué la Régression Linéaire (http://www.stat.umn.edu/alr)
- bras: comprend certaines des données de Gelman, "l'Analyse des Données à l'Aide de la Régression et de la multi-niveaux/Modèles Hiérarchiques" (le reste des données et le code est sur le livre du site web)
- BaM: comprend des données provenant de "Bayésien Méthodes: Sciences Sociales et du comportement de l'Approche"
- BayesDA: comprend des données provenant de Gelman "Bayésienne de l'Analyse des Données"
- chat: comprend des données pour l'analyse de catégories de la variable ensembles de données
- cimis: à partir de la récupération de données à partir de CIMIS, la Californie, la Gestion de l'Irrigation Système d'Information
- cshapes: comprend les données SIG des limites et des données
- ecdat: des ensembles de données pour l'économétrie
- ElemStatLearn: comprend des données provenant de "Les Éléments de l'Apprentissage Statistique, Data Mining, l'Inférence, et la Prédiction"
- emdbook: les données de "Écologique Modèles et des Données"
- Fahrmeir: données extraites du livre "Statistique Multivariée de la Modélisation Basée sur des Modèles Linéaires Généralisés"
- fEcoFin: "les Données Économiques et Financières des Ensembles" pour Rmetrics
- fds: fonctionnel des ensembles de données
- fma: les jeux de données à partir de "Prévision: méthodes et applications"
- gamair: les données pour "des Modèles Additifs Généralisés: Une Introduction avec R"
- geomapdata: les données de la topographie et de la Cartographie Géologique
- résumé: contient toutes les données de la "R en un Mot" livre
- nytR: donne accès à des congrès vote données par le new york Times API
- openintro: données extraites du livre
- apprêt: comprend des données pour "Un primaire de l'Écologie avec R"
- qtlbook: comprend des données pour les R/qtl livre
- RGraphics: comprend les données de la "R" Graphiques livre
- Lire.isi: accès à l'ancien Enquête Mondiale sur la Fécondité de données
Un large choix sur le Web. Par exemple, voici un énorme répertoire de sports de bases de données (tous de fournir les données de gratuit, au moins c'est mon expérience). Dans ce répertoire databaseBaseball.com qui contient, entre autres, une base de données complète pour chaque joueur qui a jamais joué au baseball professionnel depuis 1915.
StatLib est une autre excellente ressource--magnifiquement pratique. Cette unique page web des listes de 4-5 ligne des résumés de plus d'une centaine de bases de données, qui sont tous disponibles dans la plate-forme de fichier en cliquant simplement sur la "Table" lien au début de chaque jeu de données résumé.
La distribution de base de R est pré-emballé avec une grande et riche collection de datasts (122 dans la R 2.10). Pour obtenir une liste d'entre eux (ainsi que la description en une ligne):
data(package="datasets")
De même, la plupart des paquets sont livrés avec plusieurs jeux de données (parfois beaucoup plus). Vous pouvez voir ceux de la même façon:
data(package="latticeExtra")
data(package="vcd")
Ces ensembles de données sont ceux mentionnés dans les manuels des paquets et des vignettes pour un paquet donné, et utilisé pour illustrer les fonctionnalités de package.
Quelques packages R avec beaucoup de jeux de données (qui sont faciles à numériser afin que vous puissiez choisir ce qui est intéressant pour vous): AER, DAAG, et vcd.
Une autre chose que je trouve impressionnant, R son I/O. Supposons que vous voulez pour obtenir des données financières précises via le yahoo finance de l'API. Disons que la fermeture de l'ouvrir et de clôture de l'indice S&P 500 pour chaque mois à partir de 2001 à 2009, il suffit de faire ceci:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv"))
Dans cette ligne de code, R a extrait les données de tiques, en forme à un dataframe et lié à "tick_data" tous les . (Voici une représentation feuille de triche w/ Yahoo Finance API symboles utilisés pour construire l'Url comme ci-dessus)
Avez-vous envisagé des vidages de données de débordement de pile ?
Vous connaissez déjà ce que les données représentent, c’est-à-dire la logique métier qu’elle suit
Un bon de commencer à regarder pour les données économiques sont toujours les trois adresses suivantes:
- Banque Mondiale - Ensembles De Données De Recherche
- Le FMI des Données et des Statistiques
- Bureau National de Recherche Économique
Un bon résumé de données, des liens pour les économistes du développement peut être trouvé à:
Edit:
La Banque Mondiale a décidé la semaine dernière d'ouvrir beaucoup de non-gratuit jeux de données et les a publiés en ligne sur la version révisée de sa page d'accueil. La nouvelle présentation sur internet a l'air assez sympa aussi.