58 votes

Où puis-je trouver des données gratuites et ouvertes?

Tôt ou tard, ils se sentent le besoin d'avoir accès à des "données ouvertes" dans l'un de leurs projets, à partir de la connaissance d'une ville zip pour une plus obscurs de l'information comme l'axe d'inclinaison de Pluton.

Je sais data.un.org qui offre un accès à la vaste gamme de bases de données qui traitent de développement humain et d'autres questions socio-économiques. Les autres suspects habituels sont la NASA et l'USGS pour les données planétaires. Il y a un article de readwriteweb avec le plus de liens. infochimps.org semble se démarquer.

Personnellement, j'ai besoin de voir l'historique des prix des produits de base, la valeur des stocks et d'autres données financières. Tous ces ensembles semblent coûter de l'argent.

Précisions

Je suis intéressé par toutes sortes d' ouvrir les données, parce que tôt ou tard, je sais que je vais être dans une situation où je pourrais avoir besoin. Je vais essayer de modifier cette réponse et inclure les suggestions structurée des manières.

Un lien pour les données financières a été caché dans cet article de readwriteweb, doh! Il est appelé opentick.com. Semble bon jusqu'ici!

Mise à jour

Je suis tombé sur la sémantique des données dans une autre question de la mienne ici. Il est opencyc ("le plus grand du monde et le plus complet des connaissances générales de base et de bon sens raisonnement moteur"). Un projet appelé OMBELLE offre un poids léger, la version distillée de opencyc. Ombelle a sémantique des données en rdf/owl/skos n3 syntaxe.

La banque mondiale a également publié une très bonne API. Il propose des données depuis les 50 dernières années environ 200 pays

24voto

Allen Points 1729

Amazon Web Services a des ensembles de données publiques disponibles gratuitement pour les utilisateurs de leurs services de cloud EC2. Je ne sais rien de plus que cela.

Ils ont fantastique de sondage des trucs. Même si vous ne souhaitez pas utiliser EC2, vous pouvez toujours utiliser la liste comme un guide des lieux et des organismes qui rendent les données disponibles.

(prises directement à partir de leur page)

BIOLOGIE

Annoté sur le Génome Humain les Données fournies par ENSEMBL

Une annoté forme du Génome Humain, parfait pour la recherche biologique, qui a été publié en date du 10 décembre 2008. Le premier instantané, appelé le principal Ensembl données, comprend de l'homme, et environ 40 autres espèces (voir www.ensembl.org pour une liste) ainsi que la génomique comparative des données (environ 550GB). Le deuxième cliché, appelé l'Ensembl Biomart, est un dénormalisée, la requête optimisée de la base de données qui facilite les requêtes complexes, d'un ou de plusieurs jeux de données (environ 172GB).

Principal Ensembl (Linux/UNIX): snap-c78360ae
Ensembl BioMart (Linux/UNIX): snap-c48360ad

GenBank fournis par le National Center for Biotechnology Information

Recueil annoté de tous accessibles séquences d'ADN dont plus de 85.7 B bases et de 82,8 M de la séquence d'enregistrements (environ 250 GO)

Linux/UNIX: snap-b04ba2d9 (mise à jour 02/15/2009)

UniGene fournis par le National Center for Biotechnology Information

Un ensemble de transcription des séquences de bien caractérisé les gènes et des centaines de milliers d'étiquettes de séquences exprimées (EST), dernière mise à jour le 9 décembre 2008. (environ 10 GO)

Linux/UNIX: snap-5ad83b33
Windows: snap-60d83b09

CHIMIE

Une Version 3D de la PubChem Bibliothèque fournie par Rajarshi Guha à l'Université d'Indiana

3D (un seul œil artificiel) version de Pubchem, une base de données publique des structures chimiques dans le Format SD (environ 70 GO)

Linux/UNIX: snap-a8dd3dc1
Windows: snap-40dd3d29

UGI Virtuel Conformère de la Bibliothèque fournie par Rajarshi Guha à l'Université d'Indiana

80 go de données en format SD sur conformères de 500 000 molécules qui peuvent être utilisés pour le criblage virtuel (environ 85 GO)

Linux/UNIX: snap-59d33330
Windows: snap-48ce2r21

PubChem Bibliothèque fournie par le National Center for Biotechnology Information

Un ensemble de données d'informations sur les activités biologiques des molécules de petite taille (environ 230 GO)

Linux/UNIX: snap-e6df3c8f
Windows: snap-63d83b0a

L'ÉCONOMIE

Divers Recensement des états-unis les Bases de données fournies par Le US Census Bureau

États-unis les données démographiques de l'1980 (environ 2 GO), 1990 (environ 50 GO), et en 2000, NOUS Recensements (environ 200GO), des informations de synthèse sur les Affaires et l'Industrie (environ 15 GO), et de 2003 à 2006 Économiques des Ménages les Données de Profil (environ 220 GO)

Recensement AMÉRICAIN de 2000 (Linux/UNIX): snap-92d333fb
Recensement AMÉRICAIN de 2000 (Windows): snap-36ce2e5f
1990 Recensement des états-unis (Linux/UNIX): snap-33f8185a
1990 Recensement des états-unis (Windows): snap-8cf818e5
1980 Recensement des états-unis (Linux/UNIX): snap-9df717f4
1980 Recensement des états-unis (Windows): snap-b6f818df
2003-2006 Données Économiques (Linux/UNIX): snap-0bdf3f62
2003-2006 Données Économiques (Windows): snap-4edd3d27
D'affaires et de l'Industrie Résumé des Données (Linux/UNIX): snap-5cf81835
D'affaires et de l'Industrie Résumé des Données (Windows): snap-8af818e3

Diverses Statistiques sur le Travail des Bases de données fournies par Le Bureau of Labor Statistics

Les statistiques sur l'Inflation Et les Prix, l'Emploi, le Chômage, le salaire Et les Avantages sociaux, les Dépenses Et l'Utilisation du Temps, de la Productivité, des accidents de Travail, de Comparaisons Internationales, les Projections de l'Emploi, et les Ressources Régionales (environ 15 GO)

Linux/UNIX: snap-30f81859
Windows: snap-8df818e4

Divers Transports de Bases de données fournies par Le Bureau des Services de Transport

Des données et des statistiques du Ministère AMÉRICAIN des Transports aérien, Maritime, Routier, transport en commun, le train, le Pipeline, Vélo/Piéton et les autres modes de transport (environ 15 GO)

Linux/UNIX: snap-e1608d88
Windows: snap-37668b5e

ENCYCLOPÉDIQUE

DBpedia de la Base de Connaissances fournies par DBpedia.

DBpedia est un effort de la communauté pour en extraire des informations structurées à partir de Wikipedia et de rendre cette information disponible sur le Web. Le DBpedia de la base de connaissance décrit actuellement plus de 2,6 millions de choses, y compris au moins 213 000 personnes, de 328 000 places, de 57 000 albums de musique, de 36 000 films, 20 000 entreprises. La base de connaissances se compose de 274 millions de morceaux de l'information (triplets RDF). Il dispose d'étiquettes et de courts résumés de ces choses dans 30 langues différentes; 609,000 des liens vers des images et 3,150,000 des liens vers des pages web externes; 4,878,100 liens externes vers d'autres ensembles de données RDF, 415,000 catégories de Wikipédia, et de 75 000 YAGO catégories (environ 67GB).

Sémantique, extraction de DBpedia, avec des contributions de la DBpedia de la Communauté, en utilisant les données de Wikipedia.org. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous la Licence de Documentation Libre GNU.

Linux/UNIX: snap-37b75e5e
Windows: snap-09b75e60

Épurée de Vidage des Données fournies par Freebase.com.

Un dump de données de tous les faits actuels et affirmations dans la Épurée système. Épurée est une base de données ouverte de l'information du monde, couvrant des millions de sujets dans des centaines de catégories. Dessin de vastes ensembles de données comme Wikipédia, MusicBrainz, et de la SEC, les services d'archives, il contient des informations structurées sur de nombreux sujets les plus populaires, y compris les films, la musique, les gens et les lieux – tous réconciliés et librement disponible. Cette information est complétée par les efforts d'un passionné de la communauté mondiale des utilisateurs qui travaillent ensemble pour ajouter des informations structurées sur tout ce que la philosophie Européenne stations de chemin de fer pour les propriétés chimiques de la commune d'ingrédients alimentaires. Pour plus de réponses vérifier la Épurée FAQ(environ 26GB).

Des données collectées, traitées et réconcilié freebase.com en utilisant les données de Wikipedia.org la épurée de la communauté, et de nombreux autres ensembles de données. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous licence Creative Commons paternité (CC-BY) licence et Épurée Modalités de Service et la Politique de délivrance des Licences.

Linux/UNIX: snap-a8957cc1
Windows: snap-ab957cc2

Wikipédia Extraction (WEX) fournis par Freebase.com.

La Épurée Wikipedia Extraction (WEX) est un traité de vidage de la langue anglaise de Wikipédia. Le balisage wiki pour chaque article est transformé en machine-readable XML et le bon relationnel des fonctionnalités telles que les modèles, les infoboxes, catégories, sections article, et les redirections sont extraites intabular forme. Épurée WEX est fourni comme un ensemble de tables de base de données au format TSV pour PostgreSQL, ainsi que les tableaux présentant les correspondances entre les articles de Wikipédia et Épurée sujets, et correspondant Épurée Types. (environ 66GB)

Sémantique de l'extraction par freebase.com l'aide des données de Wikipedia.org. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous la Licence de Documentation Libre GNU.

Linux/UNIX: snap-a0957cc9
Windows: snap-a6957ccf

8voto

Andy Lester Points 34051

Exécuter immédiatement à http://www.freebase.com/

4voto

warren Points 12172

Le CIA World Factbook est une grande référence (https://www.cia.gov/library/publications/the-world-factbook). Je ne sais pas si c'est accessible via une API, cependant. (https://www.cia.gov/library/publications/the-world-factbook/docs/faqs.html#Technical semble indiquer " non " - mais je ne sais pas.)

D'autres sources qui ont tendance à avoir des données disponibles sont diverses conditions météorologiques sites, Google news (accessible via le flux RSS et d'autres moyens).

plus - http://www.ancestry.com a seaux de données sur l'information généalogique. Je ne sais pas comment "disponible" il est, mais ils ont beaucoup.

plus - d'un ami, http://www.cs.brown.edu/~pavlo/stocks/ a une tonne d'historique de données de stock gratuit. Aussi, http://www.cs.brown.edu/~pavlo/fortune1000/ a Fortune 100, les informations de contact que l'année dernière :)

4voto

Adam Points 45

Cette question a été posée avant le démarrage du site Web, mais stats.gov contient des ensembles de données collectées par le gouvernement de très haute qualité. Ce type de données va de la production agricole à la manière dont les gens passent du temps dans les parcs nationaux des États-Unis.

En outre, si vous pouviez trouver un moyen d'entrer dans l'ICPSR, vous seriez également prêt. Ce type de données est généralement de la sociologie, des sciences politiques ou similaires.

3voto

mropa Points 2813

Economics - La Banque mondiale - Open Data Initiative

La Banque mondiale a décidé la semaine dernière d'ouvrir un grand nombre de ses ensembles de données, qui n'étaient auparavant pas libres, et les a publiés en ligne sur sa page d'accueil révisée. La nouvelle apparence Internet est également très jolie.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X