Amazon Web Services a des ensembles de données publiques disponibles gratuitement pour les utilisateurs de leurs services de cloud EC2. Je ne sais rien de plus que cela.
Ils ont fantastique de sondage des trucs. Même si vous ne souhaitez pas utiliser EC2, vous pouvez toujours utiliser la liste comme un guide des lieux et des organismes qui rendent les données disponibles.
(prises directement à partir de leur page)
BIOLOGIE
Annoté sur le Génome Humain les Données fournies par ENSEMBL
Une annoté forme du Génome Humain, parfait pour la recherche biologique, qui a été publié en date du 10 décembre 2008. Le premier instantané, appelé le principal Ensembl données, comprend de l'homme, et environ 40 autres espèces (voir www.ensembl.org pour une liste) ainsi que la génomique comparative des données (environ 550GB). Le deuxième cliché, appelé l'Ensembl Biomart, est un dénormalisée, la requête optimisée de la base de données qui facilite les requêtes complexes, d'un ou de plusieurs jeux de données (environ 172GB).
Principal Ensembl (Linux/UNIX): snap-c78360ae
Ensembl BioMart (Linux/UNIX): snap-c48360ad
GenBank fournis par le National Center for Biotechnology Information
Recueil annoté de tous accessibles séquences d'ADN dont plus de 85.7 B bases et de 82,8 M de la séquence d'enregistrements (environ 250 GO)
Linux/UNIX: snap-b04ba2d9 (mise à jour 02/15/2009)
UniGene fournis par le National Center for Biotechnology Information
Un ensemble de transcription des séquences de bien caractérisé les gènes et des centaines de milliers d'étiquettes de séquences exprimées (EST), dernière mise à jour le 9 décembre 2008. (environ 10 GO)
Linux/UNIX: snap-5ad83b33
Windows: snap-60d83b09
CHIMIE
Une Version 3D de la PubChem Bibliothèque fournie par Rajarshi Guha à l'Université d'Indiana
3D (un seul œil artificiel) version de Pubchem, une base de données publique des structures chimiques dans le Format SD (environ 70 GO)
Linux/UNIX: snap-a8dd3dc1
Windows: snap-40dd3d29
UGI Virtuel Conformère de la Bibliothèque fournie par Rajarshi Guha à l'Université d'Indiana
80 go de données en format SD sur conformères de 500 000 molécules qui peuvent être utilisés pour le criblage virtuel (environ 85 GO)
Linux/UNIX: snap-59d33330
Windows: snap-48ce2r21
PubChem Bibliothèque fournie par le National Center for Biotechnology Information
Un ensemble de données d'informations sur les activités biologiques des molécules de petite taille (environ 230 GO)
Linux/UNIX: snap-e6df3c8f
Windows: snap-63d83b0a
L'ÉCONOMIE
Divers Recensement des états-unis les Bases de données fournies par Le US Census Bureau
États-unis les données démographiques de l'1980 (environ 2 GO), 1990 (environ 50 GO), et en 2000, NOUS Recensements (environ 200GO), des informations de synthèse sur les Affaires et l'Industrie (environ 15 GO), et de 2003 à 2006 Économiques des Ménages les Données de Profil (environ 220 GO)
Recensement AMÉRICAIN de 2000 (Linux/UNIX): snap-92d333fb
Recensement AMÉRICAIN de 2000 (Windows): snap-36ce2e5f
1990 Recensement des états-unis (Linux/UNIX): snap-33f8185a
1990 Recensement des états-unis (Windows): snap-8cf818e5
1980 Recensement des états-unis (Linux/UNIX): snap-9df717f4
1980 Recensement des états-unis (Windows): snap-b6f818df
2003-2006 Données Économiques (Linux/UNIX): snap-0bdf3f62
2003-2006 Données Économiques (Windows): snap-4edd3d27
D'affaires et de l'Industrie Résumé des Données (Linux/UNIX): snap-5cf81835
D'affaires et de l'Industrie Résumé des Données (Windows): snap-8af818e3
Diverses Statistiques sur le Travail des Bases de données fournies par Le Bureau of Labor Statistics
Les statistiques sur l'Inflation Et les Prix, l'Emploi, le Chômage, le salaire Et les Avantages sociaux, les Dépenses Et l'Utilisation du Temps, de la Productivité, des accidents de Travail, de Comparaisons Internationales, les Projections de l'Emploi, et les Ressources Régionales (environ 15 GO)
Linux/UNIX: snap-30f81859
Windows: snap-8df818e4
Divers Transports de Bases de données fournies par Le Bureau des Services de Transport
Des données et des statistiques du Ministère AMÉRICAIN des Transports aérien, Maritime, Routier, transport en commun, le train, le Pipeline, Vélo/Piéton et les autres modes de transport (environ 15 GO)
Linux/UNIX: snap-e1608d88
Windows: snap-37668b5e
ENCYCLOPÉDIQUE
DBpedia de la Base de Connaissances fournies par DBpedia.
DBpedia est un effort de la communauté pour en extraire des informations structurées à partir de Wikipedia et de rendre cette information disponible sur le Web. Le DBpedia de la base de connaissance décrit actuellement plus de 2,6 millions de choses, y compris au moins 213 000 personnes, de 328 000 places, de 57 000 albums de musique, de 36 000 films, 20 000 entreprises. La base de connaissances se compose de 274 millions de morceaux de l'information (triplets RDF). Il dispose d'étiquettes et de courts résumés de ces choses dans 30 langues différentes; 609,000 des liens vers des images et 3,150,000 des liens vers des pages web externes; 4,878,100 liens externes vers d'autres ensembles de données RDF, 415,000 catégories de Wikipédia, et de 75 000 YAGO catégories (environ 67GB).
Sémantique, extraction de DBpedia, avec des contributions de la DBpedia de la Communauté, en utilisant les données de Wikipedia.org. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous la Licence de Documentation Libre GNU.
Linux/UNIX: snap-37b75e5e
Windows: snap-09b75e60
Épurée de Vidage des Données fournies par Freebase.com.
Un dump de données de tous les faits actuels et affirmations dans la Épurée système. Épurée est une base de données ouverte de l'information du monde, couvrant des millions de sujets dans des centaines de catégories. Dessin de vastes ensembles de données comme Wikipédia, MusicBrainz, et de la SEC, les services d'archives, il contient des informations structurées sur de nombreux sujets les plus populaires, y compris les films, la musique, les gens et les lieux – tous réconciliés et librement disponible. Cette information est complétée par les efforts d'un passionné de la communauté mondiale des utilisateurs qui travaillent ensemble pour ajouter des informations structurées sur tout ce que la philosophie Européenne stations de chemin de fer pour les propriétés chimiques de la commune d'ingrédients alimentaires. Pour plus de réponses vérifier la Épurée FAQ(environ 26GB).
Des données collectées, traitées et réconcilié freebase.com en utilisant les données de Wikipedia.org la épurée de la communauté, et de nombreux autres ensembles de données. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous licence Creative Commons paternité (CC-BY) licence et Épurée Modalités de Service et la Politique de délivrance des Licences.
Linux/UNIX: snap-a8957cc1
Windows: snap-ab957cc2
Wikipédia Extraction (WEX) fournis par Freebase.com.
La Épurée Wikipedia Extraction (WEX) est un traité de vidage de la langue anglaise de Wikipédia. Le balisage wiki pour chaque article est transformé en machine-readable XML et le bon relationnel des fonctionnalités telles que les modèles, les infoboxes, catégories, sections article, et les redirections sont extraites intabular forme. Épurée WEX est fourni comme un ensemble de tables de base de données au format TSV pour PostgreSQL, ainsi que les tableaux présentant les correspondances entre les articles de Wikipédia et Épurée sujets, et correspondant Épurée Types. (environ 66GB)
Sémantique de l'extraction par freebase.com l'aide des données de Wikipedia.org. Instantanés préparé par le infochimps.org l'équipe à l'aide de la communauté organisée des métadonnées. Publié sous la Licence de Documentation Libre GNU.
Linux/UNIX: snap-a0957cc9
Windows: snap-a6957ccf