63 votes

Liste brute de noms de personnes

J'ai besoin d'une longue liste de noms de personnes ("Robert", "Jeniffer", "Andrew", etc.).

Combien de temps ? 100, c'est assez bien, mais des milliers, c'est mieux.

J'aimerais qu'il soit brut, pas dans une page web HTML ou autre, afin que je puisse facilement l'importer dans mon code.

91voto

miku Points 63392

Pour le formater joliment :

$ curl http://deron.meranda.us/data/census-dist-female-first.txt | \
   awk '{print $1}'

49voto

DK_ Points 1171

Le Bureau du recensement des États-Unis a trois listes généré à partir d'un recensement de 1990 :

(Ceux-ci ont les mêmes comptes que ceux d'une autre réponse qui renvoie à deron.meranda.us)

Je cite le lien ci-dessus :

Chacun des trois fichiers, (dist.all.last), (dist. male.first), et (dist femelle.premier) contient quatre éléments de données. Ces quatre éléments sont les suivants :

A "Nom" Fréquence en pourcentage Fréquence cumulée en pourcentage Rang Dans le fichier (dist.all.last) une entrée apparaît comme :

    MOORE       0.312       5.312       9  

Dans notre échantillon de zones de recherche, MOORE se classe au 9ème rang en termes de fréquence. 5,312 % de la population de l'échantillon population de l'échantillon est couverte par MOORE et les 8 noms apparaissant plus fréquemment fréquemment que MOORE. Le nom de famille, MOORE, est possédé par 0.312 pour cent de notre échantillon de population.

En cherchant sur Google, il semble que ces données aient été affinées en une liste unique de 5163 entrées ( lien 1 , lien 2 ), dans le format :

    <namestyle> <first/last indicator> <name>

Code de style de nom :

  • MF : utilisé comme homme ou femme
  • MO : utilisé comme homme uniquement
  • FO : utilisé uniquement pour les femmes

Premier/Dernier indicateur :

  • LY : utilisé comme nom de famille
  • LN : Non utilisé comme nom de famille

Par exemple

   MF LY AARON 
   FO LY ABBEY 
   FO LN ABBIE 
   FO LY ABBY

MISE À JOUR 1 : Légèrement hors sujet par rapport au message original, mais cela peut être utile à d'autres personnes qui trouvent ceci. Si vous cherchez quelque chose de plus complexe (pas seulement des noms de personnes, mais aussi le genre de nombreux noms et expressions), vous pouvez consulter le site suivant le corpus créé par Shane Bergsma et Dekang Lin . Ils ont un lien vers des données gzippées et divisées en 6 parties mais si vous ne voulez pas vous embêter à les combiner, les données sont disponibles sous forme d'un seul fichier gzip de la tâche partagée CoNLL .

9voto

Dave Webb Points 90034

Beaucoup de listes de mots sur cette page y compris plusieurs listes de noms.

5voto

john ellis Points 304

C'est probablement trop tard pour l'affiche originale, mais peut-être utile pour les chercheurs... ici : http://www.ssa.gov/OACT/babynames/limits.html

est un fichier texte téléchargeable qui répertorie tous les noms par année de naissance jusqu'aux noms qui ont été donnés à au moins 5 enfants, ce qui représente une tonne de données.

0voto

user1509395 Points 1

Le répertoire Z de Vettrasoft, qui fait partie de son jeu de données géo-topo, comprend une table "first_names" (noms de famille). qui contient le nom, toute forme abrégée ou orthographe alternative (par exemple, Angela / Angie ; Daniel - Dan - Danny), le sexe (M/F/B/? ; B est les deux et ? signifie inconnu). La table compte 12 779 entrées et le fichier est au format .unl (champs séparés par des |). Outre les prénoms, le jeu de données comprend les aéroports (8 200 entrées), les codes régionaux, les pays, les codes postaux, les États, les fuseaux horaires et bien d'autres choses encore. Les données sont fournies sous forme de paquet intégré avec la bibliothèque o-o qui contient des sous-routines permettant d'accéder à ces données. Dans le cas des prénoms, vous pouvez écrire du code C++ comme suit :

main()
{
   person_o p = "Daniel Boone";
   p.store_add();
}

qui enregistrera Daniel Boone dans la base de données (implémentée actuellement : mySQL et SQL Server). L'objet person utilisera la table first_names de la base de données pour rechercher automatiquement le sexe associé à "Daniel" et l'enregistrer en tant que "M" (ainsi que pour analyser le nom, enregistrer "Daniel" dans la colonne first_name et "Boone" dans la colonne last name). Le Z Directory fonctionne de manière similaire pour enregistrer et récupérer d'autres objets du domaine humain tels que les entreprises, les employés, les adresses électroniques, les numéros de téléphone, etc.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X