Le logiciel statistique Stata permet d'enregistrer de courts extraits de texte dans un ensemble de données. Ceci est réalisé soit en utilisant notes
et/ou characteristics
.
Cette fonction m'est très utile, car elle me permet de sauvegarder toute une série d'informations, allant de rappels et de listes de tâches à des informations sur la façon dont j'ai généré les données, ou même sur la méthode d'estimation d'une variable particulière.
J'essaie maintenant de proposer une fonctionnalité similaire dans Python 3.6. Jusqu'à présent, j'ai regardé en ligne et consulté un certain nombre d'articles, qui ne répondent toutefois pas exactement à ce que je veux faire.
Voici quelques postes de référence :
-
meilleure façon de préserver les tableaux numpy sur le disque
-
Quelle est la différence entre sauvegarder un dataframe pandas en pickle et en csv ?
-
Comment puis-je visualiser le contenu des objets de données dans un fichier npz ?
Pour un petit NumPy
j'en ai conclu qu'une combinaison de la fonction numpy.savez()
y un dictionary
peut stocker adéquatement toutes les informations pertinentes dans un seul fichier.
Par exemple :
a = np.array([[2,4],[6,8],[10,12]])
d = {"first": 1, "second": "two", "third": 3}
np.savez(whatever_name.npz, a=a, d=d)
data = np.load(whatever_name.npz)
arr = data['a']
dic = data['d'].tolist()
Cependant, la question demeure :
Existe-t-il de meilleurs moyens d'incorporer potentiellement d'autres éléments d'information dans un fichier contenant un NumPy
ou un (grand) Pandas
DataFrame
?
Je suis particulièrement intéressé à entendre parler de la particularité pros y contre de toute suggestion que vous pourriez avoir avec des exemples. Moins il y a de dépendances, mieux c'est.