Bonjour, j'utilise pandas pour lire une série de fichiers et les concaténer dans un dataframe. Mes fichiers ont beaucoup de données inutiles au début, de longueur variable, que je veux ignorer. pd.read_csv()
a la méthode skiprows. J'ai écrit une fonction pour gérer ce cas, mais je dois ouvrir le fichier deux fois pour que ça fonctionne. Y a-t-il un moyen meilleur?
HEADER = '#Start'
def header_index(file_name):
with open(file_name) as fp:
for ind, line in enumerate(fp):
if line.startswith(HEADER):
return ind
for row in directories:
path2file = '%s%s%s' % (path2data, row, suffix)
myDF = pd.read_csv(path2file, skiprows=header_index(path2file), header=0, delimiter='\t')
Toute aide serait grandement appréciée.