J'ai des tableaux très volumineux (30 millions de lignes) que je voudrais charger sous forme de dataframes dans R. read.table()
a beaucoup de fonctionnalités pratiques, mais il semble qu'il y ait beaucoup de logique dans l'implémentation qui ralentirait les choses. Dans mon cas, je suppose que je connais les types de colonnes à l'avance, que le tableau ne contient pas d'en-têtes de colonnes ou de noms de lignes et qu'il ne comporte pas de caractères pathologiques dont je dois me préoccuper.
Je sais que la lecture d'un tableau sous forme de liste à l'aide de la fonction scan()
peut être assez rapide, par exemple :
datalist <- scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0)))
Cependant, certaines de mes tentatives de conversion en un cadre de données semblent diminuer les performances de l'opération ci-dessus par un facteur de 6 :
df <- as.data.frame(scan('myfile',sep='\t',list(url='',popularity=0,mintime=0,maxtime=0))))
Existe-t-il une meilleure façon de procéder ? Ou peut-être une approche complètement différente du problème ?