Je suis sur Spark 2.2.0, fonctionnant sur EMR.
J'ai un grand cadre de données df
(40G environ en fichiers compressés snappy) qui est partitionné par clés k1
y k2
.
Quand je demande par k1
=== v1
ou ( k1
=== v1
&& k2 ===
v2`), je peux voir qu'il n'interroge que les fichiers de la partition (environ 2% des fichiers).
Cependant, si je cache o persister df
soudainement, ces requêtes atteignent tous les partitions et fait exploser la mémoire ou est beaucoup moins performant.
C'est une grande surprise. Existe-t-il un moyen de faire une mise en cache qui préserve les informations de partiton ?