J'ai copié des fichiers d'un répertoire à un autre en utilisant
hadoop distcp -Dmapreduce.job.queuename=adhoc /user/comverse/data/$CURRENT_DATE_NO_DASH_*/*rcr.gz /apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_rcr/
J'ai arrêté le scipt avant qu'il ne se termine et il est resté beaucoup de .distcp.tmp.attempt
et les fichiers qui ont fini de se déplacer dans le répertoire dst
Je veux maintenant nettoyer le répertoire dst. Après avoir exécuté
hadoop fs -rm -skipTrash /apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_mta/*
la plupart des fichiers ont été supprimés, mais certains sont restés (c'est du moins ce qu'indique HUE). Ce qui est étrange, c'est qu'à chaque fois que je lance hadoop fs -rm -skipTrash
Selon HUE, le nombre de dossiers restants est plus ou moins élevé.
J'ai essayé
hadoop fs -ls /apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_mta/
et a constaté que certains des fichiers qui devraient être supprimés étaient toujours présents. J'ai ensuite exécuté
hadoop fs -rm -skipTrash /apps/hive/warehouse/arstel.db/fair_usage/fct_evkuzmin04/file_mta/*
une douzaine de fois et il y avait toujours plus de fichiers à supprimer (il y en a toujours). Que se passe-t-il ?
AUSSI
Chaque fois que je rafraîchis la page dans hue, le nombre de fichiers augmente. HALP.
EDIT
Il semble que l'arrêt de distcp dans la ligne de commande ne tue pas réellement le travail. C'était la raison.