Dans de nombreuses situations de la vie réelle où vous appliquez MapReduce, la finale des algorithmes finissent par être plusieurs étapes MapReduce.
I. e. Map1 , Reduce1 , Map2 , Reduce2 , etc.
Vous avez donc la sortie de la dernière de réduire ce qui est nécessaire comme l'entrée de la carte suivante.
L'intermédiaire des données est quelque chose que vous (en général) ne souhaitez pas les conserver, une fois que le pipeline a été complété avec succès. Aussi parce que cet intermédiaire les données sont en général des structure de données (comme une "carte" ou un "set"), vous ne voulez pas mettre trop d'effort dans l'écriture et la lecture de ces paires clé-valeur.
Quelle est la meilleure façon de le faire dans Hadoop?
Est-il un (simple) exemple qui montre la façon de traiter ces données intermédiaires dans le bon sens, y compris le nettoyage par la suite?
Merci.