L'un des principaux exemples utilisés pour démontrer la puissance de MapReduce est l'application Repère Terasort . J'ai du mal à comprendre les bases de l'algorithme de tri utilisé dans l'environnement MapReduce.
Pour moi, le tri consiste simplement à déterminer la position relative d'un élément par rapport à tous les autres éléments. Le tri consiste donc à comparer "tout" avec "tout". Votre algorithme de tri moyen (rapide, à bulles, ...) fait simplement cela de manière intelligente.
Dans mon esprit, diviser l'ensemble de données en plusieurs morceaux signifie que vous pouvez trier un seul morceau et qu'il vous reste à intégrer ces morceaux dans l'ensemble de données "complet" entièrement trié. Compte tenu du téraoctet de données réparti sur des milliers de systèmes, je m'attends à ce que ce soit une tâche énorme.
Comment cela se passe-t-il réellement ? Comment fonctionne cet algorithme de tri MapReduce ?
Merci de m'aider à comprendre.