En définitive, c'est Hadoop qui décide du nombre de mappeurs à utiliser. En général, il utilisera un mappeur par bloc HDFS (typiquement 64 ou 128MB). Si vos données sont plus petites que cela, elles sont trop petites pour s'embêter avec plus d'un mappeur.
Vous pouvez l'encourager à en utiliser davantage de toute façon en définissant les paramètres suivants mapred.max.split.size
à quelque chose de plus petit que 64MB (rappelez-vous que la valeur est définie en octets, pas en MB). Mais, êtes-vous sûr de vouloir le faire ? Il est beaucoup plus courant d'avoir besoin de plus de réducteurs, pas de mappeurs, puisque Hadoop n'en utilisera jamais plus d'un à moins que vous (ou votre travail) ne le lui demandiez.
Sachez également qu'Hadoop ne pourra pas utiliser plus d'un mappeur sur une même comprimé fichier. Donc si votre entrée est un énorme fichier compressé, il n'utilisera qu'un seul mappeur sur ce fichier. Vous pouvez cependant le diviser vous-même en plusieurs fichiers compressés plus petits.