J'ai des données d'entrée stockées dans un seul grand fichier sur S3. Je veux que Dask découpe le fichier automatiquement, le distribue aux travailleurs et gère le flux de données. D'où l'idée d'utiliser la collecte distribuée, par exemple le sac.
Sur chaque travailleur, j'ai un outil de ligne de commande (Java) qui lit les données du ou des fichiers. Par conséquent, j'aimerais écrire un ensemble de données dans un fichier, appeler un CLI/code externe pour traiter les données, puis lire les résultats dans le fichier de sortie. Cela ressemble au traitement de lots de données au lieu d'un enregistrement à la fois.
Quelle serait la meilleure approche pour résoudre ce problème ? Est-il possible d'écrire une partition sur le disque d'un travailleur et de la traiter dans son ensemble ?
PS. Il n'est pas nécessaire, mais souhaitable, de rester dans un modèle de collecte distribuée car d'autres opérations sur les données pourraient être des fonctions Python plus simples qui traitent les données enregistrement par enregistrement.