Après avoir parcouru la documentation de Google Cloud Dataflow, j'ai l'impression que les VMs de travail exécutent un environnement Python 2.7 prédéfini spécifique sans aucune option pour le changer. Est-il possible de fournir une image VM personnalisée pour les workers (construite avec des bibliothèques, des commandes externes dont l'application particulière a besoin). Est-il possible d'exécuter Python 3 sur Gcloud Dataflow ?
Réponses
Trop de publicités?Est-il possible de fournir une image VM personnalisée pour les travailleurs (construite avec des bibliothèques, des commandes externes dont l'application particulière a besoin). Est-il possible d'exécuter Python 3 sur Gcloud Dataflow ?
Non et non aux deux questions. Vous pouvez configurer le type de machine de l'instance Compute Engine et la taille du disque pour un travail Dataflow, mais vous ne pouvez pas configurer des éléments tels que les applications installées. Actuellement, Apache Beam ne prend pas en charge Python 3.x.
Références :
1. https://cloud.google.com/dataflow/pipelines/specifying-exec-params
2. https://issues.apache.org/jira/browse/BEAM-1251
3. https://beam.apache.org/get-started/quickstart-py/
Prise en charge de Python 3 dans l'état d'Apache Beam : https://beam.apache.org/roadmap/python-sdk/#python-3-support
Vous ne pouvez pas fournir d'image VM personnalisée pour les travailleurs, mais vous pouvez fournir un fichier setup.py pour exécuter des commandes personnalisées et installer des bibliothèques.
Vous pouvez trouver plus d'informations sur le fichier setup.py ici : https://beam.apache.org/documentation/sdks/python-pipeline-dependencies/