2 votes

Comment configurer un environnement virtuel ou installer une bibliothèque Python lorsque j'essaie de soumettre un travail PySpark à Databricks depuis Airflow ?

Je dois soumettre une tâche PySpark à Airflow via LivyOperator. Je vois qu'il y a des arguments à la méthode d'initialisation de LivyOperator où les utilisateurs peuvent passer une liste de fichiers Python, mais y a-t-il un moyen de le faire de manière plus claire ? Par exemple, que faire si je souhaite installer une bibliothèque tierce ? Existe-t-il un moyen de configurer un environnement virtuel? Merci.

0voto

Alex Ott Points 14329

Pour exécuter des tâches sur Databricks, vous devez utiliser des opérateurs spécifiques à Databricks. Plus précisément, regardez le DatabricksSubmitRunOperator. Cet opérateur permet de spécifier les tâches à exécuter, ainsi que les bibliothèques requises pour ces tâches.

P.S. il n'y a vraiment pas suffisamment d'informations pour donner une réponse plus détaillée...

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X