Je dois soumettre une tâche PySpark à Airflow via LivyOperator. Je vois qu'il y a des arguments à la méthode d'initialisation de LivyOperator où les utilisateurs peuvent passer une liste de fichiers Python, mais y a-t-il un moyen de le faire de manière plus claire ? Par exemple, que faire si je souhaite installer une bibliothèque tierce ? Existe-t-il un moyen de configurer un environnement virtuel? Merci.
Réponse
Trop de publicités?
Alex Ott
Points
14329
Pour exécuter des tâches sur Databricks, vous devez utiliser des opérateurs spécifiques à Databricks. Plus précisément, regardez le DatabricksSubmitRunOperator. Cet opérateur permet de spécifier les tâches à exécuter, ainsi que les bibliothèques requises pour ces tâches.
P.S. il n'y a vraiment pas suffisamment d'informations pour donner une réponse plus détaillée...