4 votes

Comment inclure des paquets dans PySpark lors de l'utilisation de notebooks sur EMR ?

J'essaie actuellement d'analyser des données à l'aide d'un ordinateur portable utilisant le DME. Le problème que je rencontre est que je n'arrive pas à comprendre comment inclure des artefacts spécifiques lorsque j'utilise le noyau PySpark. Plus précisément, j'essaie d'inclure org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0, ce que je ferais normalement en ligne de commande au démarrage de l'environnement PySpark en utilisant simplement l'argument --packages. Dois-je inclure une action Bootstrap peut-être ? Je ne suis pas tout à fait certain de ce que je devrais mettre là. Toute aide serait la bienvenue.

6voto

Victor Points 81

J'ai demandé sur reddit et quelqu'un de l'équipe EMR a répondu :

Vous pouvez utiliser un %%configure comme première cellule de votre carnet de notes pour spécifier des paquets supplémentaires. Dans votre cas, cela ressemblerait à ceci :

%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}

Voici une capture d'écran d'une exemple de cahier qui charge le spark-avro.

(Disclaimer : employé d'AWS dans l'équipe EMR)

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X