Comment inclure des paquets dans PySpark lors de l'utilisation de notebooks sur EMR ?

Question

Comment inclure des paquets dans PySpark lors de l'utilisation de notebooks sur EMR ?

Demandé el 14 de Avril, 2019: Quand la question a-t-elle été
119 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'essaie actuellement d'analyser des données à l'aide d'un ordinateur portable utilisant le DME. Le problème que je rencontre est que je n'arrive pas à comprendre comment inclure des artefacts spécifiques lorsque j'utilise le noyau PySpark. Plus précisément, j'essaie d'inclure org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0, ce que je ferais normalement en ligne de commande au démarrage de l'environnement PySpark en utilisant simplement l'argument --packages. Dois-je inclure une action Bootstrap peut-être ? Je ne suis pas tout à fait certain de ce que je devrais mettre là. Toute aide serait la bienvenue.

Demandé el 14 de Avril, 2019 par Victor

Answer 1

1 Réponses

Answer 2

6voto

Victor Points 81

J'ai demandé sur reddit et quelqu'un de l'équipe EMR a répondu :

Vous pouvez utiliser un %%configure comme première cellule de votre carnet de notes pour spécifier des paquets supplémentaires. Dans votre cas, cela ressemblerait à ceci :

%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}

Voici une capture d'écran d'une exemple de cahier qui charge le spark-avro.

(Disclaimer : employé d'AWS dans l'équipe EMR)

Répondu el 7 de Août, 2019 par Victor (81 Points )

Comment inclure des paquets dans PySpark lors de l'utilisation de notebooks sur EMR ?

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment inclure des paquets dans PySpark lors de l'utilisation de notebooks sur EMR ?

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: