J'essaie actuellement d'analyser des données à l'aide d'un ordinateur portable utilisant le DME. Le problème que je rencontre est que je n'arrive pas à comprendre comment inclure des artefacts spécifiques lorsque j'utilise le noyau PySpark. Plus précisément, j'essaie d'inclure org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0, ce que je ferais normalement en ligne de commande au démarrage de l'environnement PySpark en utilisant simplement l'argument --packages. Dois-je inclure une action Bootstrap peut-être ? Je ne suis pas tout à fait certain de ce que je devrais mettre là. Toute aide serait la bienvenue.
Réponse
Trop de publicités?
Victor
Points
81
J'ai demandé sur reddit et quelqu'un de l'équipe EMR a répondu :
Vous pouvez utiliser un %%configure
comme première cellule de votre carnet de notes pour spécifier des paquets supplémentaires. Dans votre cas, cela ressemblerait à ceci :
%%configure
{ "conf": {"spark.jars.packages": "org.apache.spark:spark-sql-kafka-0-10_2.11:2.4.0" }}
Voici une capture d'écran d'une exemple de cahier qui charge le spark-avro.
(Disclaimer : employé d'AWS dans l'équipe EMR)