J'utilise actuellement spark 2.1.0. J'ai travaillé la plupart du temps en shell PYSPARK, mais j'ai besoin de spark-submit un fichier python (similaire à spark-submit jar en java) . Comment faire cela en python ?
Réponse
Trop de publicités?
Himaprasoon
Points
1179
Pythonfile.py
from pyspark.sql import SparkSession
spark = SparkSession.builder.appName("appName").getOrCreate()
sc = spark.sparkContext
rdd = sc.parallelize([1,2,3,4,5,6,7])
print(rdd.count())
Exécutez le programme ci-dessus avec les configurations que vous souhaitez : par exemple :
YOUR_SPARK_HOME/bin/spark-submit --master yourSparkMaster --num-executors 20 \
--executor-memory 1G --executor-cores 2 --driver-memory 1G \
pythonfile.py
Ces options ne sont pas obligatoires. Vous pouvez même exécuter comme
YOUR_SPARK_HOME/bin/spark-submit --master sparkMaster/local pythonfile.py