Pourquoi l'application Spark échoue-t-elle avec "ClassNotFoundException: Failed to find data source: kafka" en tant qu'uber-jar avec sbt assembly?

Question

Pourquoi l'application Spark échoue-t-elle avec "ClassNotFoundException: Failed to find data source: kafka" en tant qu'uber-jar avec sbt assembly?

Demandé el 23 de Décembre, 2016: Quand la question a-t-elle été
13658 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis en train d'essayer d'exécuter un exemple comme https://github.com/apache/spark/blob/master/examples/src/main/scala/org/apache/spark/examples/sql/streaming/StructuredKafkaWordCount.scala. J'ai commencé avec le guide de programmation Spark Structured Streaming à http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html.

Mon code est

package io.boontadata.spark.job1

import org.apache.spark.sql.SparkSession

object DirectKafkaAggregateEvents {
  val FIELD_MESSAGE_ID = 0
  val FIELD_DEVICE_ID = 1
  val FIELD_TIMESTAMP = 2
  val FIELD_CATEGORY = 3
  val FIELD_MEASURE1 = 4
  val FIELD_MEASURE2 = 5

  def main(args: Array[String]) {
    if (args.length < 3) {
      System.err.println(s"""
        |Usage: DirectKafkaAggregateEvents   
        |   est une liste d'un ou plusieurs courtiers Kafka
        |   valeur d'exemple: subscribe
        |   est une liste d'un ou plusieurs sujets kafka à consommer
        |
        """.stripMargin)
      System.exit(1)
    }

    val Array(bootstrapServers, subscribeType, topics) = args

    val spark = SparkSession
      .builder
      .appName("boontadata-spark-job1")
      .getOrCreate()

    import spark.implicits._

    // Créer un DataSet représentant le flux de lignes d'entrée depuis kafka
    val lines = spark
      .readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", bootstrapServers)
      .option(subscribeType, topics)
      .load()
      .selectExpr("CAST(value AS STRING)")
      .as[String]

    // Générer le décompte de mots en cours
    val wordCounts = lines.flatMap(_.split(" ")).groupBy("value").count()

    // Démarrer l'exécution de la requête qui imprime les comptes en cours dans la console
    val query = wordCounts.writeStream
      .outputMode("complete")
      .format("console")
      .start()

    query.awaitTermination()
  }

}

J'ai ajouté les fichiers sbt suivants:

build.sbt:

name := "boontadata-spark-job1"
version := "0.1"
scalaVersion := "2.11.7"

libraryDependencies += "org.apache.spark" % "spark-core_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-streaming_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-sql_2.11" % "2.0.2" % "provided"
libraryDependencies += "org.apache.spark" % "spark-sql-kafka-0-10_2.11" % "2.0.2"
libraryDependencies += "org.apache.spark" % "spark-streaming-kafka-0-10_2.11" % "2.0.2"
libraryDependencies += "org.apache.kafka" % "kafka-clients" % "0.10.1.1"
libraryDependencies += "org.apache.kafka" % "kafka_2.11" % "0.10.1.1"

// Exclusion des META-INF
assemblyMergeStrategy in assembly := { 
   {
    case PathList("META-INF", xs @ _*) => MergeStrategy.discard
    case x => MergeStrategy.first
   }
}

J'ai également ajouté project/assembly.sbt

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.3")

Cela crée un jar Uber avec les jars non fournis.

Je soumets avec la ligne suivante:

spark-submit boontadata-spark-job1-assembly-0.1.jar ks1:9092,ks2:9092,ks3:9092 subscribe sampletopic

mais je reçois cette erreur d'exécution:

Exception in thread "main" java.lang.ClassNotFoundException: Failed to find data source: kafka. Please find packages at https://cwiki.apache.org/confluence/display/SPARK/Third+Party+Projects
        at org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:148)
        at org.apache.spark.sql.execution.datasources.DataSource.providingClass$lzycompute(DataSource.scala:79)
        at org.apache.spark.sql.execution.datasources.DataSource.providingClass(DataSource.scala:79)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceSchema(DataSource.scala:218)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo$lzycompute(DataSource.scala:80)
        at org.apache.spark.sql.execution.datasources.DataSource.sourceInfo(DataSource.scala:80)
        at org.apache.spark.sql.execution.streaming.StreamingRelation$.apply(StreamingRelation.scala:30)
        at org.apache.spark.sql.streaming.DataStreamReader.load(DataStreamReader.scala:124)
        at io.boontadata.spark.job1.DirectKafkaAggregateEvents$.main(StreamingJob.scala:41)
        at io.boontadata.spark.job1.DirectKafkaAggregateEvents.main(StreamingJob.scala)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.spark.deploy.SparkSubmit$.org$apache$spark$deploy$SparkSubmit$$runMain(SparkSubmit.scala:736)
        at org.apache.spark.deploy.SparkSubmit$.doRunMain$1(SparkSubmit.scala:185)
        at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:210)
        at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:124)
        at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
Caused by: java.lang.ClassNotFoundException: kafka.DefaultSource
        at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
        at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5$$anonfun$apply$1.apply(DataSource.scala:132)
        at scala.util.Try$.apply(Try.scala:192)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5.apply(DataSource.scala:132)
        at org.apache.spark.sql.execution.datasources.DataSource$$anonfun$5.apply(DataSource.scala:132)
        at scala.util.Try.orElse(Try.scala:84)
        at org.apache.spark.sql.execution.datasources.DataSource.lookupDataSource(DataSource.scala:132)
        ... 18 more
16/12/23 13:32:48 INFO spark.SparkContext: Invoking stop() from shutdown hook

Y a-t-il un moyen de savoir quelle classe n'est pas trouvée afin que je puisse rechercher cette classe sur le dépôt maven.org.

Le code source de lookupDataSource semble être à la ligne 543 à https://github.com/apache/spark/blob/83a6ace0d1be44f70e768348ae6688798c84343e/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/DataSource.scala mais je n'ai pas pu trouver de lien direct avec la source de données Kafka...

Le code source complet est ici: https://github.com/boontadata/boontadata-streams/tree/ad0d0134ddb7664d359c8dca40f1d16ddd94053f

Demandé el 23 de Décembre, 2016 par benjguin

Answer 1

2 Réponses

Answer 2

0voto

Algomeister Points 1

Ceci est en vue de la réponse de Jacek Laskowski.

Ceux d'entre vous qui construisent votre projet sur Maven peuvent essayer ceci. Ajoutez la ligne mentionnée ci-dessous à votre plugin maven-shade.

META-INF/services/org.apache.spark.sql.sources.DataSourceRegister

J'ai mis le code du plugin pour le fichier pom en exemple pour montrer où ajouter la ligne.

    org.apache.maven.plugins
    maven-shade-plugin
    3.1.0

            package

                shade

                            META-INF/services/org.apache.spark.sql.sources.DataSourceRegister

                ${project.artifactId}-${project.version}-uber

Veuillez excuser mes compétences en mise en forme.

Répondu el 8 de Mai, 2018 par Algomeister (1 Points )

Answer 3

0voto

Falco Winkler Points 405

Je me sers de gradle comme outil de build et du plugin shadowJar pour créer l'uberJar. La solution était simplement d'ajouter un fichier

src/main/resources/META-INF/services/org.apache.spark.sql.sources.DataSourceRegister

au projet.

Dans ce fichier, vous devez mettre, ligne par ligne, les noms de classe des DataSources que vous utilisez, dans ce cas ce serait org.apache.spark.sql.kafka010.KafkaSourceProvider (trouvez ce nom de classe par exemple ici)

La raison en est que Spark utilise le ServiceLoader de Java dans ses mécanismes internes de gestion des dépendances.

Exemple complet ici.

Répondu el 24 de Février, 2019 par Falco Winkler (405 Points )

Pourquoi l'application Spark échoue-t-elle avec "ClassNotFoundException: Failed to find data source: kafka" en tant qu'uber-jar avec sbt assembly?

Réponses

Ceci est en vue de la réponse de Jacek Laskowski.

Questions en vedette

Top Tags

Prograide.com

Powered by:

Pourquoi l'application Spark échoue-t-elle avec "ClassNotFoundException: Failed to find data source: kafka" en tant qu'uber-jar avec sbt assembly?

Réponses

Ceci est en vue de la réponse de Jacek Laskowski.

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: