298 votes

Apache Spark vs Apache Storm

Pourriez-vous s'il vous plaît me dire quelles sont les différences entre Apache Spark et Apache Storm? Quels sont les cas d'utilisation appropriés pour chacun?

462voto

plambre Points 586

Apache Spark est une mémoire de données distribuées plate-forme d'analyse-- principalement destiné à accélérer l'analyse des lots d'emplois, itératif d'apprentissage de la machine d'emplois, la requête interactive et graphique de traitement. L'un des Étincelles distinctions principales est son utilisation de la Ddr ou Résilient Distribué de bases de données. Rdd sont grands pour le pipelining parallèle des opérateurs de calcul et sont, par définition, immuable, qui permet de déclencher une forme unique de tolérance de pannes, basé sur les informations de lignage. Si vous êtes intéressé, par exemple, l'exécution d'un emploi Hadoop MapReduce beaucoup plus rapide, la Spark est une excellente option (bien que les exigences de mémoire doit être pris en compte).

Apache Storm est axé sur le traitement de flux ou de ce que certains appellent le traitement des événements complexes. La tempête met en œuvre une tolérance de panne méthode d'exécution d'un calcul ou de traitement en pipeline plusieurs calculs sur un événement comme il se jette dans un système. On peut utiliser la Tempête de transformer les données non structurées comme il s'écoule dans un système dans un format souhaité.

La tempête et l'Allumage sont axés sur assez différents cas d'utilisation. La plus "des pommes avec des pommes comparaison devrait être faite entre l'Orage et de la Spark Streaming. Depuis Étincelle de Rdd sont par nature immuable, Spark Streaming met en œuvre une méthode pour "traitement par lots" entrants mises à jour en temps définie par l'utilisateur intervalles qui se transforment dans leur propre RDDs. La Spark parallèle, les opérateurs peuvent alors effectuer des calculs sur ces RDDs. Ceci est différent de la Tempête qui traite chaque cas individuellement.

Une des principales différences entre ces deux technologies, c'est que l'Étincelle effectue de Données-calculs en Parallèle alors que la Tempête effectue la Tâche des calculs Parallèles. La conception rend les compromis qui valent la peine de savoir. Je suggère de vérifier ces liens.

Edit: découvert ça aujourd'hui: http://xinhstechblog.blogspot.com/2014/06/storm-vs-spark-streaming-side-by-side.html

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X