4 votes

Quel est le rôle de l'optimiseur de catalyseur et du projet Tungstène ?

Je ne suis pas clair sur les rôles de l'optimiseur de catalyseur et du projet Tungstène.

Si je comprends bien, l'optimiseur Catalyst produira un plan physique optimisé à partir du plan logique. Le plan physique optimisé sera ensuite utilisé par le générateur de code pour émettre des Rdd.

Le générateur de code fait-il partie du projet Tungstène ou de Catalyst Optimizer ? Et le générateur de code est-il également appelé "Whole Stage Code generator" ?

3voto

mike Points 9735

Un coup d'œil au Glossar de Databricks ou d'autres ressources en ligne devrait clarifier vos doutes :

Tungstène

"Tungsten est le nom de code du projet cadre visant à apporter des modifications au moteur d'exécution d'Apache Spark qui se concentre sur l'amélioration substantielle de l'efficacité de la mémoire et du CPU pour les applications Spark, afin de pousser les performances plus près des limites du matériel moderne."

Optimiseur de catalyseur

L'optimiseur Catalyst prend votre code et le convertit en un plan d'exécution qui finit par générer un code compact pour la JVM. Il passe par quatre phases de transformation décrites dans l'image ci-dessous :

enter image description here

Notez que la phase "Génération de code" est la quatrième phase de l'Optimiseur Catalyst. Plus de détails dans la section suivante.

Générateur de code WholeStage

"Whole-Stage CodeGen est également connu sous le nom de Whole-Stage Java Code Generation, qui est une phase d'optimisation des requêtes physiques dans Spakr SQL qui regroupe plusieurs opérations physiques pour former une seule fonction Java."

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X