Un coup d'œil au Glossar de Databricks ou d'autres ressources en ligne devrait clarifier vos doutes :
"Tungsten est le nom de code du projet cadre visant à apporter des modifications au moteur d'exécution d'Apache Spark qui se concentre sur l'amélioration substantielle de l'efficacité de la mémoire et du CPU pour les applications Spark, afin de pousser les performances plus près des limites du matériel moderne."
L'optimiseur Catalyst prend votre code et le convertit en un plan d'exécution qui finit par générer un code compact pour la JVM. Il passe par quatre phases de transformation décrites dans l'image ci-dessous :
Notez que la phase "Génération de code" est la quatrième phase de l'Optimiseur Catalyst. Plus de détails dans la section suivante.
"Whole-Stage CodeGen est également connu sous le nom de Whole-Stage Java Code Generation, qui est une phase d'optimisation des requêtes physiques dans Spakr SQL qui regroupe plusieurs opérations physiques pour former une seule fonction Java."