118 votes

Différence entre les tables internes de Hive et les tables externes ?

Quelqu'un peut-il me dire quelle est la différence entre la table externe de Hive et les tables internes. Je sais que la différence se fait lors de la suppression de la table. Je ne comprends pas ce que vous voulez dire par les données et les métadonnées sont supprimées dans les tables internes et seulement les métadonnées sont supprimées dans les tables externes. Quelqu'un peut-il m'expliquer en termes de nœuds s'il vous plaît.

3voto

Ajaykumar Points 31

Dans les tables externes, si vous les supprimez, cela ne supprime que le schéma de la table, les données de la table existent dans l'emplacement physique. Donc pour supprimer les données, utilisez hadoop fs - rmr nom de table . Le répertoire de stockage Managed Table aura un contrôle total sur les tables. Dans les tables externes, les utilisateurs auront le contrôle sur celles-ci.

2voto

Prasad L Points 41

INTERNES : Tableau est créé Premier y Données est chargé plus tard

EXTERNAL : Données est présent y Tableau est créé en haut d'elle.

1voto

Muthu Palaniappan Points 201

Les tables internes sont utiles si vous souhaitez que Hive gère le cycle de vie complet de vos données, y compris leur suppression, tandis que les tables externes sont utiles lorsque les fichiers sont utilisés en dehors de Hive.

1voto

user3485352 Points 89

La table de ruche externe a l'avantage de ne pas supprimer les fichiers lorsque nous abandonnons les tables, nous pouvons définir les formats de ligne avec différents paramètres, comme serde....delimited.

1voto

Suresh Vadali Points 11

Considérez ce scénario qui convient le mieux à la table externe :

Un travail MapReduce (MR) filtre un énorme fichier journal pour en sortir n des sous-fichiers de journal (par exemple, chaque sous-fichier de journal contient un type de message spécifique) et la sortie, à savoir n Les fichiers journaux secondaires sont stockés dans hdfs.

Ces fichiers journaux doivent être chargés dans des tables Hive pour effectuer des analyses plus poussées, dans ce scénario, je recommanderais une (des) table(s) externe(s), parce que les fichiers journaux réels sont générés et détenus par un processus externe, c'est-à-dire un travail MR, en plus vous pouvez éviter une étape supplémentaire de chargement de chaque fichier journal généré dans la table Hive respective.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X