utilisation d'AWS Glue avec Apache Avro sur les changements de schémas

Question

utilisation d'AWS Glue avec Apache Avro sur les changements de schémas

Demandé el 9 de Février, 2018: Quand la question a-t-elle été
844 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je suis nouveau dans AWS Glue et j'ai du mal à comprendre pleinement la documentation AWS, mais je me heurte au cas d'utilisation suivant :

Nous avons un seau s3 avec un certain nombre de fichiers Avro. Nous avons décidé d'utiliser Avro en raison de sa prise en charge étendue des changements de schéma de données au fil du temps, ce qui permet d'appliquer sans problème de nouveaux champs aux anciennes données.

Avec AWS Glue, je comprends qu'une nouvelle table est créée par un crawler à chaque fois qu'il y a un changement de schéma. Lorsque notre schéma a changé, un certain nombre de nouvelles tables ont été créées par le robot d'exploration, comme prévu, mais pas tout à fait comme nous le souhaitons...

En fin de compte, nous aimerions que le robot d'exploration détecte le schéma le plus récent et applique ce schéma à toutes les données que nous explorons dans le seau s3, en ne produisant qu'une seule table. Nous avions (peut-être à tort) supposé qu'en utilisant Avro, cela ne poserait pas de problème, car le robot d'exploration pourrait appliquer de nouveaux champs de schéma avec une valeur par défaut ou nulle donnée aux anciennes données (l'avantage d'utiliser Avro), et ne produire qu'un seul tableau que nous pourrions ensuite interroger à l'aide d'AWS Athena.

Existe-t-il un moyen dans AWS Glue d'utiliser un schéma donné pour toutes les données dans le seau s3, ce qui nous permet de tirer parti de l'avantage de l'évolution des schémas d'Avro, de sorte que toutes les données sont produites dans une seule table ?

Demandé el 9 de Février, 2018 par CharStar

Answer 1

1 Réponses

Answer 2

1voto

David Gasquez Points 282

Je n'ai pas travaillé spécifiquement avec des fichiers Avro, mais AWS Glue vous permet de configurer le crawler de plusieurs façons.

Si vous créez un nouveau crawler, quelques options vous seront proposées sous la rubrique "Configurer la sortie du crawler" section.

Compte tenu de votre situation, je pense que vous devez cocher la case qui dit que Update all new and existing partitions with metadata from the table.

Voici à quoi ressemble ce sous-menu.

Répondu el 19 de Juillet, 2018 par David Gasquez (282 Points )

utilisation d'AWS Glue avec Apache Avro sur les changements de schémas

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

utilisation d'AWS Glue avec Apache Avro sur les changements de schémas

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: