Je suis nouveau dans AWS Glue et j'ai du mal à comprendre pleinement la documentation AWS, mais je me heurte au cas d'utilisation suivant :
Nous avons un seau s3 avec un certain nombre de fichiers Avro. Nous avons décidé d'utiliser Avro en raison de sa prise en charge étendue des changements de schéma de données au fil du temps, ce qui permet d'appliquer sans problème de nouveaux champs aux anciennes données.
Avec AWS Glue, je comprends qu'une nouvelle table est créée par un crawler à chaque fois qu'il y a un changement de schéma. Lorsque notre schéma a changé, un certain nombre de nouvelles tables ont été créées par le robot d'exploration, comme prévu, mais pas tout à fait comme nous le souhaitons...
En fin de compte, nous aimerions que le robot d'exploration détecte le schéma le plus récent et applique ce schéma à toutes les données que nous explorons dans le seau s3, en ne produisant qu'une seule table. Nous avions (peut-être à tort) supposé qu'en utilisant Avro, cela ne poserait pas de problème, car le robot d'exploration pourrait appliquer de nouveaux champs de schéma avec une valeur par défaut ou nulle donnée aux anciennes données (l'avantage d'utiliser Avro), et ne produire qu'un seul tableau que nous pourrions ensuite interroger à l'aide d'AWS Athena.
Existe-t-il un moyen dans AWS Glue d'utiliser un schéma donné pour toutes les données dans le seau s3, ce qui nous permet de tirer parti de l'avantage de l'évolution des schémas d'Avro, de sorte que toutes les données sont produites dans une seule table ?