2 votes

Azure Data Factory - Chargement incrémentiel vers Azure Data Lake

Je veux avoir un modèle de chargement incrémentiel pour un système source où il n'y a pas de champs d'audit qui indiquent quand l'enregistrement a été modifié pour la dernière fois. Exemple : Dernière modification le (date et heure)

Mais ces tables sont définies avec des clés primaires et des clés uniques qui sont utilisées par l'application pour mettre à jour l'enregistrement lorsqu'il y a un changement dans l'attribut.

Maintenant, la question est de savoir comment je peux déterminer les deltas chaque jour et les charger dans Azure Data Lake en utilisant Azure Data Factory / Databricks.

Dois-je mettre en scène l'ensemble des données de la journée actuelle et de la journée actuelle -1 et déterminer les deltas en utilisant des valeurs de hachage ?

Ou y a-t-il un meilleur moyen ?

0voto

Sreedhar Points 6225

Comme cette base de données n'est pas énorme en taille, nous avons fini par créer un pipeline où il charge l'ensemble des données dans sql staging et ensuite écrit à nouveau dans Data Lake dans l'emplacement approprié pour Initial Load Dataset et ensuite promeut le sql staging au schéma PreviousDay.

Ensuite, pour le prochain incrément, il lit le jeu de données complet dans sql staging et le compare avec le jeu de données PreviousDays, récupère les enregistrements modifiés et les écrit dans Data Lake à l'emplacement incrémental approprié. Ensuite, le jeu de données existant PreviousDay est supprimé et le jeu de données Staging est promu à PreviousDay afin qu'il soit prêt pour le prochain incrément.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X