Cela devrait être simple mais je n'y arrive pas. J'ai besoin de faire une sélection pour obtenir des valeurs de date plus récentes pour certains comptes.
Je commence ici, T1 :
+----------+---------+
| date | account |
+----------+---------+
| 4/1/2018 | 1 |
| 4/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
Ensuite, certaines dates sont mises à jour dans T2 :
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
+----------+---------+
Comment puis-je obtenir cette sortie dans T3, en mettant à jour uniquement ces comptes ?
+----------+---------+
| date | account |
+----------+---------+
| 7/1/2018 | 1 |
| 7/1/2018 | 2 |
| 4/1/2018 | 3 |
| 4/1/2018 | 4 |
| 4/1/2018 | 5 |
+----------+---------+
Je peux faire une jointure sur le numéro de compte, mais qu'en est-il de ceux qui n'ont pas changé ? Comment les capturer ?
De plus, T1 a environ 8 millions d'enregistrements, donc les performances seraient un facteur. Extraction à partir de Teradata, chargement dans Hive.
Gracias.