J'ai un cadre de données qui contient un grand nombre d'enregistrements. Dans ce DF, un enregistrement peut être répété plusieurs fois et chaque fois qu'il est mis à jour, le champ de la dernière mise à jour contient la date à laquelle l'enregistrement a été modifié.
Nous avons un groupe de colonnes sur lesquelles nous voulons comparer les lignes d'identifiants similaires. Pendant cette comparaison, nous voulons capturer quels sont les champs/colonnes qui ont changé entre l'enregistrement précédent et l'enregistrement actuel et capturer cela dans une colonne "colonnes_mises_à_jour" de l'enregistrement mis à jour. Comparez ce deuxième enregistrement au troisième et identifiez les colonnes mises à jour et capturez-les dans le champ "colonnes_mises à jour" du troisième enregistrement, continuez de la même manière jusqu'au dernier enregistrement de cet identifiant et faites la même chose pour chaque identifiant qui a plus d'une entrée.
Initialement, nous avons regroupé les colonnes et créé un hash de ce groupe de colonnes et comparé avec les valeurs de hash de la ligne suivante, de cette façon, il m'aide à identifier les enregistrements qui ont des mises à jour, mais je veux les colonnes qui ont été mises à jour.
Ici, je partage quelques données, qui sont le résultat attendu et c'est comment les données finales devraient ressembler après l'ajout de colonnes mises à jour (ici, je peux dire, utiliser les colonnes Col1, Col2, Col3, Col4 et Col5 pour la comparaison entre deux lignes) :
Je veux faire cela de manière efficace. Quelqu'un a-t-il essayé quelque chose comme ça ?
Je cherche de l'aide !
~Krish.