J'ai un cadre de données de panda comme ça :
import pandas as pd
data = {'VAR1': ['A', 'A', 'A', 'A','B', 'B'],
'VAR2': ['C', 'V', 'C', 'C','V', 'D']}
frame = pd.DataFrame(data)
Fondamentalement, je dois recoder chaque variable. Le recodage fonctionnerait comme suit : calculer un compte de valeurs distinctes pour chaque colonne, et si le compte est supérieur ou égal à un seuil, conserver la valeur d'origine, sinon définir une nouvelle valeur de "X". Si le seuil était de 3, voici à quoi cela devrait ressembler.
data2 = {'VAR3': ['A', 'A', 'A', 'A','X', 'X'],
'VAR4': ['C', 'X', 'C', 'C','X', 'X']}
frame2 = pd.DataFrame(data2)
Et voici le résultat souhaité, avec les données originales fusionnées aux données recodées.
pd.merge(frame, frame2, left_index=True, right_index=True)
Je suis novice en Python et bien que le livre Python for Data Analysis m'aide vraiment, je n'arrive toujours pas à trouver comment obtenir le résultat souhaité de manière simple. Toute aide serait la bienvenue !