J'ai un data.frame avec plusieurs colonnes et je veux filtrer les données à basse fréquence en fonction de la combinaison des variables. Par exemple, j'ai la variable Sexe (Male/Female) et la variable Cholestérol (High/Low). Mon cadre de données serait alors le suivant :
set.seed(123)
Sex = sample(c('Male','Female'),size = 20,replace = TRUE)
Age = sample(c('Low','High'),size = 20,replace = TRUE)
Index = 1:20
df = data.frame(index = Index,Sex=Sex,Age=Age)
df
index Sex Age
1 1 Male High
2 2 Female High
3 3 Male High
4 4 Female High
5 5 Female High
6 6 Male High
7 7 Female High
8 8 Female High
9 9 Female Low
10 10 Male Low
11 11 Female High
12 12 Male High
13 13 Female High
14 14 Female High
15 15 Male Low
16 16 Female Low
17 17 Male High
18 18 Male Low
19 19 Male Low
20 20 Female Low
Je veux maintenant filtrer la combinaison Sexe/Age dont la fréquence est supérieure à 3.
table(df[,2:3])
Age
Sex High Low
Female 8 3
Male 5 4
En d'autres termes, je veux garder les indices pour femme-haute, homme-basse et homme-haute.
Avis que 1) mon cadre de données comporte plusieurs variables (pas comme dans l'exemple ci-dessus) et 2) que je fais ne pas vouloir d'utiliser un troisième paquet R et 3) je veux qu'il soit rapide.