J'ai un ensemble de données :
df <- structure(list(gender = c("female", "male", NA, NA, "male", "male",
"male"), Division = c("South Atlantic", "East North Central",
"Pacific", "East North Central", "South Atlantic", "South Atlantic",
"Pacific"), Median = c(57036.6262, 39917, 94060.208, 89822.1538,
107683.9118, 56149.3217, 46237.265), first_name = c("Marilyn",
"Jeffery", "Yashvir", "Deyou", "John", "Jose", "Daniel")), row.names = c(NA,
-7L), class = c("tbl_df", "tbl", "data.frame"))
J'ai besoin d'effectuer une analyse telle que je ne peux pas avoir NA
dans les gender
variable. Les autres colonnes sont trop peu nombreuses et n'ont pas de valeur prédictive connue, de sorte que l'imputation des valeurs n'est pas vraiment possible.
Je peux effectuer l'analyse en supprimant entièrement les observations incomplètes - elles représentent environ 4 % de l'ensemble de données, mais j'aimerais voir les résultats en assignant de manière aléatoire les observations incomplètes à l'ensemble de données. female
o male
dans les affaires manquantes.
À part écrire un code assez laid pour filtrer les cas incomplets, les diviser en deux et les remplacer par des cas plus complexes, il n'y a pas d'autre solution. NA
s avec female
o male
dans chaque moitié, je me suis demandé s'il n'y avait pas un moyen élégant d'attribuer des valeurs de manière aléatoire ou proportionnelle dans les NA
s ?