J'espère que vous ne pensiez pas que j'avais besoin de conseils sur les relations.
Rarement, j'ai à offrir des répondants à l'enquête la possibilité de spécifier quand un événement est survenu. Quels sont les résultats est une horrible désordre chaîne qu'honnêtement, je ne sais pas quoi faire avec. Au-delà de recoder à la main.
Ici, c'est un court exemple, des milliers:
c("May2/ 12h", "9:45 am", "11:00 AST", "avril 27 / 12:00 AST", "11:40 AM AST", "25 avril 2011", "12 avril 2011 / 8:44", "12 avril 2011 / 8:36", "Le 12 avril 2011 / 8:30", "12 avril 2011 / 8:18", "12 avril 2011 / 8:12am", "Le 11 avril 2011 / 5:57pm", "le 11 avril 2011 / 5:49", "le 11 avril 2011 / 5:42pm", "Le 11 avril 2011 / 5:36pm", "le 11 avril 2011 / 5:27", "avril 5 @ 11:26am", "8:50", "4 avril 12:45", "4 avril, vers 10 heures", "4 avril, vers 10 heures", "Mar 18, 2011 9:33am", "Mar 18, 2011 9:27", "df", "fg", "12:16", "9:50", "Feb 8, 2011 / 12:20pm", "8:34 am 2/4/11", "Jan 31, 2011 2:50pm", "Jan 31, 2011 2:45", "Jan 31, 2011 2:38pm", "Jan 31, 2011 2:26pm", "11h09", "11:00", "1h02 h", "10h03", "2h10", "Jan 13, 2011 9:50am Van", "Jan 12, 2011", "Jan 12, 2011 3:59", "Jan 12 14:19PM", "Jan 12, 2011 1:35", "Jan 12,2011 1:28", "1h36", "9h15", "9h09", "8h51", "8h45", "8h35", "1h12 h", "12h59", "11h52 suis", "10h45", "15h55", "31-Déc-10 11:11am", "Dec 31,10 10:15", "Déc 30, 2010 12:32pm", "Dec 30, 2010 12:18pm", "9:16 am", "11h16 suis", "11h12", "9h29 suis", "11h38", "Dec 16, 2010", "16 décembre 2010", "Le 16 décembre 2010", "Dec 15,2010", "14 DÉC 2010", "Dec 14 11:38", "Dec 14 11:35", "Dec 14 11:25", "le 13 décembre 2010", "Dec 10, 1:38 pm", "Dec 10, 1:26 pm", "Dec 10, 1:20 pm", "Dec 10, 1:12 pm", "9 décembre 2010", "11h10 suis", "10h59 suis", "10:50 am", "Mardi 7 Décembre, 9:45 Van de temps", "Dec 3, 2010 12:30", "Dec 3, 2010 12:20", "Dec 3, 2010 12:10 pm", "Le 30 novembre 2010 4.02 h", "le 30 novembre 2010", "29 novembre 120pm", "Novembre 29 2010 11:27", "10:12h 29 novembre 2010", "Nov 26/10 1:18", "10:56 am", "Nov 24", "nov 24/ 4:20 PM AST", "Nov 24/4:00 AST", "NOVEMBRE 24/10 2:10 pm", "novembre 24/10 11:00", "12:05 MST", "3.55 H", "Nov. 17/10 12:45 pm", "Nov. 16/10 12:00 noon", "Nov. 16/10 11;50 h", "nov 16/10 à 11 h 30", "novembre 12, 2010 @ 12:23pm", "11 novembre 2010 à 2:20", "Le 11 novembre 2010 à 2:15", "le 11 novembre, à 2:00", "Nov. 10/10:22am", "nov. 8/10...3:19 pm", "Nov 8/10 1;50 h", "novembre 8/10...12 midi", "Novembre 8/10..10: am", "Nov 5, 2010 1:10", "11:32 am CST", "Le 4 novembre à 11:10", "3 novembre 10h", "9:30", "le 11/02/2010 1:50PM", "Oct 29/10 2:50PM", "Oct 28 @ 11:20", "27Oct10 10:40am", "10/26/2010 11:18", "Oct 26/10 11h", "Oct 26/10:10: 30", "Oct 26 10:50", "10/25/2010 13:50", "10/22/2010 10:15", "Oct 22/10 10H", "Oct 21, 2010 3:00 pm", "Oct 21, 2010 2:59", "10/21/2010 11:50", "10/21/2010 11:45", "10/21/2010 11:40", "10/21/2010 11:30", "11:30", "Oct 20 env 1pm", "Oct 20/10 4:50PM", "13:48", "13:45", "Oct 20, 2010 11:45 am", "Le 19 octobre 3:05pm", "Oct 18,2010 2:15", "Oct 18/10 3:10PM", "10:30", "Oct 15/10 11:50", "oct 14 @ 11:05", "Oct 14/ 11:06", "4:40 13 oct atlantique", "13 oct à 4:05 pm de l'atlantique", "13 oct à 1:45 heure de l'atlantique", "13 Oct / 10:37", "12 OCT à 3:33", "Oct 12,2010 1:10pm", "Oct 12 / 11:45", Oct 12 / 9:45", "Oct 8. 2010/ 2:00", "Oct 8/10 - 1145am", "2 Sept 2010 3.52 h", "2 Sept 2010 10.21 suis", "1 Sept 2010 2.05 h", "1 Sept 2010", "31 Aoû 2010 - 11.52 suis", "31 août 10:40am", "31 aoû 2010 - 10")
En général, ces événements se produisent à proximité de la date à laquelle le répondant remplit le questionnaire, mais pas toujours. La date de l'inventaire est automatiquement enregistré et dans un format cohérent et est facile à traduire dans POSIX à l'aide de as.Date
, éléments qui ne contiennent que le temps peut être ignoré et a fusionné avec la date à laquelle ils ont rempli le questionnaire.
Vos pensées sont beaucoup apprécié.
Note1: Certains d'entre vous le disent, vous devriez avoir fait X, Y, ou Z en termes de valider les réponses. Pour vous, dis - je- l'enfer oui - la prochaine fois. Je n'ai pas le concevoir! Je viens d'avoir à traiter avec elle.
Quelques faits qui peuvent aider dans une solution de contournement:
- Le temps sera toujours des affaires heures de jour, 9am-6pm (d'où am/pm n'a pas d'importance)
- Les années n'ont pas d'importance tant que je peux tirer à partir d'un autre champ (il sera toujours seulement être 2011/2010, qui est heureusement en dehors des délais dans toute la notation)
- Je n'ai pas de soins sur les fuseaux horaires, comme je l'ai leur emplacement géographique
Ce que j'ai fait jusqu'à présent:
mos <- strsplit('
jan
feb
mar
apr
may
jun
jul
aug
sep
oct
nov
dec
january
february
march
april
may
june
july
august
september
october
november
december
', '\n')[[1]][-1]
days <- strsplit('
mon
tue
wed
thu
fri
sat
sun
monday
tuesday
wednesday
thursday
friday
saturday
sunday
', '\n')[[1]][-1]
## Messy Date Wrangling
x <- ## that hot ghetto mess above
# minimize
x <- tolower(x)
# remove unnecessary crap
x <- sub("2011"," ",x)
x <- sub("2010"," ",x)
x <- sub("am"," ",x)
x <- sub("pm"," ",x)
x <- sub("[p][.][m]"," ",x)
x <- sub("[a][.][m]"," ",x)
x <- sub("[.]{3}"," ",x)
x <- str_trim(x, side="both")
# divide
x <- strsplit(x,c(" "))
# conquer?
lapply(x, function(x) pmatch(x,mos))
lapply(x, function(x) pmatch(x,days))