Comment calculer le nombre d'occurrences d'un caractère donné dans chaque ligne d'une colonne de chaînes de caractères ?

Question

Comment calculer le nombre d'occurrences d'un caractère donné dans chaque ligne d'une colonne de chaînes de caractères ?

Demandé el 14 de Septembre, 2012: Quand la question a-t-elle été
158547 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai un data.frame dans lequel certaines variables contiennent une chaîne de texte. Je souhaite compter le nombre d'occurrences d'un caractère donné dans chaque chaîne individuelle.

Exemple :

q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"))

Je souhaite créer une nouvelle colonne pour q.data avec le nombre d'occurrences de "a" dans la chaîne de caractères (par exemple c(2,1,0)).

La seule approche alambiquée que j'ai réussi à mettre en place est :

string.counter<-function(strings, pattern){  
  counts<-NULL
  for(i in 1:length(strings)){
    counts[i]<-length(attr(gregexpr(pattern,strings[i])[[1]], "match.length")[attr(gregexpr(pattern,strings[i])[[1]], "match.length")>0])
  }
return(counts)
}

string.counter(strings=q.data$string, pattern="a")

 number     string number.of.a
1      1 greatgreat           2
2      2      magic           1
3      3        not           0

Demandé el 14 de Septembre, 2012 par Etienne Low-Décarie

Answer 1

5 Réponses

Answer 2

179voto

Dason Points 18263

Le paquet stringr fournit le str_count qui semble faire ce qui vous intéresse.

# Load your example data
q.data<-data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = F)
library(stringr)

# Count the number of 'a's in each element of string
q.data$number.of.a <- str_count(q.data$string, "a")
q.data
#  number     string number.of.a
#1      1 greatgreat           2
#2      2      magic           1
#3      3        not           0

Répondu el 14 de Septembre, 2012 par Dason (18263 Points )

Answer 3

79voto

Josh O'Brien Points 68397

Si vous ne voulez pas quitter la base R, voici une possibilité assez succincte et expressive :

x <- q.data$string
lengths(regmatches(x, gregexpr("a", x)))
# [1] 2 1 0

Répondu el 14 de Septembre, 2012 par Josh O'Brien (68397 Points )

Answer 4

22voto

BondedDust Points 105234

nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string))
[1] 2 1 0

Remarquez que je transforme la variable facteur en caractère, avant de la passer à nchar. Les fonctions regex semblent faire cela en interne.

Voici les résultats de l'analyse comparative (avec une mise à l'échelle du test à 3000 lignes)

 q.data<-q.data[rep(1:NROW(q.data), 1000),]
 str(q.data)
'data.frame':   3000 obs. of  3 variables:
 $ number     : int  1 2 3 1 2 3 1 2 3 1 ...
 $ string     : Factor w/ 3 levels "greatgreat","magic",..: 1 2 3 1 2 3 1 2 3 1 ...
 $ number.of.a: int  2 1 0 2 1 0 2 1 0 2 ...

 benchmark( Dason = { q.data$number.of.a <- str_count(as.character(q.data$string), "a") },
 Tim = {resT <- sapply(as.character(q.data$string), function(x, letter = "a"){
                            sum(unlist(strsplit(x, split = "")) == letter) }) }, 

 DWin = {resW <- nchar(as.character(q.data$string)) -nchar( gsub("a", "", q.data$string))},
 Josh = {x <- sapply(regmatches(q.data$string, gregexpr("g",q.data$string )), length)}, replications=100)
#-----------------------
   test replications elapsed  relative user.self sys.self user.child sys.child
1 Dason          100   4.173  9.959427     2.985    1.204          0         0
3  DWin          100   0.419  1.000000     0.417    0.003          0         0
4  Josh          100  18.635 44.474940    17.883    0.827          0         0
2   Tim          100   3.705  8.842482     3.646    0.072          0         0

Répondu el 14 de Septembre, 2012 par BondedDust (105234 Points )

Answer 5

13voto

Zhang Tao Points 121

Une autre bonne option, utilisant charToRaw :

sum(charToRaw("abc.d.aa") == charToRaw('.'))

Répondu el 6 de Juillet, 2016 par Zhang Tao (121 Points )

Answer 6

12voto

markus Points 18578

El stringi fournit les fonctions stri_count y stri_count_fixed qui sont très rapides.

stringi::stri_count(q.data$string, fixed = "a")
# [1] 2 1 0

repère

Par rapport à l'approche la plus rapide de La réponse de @42- et à la fonction équivalente de la stringr paquet pour un vecteur de 30.000 éléments.

library(microbenchmark)

benchmark <- microbenchmark(
  stringi = stringi::stri_count(test.data$string, fixed = "a"),
  baseR = nchar(test.data$string) - nchar(gsub("a", "", test.data$string, fixed = TRUE)),
  stringr = str_count(test.data$string, "a")
)

autoplot(benchmark)

données

q.data <- data.frame(number=1:3, string=c("greatgreat", "magic", "not"), stringsAsFactors = FALSE)
test.data <- q.data[rep(1:NROW(q.data), 10000),]

Répondu el 7 de Mars, 2019 par markus (18578 Points )

Comment calculer le nombre d'occurrences d'un caractère donné dans chaque ligne d'une colonne de chaînes de caractères ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment calculer le nombre d'occurrences d'un caractère donné dans chaque ligne d'une colonne de chaînes de caractères ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: