2 votes

Extraire le texte des cellules marquées par des régions

Je ne sais pas comment décrire autrement ce problème. Je m'excuse pour le titre le plus vague qui soit.

Voici à quoi ressemblent les données

[Deftek
[jp]<U+306F><U+3061><U+307F><U+3064> (Honey)
Hampern
[jp]<U+3067><U+3055><U+3093><U+3068> (Descente)
[jp]<U+5E73><U+30DC><U+30E0> (Hirabomb)
[jp]<U+30A2><U+30AD><U+30E9> (Akira)
Balls Out
[jp]Teguru
[jp]Melty

Ainsi, les noms Hampern et Balls Out s'extraient sans problème, mais les autres, je ne peux rien en extraire.

library(httr)
library(tidyverse)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
  select(players) %>% 
  unnest(players) %>% 
  select(name) %>% 
  mutate(name_extract = str_extract(name, "[A-Za-z]*")) %>% 
  na.omit()

0voto

Ronak Shah Points 24715

Vous pouvez retirer le [us][jp] partie de la name .

library(httr)
library(dplyr)
library(jsonlite)

fromJSON(rawToChar(GET("https://www.speedrun.com/api/v1/runs?game=o1y9wo6q&category=wkpoo02r&max=200")$content))$data %>% 
   select(players) %>% 
   unnest(players) %>%
   select(name) %>% 
   mutate(name_extract = sub('\\[.*\\]', '', name)) %>%
   na.omit

#   name                    name_extract       
#   <chr>                   <chr>              
# 1 [us]Deftek              Deftek             
# 2 [jp] (Honey)     (Honey)   
# 3 Hampern                 Hampern            
# 4 [jp] (Descente)  (Descente)
# 5 [jp] (Hirabomb)    (Hirabomb)  
# 6 [jp] (Akira)       (Akira)     
# 7 Balls Out               Balls Out          
# 8 [jp]Teguru              Teguru             
# 9 [jp] (Erumo)       (Erumo)     
#10 [jp]Melty               Melty              
# … with 88 more rows

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X