J'utilise RSelenium pour récupérer la source de la page sur le site archive.org afin de pouvoir récupérer les liens avec rvest.
library(rvest); library(tidyverse);
library(RSelenium); library(netstat)
remote_driver = rsDriver(browser = 'firefox',
verbose = F,
port = free_port())
rd = remote_driver$client
rd$open()
rd$navigate('https://web.archive.org/web/20220913022021/http://www.bjjcompsystem.com/tournaments/1869/categories')
rd$maxWindowSize()
html = read_html(rd$getPageSource()[[1]])
get_links <- html %>%
html_nodes('.categories-grid__category a') %>%
html_attr('href') %>%
paste0('https://web.archive.org', .)
Il réussit à extraire le lien du site Web d'origine, mais manque la partie appartenant à archive.org.
C'est ce que renvoie le premier exemple :
https://web.archive.orghttp://www.bjjcompsystem.com/tournaments/1869/categories/2053146
Mais il manque l'identifiant unique :
/web/20220913024354/
Voici à quoi devrait ressembler le lien complet : https://web.archive.org/web/20220913024354/https://www.bjjcompsystem.com/tournaments/1869/categories/2053146
Comment récupérer la partie manquante ?
A quoi doivent ressembler les liens scrappés :
etc.