Décoder les caractères échappés dans l'URL

Question

Décoder les caractères échappés dans l'URL

Demandé el 15 de Novembre, 2011: Quand la question a-t-elle été
90926 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Je dispose d'une liste contenant des URL avec des caractères échappés. Ces caractères ont été définis par urllib2.urlopen lorsqu'il récupère la page html :

http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=edit
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&action=history
http://www.sample1webpage.com/index.php?title=%E9%A6%96%E9%A1%B5&variant=zh

Existe-t-il un moyen de les retransformer en leur forme non échappée en python ?

N.B. : Les URLs sont encodées en utf-8

Demandé el 15 de Novembre, 2011 par dyoser

Answer 1

5 Réponses

Answer 2

184voto

Ignacio Vazquez-Abrams Points 312628

En utilisant le paquet urllib (import urllib) :

Python 2.7

À partir de la documentation officielle :

urllib.unquote(string)

Remplace les échappements %xx par leur équivalent en un seul caractère.

Exemple : unquote('/%7Econnolly/') donne '/~connolly/'.

Python 3

À partir de la documentation officielle :

urllib.parse.unquote(string, encoding='utf-8', errors='replace')

[...]

Exemple : unquote('/El%20Ni%C3%B1o/') donne '/El Niño/'.

Répondu el 15 de Novembre, 2011 par Ignacio Vazquez-Abrams (312628 Points )

Answer 3

34voto

Vladir Parrado Cruz Points 1683

Et si vous utilisez Python3, vous pourriez utiliser :

import urllib.parse
urllib.parse.unquote(url)

Répondu el 4 de Janvier, 2016 par Vladir Parrado Cruz (1683 Points )

0 votes

Aussi en urllib.request.unquote

Commenté el 23 de Novembre, 2016 par Ben

Answer 4

17voto

dli Points 933

Ou urllib.unquote_plus

>>> import urllib
>>> urllib.unquote('érythrocyte+membrane+protéin+1%2C+PfEMP1+%28VAR%29')
'érythrocyte+membrane+protéin+1,+PfEMP1+(VAR)'
>>> urllib.unquote_plus('érythrocyte+membrane+protéin+1%2C+PfEMP1+%28VAR%29')
'érythrocyte membrane protéin 1, PfEMP1 (VAR)'

Répondu el 10 de Décembre, 2015 par dli (933 Points )

Answer 5

7voto

Klaus Byskov Pedersen Points 43779

Vous pouvez utiliser urllib.unquote

Répondu el 15 de Novembre, 2011 par Klaus Byskov Pedersen (43779 Points )

0 votes

Lorsque j'utilise le unquote (merci d'ailleurs...), il affiche cette chaîne sample.com/index.php?title=\xe9\xa6\x96\xe9\xa1\xb5&action=e‌di et je sais qu'il s'agit de caractères chinois... comment puis-je les voir? Je suppose que c'est de l'unicode, n'est-ce pas?

Commenté el 15 de Novembre, 2011 par dyoser

0 votes

C'est déjà dans votre question. Ce sont les octets UTF-8; vous pouvez les convertir en chaîne Unicode avec b"\xe9\xa6\x96\xe9\xa1\xb5".decode("utf-8") (en utilisant une syntaxe Python légèrement plus moderne maintenant).

Commenté el 3 de Décembre, 2017 par tripleee

Answer 6

5voto

mistercx Points 487

import re

def unquote(url):
  return re.compile('%([0-9a-fA-F]{2})',re.M).sub(lambda m: chr(int(m.group(1),16)), url)

Répondu el 26 de Mars, 2013 par mistercx (487 Points )

8 votes

Pourquoi voudriez-vous utiliser manuellement des regex et des lambdas alors qu'il existe une bibliothèque intégrée qui fait ce dont vous avez besoin, probablement même de manière plus réfléchie?

Commenté el 28 de Septembre, 2013 par Brad Koch

7 votes

Cool solution! urllib2 n'est pas partie de la distribution standard de python. re l'est.

Commenté el 11 de Novembre, 2014 par cxxl

1 votes

Parfois, l'analyse d'HTML avec des expressions régulières n'est pas la meilleure idée.

Commenté el 23 de Août, 2021 par Jhirschibar

Décoder les caractères échappés dans l'URL

Réponses

Python 2.7

Python 3

Questions en vedette

Top Tags

Prograide.com

Powered by:

Décoder les caractères échappés dans l'URL

Réponses

Python 2.7

Python 3

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: