Python - Utilisation de regex pour trouver des correspondances multiples et les imprimer

Question

Python - Utilisation de regex pour trouver des correspondances multiples et les imprimer

Demandé el 11 de Octobre, 2011: Quand la question a-t-elle été
121498 affichage: Nombre de visites la question a
3 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Cette question a déjà des réponses:

Comment trouver toutes les correspondances d'une expression régulière en Python ?

J'ai besoin de trouver le contenu de formulaires à partir d'un fichier source HTML, j'ai fait quelques recherches et j'ai trouvé une très bonne méthode pour le faire, mais le problème est qu'elle n'imprime que le premier formulaire trouvé, comment puis-je le parcourir en boucle et afficher le contenu de tous les formulaires, pas seulement le premier ?

line = 'bla bla bla<form>Form 1</form> some text...<form>Form 2</form> more text?'
matchObj = re.search('<form>(.*?)</form>', line, re.S)
print matchObj.group(1)
# Output: Form 1
# I need it to output every form content he found, not just first one...

Demandé el 11 de Octobre, 2011 par Steve

5 votes

Vous ne voulez vraiment pas analyser le HTML avec des expressions régulières. stackoverflow.com/questions/1732348/

Commenté el 11 de Octobre, 2011 par Wooble

0 votes

Veuillez vous référer à ce [ stackoverflow.com/questions/3873361/ [1] : stackoverflow.com/questions/3873361/

Commenté el 11 de Octobre, 2011 par avasal

Answer 1

3 Réponses

Answer 2

89voto

Petr Viktorin Points 13687

N'utilisez pas d'expressions régulières pour analyser le HTML.

Mais si vous avez besoin de trouver toutes les correspondances regexp dans une chaîne, utilisez la fonction findall fonction.

import re
line = 'bla bla bla<form>Form 1</form> some text...<form>Form 2</form> more text?'
matches = re.findall('<form>(.*?)</form>', line, re.DOTALL)
print(matches)

# Output: ['Form 1', 'Form 2']

Répondu el 11 de Octobre, 2011 par Petr Viktorin (13687 Points )

1 votes

Que font les États-Unis ?

Commenté el 21 de Février, 2014 par Charlie Parker

3 votes

Fait le '.' correspond à n'importe quel caractère, y compris une nouvelle ligne ; sans ce drapeau, '.' correspondra à tout sauf un saut de ligne. ( docs.python.org/2/library/re.html#re.S )

Commenté el 21 de Février, 2014 par Petr Viktorin

0 votes

Oh, je vois, je suis allé sur la page web mais je n'ai pas compris la documentation parce que rien n'était en dessous de re.S mais maintenant je vois comment lire la documentation, re.S et re.DOTALL sont les mêmes...merci !

Commenté el 21 de Février, 2014 par Charlie Parker

Afficher 2 autres commentaires

Answer 3

33voto

Aamir Adnan Points 10903

Au lieu d'utiliser re.search utiliser re.findall il vous renverra toutes les correspondances dans un List . Ou vous pouvez également utiliser re.finditer (que j'aime le plus utiliser), il renverra un Iterator Object et vous pouvez simplement l'utiliser pour itérer sur toutes les correspondances trouvées.

line = 'bla bla bla<form>Form 1</form> some text...<form>Form 2</form> more text?'
for match in re.finditer('<form>(.*?)</form>', line, re.S):
    print match.group(1)

Répondu el 11 de Octobre, 2011 par Aamir Adnan (10903 Points )

1 votes

Que font les États-Unis ?

Commenté el 21 de Février, 2014 par Charlie Parker

0 votes

re.finditer est exactement ce dont j'avais besoin ! Merci !

Commenté el 25 de Avril, 2016 par shellbye

1 votes

@Pinocchio docs say : re.S est identique à re.DOTALL Make the '.' special character match any character at all, including a newline; without this flag, '.' will match anything except a newline. (j'ai posté ceci parce que je crois que les gens comme moi viennent souvent sur stackoverflow.com pour trouver des réponses rapidement)

Commenté el 8 de Juin, 2017 par Anton

Answer 4

6voto

ThiefMaster Points 135805

L'utilisation de regex à cette fin est une mauvaise approche. Puisque vous utilisez Python, vous disposez d'une bibliothèque vraiment impressionnante pour extraire des parties de documents HTML : BelleSoupe .

Répondu el 11 de Octobre, 2011 par ThiefMaster (135805 Points )

1 votes

Oh je ne le savais pas, je viens de découvrir Python hier :)

Commenté el 11 de Octobre, 2011 par Steve

Python - Utilisation de regex pour trouver des correspondances multiples et les imprimer

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Python - Utilisation de regex pour trouver des correspondances multiples et les imprimer

Réponses

Questions connexes

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: