Il semble que chaque question sur stackoverflow où l'auteur de la question utilise une expression rationnelle pour extraire des informations du HTML aura inévitablement une "réponse" qui dit de ne pas utiliser d'expression rationnelle pour analyser le HTML.
Pourquoi pas ? Je suis conscient qu'il existe des analyseurs HTML "réels", entre guillemets. Une belle soupe Je suis sûr qu'elles sont puissantes et utiles, mais si vous faites quelque chose de simple, rapide ou sale, pourquoi vous embêter à utiliser quelque chose de si compliqué alors que quelques instructions regex suffisent ?
De plus, y a-t-il quelque chose de fondamental que je ne comprends pas à propos des regex et qui en fait un mauvais choix pour l'analyse syntaxique en général ?
3 votes
Je pense que c'est une copie de stackoverflow.com/questions/133601
24 votes
Parce que seul Chuck Norris peut analyser le HTML avec des expressions rationnelles (comme expliqué dans ce fameux article de Zalgo) : stackoverflow.com/questions/1732348/ ).
1 votes
Cette question m'a incité à en poser une autre qui est en quelque sorte liée. Au cas où vous seriez intéressé : Pourquoi il n'est pas possible d'utiliser les regex pour analyser le HTML/XML : une explication formelle en termes simples.
0 votes
Méfiez-vous de Zalgo
0 votes
Cette question a été ajoutée à la FAQ sur les expressions régulières de Stack Overflow sous la rubrique "Tâches de validation communes".
0 votes
Question canonique : RegEx correspond aux balises ouvertes, sauf aux balises autonomes XHTML
0 votes
Duplicata possible de Pourquoi il n'est pas possible d'utiliser les regex pour analyser le HTML/XML : une explication formelle en termes simples.