J'essaie d'extraire toutes les occurrences de mots étiquetés d'une chaîne à l'aide de regex dans Python 2.7.2. Ou simplement, je veux extraire chaque morceau de texte à l'intérieur des balises [p][/p]
Voici ma tentative :
regex = ur"[\u005B1P\u005D.+?\u005B\u002FP\u005D]+?"
line = "President [P] Barack Obama [/P] met Microsoft founder [P] Bill Gates [/P], yesterday."
person = re.findall(pattern, line)
L'impression person
produit ['President [P]', '[/P]', '[P] Bill Gates [/P]']
Quelle est la bonne regex à obtenir : ['[P] Barack Obama [/P]', '[P] Bill Gates [/p]']
ou ['Barrack Obama', 'Bill Gates']
.