Comment puis-je convertir un format de données tel que :
James Smith was born on November 17, 1948
en quelque chose comme
("James Smith", DOB, "November 17, 1948")
sans avoir à se fier à l'index positionnel des chaînes de caractères
J'ai essayé ce qui suit
from nltk import word_tokenize, pos_tag
new = "James Smith was born on November 17, 1948"
sentences = word_tokenize(new)
sentences = pos_tag(sentences)
grammar = "Chunk: {<NNP*><NNP*>}"
cp = nltk.RegexpParser(grammar)
result = cp.parse(sentences)
print(result)
Comment procéder pour obtenir le résultat dans le format souhaité.