J'ai donc un jeu de données dont je voudrais supprimer les mots vides en utilisant la méthode suivante
stopwords.words('english')
Je me demande comment l'utiliser dans mon code pour supprimer simplement ces mots. J'ai déjà une liste des mots de cet ensemble de données, la partie qui me pose problème est la comparaison avec cette liste et la suppression des mots vides. Toute aide est la bienvenue.
4 votes
Où avez-vous trouvé les mots-clés ? Est-ce que ça vient de NLTK ?
41 votes
@MattO'Brien
from nltk.corpus import stopwords
pour les futurs googlers13 votes
Il est également nécessaire d'exécuter
nltk.download("stopwords")
afin de rendre le dictionnaire de mots vides disponible.0 votes
Voir aussi stackoverflow.com/questions/19130512/stopword-removal-with-nltk
6 votes
Faites attention qu'un mot comme "not" est aussi considéré comme un mot d'arrêt dans nltk. Si vous faites quelque chose comme l'analyse des sentiments, le filtrage du spam, une négation peut changer le sens entier de la phrase et si vous la supprimez de la phase de traitement, vous risquez de ne pas obtenir des résultats précis.