Comment supprimer les mots vides en utilisant nltk ou python ?

Question

Comment supprimer les mots vides en utilisant nltk ou python ?

Demandé el 30 de Mars, 2011: Quand la question a-t-elle été
22633 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

J'ai donc un jeu de données dont je voudrais supprimer les mots vides en utilisant la méthode suivante

stopwords.words('english')

Je me demande comment l'utiliser dans mon code pour supprimer simplement ces mots. J'ai déjà une liste des mots de cet ensemble de données, la partie qui me pose problème est la comparaison avec cette liste et la suppression des mots vides. Toute aide est la bienvenue.

Demandé el 30 de Mars, 2011 par Alex

4 votes

Où avez-vous trouvé les mots-clés ? Est-ce que ça vient de NLTK ?

Commenté el 8 de Avril, 2014 par tumultous_rooster

41 votes

@MattO'Brien from nltk.corpus import stopwords pour les futurs googlers

Commenté el 13 de Mai, 2015 par danodonovan

13 votes

Il est également nécessaire d'exécuter nltk.download("stopwords") afin de rendre le dictionnaire de mots vides disponible.

Commenté el 10 de Juillet, 2015 par vote539

Afficher 2 autres commentaires

Answer 1

5 Réponses

Answer 2

5voto

Yugant Hadiyal Points 59

Utilisez nettoyeur de texte pour supprimer les mots d'arrêt de vos données.

Suivez ce lien : https://yugantm.github.io/textcleaner/documentation.html#remove_stpwrds

Suivez les étapes suivantes pour le faire avec cette bibliothèque.

pip install textcleaner

Après l'installation :

import textcleaner as tc
data = tc.document(<file_name>) 
#you can also pass list of sentences to the document class constructor.
data.remove_stpwrds() #inplace is set to False by default

Utilisez le code ci-dessus pour supprimer les mots d'arrêt.

Répondu el 12 de Février, 2019 par Yugant Hadiyal (59 Points )

Answer 3

4voto

justadev Points 110

Voici mon point de vue à ce sujet, au cas où vous voudriez obtenir immédiatement la réponse dans une chaîne de caractères (au lieu d'une liste de mots filtrés) :

STOPWORDS = set(stopwords.words('english'))
text =  ' '.join([word for word in text.split() if word not in STOPWORDS]) # delete stopwords from text

Répondu el 8 de Février, 2020 par justadev (110 Points )

0 votes

N'utilisez pas cette approche en français l' ou bien ne sera pas capturé.

Commenté el 22 de Février, 2020 par David Beauchemin

Answer 4

2voto

Mohammed_Ashour Points 21

Vous pouvez utiliser cette fonction, vous devriez remarquer que vous devez baisser tous les mots

from nltk.corpus import stopwords

def remove_stopwords(word_list):
        processed_word_list = []
        for word in word_list:
            word = word.lower() # in case they arenet all lower cased
            if word not in stopwords.words("english"):
                processed_word_list.append(word)
        return processed_word_list

Répondu el 13 de Juin, 2017 par Mohammed_Ashour (21 Points )

Answer 5

2voto

Saeid BK Points 171

En utilisant filtre :

from nltk.corpus import stopwords
# ...  
filtered_words = list(filter(lambda word: word not in stopwords.words('english'), word_list))

Répondu el 2 de Octobre, 2017 par Saeid BK (171 Points )

3 votes

Si word_list est grande, ce code est très lent. Il est préférable de convertir la liste des mots d'arrêt en un ensemble avant de l'utiliser : .. in set(stopwords.words('english')) .

Commenté el 23 de Septembre, 2019 par Robert

Answer 6

1voto

Taie Points 33

Bien que la question soit un peu ancienne, voici une nouvelle bibliothèque, qui mérite d'être mentionnée, et qui peut effectuer des tâches supplémentaires.

Dans certains cas, vous ne voulez pas seulement supprimer les mots vides. Vous souhaitez plutôt trouver les mots d'arrêt dans les données textuelles et les stocker dans une liste afin de pouvoir trouver le bruit dans les données et les rendre plus interactives.

La bibliothèque s'appelle 'textfeatures' . Vous pouvez l'utiliser comme suit :

! pip install textfeatures
import textfeatures as tf
import pandas as pd

Par exemple, supposons que vous ayez l'ensemble de chaînes de caractères suivant :

texts = [
    "blue car and blue window",
    "black crow in the window",
    "i see my reflection in the window"]

df = pd.DataFrame(texts) # Convert to a dataframe
df.columns = ['text'] # give a name to the column
df

Maintenant, appelez la fonction stopwords() et passez les paramètres que vous voulez :

tf.stopwords(df,"text","stopwords") # extract stop words
df[["text","stopwords"]].head() # give names to columns

Le résultat sera :

    text                                 stopwords
0   blue car and blue window             [and]
1   black crow in the window             [in, the]
2   i see my reflection in the window    [i, my, in, the]

Comme vous pouvez le voir, la dernière colonne contient les mots vides inclus dans ce document (record).

Répondu el 24 de Février, 2021 par Taie (33 Points )

Comment supprimer les mots vides en utilisant nltk ou python ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment supprimer les mots vides en utilisant nltk ou python ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: