Comment supprimer les mots vides en utilisant nltk ou python ?

Question

Comment supprimer les mots vides en utilisant nltk ou python ?

Demandé el 30 de Mars, 2011: Quand la question a-t-elle été
22634 affichage: Nombre de visites la question a
4 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

J'ai donc un jeu de données dont je voudrais supprimer les mots vides en utilisant la méthode suivante

stopwords.words('english')

Je me demande comment l'utiliser dans mon code pour supprimer simplement ces mots. J'ai déjà une liste des mots de cet ensemble de données, la partie qui me pose problème est la comparaison avec cette liste et la suppression des mots vides. Toute aide est la bienvenue.

Demandé el 30 de Mars, 2011 par Alex

4 votes

Où avez-vous trouvé les mots-clés ? Est-ce que ça vient de NLTK ?

Commenté el 8 de Avril, 2014 par tumultous_rooster

41 votes

@MattO'Brien from nltk.corpus import stopwords pour les futurs googlers

Commenté el 13 de Mai, 2015 par danodonovan

13 votes

Il est également nécessaire d'exécuter nltk.download("stopwords") afin de rendre le dictionnaire de mots vides disponible.

Commenté el 10 de Juillet, 2015 par vote539

Afficher 2 autres commentaires

Answer 1

4 Réponses

Answer 2

0voto

Jonathan Besomi Points 172

Si vos données sont stockées sous forme de Pandas DataFrame vous pouvez utiliser remove_stopwords de textero qui utilisent la liste de mots d'arrêt de NLTK par par défaut .

import pandas as pd
import texthero as hero
df['text_without_stopwords'] = hero.remove_stopwords(df['text'])

Répondu el 2 de Juin, 2020 par Jonathan Besomi (172 Points )

Answer 3

0voto

H M Points 41

from nltk.corpus import stopwords 

from nltk.tokenize import word_tokenize 

example_sent = "This is a sample sentence, showing off the stop words filtration."

stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example_sent) 

filtered_sentence = [w for w in word_tokens if not w in stop_words] 

filtered_sentence = [] 

for w in word_tokens: 
    if w not in stop_words: 
        filtered_sentence.append(w) 

print(word_tokens) 
print(filtered_sentence)

Répondu el 5 de Juillet, 2020 par H M (41 Points )

Answer 4

0voto

Yasuni Chamodya Points 21

Je vais vous montrer quelques exemples Tout d'abord, j'extrais les données textuelles du cadre de données ( twitter_df ) pour poursuivre le traitement comme suit

     from nltk.tokenize import word_tokenize
     tweetText = twitter_df['text']

Ensuite, pour la tokenisation, j'utilise la méthode suivante

     from nltk.tokenize import word_tokenize
     tweetText = tweetText.apply(word_tokenize)

Ensuite, pour supprimer les mots vides,

     from nltk.corpus import stopwords
     nltk.download('stopwords')

     stop_words = set(stopwords.words('english'))
     tweetText = tweetText.apply(lambda x:[word for word in x if word not in stop_words])
     tweetText.head()

Je pense que cela vous aidera

Répondu el 13 de Octobre, 2020 par Yasuni Chamodya (21 Points )

Answer 5

-3voto

Muhammad Yusuf Points 199

   import sys
print ("enter the string from which you want to remove list of stop words")
userstring = input().split(" ")
list =["a","an","the","in"]
another_list = []
for x in userstring:
    if x not in list:           # comparing from the list and removing it
        another_list.append(x)  # it is also possible to use .remove
for x in another_list:
     print(x,end=' ')

   # 2) if you want to use .remove more preferred code
    import sys
    print ("enter the string from which you want to remove list of stop words")
    userstring = input().split(" ")
    list =["a","an","the","in"]
    another_list = []
    for x in userstring:
        if x in list:           
            userstring.remove(x)  
    for x in userstring:           
        print(x,end = ' ') 
    #the code will be like this

Répondu el 18 de Mars, 2017 par Muhammad Yusuf (199 Points )

0 votes

Il est préférable d'ajouter stopwords.words("english") que de spécifier chaque mot que vous devez supprimer.

Commenté el 5 de Novembre, 2019 par Led

Comment supprimer les mots vides en utilisant nltk ou python ?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment supprimer les mots vides en utilisant nltk ou python ?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: