UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet 0xe2 en position 13 : ordinal n'est pas dans la plage(128)

Question

UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet 0xe2 en position 13 : ordinal n'est pas dans la plage(128)

Demandé el 6 de Septembre, 2013: Quand la question a-t-elle été
396252 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'utilise NLTK pour effectuer un clustering kmeans sur mon fichier texte dans lequel chaque ligne est considérée comme un document. Donc par exemple, mon fichier texte est quelque chose comme ceci :

belong finger death punch <br>
hasty <br>
mike hasty walls jericho <br>
jägermeister rules <br>
rules bands follow performing jägermeister stage <br>
approach

Maintenant, le code de démonstration que j'essaie d'exécuter est le suivant :

import sys

import numpy
from nltk.cluster import KMeansClusterer, GAAClusterer, euclidean_distance
import nltk.corpus
from nltk import decorators
import nltk.stem

stemmer_func = nltk.stem.EnglishStemmer().stem
stopwords = set(nltk.corpus.stopwords.words('english'))

@decorators.memoize
def normalize_word(word):
    return stemmer_func(word.lower())

def get_words(titles):
    words = set()
    for title in job_titles:
        for word in title.split():
            words.add(normalize_word(word))
    return list(words)

@decorators.memoize
def vectorspaced(title):
    title_components = [normalize_word(word) for word in title.split()]
    return numpy.array([
        word in title_components and not word in stopwords
        for word in words], numpy.short)

if __name__ == '__main__':

    filename = 'example.txt'
    if len(sys.argv) == 2:
        filename = sys.argv[1]

    with open(filename) as title_file:

        job_titles = [line.strip() for line in title_file.readlines()]

        words = get_words(job_titles)

        # cluster = KMeansClusterer(5, euclidean_distance)
        cluster = GAAClusterer(5)
        cluster.cluster([vectorspaced(title) for title in job_titles if title])

        # NOTE: This is inefficient, cluster.classify should really just be
        # called when you are classifying previously unseen examples!
        classified_examples = [
                cluster.classify(vectorspaced(title)) for title in job_titles
            ]

        for cluster_id, title in sorted(zip(classified_examples, job_titles)):
            print cluster_id, title

(que l'on peut également trouver aquí )

L'erreur que je reçois est la suivante :

Traceback (most recent call last):
File "cluster_example.py", line 40, in
words = get_words(job_titles)
File "cluster_example.py", line 20, in get_words
words.add(normalize_word(word))
File "", line 1, in
File "/usr/local/lib/python2.7/dist-packages/nltk/decorators.py", line 183, in memoize
result = func(*args)
File "cluster_example.py", line 14, in normalize_word
return stemmer_func(word.lower())
File "/usr/local/lib/python2.7/dist-packages/nltk/stem/snowball.py", line 694, in stem
word = (word.replace(u"\u2019", u"\x27")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 13: ordinal not in range(128)

Qu'est-ce qui se passe ici ?

Demandé el 6 de Septembre, 2013 par user2602812

Answer 1

1 Réponses

Answer 2

0voto

io big Points 1

Python3x ou supérieur

charger le fichier dans un flux d'octets :

 body = ''
    for lines in open('website/index.html','rb'):
        decodedLine = lines.decode('utf-8')
        body = body+decodedLine.strip()
    return body

utiliser le réglage global :

import io
import sys
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding='utf-8')

Répondu el 8 de Mars, 2019 par io big (1 Points )

UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet 0xe2 en position 13 : ordinal n'est pas dans la plage(128)

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

UnicodeDecodeError : le codec 'ascii' ne peut pas décoder l'octet 0xe2 en position 13 : ordinal n'est pas dans la plage(128)

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: