2 votes

UnicodeDecodeError Sentiment140 Kaggle

J'essaie de lire le fichier Sentiment140.csv disponible sur Kaggle : https://www.kaggle.com/kazanova/sentiment140

Mon code est celui-ci :

import pandas as pd
import os

cols = ['sentiment','id','date','query_string','user','text']
BASE_DIR = ''
df = pd.read_csv(os.path.join(BASE_DIR, 'Sentiment140.csv'),header=None, names=cols)

Et ça me donne cette erreur :

UnicodeDecodeError : le codec 'utf-8' ne peut pas décoder les octets en position 80-81 : octet de continuation invalide

Les choses que j'aimerais comprendre sont :

1) Comment puis-je résoudre ce problème ?

2) Où puis-je voir quel type d'encodage je dois utiliser au lieu de "utf-8", en fonction de l'erreur ?

3) L'utilisation d'autres méthodes d'encodage me causera d'autres problèmes par la suite ?

Merci d'avance

P.s. J'utilise python3 sur un mac.

0voto

Paw in Data Points 816

Ça marche : https://investigate.ai/investigating-sentiment-analysis/cleaning-the-sentiment140-data/

Il s'avère que encoding="latin-1" et vous devez spécifier les noms des colonnes, sinon il utilisera la première ligne comme noms de colonnes. Voilà à quel point les données du monde réel peuvent être minables.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X