J'essaie de lire le fichier Sentiment140.csv disponible sur Kaggle : https://www.kaggle.com/kazanova/sentiment140
Mon code est celui-ci :
import pandas as pd
import os
cols = ['sentiment','id','date','query_string','user','text']
BASE_DIR = ''
df = pd.read_csv(os.path.join(BASE_DIR, 'Sentiment140.csv'),header=None, names=cols)
Et ça me donne cette erreur :
UnicodeDecodeError : le codec 'utf-8' ne peut pas décoder les octets en position 80-81 : octet de continuation invalide
Les choses que j'aimerais comprendre sont :
1) Comment puis-je résoudre ce problème ?
2) Où puis-je voir quel type d'encodage je dois utiliser au lieu de "utf-8", en fonction de l'erreur ?
3) L'utilisation d'autres méthodes d'encodage me causera d'autres problèmes par la suite ?
Merci d'avance
P.s. J'utilise python3 sur un mac.