Lecture de CSV avec l'option multiligne et l'option d'encodage

Question

Lecture de CSV avec l'option multiligne et l'option d'encodage

Demandé el 7 de Octobre, 2019: Quand la question a-t-elle été
1495 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Ouvert: Situation réelle de la question

Dans azure Databricks, lorsque je lis un fichier CSV avec multiline = 'true' y encoding = 'SJIS' il semble que l'option d'encodage soit ignorée. Si j'utilise multiline utilise son option par défaut encoding c'est-à-dire UTF-8 , mais mon fichier est dans SJIS format. Est-ce qu'il y a une solution pour cela, toute aide sera appréciée. Voici le code que j'utilise, et j'utilise pyspark.

df= sqlContext.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',encoding='SJIS',multiline='true').load('/mnt/Data/Data.tsv')

Demandé el 7 de Octobre, 2019 par Sohel Reza

Answer 1

2 Réponses

Answer 2

0voto

Jim Xu Points 15444

D'après mes recherches, lorsque nous lisons un fichier csv dans Azure datatricks, il ne prend pas en charge les options multilignes. Je vous suggère donc de mettre à jour votre code comme ci-dessous.

df= spark.read.format('csv').options(header='true',inferSchema='false',delimiter='\t',charset='SJIS').load('/FileStore/tables/test.csv')

Pour plus de détails, veuillez vous référer à https://docs.databricks.com/data/data-sources/read-csv.html .

Répondu el 8 de Octobre, 2019 par Jim Xu (15444 Points )

Answer 3

0voto

CHEEKATLAPRADEEP-MSFT Points 2744

Malheureusement, vous ne pouvez pas utiliser "multiline" et "charset" ensemble, si vous les utilisez ensemble, l'encodage sera défini par défaut.

Azure Databricks charset : UTF-8 par défaut mais peut être défini avec d'autres noms de charset valides.

Pour l'expliquer clairement, j'ai pris l'exemple de l'encodage de la signature SJIS " Espèces+ Signature "pris comme colonne " signature "sur le fichier d'entrée.

C'est le comportement attendu si vous utilisez multiline=true y encoding/charset to “SJIS” qui renvoie le même résultat que default charset UTF-8 .

Par défaut : Jeu de caractères "UTF-8"

Encodage/charset à "SJIS". :

J'espère que cela vous aidera.

Répondu el 10 de Octobre, 2019 par CHEEKATLAPRADEEP-MSFT (2744 Points )

Lecture de CSV avec l'option multiligne et l'option d'encodage

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Lecture de CSV avec l'option multiligne et l'option d'encodage

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: