Filtrez la colonne du dataframe Pyspark avec la valeur None.

Question

Filtrez la colonne du dataframe Pyspark avec la valeur None.

Demandé el 16 de Mai, 2016: Quand la question a-t-elle été
72449 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'essaye de filtrer un cadre de données PySpark qui a None comme valeur de ligne :

df.select('dt_mvmt').distinct().collect()

[Row(dt_mvmt=u'2016-03-27'),
 Row(dt_mvmt=u'2016-03-28'),
 Row(dt_mvmt=u'2016-03-29'),
 Row(dt_mvmt=None),
 Row(dt_mvmt=u'2016-03-30'),
 Row(dt_mvmt=u'2016-03-31')]

et je peux filtrer correctement avec une valeur de type chaîne :

df[df.dt_mvmt == '2016-03-31']
# some results here

mais cela échoue :

df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0

Mais il y a définitivement des valeurs dans chaque catégorie. Qu'est-ce qui se passe ?

Demandé el 16 de Mai, 2016 par Ivan

1 votes

Vous voulez en fait filtrer les lignes avec des valeurs nulles, et non une colonne avec des valeurs nulles. Le titre peut être trompeur.

Commenté el 7 de Décembre, 2019 par Atorpat

0 votes

En bref, une comparaison impliquant null (ou None, dans ce cas) renvoie toujours false. En particulier, la comparaison (null == null) renvoie un résultat faux. De même, la comparaison (None == None) renvoie un résultat faux.

Commenté el 18 de Juin, 2020 par Richard Gomes

Answer 1

5 Réponses

Answer 2

309voto

zero323 Points 5699

Vous pouvez utiliser Column.isNull / Column.isNotNull :

df.where(col("dt_mvmt").isNull())

df.where(col("dt_mvmt").isNotNull())

Si vous voulez simplement laisser tomber NULL vous pouvez utiliser les valeurs suivantes na.drop con subset argument :

df.na.drop(subset=["dt_mvmt"])

Comparaisons fondées sur l'égalité avec NULL ne fonctionnera pas car en SQL NULL est indéfinie, donc toute tentative de comparaison avec une autre valeur retourne NULL :

sqlContext.sql("SELECT NULL = NULL").show()
## +-------------+
## |(NULL = NULL)|
## +-------------+
## |         null|
## +-------------+

sqlContext.sql("SELECT NULL != NULL").show()
## +-------------------+
## |(NOT (NULL = NULL))|
## +-------------------+
## |               null|
## +-------------------+

La seule méthode valable pour comparer une valeur avec NULL es IS / IS NOT qui sont équivalentes à la isNull / isNotNull appels de méthodes.

Répondu el 16 de Mai, 2016 par zero323 (5699 Points )

2 votes

Génial, merci. Je pensais que ces filtres sur les dataframes PySpark seraient plus "pythoniques", mais hélas, ils ne le sont pas. Je pense demander aux développeurs à ce sujet.

Commenté el 17 de Mai, 2016 par Ivan

1 votes

En fait, c'est assez pythique. Vous ne devriez jamais vérifier __eq__ avec Aucun ;) Et is ne fonctionnerait pas car il ne se comporte pas de la même manière.

Commenté el 17 de Mai, 2016 par zero323

2 votes

Bizarrement, cela ne fonctionne que pour les colonnes de type chaîne... Il semble que df.filter("dt_mvmt is not NULL") gère les deux.

Commenté el 20 de Août, 2017 par David Arenburg

Answer 3

47voto

Anthony Points 178

Essayez d'utiliser simplement isNotNull fonction.

df.filter(df.dt_mvmt.isNotNull()).count()

Répondu el 16 de Mai, 2016 par Anthony (178 Points )

Answer 4

22voto

timctran Points 311

Pour obtenir les entrées dont les valeurs dans le dt_mvmt ne sont pas nuls, nous avons

df.filter("dt_mvmt is not NULL")

et pour les entrées qui sont nulles, on a

df.filter("dt_mvmt is NULL")

Répondu el 9 de Février, 2017 par timctran (311 Points )

Answer 5

9voto

neeraj bhadani Points 664

Il existe plusieurs façons de supprimer/filtrer les valeurs nulles d'une colonne dans un DataFrame.

Créons un simple DataFrame avec le code ci-dessous :

date = ['2016-03-27','2016-03-28','2016-03-29', None, '2016-03-30','2016-03-31']
df = spark.createDataFrame(date, StringType())

Vous pouvez maintenant essayer l'une des approches suivantes pour filtrer les valeurs nulles.

# Approach - 1
df.filter("value is not null").show()

# Approach - 2
df.filter(col("value").isNotNull()).show()

# Approach - 3
df.filter(df["value"].isNotNull()).show()

# Approach - 4
df.filter(df.value.isNotNull()).show()

# Approach - 5
df.na.drop(subset=["value"]).show()

# Approach - 6
df.dropna(subset=["value"]).show()

# Note: You can also use where function instead of a filter.

Vous pouvez également consulter la section "Working with NULL Values" sur mon site Web. blog pour plus d'informations.

J'espère que cela vous aidera.

Répondu el 31 de Mai, 2020 par neeraj bhadani (664 Points )

Answer 6

7voto

Gourav Bansal Points 69

IsNull()/isNotNull() renverront les lignes respectives qui ont dt_mvmt comme Null ou !Null.

method_1 = df.filter(df['dt_mvmt'].isNotNull()).count()
method_2 = df.filter(df.dt_mvmt.isNotNull()).count()

Les deux renverront le même résultat

Répondu el 15 de Décembre, 2020 par Gourav Bansal (69 Points )

Filtrez la colonne du dataframe Pyspark avec la valeur None.

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Filtrez la colonne du dataframe Pyspark avec la valeur None.

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: