pyspark collect_set ou collect_list avec groupby

Question

pyspark collect_set ou collect_list avec groupby

Demandé el 2 de Juin, 2016: Quand la question a-t-elle été
24949 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment puis-je utiliser collect_set ou collect_list sur une trame de données après groupby . par exemple: df.groupby('key').collect_set('values') . Je reçois une erreur: AttributeError: 'GroupedData' object has no attribute 'collect_set'

Demandé el 2 de Juin, 2016 par Hanan Shteingart

Answer 1

1 Réponses

Answer 2

108voto

tuva Points 885

Vous devez utiliser agg. Exemple:

 from pyspark import SparkContext
from pyspark.sql import HiveContext
from pyspark.sql import functions as F

sc = SparkContext("local")

sqlContext = HiveContext(sc)

df = sqlContext.createDataFrame([
    ("a", None, None),
    ("a", "code1", None),
    ("a", "code2", "name2"),
], ["id", "code", "name"])

df.show()

+---+-----+-----+
| id| code| name|
+---+-----+-----+
|  a| null| null|
|  a|code1| null|
|  a|code2|name2|
+---+-----+-----+

Notez dans ce qui précède que vous devez créer un HiveContext. Voir https://stackoverflow.com/a/35529093/690430 pour connaître les différentes versions de Spark.

 (df
  .groupby("id")
  .agg(F.collect_set("code"),
       F.collect_list("name"))
  .show())

+---+-----------------+------------------+
| id|collect_set(code)|collect_list(name)|
+---+-----------------+------------------+
|  a|   [code1, code2]|           [name2]|
+---+-----------------+------------------+

Répondu el 27 de Juin, 2016 par tuva (885 Points )

pyspark collect_set ou collect_list avec groupby

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

pyspark collect_set ou collect_list avec groupby

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: