PySpark sampleBy utilisant plusieurs colonnes

Question

PySpark sampleBy utilisant plusieurs colonnes

Demandé el 9 de Mai, 2017: Quand la question a-t-elle été
1602 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Je veux effectuer un échantillonnage stratifié à partir d'une base de données sur PySpark. Il existe un sampleBy(col, fractions, seed=None) mais elle semble n'utiliser qu'une seule colonne comme strate. Existe-t-il un moyen d'utiliser plusieurs colonnes comme strates ?

Demandé el 9 de Mai, 2017 par ysakamoto

Answer 1

1 Réponses

Answer 2

8voto

James Tobin Points 2318

En fonction de la réponse aquí

après l'avoir converti en python, je pense qu'une réponse pourrait ressembler à ça :

#create a dataframe to use
df = sc.parallelize([ (1,1234,282),(1,1396,179),(2,8620,178),(3,1620,191),(3,8820,828) ] ).toDF(["ID","X","Y"])

#we are going to use the first two columns as our key (strata)
#assign sampling percentages to each key # you could do something cooler here
fractions = df.rdd.map(lambda x: (x[0],x[1])).distinct().map(lambda x: (x,0.3)).collectAsMap()

#setup how we want to key the dataframe
kb = df.rdd.keyBy(lambda x: (x[0],x[1]))

#create a dataframe after sampling from our newly keyed rdd
#note, if the sample did not return any values you'll get a `ValueError: RDD is empty` error

sampleddf = kb.sampleByKey(False,fractions).map(lambda x: x[1]).toDF(df.columns)
sampleddf.show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  1|1234|282|
|  1|1396|179|
|  3|1620|191|
+---+----+---+
#other examples
kb.sampleByKey(False,fractions).map(lambda x: x[1]).toDF(df.columns).show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  2|8620|178|
+---+----+---+

kb.sampleByKey(False,fractions).map(lambda x: x[1]).toDF(df.columns).show()
+---+----+---+
| ID|   X|  Y|
+---+----+---+
|  1|1234|282|
|  1|1396|179|
+---+----+---+

C'est le genre de chose que vous recherchiez ?

Répondu el 9 de Mai, 2017 par James Tobin (2318 Points )

PySpark sampleBy utilisant plusieurs colonnes

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

PySpark sampleBy utilisant plusieurs colonnes

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: