Pandas : regroupement par intervalles égaux

Question

Pandas : regroupement par intervalles égaux

Demandé el 2 de Novembre, 2017: Quand la question a-t-elle été
337 affichage: Nombre de visites la question a
2 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Voici un exemple de mon cadre de données :

df_lst = [
  {"wordcount": 100, "Stats": 198765, "id": 34},
     {"wordcount": 99, "Stats": 98765, "id": 35},
     {"wordcount": 200, "Stats": 18765, "id": 36},
     {"wordcount": 250, "Stats": 788765, "id": 37},
     {"wordcount": 345, "Stats": 12765, "id": 38},
     {"wordcount": 456, "Stats": 238765, "id": 39},
     {"wordcount": 478, "Stats": 1934, "id": 40},
     {"wordcount": 890, "Stats": 19845, "id": 41},
     {"wordcount": 812, "Stats": 1987, "id": 42}]
df = pd.DataFrame(df_lst)
df.set_index('id', inplace=True)
df.head()

DF :

    Stats   wordcount
id      
34  198765  100
35  98765   99
36  18765   200
37  788765  250
38  12765   345

Je voudrais calculer la moyenne Stats pour chaque plage de wordcount avec un pas de 100, de sorte que le nouveau cadre de données ressemble à ceci :

    Average wordcount
    194567  100
    23456   200
    2378    300
    ...

Où 100 signifie de 0 à 100, etc. J'ai commencé à écrire des conditions multiples mais j'ai l'impression qu'il y a un moyen plus efficace d'y parvenir. Je vous remercie de votre aide.

Demandé el 2 de Novembre, 2017 par aviss

Answer 1

2 Réponses

Answer 2

5voto

MaxU Points 5284

Utiliser pd.cut() méthode :

In [92]: bins = np.arange(0, df['wordcount'].max().round(-2) + 100, 100)

In [94]: df.groupby(pd.cut(df['wordcount'], bins=bins, labels=bins[1:]))['Stats'].mean()
Out[94]:
wordcount
100    148765.0
200     18765.0
300    788765.0
400     12765.0
500    120349.5
600         NaN
700         NaN
800         NaN
900     10916.0
Name: Stats, dtype: float64

Répondu el 2 de Novembre, 2017 par MaxU (5284 Points )

Answer 3

2voto

W-B Points 94428

import math
def roundup(x):
    return int(math.ceil(x / 100.0)) * 100
df['roundup']=df.wordcount.apply(roundup)
df.groupby('roundup').Stats.mean()
Out[824]: 
roundup
100    148765.0
200     18765.0
300    788765.0
400     12765.0
500    120349.5
900     10916.0
Name: Stats, dtype: float64

Répondu el 2 de Novembre, 2017 par W-B (94428 Points )

Pandas : regroupement par intervalles égaux

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Pandas : regroupement par intervalles égaux

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: