GroupBy pandas DataFrame et sélection de la valeur la plus courante

Question

GroupBy pandas DataFrame et sélection de la valeur la plus courante

Demandé el 5 de Mars, 2013: Quand la question a-t-elle été
193928 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'ai un cadre de données avec trois colonnes de chaînes. Je sais que la seule valeur de la troisième colonne est valable pour chaque combinaison des deux premières. Pour nettoyer les données, je dois grouper le cadre de données par les deux premières colonnes et sélectionner la valeur la plus courante de la troisième colonne pour chaque combinaison.

Mon code :

import pandas as pd
from scipy import stats

source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 
                  'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
                  'Short name' : ['NY','New','Spb','NY']})

print source.groupby(['Country','City']).agg(lambda x: stats.mode(x['Short name'])[0])

La dernière ligne de code ne fonctionne pas, elle indique "Key error 'Short name'" et si j'essaie de regrouper uniquement par ville, j'obtiens un AssertionError. Que puis-je faire pour corriger cela ?

Demandé el 5 de Mars, 2013 par Viacheslav Nefedov

Answer 1

1 Réponses

Answer 2

0voto

Diego Perez Sastre Points 1

Le problème aquí est la performance, si vous avez beaucoup de lignes, ce sera un problème.

Si c'est votre cas, essayez avec ceci :

import pandas as pd

source = pd.DataFrame({'Country' : ['USA', 'USA', 'Russia','USA'], 
              'City' : ['New-York', 'New-York', 'Sankt-Petersburg', 'New-York'],
              'Short_name' : ['NY','New','Spb','NY']})

source.groupby(['Country','City']).agg(lambda x:x.value_counts().index[0])

source.groupby(['Country','City']).Short_name.value_counts().groupby['Country','City']).first()

Répondu el 19 de Juin, 2018 par Diego Perez Sastre (1 Points )

GroupBy pandas DataFrame et sélection de la valeur la plus courante

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

GroupBy pandas DataFrame et sélection de la valeur la plus courante

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: