NumPy : calculer les moyennes avec les NaNs enlevés

Question

NumPy : calculer les moyennes avec les NaNs enlevés

Demandé el 30 de Mars, 2011: Quand la question a-t-elle été
20392 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Comment puis-je calculer les valeurs moyennes d'une matrice le long d'une matrice, mais pour enlever nan valeurs du calcul ? (Pour les utilisateurs de R, pensez à na.rm = TRUE ).

Voici mon exemple qui ne fonctionne pas :

import numpy as np
dat = np.array([[1, 2, 3],
                [4, 5, np.nan],
                [np.nan, 6, np.nan],
                [np.nan, np.nan, np.nan]])
print(dat)
print(dat.mean(1))  # [  2.  nan  nan  nan]

En supprimant les NaN, le résultat attendu serait le suivant :

array([ 2.,  4.5,  6.,  nan])

Demandé el 30 de Mars, 2011 par Mike T

Answer 1

5 Réponses

Answer 2

35voto

JoshAdel Points 15911

Je pense que ce que vous voulez est un tableau masqué :

dat = np.array([[1,2,3], [4,5,nan], [nan,6,nan], [nan,nan,nan]])
mdat = np.ma.masked_array(dat,np.isnan(dat))
mm = np.mean(mdat,axis=1)
print mm.filled(np.nan) # the desired answer

Edit : En combinant toutes les données de synchronisation

   from timeit import Timer

    setupstr="""
import numpy as np
from scipy.stats.stats import nanmean    
dat = np.random.normal(size=(1000,1000))
ii = np.ix_(np.random.randint(0,99,size=50),np.random.randint(0,99,size=50))
dat[ii] = np.nan
"""  

    method1="""
mdat = np.ma.masked_array(dat,np.isnan(dat))
mm = np.mean(mdat,axis=1)
mm.filled(np.nan)    
"""

    N = 2
    t1 = Timer(method1, setupstr).timeit(N)
    t2 = Timer("[np.mean([l for l in d if not np.isnan(l)]) for d in dat]", setupstr).timeit(N)
    t3 = Timer("np.array([r[np.isfinite(r)].mean() for r in dat])", setupstr).timeit(N)
    t4 = Timer("np.ma.masked_invalid(dat).mean(axis=1)", setupstr).timeit(N)
    t5 = Timer("nanmean(dat,axis=1)", setupstr).timeit(N)

    print 'Time: %f\tRatio: %f' % (t1,t1/t1 )
    print 'Time: %f\tRatio: %f' % (t2,t2/t1 )
    print 'Time: %f\tRatio: %f' % (t3,t3/t1 )
    print 'Time: %f\tRatio: %f' % (t4,t4/t1 )
    print 'Time: %f\tRatio: %f' % (t5,t5/t1 )

Les retours :

Time: 0.045454  Ratio: 1.000000
Time: 8.179479  Ratio: 179.950595
Time: 0.060988  Ratio: 1.341755
Time: 0.070955  Ratio: 1.561029
Time: 0.065152  Ratio: 1.433364

Répondu el 30 de Mars, 2011 par JoshAdel (15911 Points )

Answer 3

19voto

deprecated Points 960

Si les performances sont importantes, vous devriez utiliser bottleneck.nanmean() à la place :

http://pypi.python.org/pypi/Bottleneck

Répondu el 30 de Mars, 2011 par deprecated (960 Points )

Answer 4

12voto

Shaun Dubuque Points 196

En supposant que vous avez également installé SciPy :

http://www.scipy.org/doc/api_docs/SciPy.stats.stats.html#nanmean

Répondu el 30 de Mars, 2011 par Shaun Dubuque (196 Points )

Answer 5

8voto

Benjamin Points 3269

Vous pouvez toujours trouver une solution de contournement dans quelque chose comme :

numpy.nansum(dat, axis=1) / numpy.sum(numpy.isfinite(dat), axis=1)

Numpy 2.0 numpy.mean a un skipna qui devrait s'en charger.

Répondu el 8 de Novembre, 2011 par Benjamin (3269 Points )

Answer 6

8voto

Sven Marnach Points 133943

Un tableau masqué avec les nans filtrés peut également être créé à la volée :

print np.ma.masked_invalid(dat).mean(1)

Répondu el 30 de Mars, 2011 par Sven Marnach (133943 Points )

NumPy : calculer les moyennes avec les NaNs enlevés

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

NumPy : calculer les moyennes avec les NaNs enlevés

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: