Comment joindre deux images pour lesquelles les valeurs de colonne sont comprises dans une certaine plage?

Question

Comment joindre deux images pour lesquelles les valeurs de colonne sont comprises dans une certaine plage?

Demandé el 2 de Octobre, 2017: Quand la question a-t-elle été
2932 affichage: Nombre de visites la question a
5 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

Étant donné deux cadres de données df_1 et df_2 , comment les rejoindre de telle sorte que la colonne datetime df_1 situe entre start et end dans le cadre de données df_2 :

 print df_1

  timestamp              A          B
0 2016-05-14 10:54:33    0.020228   0.026572
1 2016-05-14 10:54:34    0.057780   0.175499
2 2016-05-14 10:54:35    0.098808   0.620986
3 2016-05-14 10:54:36    0.158789   1.014819
4 2016-05-14 10:54:39    0.038129   2.384590


print df_2

  start                end                  event    
0 2016-05-14 10:54:31  2016-05-14 10:54:33  E1
1 2016-05-14 10:54:34  2016-05-14 10:54:37  E2
2 2016-05-14 10:54:38  2016-05-14 10:54:42  E3

Obtenir les correspondances event où df1.timestamp est entre df_2.start et df2.end

   timestamp              A          B          event
0 2016-05-14 10:54:33    0.020228   0.026572   E1
1 2016-05-14 10:54:34    0.057780   0.175499   E2
2 2016-05-14 10:54:35    0.098808   0.620986   E2
3 2016-05-14 10:54:36    0.158789   1.014819   E2
4 2016-05-14 10:54:39    0.038129   2.384590   E3

Demandé el 2 de Octobre, 2017 par DougKruger

Answer 1

5 Réponses

Answer 2

69voto

Dark Points 20515

Une solution simple est de créer interval index de start and end paramètre closed = both puis utilisez get_loc pour obtenir de l'événement que j'.e (Espérons que tous les date sont des heures dans les horodatages dtype )

df_2.index = pd.IntervalIndex.from_arrays(df_2['start'],df_2['end'],closed='both')
df_1['event'] = df_1['timestamp'].apply(lambda x : df_2.iloc[df_2.index.get_loc(x)]['event'])

Sortie :

 horodatage d'Un événement B
0 2016-05-14 10:54:33 0.020228 0.026572 E1
1 2016-05-14 10:54:34 0.057780 0.175499 E2
2 2016-05-14 10:54:35 0.098808 0.620986 E2
3 2016-05-14 10:54:36 0.158789 1.014819 E2
4 2016-05-14 10:54:39 0.038129 2.384590 E3

Répondu el 2 de Octobre, 2017 par Dark (20515 Points )

Answer 3

24voto

coldspeed Points 111053

 idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')
event = df_2.loc[idx.get_indexer(df_1.timestamp), 'event']

event
0    E1
1    E2
1    E2
1    E2
2    E3
Name: event, dtype: object

df_1['event'] = event.values
df_1
            timestamp         A         B event
0 2016-05-14 10:54:33  0.020228  0.026572    E1
1 2016-05-14 10:54:34  0.057780  0.175499    E2
2 2016-05-14 10:54:35  0.098808  0.620986    E2
3 2016-05-14 10:54:36  0.158789  1.014819    E2
4 2016-05-14 10:54:39  0.038129  2.384590    E3

Référence: Une question sur IntervalIndex.get_indexer.

Répondu el 2 de Octobre, 2017 par coldspeed (111053 Points )

Answer 4

18voto

chris dorn Points 378

Vous pouvez utiliser le module pandasql

 import pandasql as ps

sqlcode = '''
select df_1.timestamp
,df_1.A
,df_1.B
,df_2.event
from df_1 
inner join df_2 
on d1.timestamp between df_2.start and df2.end
'''

newdf = ps.sqldf(sqlcode,locals())

Répondu el 13 de Février, 2018 par chris dorn (378 Points )

Answer 5

13voto

W-B Points 94428

Option 1

 idx = pd.IntervalIndex.from_arrays(df_2['start'], df_2['end'], closed='both')
df_2.index=idx
df_1['event']=df_2.loc[df_1.timestamp,'event'].values

Option 2

 df_2['timestamp']=df_2['end']
pd.merge_asof(df_1,df_2[['timestamp','event']],on='timestamp',direction ='forward',allow_exact_matches =True)
Out[405]: 
            timestamp         A         B event
0 2016-05-14 10:54:33  0.020228  0.026572    E1
1 2016-05-14 10:54:34  0.057780  0.175499    E2
2 2016-05-14 10:54:35  0.098808  0.620986    E2
3 2016-05-14 10:54:36  0.158789  1.014819    E2
4 2016-05-14 10:54:39  0.038129  2.384590    E3

Répondu el 2 de Octobre, 2017 par W-B (94428 Points )

Answer 6

6voto

Tai Points 4569

Dans cette méthode, nous supposons TimeStamp objets sont utilisés.

df2  start                end                  event    
   0 2016-05-14 10:54:31  2016-05-14 10:54:33  E1
   1 2016-05-14 10:54:34  2016-05-14 10:54:37  E2
   2 2016-05-14 10:54:38  2016-05-14 10:54:42  E3

event_num = len(df2.event)

def get_event(t):    
    event_idx = ((t >= df2.start) & (t <= df2.end)).dot(np.arange(event_num))
    return df2.event[event_idx]

df1["event"] = df1.timestamp.transform(get_event)

Explication de l' get_event

Pour chaque horodatage en df1, disons t0 = 2016-05-14 10:54:33,

(t0 >= df2.start) & (t0 <= df2.end) contiendra 1 vrai. (Voir exemple 1). Ensuite, prendre un produit scalaire avec np.arange(event_num) pour obtenir l'index de l'événement que l' t0 appartient.

Exemples:

Exemple 1

    t0 >= df2.start    t0 <= df2.end     After &     np.arange(3)    
0     True                True         ->  T              0        event_idx
1    False                True         ->  F              1     ->     0
2    False                True         ->  F              2

Prendre en t2 = 2016-05-14 10:54:35 pour un autre exemple

    t2 >= df2.start    t2 <= df2.end     After &     np.arange(3)    
0     True                False        ->  F              0        event_idx
1     True                True         ->  T              1     ->     1
2    False                True         ->  F              2

Nous avons finalement utiliser transform de transformer chaque timestamp dans un événement.

Répondu el 7 de Janvier, 2018 par Tai (4569 Points )

Comment joindre deux images pour lesquelles les valeurs de colonne sont comprises dans une certaine plage?

Réponses

Questions en vedette

Top Tags

Prograide.com

Powered by:

Comment joindre deux images pour lesquelles les valeurs de colonne sont comprises dans une certaine plage?

Réponses

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: