Simulation très lente de 10 000 tirages de pièces de monnaie en Python

Question

Simulation très lente de 10 000 tirages de pièces de monnaie en Python

Demandé el 16 de Juillet, 2019: Quand la question a-t-elle été
97 affichage: Nombre de visites la question a
1 Réponses: Nombre de réponses aux questions
Résolu: Situation réelle de la question

J'écris une simulation qui crée 10 000 périodes de 25 ensembles, chaque ensemble étant constitué de 48 tirages à pile ou face. Quelque chose dans ce code le fait tourner très lentement. Cela fait au moins 20 minutes que la simulation est en cours et elle fonctionne toujours. Une simulation similaire en R s'exécute en moins de 10 secondes.

Voici le code python que j'utilise :

import pandas as pd
from random import choices

threshold=17
all_periods = pd.DataFrame()

for i in range(10000):
    simulated_period = pd.DataFrame()
    for j in range(25):
        #Data frame with 48 weeks as rows. Each run through loop adds one more year as column until there are 25
        simulated_period = pd.concat([simulated_period, pd.DataFrame(choices([1, -1], k=48))],\
                                      ignore_index=True, axis=1)
        positives = simulated_period[simulated_period==1].count(axis=1)
        negatives = simulated_period[simulated_period==-1].count(axis=1)
        #Combine positives and negatives that are more than the threshold into single dataframe
        sig = pd.DataFrame([[sum(positives>=threshold), sum(negatives>=threshold)]], columns=['positive', 'negative'])
        sig['total'] = sig['positive'] + sig['negative']
    #Add summary of individual simulation to the others
    all_periods = pd.concat([all_periods, sig])

Si cela peut aider, voici le script R qui s'exécute rapidement :

flip <- function(threshold=17){
  #threshold is min number of persistent results we want to see. For example, 17/25 positive or 17/25 negative

  outcomes <- c(1, -1)
  trial <- do.call(cbind, lapply(1:25, function (i) sample(outcomes, 48, replace=T)))
  trial <- as.data.frame(t(trial)) #48 weeks in columns, 25 years in rows.

  summary <- sapply(trial, function(x) c(pos=length(x[x==1]), neg=length(x[x==-1])))
  summary <- as.data.frame(t(summary)) #use data frame so $pos/$neg can be used instead of [1,]/[2,]

  sig.pos <- length(summary$pos[summary$pos>=threshold])
  sig.neg <- length(summary$neg[summary$neg>=threshold])

  significant <- c(pos=sig.pos, neg=sig.neg, total=sig.pos+sig.neg) 

  return(significant)
}

  results <- do.call(rbind, lapply(1:10000, function(i) flip(threshold)))
  results <- as.data.frame(results)

Quelqu'un peut-il me dire ce que j'exécute en python qui ralentit le processus ? Merci.

Demandé el 16 de Juillet, 2019 par mks212

Answer 1

1 Réponses

Answer 2

3voto

Quang Hoang Points 191

Pourquoi ne générez-vous pas l'ensemble du grand ensemble

idx = pd.MultiIndex.from_product((range(10000), range(25)),
                                 names=('period', 'set'))
df = pd.DataFrame(data=np.random.choice([1,-1], (10000*25, 48)), index=idx)

Cela a pris environ 120 ms sur mon ordinateur. Et ensuite les autres opérations :

positives = df.eq(1).sum(level=0).gt(17).sum(axis=1).to_frame(name='positives')
negatives = df.eq(-1).sum(level=0).gt(17).sum(axis=1).to_frame(name='negatives')

all_periods = pd.concat( (positives, negatives), axis=1 )

all_periods['total'] = all_periods.sum(1)

prennent environ 600 ms supplémentaires.

Répondu el 16 de Juillet, 2019 par Quang Hoang (191 Points )

Simulation très lente de 10 000 tirages de pièces de monnaie en Python

Réponse

Questions en vedette

Top Tags

Prograide.com

Powered by:

Simulation très lente de 10 000 tirages de pièces de monnaie en Python

Réponse

Questions en vedette

Top Tags

Dans notre réseau

Prograide.com

Powered by: