Je suppose que cela dépend de ce que vous êtes de traitement. Si vous êtes le calcul de la FFT sur une grande durée que vous pourriez trouver qu'il prend un certain temps en fonction du nombre de points de fidélité que vous êtes désireux. Cependant, dans la plupart des cas pour l'audio, il est considéré comme non-stationnaire (c'est les signaux de la moyenne et de la variance des changements beaucoup plus de temps), donc, en prenant un grand FFT (Periodogram PSD estimation) n'est pas une représentation exacte. Vous pouvez également utiliser de Courte durée à transformée de Fourier, de quoi vous briser le signal de former des cadres et de calculer la FFT. La taille de l'image varie en fonction de la rapidité de la statistique du changement, pour la parole, il est habituellement de 20 à 40 ms, pour la musique je suppose que c'est légèrement plus élevé.
Cette méthode est bonne si vous êtes d'échantillonnage à partir du microphone, car il vous permet de tampon de chaque image à un moment, calcul de la fft et de donner ce que l'utilisateur se sent en "temps réel" de l'interaction. Parce que 20ms est rapide, parce que nous ne pouvons pas vraiment percevoir une différence de temps que les petits.
J'ai développé un petit banc de marque pour tester la différence entre FFTW et KissFFT c-bibliothèques sur un signal de parole. Oui FFTW est hautement optimisé, mais quand vous prenez seulement à court-cadres, la mise à jour des données pour l'utilisateur, et en utilisant seulement une petite taille de la tfr, ils sont tous les deux très similaires. Voici un exemple sur la façon de mettre en œuvre les KissFFT bibliothèques dans Android à l'aide de LibGdx par badlogic jeux. J'ai mis en place cette bibliothèque à l'aide de chevauchement des images dans une Application Android, j'ai développé il y a quelques mois appelé Rehaussement de la Parole pour Android.