J'ai trouvé ces deux dépôts python très utiles, vous devriez peut-être y jeter un coup d'oeil...
python https://github.com/JeremyCCHsu/Python-Wrapper-for-World-Vocoder
ipython : https://timsainb.github.io/spectrograms-mfccs-and-inversion-in-python.html
[EDIT] Comme indiqué, voici une explication des deux liens.
python L'un d'eux semble avoir une erreur, mais de nombreuses personnes ont réussi à le faire fonctionner, donc je ne suis pas sûr. ipython a fonctionné comme un charme, donc j'espère que vous pourrez l'exécuter.
Les deux liens sont censés prendre un fichier audio comme entrée, de préférence .wav fichier. Donnez-lui des caractéristiques ( USE FFT : 512, step size = 512/8 ) pour obtenir des spectrogrammes ( vous pouvez même les visualiser ), c'est une matrice 2D, et ensuite entraînez vos objets d'apprentissage automatique ou faites ce que vous voulez en utilisant une matrice qui représente l'audio original. Si vous voulez, à tout moment, savoir ce que ces vecteurs représentent, vous pouvez resynthétiser l'audio.