Il est également scikit-learn (BSD, avec seulement dépendances sur numpy et scipy). Il comprend divers algorithmes d'apprentissage supervisé, tels que:
- SVM basé sur libsvm et linéaire avec scipy.éparses liaisons pour des fonctionnalités ensembles de données
- les méthodes bayésiennes
- Hmm
- L1 et L1+L2 de régularisation des méthodes de régression aka Lasso et Elastic Net des modèles mis en œuvre avec des algorithmes tels que LARS et de coordonner la descente
Il dispose également de clustering non supervisé des algorithmes tels que:
- kmeans++
- meanshift
- l'affinité de propagation de l'
- spectral clustering
Et également d'autres outils tels que:
- fonction extracteurs pour le contenu de texte (jeton et char ngrams + de hachage vectorizer)
- univariée sélections
- un simple tuyau d'outil de ligne de
- de nombreuses implémentations de la croix-des stratégies de validation
- les métriques de performance de l'évaluation et de ploting (courbe ROC, l'ASC, la confusion de la matrice, ...)
- une grille de recherche utilitaire pour effectuer des hyper-paramètres de réglage à l'aide de parallèles validation croisée
- l'intégration avec joblib pour la mise en cache des résultats partiels lorsque vous travaillez dans l'environnement interactif (par exemple, à l'aide de ipython)
Chaque implémentation de l'algorithme est livré avec des exemples de programmes démonstration de son utilisation sur jouet de données ou de la vie réelle des ensembles de données.
Aussi, la source officielle du référentiel est hébergé sur github , donc n'hésitez pas à participer corrections de bugs et amélioration de l'aide de l'ordinaire pull fonction de demande pour interactif de la revue de code.