35 votes

R et d'Exploration de Données

Au lieu de commencer à code en Matlab, j'ai récemment commencé à apprendre le R, principalement parce qu'il est open-source. Je suis actuellement en train de travailler dans l'exploration de données et d'apprentissage automatique de champ. J'ai trouvé de nombreux algorithmes d'apprentissage automatique mis en œuvre dans R, et je suis encore à explorer différents packages mis en œuvre dans R.

J'ai petite question: comment vous comparez la R de Matlab pour l'exploration de données de l'application, sa popularité, les avantages et les inconvénients, de l'industrie et des universitaires de l'acceptation, etc.? Qui choisiriez-vous et pourquoi?

Je suis passé par différentes comparaisons pour Matlab vs R contre les différentes métriques mais je suis particulièrement intéressé à obtenir une réponse de son applicabilité dans l'Exploration de Données et ML. Depuis deux langues sont assez nouveau pour moi, je me demandais juste si R est un bon choix ou pas.

J'apprécie toute sorte de suggestions.

61voto

doug Points 29567

Au cours des trois dernières années, j'ai utilisé de la R quotidienne, et la plus grande partie de l'utilisation quotidienne est consacré à l'Apprentissage de la Machine/de l'Exploration de Données des problèmes.

J'ai été une exclusivité de Matlab d'un utilisateur dans l'Université; à l'époque je pensais que c'était un excellent jeu de plate-forme. Je suis sûr qu'il est aujourd'hui.

Le Réseau de Neurones boîte à outils, l'Optimisation de la boîte à outils, boîte à outils de Statistiques, et l'ajustement de la Courbe des outils sont chaque hautement souhaitable (si pas indispensable) pour quelqu'un à l'aide de MATLAB pour ML/Data Mining, pourtant, ils sont tous séparés de la base de MATLAB environnement--en d'autres termes, ils doivent être achetés séparément.

Mon Top 5 pour l'Apprentissage ML/l'Exploration de Données dans R:

Cela se réfère à deux choses: tout d'Abord, un groupe de Package R que tout commence arules (disponible à partir de CRAN); vous pouvez trouver la liste complète (arules, aruluesViz, etc.) sur la page d'Accueil du Projet. D'autre part, tous ces forfaits sont basés sur une extraction des données de la technique connue sous le nom de Marché Baignait Analyse et alternativement comme des Règles d'Association. À de nombreux égards, cette famille d'algorithmes est l'essence même de l'extraction de données--exhaustive de traverser de grandes bases de données de transaction et de trouver au-dessus de la moyenne des associations ou des corrélations entre les champs (variables ou de fonctions) dans ces bases de données. Dans la pratique, vous vous connectez à une source de données et de les laisser tourner toute la nuit. Le centre de R Package dans le jeu mentionné ci-dessus est appelé arules; Sur le CRAN page Package pour arules, vous trouverez des liens vers quelques excellentes sources secondaires (des vignettes dans la R du lexique) sur la arules paquet et sur les Règles d'Association technique en général.

L'édition la plus récente de ce livre est disponible sous forme numérique pour gratuit. De même, le livre du site web (lien juste au-dessus) sont tous les ensembles de données utilisés dans l'ESL, disponible en téléchargement gratuit. (En aparté, j'ai le gratuitement en version numérique; j'ai aussi acheté la version cartonnée de BN.com toutes les couleurs des parcelles de la version numérique sont reproduits dans la version reliée.) ESL contient approfondie des introductions à au moins un exemplaire de la plupart des grandes ML rubriques--par exemple, de neurones metworks, SVM, KNN; non supervisée techniques (LDA, le PCA, le MDS, SOM, clustering), de nombreuses saveurs de régression, PANIER, Bayésien techniques, ainsi que le modèle d'agrégation des techniques (Stimuler, Ensachage) et le modèle de paramétrage (régularisation). Enfin, obtenir le Package R qui accompagne le livre de CRAN (ce qui permettra d'économiser la peine d'avoir à télécharger l'entrée de la base de données).

  • CRAN Tâche de Vue: l'Apprentissage de la Machine

Les +de 3 500 Paquets disponibles pour les R sont classés par domaine d'environ 30 forfait les familles ou les 'Vues de Tâche'. L'Apprentissage De La Machine est l'une de ces familles. L'Apprentissage de la Machine Vue des Tâches contient environ 50 Les Packages. Certains de ces emballages font partie de la distribution principale, y compris e1071 (un immense ML package qui comprend le code du travail pour un certain nombre de l'habitude ML catégories.)

Avec un accent particulier sur les posts tagged avec l'analyse Prédictive

  • ML R tutoriel composé d'une série de diapositives et R code par Josh Reich

Une étude approfondie du code ne serait pas, par elle-même, être une excellente introduction à la ML dans R.

Et une dernière ressource qui je pense est excellent, mais n'a pas fait dans le top 5:

posté sur le blog Un Beau WWW

9voto

Dirk Eddelbuettel Points 134700

S'il vous plaît regardez le CRAN Vues des Tâches , et en particulier le CRAN Tâche de Vue sur l'Apprentissage de la Machine et de l'Apprentissage Statistique qui résume ce bien.

1voto

Jonny Points 11

Hier, j'ai trouvé deux nouveaux livres sur l'exploration de Données. Cette série de livres intitulée par Data Mining " répondre au besoin par la présentation en profondeur de la description de nouveaux algorithmes d'exploration et de nombreuses applications utiles. Outre la compréhension de chaque section profondément, les deux livres présentent des conseils et des stratégies pour résoudre les problèmes dans les chapitres suivants.Les progrès de la technologie de data mining et de la grande popularité établir un besoin pour un texte complet sur le sujet. Les livres sont: "les Nouvelles Technologies Fondamentales dans l'Exploration de Données" ici http://www.intechopen.com/books/show/title/new-fundamental-technologies-in-data-mining & "la Connaissance des Applications Orientées dans l'Exploration de Données" ici http://www.intechopen.com/books/show/title/knowledge-oriented-applications-in-data-mining Ces livres sont en libre accès de sorte que vous pouvez le télécharger gratuitement ou à lire lecture en ligne plate-forme comme je le fais. Cheers!

1voto

Leo5188 Points 371

Nous ne devons pas oublier l'origine des sources pour ces deux logiciels: calcul scientifique et aussi de traitement du signal conduit à Matlab mais les statistiques conduit à R.

J'ai utilisé matlab beaucoup dans l'Université depuis que nous avons installé sur Unix et ouvert à tous les étudiants. Cependant, le prix de Matlab est trop élevé, surtout par rapport à la libre R. Si votre accent est mis non pas sur la matrice de calcul et de traitement du signal, R doit bien travailler pour vos besoins.

1voto

Paul Hiemstra Points 28390

Je pense que ça dépend aussi dans quel domaine d'étude. Je connais des gens dans les régions côtières de la recherche qui utilisent beaucoup de Matlab. À l'aide de la R de ce groupe serait de rendre la vie plus difficile. Si un collègue a résolu un problème, vous ne pouvez pas l'utiliser parce qu'il fixe à l'aide de Matlab.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X