58 votes

Compétences essentielles d'un Data Scientist

Quelles sont les compétences pertinentes dans l'arsenal d'un Data Scientist? Avec les nouvelles technologies qui arrivent tous les jours, comment peut-on choisir l'essentiel?

Quelques idées liées à cette discussion:

  • Sachant SQL et l'utilisation d'une base de données comme MySQL, PostgreSQL était génial jusqu'à l'avènement de NoSql et les bases de données non relationnelles. MongoDB, CouchDB, etc. sont en train de devenir populaire à travailler avec le web de données à grande échelle.
  • Sachant qu'un outil de statistiques comme R est suffisant pour l'analyse, mais pour créer des applications, on peut avoir besoin d'ajouter de Java, Python, et d'autres à la liste.
  • Les données se présente sous la forme de texte, des url, des multi-médias pour n'en nommer que quelques-uns, et il y a différents paradigmes liés à leur manipulation.
  • Ce sujet de clusters de calcul, calcul parallèle, le cloud, Amazon EC2, Hadoop ?
  • Régression des moindres carrés ordinaires a maintenant des Réseaux de Neurones Artificiels, Forêts Aléatoires et d'autres relativement exotique d'apprentissage de la machine/de l'exploration de données algos. pour la société

Pensées?

24voto

Richie Cotton Points 35365

Pour citer un extrait de l'intro de Hadley thèse de doctorat:

Tout d'abord, vous obtenez les données dans un formulaire vous pouvez travailler avec ... Deuxièmement, vous tracer les données pour avoir une idée de ce que va sur ... Troisièmement, vous itérez entre des graphiques et des modèles pour construire un succinct résumé quantitatif de la les données de ... Enfin, vous regardez en arrière sur ce que vous avez fait, et de contempler quels sont les outils que vous devez faire mieux dans l'avenir

Étape 1 implique presque certainement des données munging, et peut impliquer la base de données de l'accès ou de web scraping. Sachant que les gens qui créent de données est également utile. (Je suis dépôt qu'en vertu de "networking".)

Étape 2 moyens de visualisation/ traçage des compétences.

Étape 3 moyens de stats ou de compétences en matière de modélisation. Puisque c'est une stupidement catégorie générale, la possibilité de déléguer à un modeleur est également une compétence utile.

La dernière étape est la plupart du temps sur les compétences comme l'introspection et de la gestion-type de compétences.

Logiciel de compétences ont également été mentionné dans la question, et je suis d'accord qu'ils viennent dans très maniable. Logiciel de Menuiserie a une bonne liste de tous les logiciels de base les compétences que vous devriez avoir.

22voto

JD Long Points 20477

Juste pour jeter quelques idées pour d'autres, de disserter sur:

À certains ridiculement haut niveau d'abstraction de toutes les données de travail comprend les étapes suivantes:

  • La Collecte De Données
  • Les Données De Stockage Et De Récupération
  • Manipulation De Données/Synthèse/Modélisation
  • De Rapports Sur Les Résultats
  • Raconter Une Histoire

Au minimum un data scientist doit avoir au moins quelques compétences dans chacun de ces domaines. Mais selon la spécialité on peut passer beaucoup plus de temps dans une gamme limitée.

13voto

DrewConway Points 2059

Les JD sont excellents, et pour avoir un peu plus de profondeur sur ces idées, lisez l'excellent post de Michael Driscoll, The Three Sexy Skills of Data Geeks :

  1. Compétence n ° 1 : Statistiques (étudier)
  2. Compétence n ° 2 : Munging de données (souffrance)
  3. Compétence n ° 3 : Visualisation (raconter une histoire)

10voto

mropa Points 2813

Chez Dataist, la question est abordée de manière générale avec un joli diagramme de Venn:

Diagramme de Venn

5voto

Byron Ellis Points 1

JD l'a frappé à la tête: Storytelling. Bien qu’il ait effectivement oublié l’AUTRE histoire importante: l’histoire de la raison pour laquelle vous avez utilisé <insérer une technique sophistiquée ici>. Pouvoir répondre à cette question est de loin la compétence la plus importante que vous puissiez développer.

Le reste n'est que des marteaux. Ne vous méprenez pas, des choses comme R est génial. R est tout un sac de marteaux, mais le plus important est de savoir comment utiliser vos marteaux et quoi encore pour créer quelque chose d’utile.

Prograide.com

Prograide est une communauté de développeurs qui cherche à élargir la connaissance de la programmation au-delà de l'anglais.
Pour cela nous avons les plus grands doutes résolus en français et vous pouvez aussi poser vos propres questions ou résoudre celles des autres.

Powered by:

X