C'est juste une remarque, pas une critique, mais votre question devrait être formulée d'une manière différente : "quelles statistiques devraient tout personne ne le sait ?".
Le fait est que, malheureusement, nous avons tous affaire à des statistiques. C'est une réalité de la vie. Les sondages, les prévisions météorologiques, l'efficacité des médicaments, les assurances et, bien sûr, certaines parties de l'informatique. Être capable d'analyser de manière critique les données présentées permet de choisir la bonne compréhension ou de se faire arnaquer, quoi que cela signifie.
Cela dit, je pense qu'il est important de comprendre les points suivants
- la moyenne, la médiane, l'écart-type d'un échantillon, et la différence entre échantillon y population (c'est très important)
- les distributions, et pourquoi la distribution gaussienne est si importante (le théorème de la limite centrale)
- Ce que signifie le test de l'hypothèse nulle.
- Qu'est-ce que la transformation des variables, la corrélation, la régression, l'analyse multivariée.
- Qu'est-ce que la statistique bayésienne ?
- Méthodes de traçage.
Tous ces points sont essentiels non seulement pour vous en tant qu'informaticien, mais aussi en tant qu'être humain. Je vais vous donner quelques exemples.
-
L'évaluation de l'hypothèse nulle est essentielle pour tester l'efficacité d'une méthode. Par exemple, si un médicament fonctionne, ou si une réparation de votre matériel informatique a eu un résultat concret ou si c'est juste une question de chance. Disons que vous voulez améliorer la vitesse d'une machine, et que vous changez le disque dur. Ce changement est-il important ? Vous pourriez faire un échantillonnage des performances avec l'ancien et le nouveau disque dur, et vérifier les différences. Même si vous trouvez que la moyenne avec le nouveau disque est plus basse, cela ne signifie pas que le disque dur a un effet du tout. C'est là qu'intervient le test de l'hypothèse nulle, qui vous donnera un intervalle de confiance, et non une réponse définitive, du type : il y a une probabilité de 90 % que le changement de disque dur ait un effet concret sur les performances de votre machine.
-
La corrélation est importante pour savoir si deux entités "évoluent de la même façon". Comme l'enseigne le mantra Internet "corrélation n'est pas causalité", elle doit être prise avec précaution. Le fait que deux variables aléatoires présentent une corrélation ne signifie pas que l'une cause l'autre, ni qu'elles sont liées par une troisième variable (que vous ne mesurez pas). Elles pourraient simplement se comporter de la même manière. Cherchez les pirates et le réchauffement climatique pour comprendre le propos. Une corrélation rend compte d'une possible le signal, il ne rapporte pas de constat.
-
Bayésien. Nous connaissons tous le filtre anti-spam. Mais il y a plus. Supposons que vous passiez un examen médical et que le résultat vous dise que vous avez un cancer (j'espère vraiment que ce n'est pas le cas, mais c'est pour illustrer mon propos). Le fait est que : la plupart des gens à ce moment-là penseraient "j'ai un cancer". Or, ce n'est pas le cas. Un test de dépistage du cancer positif fait passer votre probabilité d'avoir un cancer de la valeur de référence pour la population (disons, 8 personnes sur mille ont un cancer, chiffre choisi au hasard) à une valeur plus élevée, qui n'est pas de 100 %. La hauteur de cette valeur dépend de la précision du test. Si le test est mauvais, il se peut que vous ne soyez qu'un faux positif. Plus la méthode est précise, plus le biais est élevé, mais il n'est toujours pas de 100 %. Bien sûr, si plusieurs tests indépendants confirment tous que vous avez un cancer, il est très probable que vous l'ayez réellement, mais ce n'est toujours pas 100 %. C'est peut-être 99,999 %. C'est un point que beaucoup de gens ne comprennent pas dans les statistiques bayésiennes.
-
Méthodes de traçage. C'est une autre chose qui est toujours laissée sans surveillance. L'analyse des données ne signifie rien si vous ne pouvez pas transmettre efficacement ce qu'elles signifient via un simple graphique. En fonction des informations que vous souhaitez mettre en évidence, ou du type de données dont vous disposez, vous préférerez un graphique xy, un histogramme, un graphique en forme de violon ou un graphique circulaire.
Maintenant, passons à vos questions. Je pense que j'ai trop abusé d'une note rapide, mais comme ma réponse a été beaucoup votée, je pense qu'il vaut mieux que je réponde correctement à vos questions dans la mesure de mes connaissances (et voici les vacances, donc je peux me permettre d'en abuser autant que je veux).
Quel genre de problèmes en programmation, l'ingénierie logicielle, et l'informatique informatique, les méthodes statistiques sont adaptées ? Où vais-je obtenir les plus grands bénéfices ?
Normalement, tout ce qui a trait à la comparaison de données qui implique des données numériques (ou réduites à des données numériques) provenant de sources non fiables. Un signal provenant d'un instrument, un tas de pages et le nombre de mots qu'elles contiennent. Lorsque vous obtenez ces données, et que vous devez trouver une réponse distillée dans le tas, vous avez besoin de statistiques. Pensez par exemple à l'algorithme de détection des clics sur l'iPhone. Vous utilisez un stylet tremblant et gros pour vous référer à une icône qui est beaucoup plus petite que le stylet lui-même. Il est clair que le matériel (écran capacitif) va vous envoyer un tas de données sur le doigt, plus un tas de données sur un bruit aléatoire (l'air ? je ne sais pas comment ça marche). Le pilote doit donner un sens à ce désordre et vous donner une coordonnée x,y sur l'écran. Cela nécessite (beaucoup) de statistiques.
Quel type de méthodes statistiques devrais-je passer mon temps à apprendre ?
Celles que je vous ai dites sont plus que suffisantes, aussi parce que pour les comprendre, il faut passer par d'autres choses.
Quelles ressources dois-je utiliser pour apprendre cela ? Livres, articles, sites web. J'aimerais apprécierais une discussion sur ce que chaque de chaque livre (ou autre ressource), et pourquoi c'est pertinent.
J'ai appris les statistiques principalement dans le cadre de cours universitaires standard. Mon premier livre était le " livre "train wreck ", et c'est très bon. J'ai aussi essayé celui-ci qui se concentre sur R mais il ne m'a pas particulièrement satisfait. Il faut connaître les choses et le R pour s'en sortir.
Les programmeurs ont souvent besoin de traiter de grandes bases de données de textes en langues naturelles, et aider à catégoriser, classer, rechercher, et de les traiter. Quelles techniques statistiques techniques statistiques sont utiles ici ?
Cela dépend de la question à laquelle vous devez répondre en utilisant votre ensemble de données.
On demande souvent aux programmeurs de de produire des systèmes performants, qui qui s'adaptent bien à la charge. Mais vous ne pouvez pas vraiment parler de performances sans que si vous pouvez les mesurer. Quel type de plan d'expérience et d'outils statistiques devez-vous utiliser pour être en mesure de dire avec confiance que les résultats sont significatifs ?
Les mesures posent de nombreux problèmes. Mesurer est un art fin et délicat. Une mesure correcte est presque impossible à réaliser. Le fait est que l'échantillonnage introduit un biais, soit du fait de l'échantillonneur, soit du fait de la méthode, soit du fait de la nature de l'échantillon, soit du fait de la nature de la nature. Un bon échantillonneur sait tout cela et tente de réduire au maximum les biais indésirables pour obtenir une distribution aléatoire.
Les exemples tirés du blog que vous avez publié sont pertinents. Disons que vous avez un temps de démarrage pour une base de données. Si vous prenez des mesures de performance pendant cette période, toutes vos mesures seront biaisées. Il n'y a pas de méthode statistique qui puisse vous le dire. Seule votre connaissance du système le peut.
Y a-t-il d'autres problèmes communs rencontrés par les programmeurs qui pourraient bénéficieraient d'une approche statistique ?
Chaque fois que vous avez un ensemble de producteurs de données, vous avez des statistiques, donc l'informatique scientifique et l'analyse de données sont évidemment un endroit. L'informatique scientifique et l'analyse des données en font évidemment partie. La folksonomie et le réseautage social ne sont pratiquement que des statistiques. Même stackoverflow est, dans un certain sens, statistique. Le fait qu'une réponse soit fortement votée ne signifie pas que c'est la bonne. Cela signifie qu'il y a une forte probabilité qu'elle soit juste, selon l'évaluation d'un ensemble statistique d'évaluateurs indépendants. Le comportement de ces évaluateurs fait la différence entre stackoverflow, reddit et digg.