choisir un test statistique

ceci est le chapitre 37 de la première édition de Intuitive Biostatistics par Harvey Motulsky. Copyright © 1995 par Oxford University Press Inc. Le chapitre 45 de la deuxième édition de Intuitive Biostatistics est une version élargie de ce matériel.

examen des TESTS statistiques disponibles

Ce livre a discuté de nombreux tests statistiques différents. Choisir le bon test, posez-vous deux questions: Quel type de données avez-vous recueilli? Quel est votre objectif? Reportez-vous ensuite au tableau 37.1.,

prédire la valeur de plusieurs variables mesurées ou binomiales régression linéaire Multiple*
ou
régression non linéaire Multiple** régression logistique multiple* régression proportionnelle des risques de Cox*

examen des tests non paramétriques

choisir le bon test pour comparer les mesures est un peu délicat, car vous doit choisir entre deux familles de tests: paramétrique et non paramétrique., Plusieurs tests statistiques sont basés sur l’hypothèse que les données sont échantillonnées à partir d’une distribution gaussienne. Ces tests sont appelés tests paramétriques. Les tests paramétriques couramment utilisés sont énumérés dans la première colonne du tableau et comprennent le test t et l’analyse de la variance.

Les Tests qui ne font pas d’hypothèses sur la répartition de la population sont appelés tests non paramétriques. Vous en avez déjà appris un peu plus sur les tests non paramétriques dans les chapitres précédents. Tous les tests non paramétriques couramment utilisés classent la variable de résultat de bas en haut, puis analysent les rangs., Ces tests sont énumérés dans la deuxième colonne du tableau et comprennent les tests de Wilcoxon, Mann-Whitney et Kruskal-Wallis. Ces tests sont également appelés tests sans distribution.

choisir entre les TESTS paramétriques et non paramétriques: les cas faciles

choisir entre les tests paramétriques et non paramétriques est parfois facile. Vous devez absolument choisir un test paramétrique si vous êtes sûr que vos données sont échantillonnées à partir d’une population qui suit une distribution gaussienne (au moins approximativement)., Vous devez absolument sélectionner un test non paramétrique dans trois situations:

  • le résultat est un rang ou un score et la population n’est clairement pas gaussienne. Les exemples incluent le classement des élèves par classe, le score D’Apgar pour la santé des nouveau-nés (mesuré sur une échelle de 0 à IO et où tous les scores sont des entiers), le score analogique visuel pour la douleur (mesuré sur une échelle continue où 0 est sans douleur et 10 est une douleur insupportable), et l’échelle,
  • Certaines valeurs sont « hors échelle », c’est trop élevée ou trop faible pour être mesurée. Même si la population est gaussienne, il est impossible d’analyser de telles données avec un test paramétrique car vous ne connaissez pas toutes les valeurs. L’utilisation d’un test non paramétrique avec ces données est simple. Attribuez des valeurs trop faibles pour mesurer une valeur arbitraire très faible et attribuez des valeurs trop élevées pour mesurer une valeur arbitraire très élevée. Ensuite, effectuez un test non paramétrique. Étant donné que le test non paramétrique ne connaît que les rangs relatifs des valeurs, peu importe que vous ne connaissiez pas toutes les valeurs exactement.,
  • Les données ire mesures, et vous êtes sûr que la population n’est pas distribuée de manière gaussienne. Si les données ne sont pas échantillonnées à partir d’une distribution gaussienne, déterminez si vous pouvez transformer les valeurs pour que la distribution devienne gaussienne. Par exemple, vous pouvez prendre le logarithme ou la réciproque de toutes les valeurs. Il existe souvent des raisons biologiques ou chimiques (ainsi que des raisons statistiques) pour effectuer une transformation particulière.,

choisir entre les TESTS paramétriques et non paramétriques: les cas difficiles

Il n’est pas toujours facile de décider si un échantillon provient d’une population gaussienne. Considérez ces points:

  • Si vous collectez de nombreux points de données (plus d’une centaine), vous pouvez regarder la distribution des données et il sera assez évident que la distribution est approximativement en forme de cloche. Un test statistique formel (test de Kolmogorov-Smirnoff, non expliqué dans ce livre) peut être utilisé pour tester si la distribution des données diffère significativement d’une distribution gaussienne., Avec peu de points de données, il est difficile de dire si les données sont gaussiennes par inspection, et le test formel a peu de pouvoir pour discriminer entre les distributions gaussiennes et non gaussiennes.
  • Vous devriez également regarder les données précédentes. Rappelez-vous, ce qui compte, c’est la distribution de la population globale, pas la distribution de votre échantillon. Pour décider si une population est gaussienne, regardez toutes les données disponibles, pas seulement les données de l’expérience actuelle.
  • considérez la source de dispersion., Lorsque la dispersion provient de la somme de nombreuses sources (aucune source ne contribuant à la majeure partie de la dispersion), vous vous attendez à trouver une distribution à peu près gaussienne.
  • En cas de doute, certaines personnes choisissent un test paramétrique (parce qu’elles ne sont pas sûres que L’hypothèse gaussienne est violée), et d’autres choisissent un test non paramétrique (parce qu’elles ne sont pas sûres que L’hypothèse gaussienne est remplie).

choisir entre les TESTS paramétriques et non paramétriques: est-ce important?

est-ce important que vous choisissiez un test paramétrique ou non paramétrique? La réponse dépend de la taille de l’échantillon., Il y a quatre cas à penser:

  • Grand échantillon. Que se passe-t-il lorsque vous utilisez un test paramétrique avec des données provenant d’une population non-ougaussienne? Le théorème central limite (discuté au chapitre 5) garantit que les tests paramétriques fonctionnent bien avec de gros échantillons même si la population est non gaussienne. En d’autres termes, les tests paramétriques sont robustes aux écarts par rapport aux distributions gaussiennes, tant que les échantillons sont grands. Le hic est qu’il est impossible de dire combien est assez grand, car cela dépend de la nature de la distribution non gaussienne particulière., À moins que la distribution de la population ne soit vraiment bizarre, vous êtes probablement sûr de choisir un test paramétrique lorsqu’il y a au moins deux douzaines de points de données dans chaque groupe.
  • Grand échantillon. Que se passe-t-il lorsque vous utilisez un test non paramétrique avec des données d’une population gaussienne? Les tests non paramétriques fonctionnent bien avec de grands échantillons de populations gaussiennes. Les valeurs P ont tendance à être un peu trop grandes, mais l’écart est faible. En d’autres termes, les tests non paramétriques ne sont que légèrement moins puissants que les tests paramétriques avec de gros échantillons.
  • les Petits échantillons., Que se passe-t-il lorsque vous utilisez un test paramétrique avec des données provenant de populations non-russes? Vous ne pouvez pas compter sur le théorème central limite, donc la valeur P peut être inexacte.
  • les Petits échantillons. Lorsque vous utilisez un test non paramétrique avec des données d’une population gaussienne, les valeurs P ont tendance à être trop élevées. Les tests non paramétriques manquent de puissance statistique avec de petits échantillons.

ainsi, les grands ensembles de données ne posent aucun problème., Il est généralement facile de dire si les données proviennent d’une population gaussienne, mais cela n’a pas vraiment d’importance car les tests non paramétriques sont si puissants et les tests paramétriques sont si robustes. Les petits ensembles de données présentent un dilemme. Il est difficile de dire si les données proviennent d’une population gaussienne, mais cela compte beaucoup. Les tests non paramétriques ne sont pas puissants et les tests paramétriques ne sont pas robustes.

valeur P unilatérale ou bilatérale?

avec de nombreux tests, vous devez choisir si vous souhaitez calculer une valeur p unilatérale ou bilatérale (identique à une ou deux valeurs p à queue)., La différence entre les valeurs de P unilatérales et bilatérales a été discutée au chapitre 10. Examinons la différence dans le contexte d’un test T. La valeur P est calculée pour l’hypothèse nulle que les deux moyennes de population sont égales, et toute divergence entre les deux moyennes d’échantillon est due au hasard. Si cette hypothèse nulle est vraie, la valeur p unilatérale est la probabilité que deux moyennes d’échantillon diffèrent autant que ce qui a été observé (ou plus loin) dans la direction spécifiée par l’hypothèse juste par hasard, même si les moyennes des populations globales sont réellement égales., La valeur p bilatérale comprend également la probabilité que les moyennes de l’échantillon diffèrent autant dans la direction opposée (c.-à-d. que l’autre groupe a la moyenne la plus grande). La valeur p bilatérale est deux fois la valeur p unilatérale.

une valeur p unilatérale est appropriée lorsque vous pouvez affirmer avec certitude (et avant de collecter des données) qu’il n’y aura pas de différence entre les moyennes ou que la différence ira dans une direction que vous pouvez spécifier à l’avance (c’est-à-dire que vous avez spécifié quel groupe aura la plus grande moyenne)., Si vous ne pouvez pas spécifier la direction d’une différence avant de collecter des données, une valeur p bilatérale est plus appropriée. En cas de doute, sélectionnez une valeur p recto-verso.

Si vous sélectionnez un test unilatéral, vous devez le faire avant de collecter des données et vous devez indiquer la direction de votre hypothèse expérimentale. Si les données vont dans l’autre sens, vous devez être prêt à attribuer cette différence (ou association ou corrélation) au hasard, quelle que soit la frappe des données. Si vous êtes intrigué, même un peu, par des données qui vont dans la « mauvaise » direction, alors vous devriez utiliser une valeur p bilatérale., Pour des raisons discutées au chapitre 10, je vous recommande de toujours calculer une valeur p bilatérale.

Test apparié ou non apparié?

lorsque vous comparez deux groupes, vous devez décider d’utiliser ou non un test apparié. Lors de la comparaison de trois groupes ou plus, le terme apparié n’est pas approprié et le terme mesures répétées est utilisé à la place.

utilisez un test non apparié pour comparer des groupes lorsque les valeurs individuelles ne sont pas appariées ou appariées entre elles., Sélectionnez un test de mesures appariées ou répétées lorsque les valeurs représentent des mesures répétées sur un sujet (avant et après une intervention) ou des mesures sur des sujets appariés. Les tests appariés ou à mesures répétées sont également appropriés pour des expériences de laboratoire répétées exécutées à des moments différents, chacun avec son propre contrôle.

Vous devez sélectionner une paire de test lorsque les valeurs dans un groupe sont plus étroitement corrélée avec une valeur spécifique dans l’autre groupe qu’avec des valeurs aléatoires dans l’autre groupe., Il ne convient de sélectionner un test apparié que lorsque les sujets ont été appariés ou appariés avant la collecte des données. Vous ne pouvez pas baser l’appariement sur les données que vous analysez.

Test de FISHER ou TEST du CHI-carré?

lorsque vous analysez des tables de contingence avec deux lignes et deux colonnes, vous pouvez utiliser le test exact de Fisher ou le test du chi carré. Le test de Fisher est le meilleur choix car il donne toujours la valeur p exacte. Le test du chi carré est plus simple à calculer mais ne donne qu’une valeur approximative de P., Si un ordinateur effectue les calculs, vous devez choisir le test de Fisher, sauf si vous préférez la familiarité du test du chi carré. Vous devez absolument éviter le test du chi carré lorsque les nombres dans le tableau de contingence sont très petits (tout nombre inférieur à environ six). Lorsque les nombres sont plus grands, les valeurs p rapportées par le test du chi carré et de Fisher seront très similaires.

le test du chi-carré calcule les valeurs approximatives de P, et la correction de continuité de Yates est conçue pour améliorer l’approximation. Sans la correction de Yates, les valeurs P sont trop faibles., Cependant, la correction va trop loin et la valeur p résultante est trop élevée. Les statisticiens donnent différentes recommandations concernant la correction de Yates. Avec de grandes tailles d’échantillon, la correction de Yates fait peu de différence. Si vous sélectionnez le test de Fisher, la valeur P est exacte et la correction de Yates n’est pas nécessaire et n’est pas disponible.

régression ou corrélation?

la régression linéaire et la corrélation sont similaires et facilement confondues. Dans certaines situations, il est logique d’effectuer les deux calculs., Calculez la corrélation linéaire si vous avez mesuré à la fois X et Y dans chaque sujet et souhaitez quantifier leur degré d’association. Sélectionnez le coefficient de corrélation Pearson (paramétrique) si vous pouvez supposer que X et Y sont échantillonnés à partir de populations gaussiennes. Sinon, choisissez le coefficient de corrélation non paramétrique Spearman. Ne calculez pas le coefficient de corrélation (ou son intervalle de confiance) si vous avez manipulé la variable X.

ne calculez les régressions linéaires que si l’une des variables (X) est susceptible de précéder ou de provoquer l’autre variable (Y)., Choisissez définitivement la régression linéaire si vous avez manipulé la variable X. Cela fait une grande différence quelle variable est appelée X et laquelle est appelée Y, car les calculs de régression linéaire ne sont pas symétriques par rapport à X et Y. Si vous échangez les deux variables, vous obtiendrez une droite de régression différente. En revanche, les calculs de corrélation linéaire sont symétriques par rapport à X et Y. Si vous échangez les étiquettes X et Y, vous obtiendrez toujours le même coefficient de corrélation.

Author: admin

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *