Scegliere un test statistico

Questo è il capitolo 37 della prima edizione di Intuitive Biostatistics di Harvey Motulsky. Copyright © 1995 di Oxford University Press Inc. Il capitolo 45 della seconda edizione di Intuitive Biostatistics è una versione ampliata di questo materiale.

REVISIONE DEI TEST STATISTICI DISPONIBILI

Questo libro ha discusso molti test statistici diversi. Per selezionare il test giusto, poniti due domande: Che tipo di dati hai raccolto? Qual è il tuo obiettivo? Quindi fare riferimento alla Tabella 37.1.,

valore stima misurate o variabili binomiali regressione lineare Multipla*
o
Più di regressione lineare** regressione logistica Multipla* rischio proporzionale di Cox di regressione*

RECENSIONE DI TEST non parametrici

Scegliere il giusto test per confrontare le misurazioni è un po ‘ difficile, come si deve scegliere tra due famiglie di test parametrici e non parametrici., Molti test statistici si basano sul presupposto che i dati siano campionati da una distribuzione gaussiana. Questi test sono indicati come test parametrici. I test parametrici comunemente usati sono elencati nella prima colonna della tabella e includono il test t e l’analisi della varianza.

I test che non fanno ipotesi sulla distribuzione della popolazione sono indicati come test non parametrici. Hai già imparato un po ‘ sui test non parametrici nei capitoli precedenti. Tutti i test non parametrici comunemente usati classificano la variabile di risultato da bassa ad alta e quindi analizzano i ranghi., Questi test sono elencati nella seconda colonna della tabella e comprendono i test Wilcoxon, Mann-Whitney e Kruskal-Wallis. Questi test sono anche chiamati test senza distribuzione.

SCEGLIERE TRA TEST PARAMETRICI E NON PARAMETRICI: I CASI FACILI

Scegliere tra test parametrici e non parametrici a volte è facile. Dovresti assolutamente scegliere un test parametrico se sei sicuro che i tuoi dati siano campionati da una popolazione che segue una distribuzione gaussiana (almeno approssimativamente)., Dovresti assolutamente selezionare un test non parametrico in tre situazioni:

  • Il risultato è un rango o un punteggio e la popolazione non è chiaramente gaussiana. Gli esempi includono la classifica di classe degli studenti, il punteggio Apgar per la salute dei neonati (misurato su una scala da 0 a IO e dove tutti i punteggi sono interi), il punteggio analogico visivo per il dolore (misurato su una scala continua dove 0 non è dolore e 10 è dolore insopportabile) e la scala a stelle comunemente usata dai critici cinematografici e,
  • Alcuni valori sono “fuori scala”, cioè troppo alti o troppo bassi per essere misurati. Anche se la popolazione è gaussiana, è impossibile analizzare tali dati con un test parametrico poiché non si conoscono tutti i valori. L’utilizzo di un test non parametrico con questi dati è semplice. Assegna valori troppo bassi per misurare un valore molto basso arbitrario e assegna valori troppo alti per misurare un valore molto alto arbitrario. Quindi eseguire un test non parametrico. Poiché il test non parametrico conosce solo i ranghi relativi dei valori, non importa che tu non conosca esattamente tutti i valori.,
  • I dati measurements misurazioni, e si è sicuri che la popolazione non è distribuito in modo gaussiano. Se i dati non vengono campionati da una distribuzione gaussiana, considerare se è possibile trasformare i valori per rendere la distribuzione gaussiana. Ad esempio, si potrebbe prendere il logaritmo o reciproco di tutti i valori. Ci sono spesso ragioni biologiche o chimiche (oltre a quelle statistiche) per eseguire una particolare trasformazione.,

SCEGLIERE TRA TEST PARAMETRICI E NON PARAMETRICI: I CASI DIFFICILI

Non è sempre facile decidere se un campione proviene da una popolazione gaussiana. Considera questi punti:

  • Se raccogli molti punti dati (oltre un centinaio circa), puoi guardare la distribuzione dei dati e sarà abbastanza ovvio se la distribuzione è approssimativamente a forma di campana. Un test statistico formale (test Kolmogorov-Smirnoff, non spiegato in questo libro) può essere utilizzato per verificare se la distribuzione dei dati differisce significativamente da una distribuzione gaussiana., Con pochi punti dati, è difficile dire se i dati sono gaussiani per ispezione, e il test formale ha poco potere di discriminare tra distribuzioni gaussiane e non gaussiane.
  • Dovresti guardare anche i dati precedenti. Ricorda, ciò che conta è la distribuzione della popolazione complessiva, non la distribuzione del tuo campione. Nel decidere se una popolazione è gaussiana, guarda tutti i dati disponibili, non solo i dati nell’esperimento corrente.
  • Considera la fonte di dispersione., Quando la dispersione proviene dalla somma di numerose fonti (senza una fonte che contribuisce alla maggior parte della dispersione), ci si aspetta di trovare una distribuzione approssimativamente gaussiana.
  • In caso di dubbio, alcune persone scelgono un test parametrico (perché non sono sicuri che l’ipotesi gaussiana sia violata) e altri scelgono un test non parametrico (perché non sono sicuri che l’ipotesi gaussiana sia soddisfatta).

SCEGLIERE TRA TEST PARAMETRICI E NON PARAMETRICI: HA IMPORTANZA?

Importa se si sceglie un test parametrico o non parametrico? La risposta dipende dalla dimensione del campione., Ci sono quattro casi a cui pensare:

  • Grande campione. Cosa succede quando si utilizza un test parametrico con dati provenienti da una popolazione nongaussiana? Il teorema del limite centrale (discusso nel capitolo 5) assicura che i test parametrici funzionino bene con campioni di grandi dimensioni anche se la popolazione non è gaussiana. In altre parole, i test parametrici sono robusti alle deviazioni dalle distribuzioni gaussiane, purché i campioni siano grandi. L’intoppo è che è impossibile dire quanto grande sia abbastanza grande, in quanto dipende dalla natura della particolare distribuzione non gaussiana., A meno che la distribuzione della popolazione non sia davvero strana, probabilmente sei sicuro di scegliere un test parametrico quando ci sono almeno due dozzine di punti dati in ogni gruppo.
  • Grande campione. Cosa succede quando si utilizza un test non parametrico con dati provenienti da una popolazione gaussiana? I test non parametrici funzionano bene con campioni di grandi dimensioni provenienti da popolazioni gaussiane. I valori P tendono ad essere un po ‘ troppo grandi, ma la discrepanza è piccola. In altre parole, i test non parametrici sono solo leggermente meno potenti dei test parametrici con campioni di grandi dimensioni.
  • Piccoli campioni., Cosa succede quando si utilizza un test parametrico con dati provenienti da popolazioni nongaussiane? Non puoi fare affidamento sul teorema del limite centrale, quindi il valore P potrebbe essere impreciso.
  • Piccoli campioni. Quando si utilizza un test non parametrico con dati provenienti da una popolazione gaussiana, i valori P tendono ad essere troppo alti. I test non parametrici mancano di potenza statistica con piccoli campioni.

Pertanto, set di dati di grandi dimensioni non presentano problemi., Di solito è facile dire se i dati provengono da una popolazione gaussiana, ma non importa perché i test non parametrici sono così potenti e i test parametrici sono così robusti. Piccoli set di dati presentano un dilemma. È difficile dire se i dati provengono da una popolazione gaussiana, ma conta molto. I test non parametrici non sono potenti e i test parametrici non sono robusti.

VALORE P A UNO O DUE LATI?

Con molti test, è necessario scegliere se si desidera calcolare un valore P a uno o due lati (uguale al valore P a una o due code)., La differenza tra i valori P uno e due lati è stata discussa nel capitolo 10. Esaminiamo la differenza nel contesto di un test T. Il valore P è calcolato per l’ipotesi nulla che i due mezzi di popolazione siano uguali e qualsiasi discrepanza tra i due mezzi campione è dovuta al caso. Se questa ipotesi nulla è vera, il valore P unilaterale è la probabilità che due mezzi campione differiscano tanto quanto è stato osservato (o ulteriormente) nella direzione specificata dall’ipotesi solo per caso, anche se i mezzi delle popolazioni complessive sono effettivamente uguali., Il valore P a due lati include anche la probabilità che la media del campione differisca così tanto nella direzione opposta (cioè, l’altro gruppo ha la media più grande). Il valore P su due lati è il doppio del valore P su un lato.

Un valore P unilaterale è appropriato quando puoi affermare con certezza (e prima di raccogliere qualsiasi dato) che non ci sarà alcuna differenza tra i mezzi o che la differenza andrà in una direzione che puoi specificare in anticipo (cioè, hai specificato quale gruppo avrà la media più grande)., Se non è possibile specificare la direzione di alcuna differenza prima di raccogliere i dati, è più appropriato un valore P a due lati. In caso di dubbio, selezionare un valore P a due lati.

Se selezioni un test unilaterale, dovresti farlo prima di raccogliere qualsiasi dato e devi indicare la direzione della tua ipotesi sperimentale. Se i dati vanno nella direzione opposta, devi essere disposto ad attribuire quella differenza (o associazione o correlazione) al caso, indipendentemente da quanto colpiscano i dati. Se saresti incuriosito, anche un po’, dai dati che vanno nella direzione “sbagliata”, allora dovresti usare un valore P a due lati., Per le ragioni discusse nel Capitolo 10, ti consiglio di calcolare sempre un valore P a due lati.

TEST ACCOPPIATO O SPAIATO?

Quando si confrontano due gruppi, è necessario decidere se utilizzare un test associato. Quando si confrontano tre o più gruppi, il termine accoppiato non è adatto e viene utilizzato il termine misure ripetute.

Utilizzare un test spaiato per confrontare i gruppi quando i singoli valori non sono accoppiati o abbinati tra loro., Selezionare un test di misure accoppiate o ripetute quando i valori rappresentano misurazioni ripetute su un soggetto (prima e dopo un intervento) o misurazioni su soggetti abbinati. I test accoppiati o ripetuti sono appropriati anche per esperimenti di laboratorio ripetuti eseguiti in momenti diversi, ognuno con il proprio controllo.

È necessario selezionare un test associato quando i valori in un gruppo sono più strettamente correlati con un valore specifico nell’altro gruppo rispetto a valori casuali nell’altro gruppo., È opportuno selezionare un test associato solo quando i soggetti sono stati abbinati o accoppiati prima della raccolta dei dati. Non è possibile basare l’associazione sui dati che si stanno analizzando.

TEST DI FISHER O IL TEST CHI-QUADRATO?

Quando si analizzano tabelle di contingenza con due righe e due colonne, è possibile utilizzare il test esatto di Fisher o il test chi-quadrato. Il test di Fisher è la scelta migliore in quanto fornisce sempre il valore P esatto. Il test chi-quadrato è più semplice da calcolare ma produce solo un valore P approssimativo., Se un computer sta facendo i calcoli, si dovrebbe scegliere il test di Fisher a meno che non si preferisce la familiarità del test chi-quadrato. Dovresti assolutamente evitare il test chi-quadrato quando i numeri nella tabella di contingenza sono molto piccoli (qualsiasi numero inferiore a circa sei). Quando i numeri sono più grandi, i valori P riportati dal chi-quadrato e dal test di Fisher saranno molto simili.

Il test chi-quadrato calcola valori P approssimativi e la correzione di continuità di Yates è progettata per migliorare l’approssimazione. Senza la correzione di Yates, i valori P sono troppo bassi., Tuttavia, la correzione va troppo lontano e il valore P risultante è troppo alto. Gli statistici danno diverse raccomandazioni per quanto riguarda la correzione di Yates. Con campioni di grandi dimensioni, la correzione di Yates fa poca differenza. Se si seleziona il test di Fisher, il valore P è esatto e la correzione di Yates non è necessaria e non è disponibile.

REGRESSIONE O CORRELAZIONE?

Regressione lineare e correlazione sono simili e facilmente confusi. In alcune situazioni ha senso eseguire entrambi i calcoli., Calcola la correlazione lineare se hai misurato sia X che Y in ciascun soggetto e desideri quantificare quanto bene sono associati. Selezionare il coefficiente di correlazione (parametrico) di Pearson se si può supporre che sia X che Y siano campionati da popolazioni gaussiane. In caso contrario, scegliere il coefficiente di correlazione non parametrica Spearman. Non calcolare il coefficiente di correlazione (o il suo intervallo di confidenza)se hai manipolato la variabile X.

Calcola le regressioni lineari solo se è probabile che una delle variabili (X) preceda o causi l’altra variabile (Y)., Sicuramente scegli la regressione lineare se hai manipolato la variabile X. Fa una grande differenza quale variabile è chiamata X e quale è chiamata Y, poiché i calcoli di regressione lineare non sono simmetrici rispetto a X e Y. Se si scambiano le due variabili, si otterrà una linea di regressione diversa. Al contrario, i calcoli di correlazione lineare sono simmetrici rispetto a X e Y. Se si scambiano le etichette X e Y, si otterrà comunque lo stesso coefficiente di correlazione.

Author: admin

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *