STATISTICA

dubbi ed errori comunI:
FACCIAMO LUCE SULLA STATISTICA

Una volta “fatta pace con la statistica” e sfatati i falsi miti che spesso la circondano, si possono approfondire alcuni dubbi tecnici ed errori comuni che si commettono nel suo utilizzo. La statistica, infatti, pur essendo uno strumento estremamente efficace, può diventare insidiosa quando non viene maneggiata con la dovuta attenzione. Molti degli errori commessi da chi la utilizza non derivano da cattiva fede, ma da una scarsa familiarità con i suoi concetti fondamentali. La comprensione profonda di ciò che i dati effettivamente dicono è essenziale per evitare fraintendimenti. Pertanto, è doveroso fare un pò di chiarezza su alcuni dubbi che può avere un neofita, ma anche evidenziare gli errori più comuni che commette chi interpreta i risultati in modo meccanico o superficiale. Con queste premesse, di seguito vengono proposte alcune domande che forniscono spunti di riflessione, offrendo chiarimenti su concetti essenziali della statistica ma anche suggerimenti per evitare interpretazioni errate e prendere decisioni sbagliate:

  1. Meglio usare la media oppure la mediana?
  2. Cosa misura la deviazione standard?
  3. Associazione e causazione sono equivalenti?
  4. Cosa rappresenta l’errore standard?
  5. Una correlazione significativa è un buon risultato?

1. Per i dati numerici si utilizza in genere la media, ma in presenza di forti asimmetrie si preferisce la mediana

La media e la mediana sono indici descrittivi di tendenza centrale che sintetizzano un insieme di dati in un unico valore, tendenzialmente collocato al “centro” dei dati stessi. Nel caso di variabili quantitative, la presenza di sporadici valori più grandi o più piccoli rispetto al resto dei dati costituisce le cosiddette code, allungamenti che si osservano agli estremi delle rappresentazioni grafiche. Qualora un dato all’interno delle code sia estremamente distante dal centro dei dati, viene definito anomalo o outlier. Inoltre, se una delle due code, quella a destra oppure quella a sinistra, predomina sull’altra, allora si parla di distribuzioni asimmetriche. In presenza di dati fortemente asimmetrici, la media risente numericamente delle code dominanti e degli outliers, subendo una distorsione più o meno evidente a seconda del livello di asimmetria. Mentre la mediana è un indice robusto, vale a dire una misura statistica che rimane sostanzialmente inalterata dai valori agli estremi, mantenendo una maggiore stabilità rispetto alla media. Per questo, in presenza di forti asimmetrie o di dati anomali che hanno la capacità di alterare gli indici, si preferisce sintetizzare i dati con la mediana piuttosto che con la media.

2. La deviazione standard misura, approssimativamente, la distanza media dalla media

È un indice di dispersione che misura quanto mediamente i singoli valori di una variabile quantitativa sono lontani rispetto al valore centrale, identificato nella media. In realtà, per ottenere l’esatta distanza media dalla media, si utilizza un indice chiamato scostamento semplice medio. La deviazione standard, invece, è un’approssimazione per eccesso di questa grandezza, risultando quindi una misura cautelativa. L’uso della deviazione standard come principale indice di dispersione, sebbene approssimato, ha un fondamento matematico basato sulle caratteristiche delle funzioni impiegate dai due indici. Infatti, nel calcolo della deviazione standard si utilizza il quadrato, funzione facilmente scomponibile, a differenza del valore assoluto impiegato nello scostamento semplice medio.

3. Associazione e causazione non sono equivalenti

Se fra due variabili c’è associazione, significa che esiste una dipendenza fra di esse: al variare dell’una varia anche l’altra. Ma associazione non significa necessariamente che una variabile sia la causa dell’altra. Infatti, il legame potrebbe essere spiegato dall’esistenza di una terza variabile, come nelle relazioni spurie, dove l’associazione fra due variabili sussiste in quanto entrambe sono influenzate da una causa comune. Classici esempi sono le correlazioni positive tra le vendite di gelato ed il numero di attacchi di squali e quella fra il numero di cicogne ed il tasso di natalità. Nel primo caso, entrambe le variabili aumentano durante l’estate, ma non c’è una relazione causale diretta fra il consumo di gelati e le aggressioni provocate dagli squali. Analogamente, nel secondo esempio, l’urbanizzazione dei centri abitati potrebbe spiegare il fenomeno: infatti, è più facile osservare un maggior numero di bambini e cicogne nelle zone periferiche o rurali piuttosto che nelle città.

4. L’errore standard rappresenta la precisione di uno stimatore

Uno degli obiettivi della statistica inferenziale è quello di stimare un parametro, ovvero cercare di quantificare una caratteristica ignota della popolazione. A tal fine si sceglie lo stimatore più efficiente, vale a dire quello vale a dire quello le cui stime si avvicinano maggiormente al parametro che si intende stimare. L’efficienza di uno stimatore tiene conto sia della distorsione, che misura quanto le stime sono sistematicamente “decentrate”, sia della precisione, che valuta quanto le stime sono simili fra loro. L’errore standard, che equivale alla deviazione standard di uno stimatore, corrisponde al livello di precisione inteso come capacità dello stimatore di fornire la stessa stima, non necessariamente corretta. In caso di stimatori non distorti, lo stimatore più efficiente è quello con l’errore standard minimo, ovvero quello che mediamente commette il più piccolo errore di stima.

Per cogliere meglio questo concetto si immagini che lo stimatore sia un giocatore di freccette, il parametro da stimare sia il bersaglio e le stime siano le freccette. L’efficienza di uno stimatore corrisponde alla bravura del giocatore. E tale bravura dipende dalla precisione del giocatore, vale a dire la sua capacità di colpire con le freccette lo stesso punto, non necessariamente coincidente con il bersaglio, ma è anche inversamente collegata alla sua distorsione, ovvero quanto il centro delle freccette sia fuori bersaglio. In statistica non si valuta la precisione della singola stima ma dello stimatore che l’ha fornita, come non si valuta la bravura di un giocatore di freccette dal singolo lancio: infatti, un bravo giocatore potrebbe anche andare fuori bersaglio, come un giocatore scarso potrebbe casualmente centrarlo in pieno. La reale bravura di un giocatore si misura da quanto, complessivamente, siano andate vicine le sue freccette al bersaglio: per questo l’efficienza considera sia la distorsione che la precisione di uno stimatore. 

Inoltre, l’errore standard diminuisce all’aumentare della dimensione del campione: maggiore è l’ampiezza campionaria e più precisa sarà l’informazione che ne deriva. Infatti, è facile intuire come, a parità di condizioni, sia più preciso fornire la stima dell’altezza media degli italiani basandosi su un campione di 500 soggetti piuttosto che su un campione di soli 20.

5. Una correlazione significativa non è necessariamente un buon risultato

Una relazione significativa è una relazione che molto probabilmente non è frutto del caso. Il p-value può essere interpretato come la probabilità che il legame emerso dal campione sia una pura casualità: un’associazione è significatività se il p-value è inferiore al 5%. Si supponga che dall’analisi fra due variabili quantitative emerga una correlazione lineare pari a $r=0.21$ con  $p<0.001$. Nell’esempio, il legame osservato a livello campionario può essere dunque generalizzato alla popolazione da cui il campione è stato estratto. In realtà, la significatività valuta l’esistenza di una relazione non la sua forza: un risultato statisticamente significativo potrebbe non avere alcuna rilevanza pratica. Infatti, un legame lineare è trascurabile sotto la soglia del 30% e la relazione lineare dell’esempio, pari al 21%, è praticamente inesistente. Quindi una correlazione significativa non basta se è trascurabile: prendere una decisione sulla base di un risultato campionario significativo, ma irrilevante, è come decidere senza alcuna evidenza concreta.

Facebook
LinkedIn
WhatsApp
X
Telegram
Utilizzo i cookie per analizzare le prestazioni del sito e fornire contenuti personalizzati. Cliccando su “Accetto” acconsenti alla memorizzazione dei cookie. Puoi revocare il tuo consenso in qualsiasi momento. Scopri di più su questo nella mia politica sulla privacy.
× Come posso aiutarti?