Statistica descrittiva
Associazioni tra variabili
Distribuzioni di probabilità
Statistica inferenziale
LE MEDIE: QUANDO IL VALORE
CENTRALE RAPPRESENTA TUTTI
Luca, che lavora a Roma, decide di passare il Natale con la propria famiglia, che vive a Firenze. Si chiede quanto tempo possa impiegare un treno per percorrere la tratta da Roma (stazione Termini) a Firenze (stazione Santa Maria Novella) il 23 Dicembre 2019. A tal proposito Luca visita la pagina web di Trenitalia (per semplicità ci si limita a questa pagina senza consultarne altre come quella di Italo), ricercando tutti i treni disponibili a partire dalle ore 5 del mattino fino alla fine della giornata. Luca annota tutti tempi di percorrenza e li inserisce in una colonna di un foglio di Excel (Tab. 1) nell’ordine con cui vengono presentati nella pagina web. Decide inoltre di scegliere i minuti come unità di misura: quindi il tempo di percorrenza del primo treno, che impiega h e , viene inserito nel foglio di Excel come (minuti). I dati non ancora organizzati, ma semplicemente trascritti nell’ordine con cui sono stati raccolti, sono detti dati grezzi:
Treno N. |
Tempo di percorrenza (in minuti) |
---|---|
1 | 96 |
2 | 312 |
3 | 96 |
4 | 230 |
5 | 96 |
6 | 96 |
7 | 97 |
… | … |
Tabella 1. Dati grezzi inseriti in Excel.
Valutiamo meglio il concetto.
Il terz’ultimo treno proposto dal sito presenta, tra i numerosi cambi, anche una tratta percorribile con l’autobus e per tale motivo Luca decide di non prenderlo in considerazione: in totale ha raccolto i dati di 64 treni. Il treno costituisce l’unità statistica dell’indagine ed il Tempo di percorrenza, la caratteristica dei treni su cui vuole indagare, corrisponde ad una variabile quantitativa discreta (poiché i minuti sono interi e non sono contemplati i secondi) misurabile su scala a rapporti.
Per non appesantire l’esposizione didattica di questi dati, in termini di numerosità delle modalità, sono stati modificati i tempi di percorrenza (in minuti) di 215, 218 e 220 nel valore 217, quelli di 224, 228 e 230 in 226 ed infine 253 in 244. Quindi le modalità sono state ridotte a $k=10$. Nella realtà i dati grezzi non devono essere alterati, mentre le modifiche sopra apportate sono state fatte con l’intento di snellire la presentazione, pur minimizzando le variazioni dei dati e mantenendo, nel complesso, lo stesso grado informativo: se ad esempio si fossero convertiti tutti i tempi di percorrenza superiori alle 3 ore (180 minuti) in tempi inferiori, la natura dei dati sarebbe stata pesantemente alterata e con essa l’informazione ivi contenuta.
La riorganizzazione dei dati grezzi consiste nel riordinare in senso crescente i diversi tempi di percorrenza (96, 97, 108, ecc.) e nel contare quanti treni impiegano quei tempi specifici. Si costruisce dunque la distribuzione di frequenza assoluta, vale a dire una tabella che presenta le modalità della variabile (ordinate se possibile) e le corrispondenti frequenze assolute, che equivalgono ai conteggi di quante volte quelle modalità sono state osservate:

Tabella 2. Distribuzione di frequenza assoluta del Tempo di percorrenza dei treni nella tratta Roma-Firenze.
Fonte dati: www.trenitalia.com.
Il primo gruppo di indici statistici che generalmente viene preso in esame è quello degli indici di tendenza centrale: moda, media e mediana. Come il nome suggerisce, tali indici riassumono la variabile osservata in un valore che si trova tendenzialmente nel centro, elevandolo a miglior rappresentante della variabile stessa. Con la frase «quest’anno l’arancione va di moda» si intende che il colore arancione è quello maggiormente indossato, quindi più venduto (e non necessariamente il più amato). Dunque la moda (Mo) corrisponde alla modalità che si è manifestata più volte, quella che è stata osservata più spesso. La moda si applica a qualunque tipo di variabile e può accadere che sia doppia (distribuzione bimodale) oppure, in campioni poco numerosi, molteplice (distribuzione plurimodale). Riprendendo l’esempio dei treni nella tratta Roma-Firenze, si ricava dalle frequenze assolute (Tab. 2), che . Dal punto di vista grafico, la moda si individua in corrispondenza della barra più alta nei diagrammi a barre, o dello “spicchio” più grande nei grafici a torta.
Si consideri l’insieme dei treni trovati da Luca come se fosse la popolazione oggetto di studio. La media aritmetica, o semplicemente media, si definisce come quel valore che, ripartito equamente fra tutte le unità statistiche osservate, mantiene invariato il totale. Dunque la media si può applicare solamente nel caso di variabili quantitative e si calcola nel modo seguente:
$$\mu = \frac{1}{n} \sum_{i=1}^{n} x_i$$
Considerando che le modalità della variabile si ripetono in corrispondenza delle frequenze, la formula della media può essere calcolata come:
$$\mu = \frac{\sum_{i=1}^{n} x_i \cdot f_i }{\sum_{i=1}^{k} f_i}$$
dove si ricorda che rappresenta il numero delle modalità con cui la variabile si è manifestata. La differenza fra le due formule sta nel fatto che, mentre nella prima si sommano i valori di ciascuna unità statistica, nella seconda si sommano le modalità moltiplicandole per le corrispondenti frequenze, che fungono da “pesi”: per questo la seconda è nota come formula della media ponderata. Il tempo di percorrenza medio dei treni calcolato con la prima, che considera addendi, è:
$$\mu = \frac{96 + 96 + \dots + 244 + 312}{64} = 128.86$$
mentre è più snello il calcolo con la seconda, che impiega solamente addendi:
$$\mu = \frac{96 \cdot 37 + 97 \cdot 9 + \dots + 312 \cdot 1}{64} = 128.86$$
Il tempo medio di percorrenza dei treni nella tratta Roma-Firenze è di circa 2 ore e 10 minuti. Da notare come i valori anomali, che non influenzano la moda perché poco frequenti, potrebbero condizionarne la media, specialmente in campioni poco numerosi: nel caso si ricalcolasse la media dei dati precedenti senza considerare il tempo massimo di percorrenza (), si otterrebbe $\mu$. Questo significa che il valore probabilmente è un dato anomalo in quanto, da solo, è in grado di far aumentare la media di circa 3 minuti. Oltre alla media aritmetica esistono altre due medie che calcoleremo e spiegheremo più avanti:
Altre due medie che si possono calcolare nei casi di crescita esponenziale o medie di variabili rapporto, sono:
- Media geometrica:
$$M_{\text{g}} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}$$ - Media armonica:
$$M_{\text{a}} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}$$
Home » Statistica » Statistica descrittiva » Le medie