Luca, che lavora a Roma, decide di passare il Natale con la propria famiglia, che vive a Firenze. Si chiede quanto tempo possa impiegare un treno per percorrere la tratta da Roma (stazione Termini) a Firenze (stazione Santa Maria Novella) il 23 Dicembre 2019. A tal proposito Luca visita la pagina web di Trenitalia (per semplicità ci si limita a questa pagina senza consultarne altre come quella di Italo), ricercando tutti i treni disponibili a partire dalle ore 5 del mattino fino alla fine della giornata. Luca annota tutti tempi di percorrenza e li inserisce in una colonna di un foglio di Excel (Tab. 1) nell’ordine con cui vengono presentati nella pagina web. Decide inoltre di scegliere i minuti come unità di misura: quindi il tempo di percorrenza del primo treno, che impiega h e , viene inserito nel foglio di Excel come (minuti). I dati non ancora organizzati, ma semplicemente trascritti nell’ordine con cui sono stati raccolti, sono detti dati grezzi:
| Treno N. |
Tempo di percorrenza (in minuti) |
|---|---|
| 1 | 96 |
| 2 | 312 |
| 3 | 96 |
| 4 | 230 |
| 5 | 96 |
| 6 | 96 |
| 7 | 97 |
| … | … |
Tabella 1. Dati grezzi inseriti in Excel.
Il terz’ultimo treno proposto dal sito presenta, tra i numerosi cambi, anche una tratta percorribile con l’autobus e per tale motivo Luca decide di non prenderlo in considerazione: in totale ha raccolto i dati di 64 treni. Il treno costituisce l’unità statistica dell’indagine ed il Tempo di percorrenza, la caratteristica dei treni su cui vuole indagare, corrisponde ad una variabile quantitativa discreta (poiché i minuti sono interi e non sono contemplati i secondi) misurabile su scala a rapporti.
Per non appesantire l’esposizione didattica di questi dati, in termini di numerosità delle modalità, sono stati modificati i tempi di percorrenza (in minuti) di 215, 218 e 220 nel valore 217, quelli di 224, 228 e 230 in 226 ed infine 253 in 244. Quindi le modalità sono state ridotte a $k=10$. Nella realtà i dati grezzi non devono essere alterati, mentre le modifiche sopra apportate sono state fatte con l’intento di snellire la presentazione, pur minimizzando le variazioni dei dati e mantenendo, nel complesso, lo stesso grado informativo: se ad esempio si fossero convertiti tutti i tempi di percorrenza superiori alle 3 ore (180 minuti) in tempi inferiori, la natura dei dati sarebbe stata pesantemente alterata e con essa l’informazione ivi contenuta.
La riorganizzazione dei dati grezzi consiste nel riordinare in senso crescente i diversi tempi di percorrenza (96, 97, 108, ecc.) e nel contare quanti treni impiegano quei tempi specifici. Si costruisce dunque la distribuzione di frequenza assoluta, vale a dire una tabella che presenta le modalità della variabile (ordinate se possibile) e le corrispondenti frequenze assolute, che equivalgono ai conteggi di quante volte quelle modalità sono state osservate:
Tabella 2. Distribuzione di frequenza assoluta del Tempo di percorrenza dei treni nella tratta Roma-Firenze.
Fonte dati: www.trenitalia.com.
$$\mu = \frac{\sum_{i=1}^{n} x_i \cdot f_i }{\sum_{i=1}^{k} f_i}$$
dove si ricorda che rappresenta il numero delle modalità con cui la variabile si è manifestata. La differenza fra le due formule sta nel fatto che, mentre nella prima si sommano i valori di ciascuna unità statistica, nella seconda si sommano le modalità moltiplicandole per le corrispondenti frequenze, che fungono da “pesi”: per questo la seconda è nota come formula della media ponderata. Il tempo di percorrenza medio dei treni calcolato con la prima, che considera addendi, è: $$\mu = \frac{96 + 96 + \dots + 244 + 312}{64} = 128.86$$ mentre è più snello il calcolo con la seconda, che impiega solamente addendi: $$\mu = \frac{96 \cdot 37 + 97 \cdot 9 + \dots + 312 \cdot 1}{64} = 128.86$$ Il tempo medio di percorrenza dei treni nella tratta Roma-Firenze è di circa 2 ore e 10 minuti. Da notare come i valori anomali, che non influenzano la moda perché poco frequenti, potrebbero condizionarne la media, specialmente in campioni poco numerosi: nel caso si ricalcolasse la media dei dati precedenti senza considerare il tempo massimo di percorrenza (), si otterrebbe $\mu$. Questo significa che il valore probabilmente è un dato anomalo in quanto, da solo, è in grado di far aumentare la media di circa 3 minuti. Oltre alla media aritmetica esistono altre due medie che calcoleremo e spiegheremo più avanti:Altre due medie che si possono calcolare nei casi di crescita esponenziale o medie di variabili rapporto, sono:
Home » Statistica » Statistica descrittiva » Le medie