STATISTICA

DISTRIBUZIONI DI FREQUENZA:
QUANDO LE MODALITÀ CONTANO

I dati presentati nello stesso ordine con cui sono stati raccolti sono detti dati grezzi perché non sono ancora organizzati né ordinati. Si immagini una classe di $n=20$ studenti americani i cui voti del compito di letteratura americana sono stati:

$$A\ B\ A\ B\ C\ A\ B\ B\ B\ A\ B\ D\ B\ B\ C\ C\ D\ B\ A\ A\ B\ C\ B\ B\ D\ A\ B\ A$$

 

Un tipico esempio di dati grezzi sono quelli all’interno di un foglio di calcolo di Excel e che costituiscono il dataset, una struttura rettangolare formata dalle unità statistiche in riga e dalle variabili in colonna.

Treno
N.
Tempo di percorrenza
(in minuti)
1 96
2 312
3 96
4 230
5 96
6 96
7 97

Tabella 1. Dati grezzi inseriti in Excel.

La riorganizzazione dei dati grezzi consiste nel riordinare in senso crescente i diversi tempi di percorrenza (96, 97, 108, ecc.) e nel contare quanti treni impiegano quei tempi specifici. Si costruisce dunque la distribuzione di frequenza assoluta, vale a dire una tabella che presenta le modalità della variabile (ordinate se possibile) e le corrispondenti frequenze assolute, che equivalgono ai conteggi di quante volte quelle modalità sono state osservate:

Tabella 2. Distribuzione di frequenza assoluta del Tempo di percorrenza dei treni nella tratta Roma-Firenze.
Fonte dati: www.trenitalia.com.

Il primo gruppo di indici statistici che generalmente viene preso in esame è quello degli indici di tendenza centrale: moda, media e mediana. Come il nome suggerisce, tali indici riassumono la variabile osservata in un valore che si trova tendenzialmente nel centro, elevandolo a miglior rappresentante della variabile stessa. Con la frase «quest’anno l’arancione va di moda» si intende che il colore arancione è quello maggiormente indossato, quindi più venduto (e non necessariamente il più amato). Dunque la moda (Mo) corrisponde alla modalità che si è manifestata più volte, quella che è stata osservata più spesso. La moda si applica a qualunque tipo di variabile e può accadere che sia doppia (distribuzione bimodale) oppure, in campioni poco numerosi, molteplice (distribuzione plurimodale). Riprendendo l’esempio dei treni nella tratta Roma-Firenze, si ricava dalle frequenze assolute (Tab. 2), che . Dal punto di vista grafico, la moda si individua in corrispondenza della barra più alta nei diagrammi a barre, o dello “spicchio” più grande nei grafici a torta.

Si consideri l’insieme dei treni trovati da Luca come se fosse la popolazione oggetto di studio. La media aritmetica, o semplicemente media, si definisce come quel valore che, ripartito equamente fra tutte le unità statistiche osservate, mantiene invariato il totale. Dunque la media si può applicare solamente nel caso di variabili quantitative e si calcola nel modo seguente:

$$\mu = \frac{1}{n} \sum_{i=1}^{n} x_i$$

Considerando che le modalità della variabile si ripetono in corrispondenza delle frequenze, la formula della media può essere calcolata come:

$$\mu = \frac{\sum_{i=1}^{n} x_i \cdot f_i }{\sum_{i=1}^{k} f_i}$$

dove si ricorda che rappresenta il numero delle modalità con cui la variabile si è manifestata. La differenza fra le due formule sta nel fatto che, mentre nella prima si sommano i valori di ciascuna unità statistica, nella seconda si sommano le modalità moltiplicandole per le corrispondenti frequenze, che fungono da “pesi”: per questo la seconda è nota come formula della media ponderata. Il tempo di percorrenza medio dei treni calcolato con la prima, che considera addendi, è:

$$\mu = \frac{96 + 96 + \dots + 244 + 312}{64} = 128.86$$

mentre è più snello il calcolo con la seconda, che impiega solamente addendi:

$$\mu = \frac{96 \cdot 37 + 97 \cdot 9 + \dots + 312 \cdot 1}{64} = 128.86$$

Il tempo medio di percorrenza dei treni nella tratta Roma-Firenze è di circa 2 ore e 10 minuti. Da notare come i valori anomali, che non influenzano la moda perché poco frequenti, potrebbero condizionarne la media, specialmente in campioni poco numerosi: nel caso si ricalcolasse la media dei dati precedenti senza considerare il tempo massimo di percorrenza (), si otterrebbe $\mu$. Questo significa che il valore probabilmente è un dato anomalo in quanto, da solo, è in grado di far aumentare la media di circa 3 minuti. Oltre alla media aritmetica esistono altre due medie che calcoleremo e spiegheremo più avanti:

Altre due medie che si possono calcolare nei casi di crescita esponenziale o medie di variabili rapporto, sono:

  • Media geometrica:
    $$M_{\text{g}} = \left( \prod_{i=1}^{n} x_i \right)^{\frac{1}{n}}$$
  • Media armonica:
    $$M_{\text{a}} = \frac{n}{\sum_{i=1}^{n} \frac{1}{x_i}}$$
Facebook
LinkedIn
WhatsApp
X
Telegram
Utilizzo i cookie per analizzare le prestazioni del sito e fornire contenuti personalizzati. Cliccando su “Accetto” acconsenti alla memorizzazione dei cookie. Puoi revocare il tuo consenso in qualsiasi momento. Scopri di più su questo nella mia politica sulla privacy.
× Come posso aiutarti?