«Senza dati,
sei solo un’altra persona con un’opinione.»
William Edwards Deming
Panoramica iniziale
Analisi dati con R
Pulizia dati
Analisi univariata
Analisi bivariata
Analisi multivariata
Modelli predittivi
Questa sezione tratta l’uso di comandi e funzioni di software di analisi dati e l’interpretazione degli output. L’intento è fornire una guida pratica per massimizzare le potenzialità di questi strumenti, focalizzandosi sia sulle tecniche comuni che su quelle avanzate per l’elaborazione dei dati. L’obiettivo è rendere accessibili e comprensibili i processi chiave necessari per ottenere risultati attendibili e supportare un processo decisionale più informato e rigoroso.
L’analisi dati è un processo fondamentale per estrarre informazioni utili dai dati al fine di comprendere fenomeni reali, prendere decisioni e risolvere problemi complessi. Si potrebbe considerare l’analisi dati come la parte della statistica puramente esecutiva, il suo braccio applicativo, sebbene sia una materia interdisciplinare che alterna tecniche statistiche a tecniche matematiche ed informatiche.
Con la celebre frase, William Edwards Deming (1900 – 1993), statistico, ingegnere e saggista americano, afferma che le informazioni necessitano dei dati affinché l’oggettività prenda il posto della soggettività. È doveroso, a questo punto, fare una precisazione sui termini “dato” e “informazione” spesso usati, erroneamente, come sinonimi. Il dato è la rappresentazione originaria di un fenomeno, evento, o fatto attraverso dei simboli, mentre un’informazione è la contestualizzazione del dato, il significato ad esso associato mediante la sua interpretazione.
L’analisi dati entra in gioco, a conclusione del processo di raccolta dati, mediante la pulizia dati, fase cruciale in cui gli stessi vengono preparati per garantire analisi statistiche accurate e prive di distorsioni (bias). Successivamente, l’esplorazione dati utilizza tecniche statistiche di analisi descrittiva e data visualization: mediante l’uso di indici descrittivi e rappresentazioni grafiche si ottiene una panoramica del fenomeno osservato, identificando eventuali pattern, tendenze e relazioni tra le variabili. Successivamente, vengono impiegate tecniche statistiche di analisi inferenziale per costruire modelli predittivi e verificare la significatività dei risultati. In questo modo, si possono estendere le informazioni campionarie alle popolazioni di riferimento e anticipare le tendenze di comportamento dei consumatori, prevedere gli andamenti delle borse oppure valutare il rischio di eventi futuri. Inoltre si impiegano anche tecniche di data mining e machine learning per fare previsioni ed estrarre informazioni da grandi quantità di dati, come i big data.
L’analisi dati è applicata in una vasta gamma di settori e discipline a partire dalle scienze naturali, per studiare e modellare fenomeni come il cambiamento climatico, fino alla medicina, per la prevenzione e la personalizzazione delle terapie, e al marketing, per comprendere i comportamenti dei clienti e individuare le migliori opportunità di mercato. Inoltre, i limiti dovuti alla privacy e sicurezza dati, alla qualità dei dati ed alla complessità dei modelli analitici, richiede competenze specializzate per un adeguato impiego delle procedure e per una corretta interpretazione dei risultati.
In conclusione, l’analisi dati è un processo essenziale per esplorare i fenomeni quotidiani, estraendo tendenze, pattern e relazioni dai dati. Con il giusto rigore analitico si possono portare alla luce informazioni essenziali che forniscono un solido supporto decisionale alle scelte e azioni nei più svariati ambiti. Per questo il dato costituisce al giorno d’oggi la nuova valuta economica – il «nuovo petrolio», come affermò Clive Humby, il noto matematico e data scientist inglese nato nel 1955 – per la grande ricchezza informativa ivi contenuta.
ANALISI DATI E DATA SCIENCE
FRA ANALOGIE E DIFFERENZE
La gestione e l’analisi dei dati rappresentano una componente fondamentale della società moderna basata sulla tecnologia e sull’informazione. In questo contesto, discipline come data science, analisi dati, data mining, machine learning e statistica giocano un ruolo cruciale. Sebbene questi campi siano strettamente interconnessi, ciascuno ha obiettivi specifici e approcci metodologici che li rendono unici. Tuttavia, la distinzione tra loro non è sempre chiara, e i confini spesso sfumano, portando ad una sovrapposizione di tecniche e metodologie che, in un mondo ideale, collaborano per estrarre informazioni dai dati disponibili.
Per comprendere meglio le differenze e le analogie tra queste aree, è importante prima considerare il ruolo sempre più centrale dei dati nella vita quotidiana. Oggi, ogni aspetto delle attività umane genera una mole enorme di dati, dai comportamenti dei consumatori negli acquisti online alle interazioni sui social, dalle transazioni economiche ai dati raccolti da sensori e dispositivi tecnologici. La capacità di analizzare, interpretare e trasformare questi dati in conoscenza utile è diventata una risorsa inestimabile per aziende, enti pubblici e organizzazioni di ogni tipo. E proprio per rispondere a questa crescente esigenza, si sono sviluppati approcci sempre più sofisticati per trattare e valorizzare i dati. Di seguito una breve panoramica di queste discipline e delle relazioni che intercorrono fra di esse.
Data science

La data science rappresenta una delle aree più dinamiche e interdisciplinari nel mondo dell’analisi dei dati. Questo campo, nato dall’esigenza di estrarre conoscenze rilevanti da grandi quantità di dati, incorpora diverse discipline, tra cui la statistica, il machine learning, la programmazione e la gestione dei dati. Il ruolo della data science è quello di fornire un approccio sistematico per affrontare le sfide legate ai dati e alla complessità dei fenomeni reali, e consente di orientare verso soluzioni efficaci ed efficienti. La data science non si limita solo all’analisi dei dati strutturati, ma affronta anche sfide legate ai dati non strutturati, come immagini, testi, audio o video. È un campo che richiede una vasta gamma di competenze, tra cui la programmazione in linguaggi come R (a cui è dedicato un intero modulo di questa sezione, la conoscenza di database, di strumenti per la visualizzazione dei dati e degli algoritmi di machine learning, oltre ad una solida comprensione di statistica. Grazie alla capacità di integrare queste diverse competenze, la data science viene applicata in settori che vanno dalla sanità, dove aiuta a migliorare le diagnosi mediche, alla sicurezza, dove viene utilizzata per verificare quali transazioni siano fraudolente o nascondano il riciclaggio del denaro.
Analisi dati

L’analisi dati è una disciplina meno recente rispetto alla data science, ma rimane essenziale per qualsiasi organizzazione che desideri esplorare e comprendere i fenomeni circostanti. Come già accennato nell’introduzione a questa sezione*, l’analisi dati è il processo attraverso il quale i dati vengono trasformati in informazioni utili, che a loro volta diventano la base per le decisioni strategiche. Questo processo parte dalla raccolta e pulizia dati fino ad arrivare alla trasformazione e modellazione degli stessi, con l’obiettivo di identificare tendenze, schemi e relazioni che possano essere utilizzati per migliorare i processi aziendali o fare previsioni. A differenza della data science, che può occuparsi anche di dati non strutturati, l’analisi dati si concentra principalmente su dati strutturati, vale a dire organizzati in un formato predefinito come nei fogli di calcolo di Excel. Tuttavia, nonostante sia un campo tradizionale, l’analisi dati è tutt’altro che obsoleta: rappresenta ancora il cuore pulsante di molte attività di business intelligence e continua ad evolversi con l’avvento di nuovi strumenti e tecnologie per migliorare la precisione e la rapidità delle analisi.
Data mining

Il data mining è una sottodisciplina cruciale della data science, focalizzata sulla scoperta di pattern nascosti all’interno di grandi volumi di dati. Mentre la data science copre un ampio spettro di attività legate ai dati, il data mining si concentra su tecniche specifiche per scoprire connessioni nascoste o inattese, che possono essere utilizzate per migliorare decisioni aziendali e comprendere meglio fenomeni complessi. Il data mining utilizza tecniche avanzate, tra cui algoritmi di clustering per raggruppare unità statistiche simili, gli alberi decisionali per visualizzare e prendere decisioni ramificate, e le reti neurali, che simulano il funzionamento del cervello umano, per individuare relazioni profonde nei dati. Queste tecniche sono essenziali in contesti che richiedono una comprensione dettagliata dei dati, come nel marketing: ad esempio, un’azienda può utilizzare il data mining per la profilazione clienti, ovvero identificare schemi comuni nel comportamento nei consumatori, che poi diventano la base per campagne pubblicitarie personalizzate. Grazie a queste tecniche, il data mining è in grado di estrarre informazioni preziose (mining significa estrazione), trasformando ciò che a prima vista potrebbe sembrare caotico in conoscenza concreta e funzionale.
Machine learning

Il machine learning è una delle tecniche più avanzate e affascinanti nel panorama dell’analisi dei dati. A differenza dell’analisi dati tradizionale, che si basa su modelli predeterminati, il machine learning (letteralmente apprendimento della macchina) permette agli algoritmi di apprendere automaticamente dai dati. In altre parole, si parte da un ampio insieme di dati eterogenei per addestrare l’algoritmo-modello. Una volta che il training è avvenuto, il modello è in grado di fare previsioni, ovvero di dare risposte plausibili e ottimali a specifici problemi. Ciò significa che un modello di machine learning può migliorare le proprie prestazioni man mano che riceve nuovi dati, senza la necessità di essere riprogrammato. Esistono tre principali tipologie di machine learning: apprendimento supervisionato, non supervisionato e per rinforzo. L’apprendimento supervisionato utilizza dati già “etichettati”, ovvero assegnati a specifiche categorie, per addestrare modelli a fare previsioni o classificazioni. L’apprendimento non supervisionato cerca di scoprire strutture nascoste in dati che, invece, non sono stati etichettati. L’apprendimento per rinforzo si basa su un sistema di premi e penalità per migliorare le prestazioni in compiti specifici. Gli algoritmi di machine learning sono utilizzati in un’ampia gamma di applicazioni, dagli algoritmi di raccomandazione, che forniscono suggerimenti agli utenti sulle piattaforme di streaming o shopping online, fino al riconoscimento vocale, alla traduzione automatica e alla guida autonoma. Il machine learning è particolarmente utile per affrontare problemi che coinvolgono grandi quantità di dati non strutturati, come video o immagini, e rappresenta una componente chiave per lo sviluppo di applicazioni di intelligenza artificiale avanzata.
Statistica

La statistica è il fondamento teorico di tutte le discipline che trattano l’analisi dei dati. Nonostante sia una scienza consolidata da secoli, rimane comunque la disciplina centrale per comprendere e interpretare i dati in modo accurato. Alla statistica è dedicata un’intera sezione di questo sito: come accennato, si occupa della raccolta, organizzazione, analisi, interpretazione e presentazione dei dati, dividendosi principalmente in due aree: statistica descrittiva e statistica inferenziale. La statistica descrittiva riassume e descrive i dati attraverso indici, tabelle e grafici, mentre la statistica inferenziale mira a trarre conclusioni su una popolazione a partire dal campione estratto da essa e a fare previsioni. Sebbene possa sembrare meno moderna rispetto alla data science o al machine learning, la statistica rimane uno strumento essenziale per garantire che le conclusioni tratte dai dati siano affidabili.
Le relazioni fra le discipline sopra illustrate si possono così rappresentare:

È essenziale comprendere che questi ambiti sono in continua evoluzione e spesso si intrecciano. I professionisti di tali settori lavorano frequentemente in modo trasversale, combinando tecniche e approcci dei diversi campi per affrontare complesse sfide legate ai dati. Sebbene queste discipline si sovrappongano e si interconnettano, ciascuna ha obiettivi e metodi distinti. La statistica fornisce la base teorica, mentre il machine learning e il data mining estendono le capacità analitiche attraverso algoritmi avanzati. La data science, invece, combina tutte queste competenze per estrarre significato dai dati e supportare decisioni in contesti complessi e dinamici, coprendo l’intero ciclo di vita dei dati. Infine, l’analisi dati si concentra principalmente sull’esplorazione e comprensione dei dati esistenti, spesso strutturati e di dimensioni moderate, per prendere decisioni immediate.
In sintesi, l’analisi dati è più focalizzata e immediata rispetto alla data science. Quest’ultima mira a creare modelli e algoritmi per prevedere tendenze future e risolvere problemi complessi, a partire da dati di grandi dimensioni e talvolta non strutturati. Inoltre, l’analisi dati guida decisioni basate su dati esistenti, mentre la data science ne rappresenta un’evoluzione, includendo un insieme più ampio di strumenti e metodologie. Integrando le tecniche di computer science, statistica avanzata e intelligenza artificiale, la data science è in grado di creare efficaci modelli predittivi e di ottimizzare le decisioni e i processi aziendali su larga scala.