Menù principale
B027495 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING
Principali informazioni
Lingua Insegnamento
Contenuto del corso
Libri di testo consigliati
Obiettivi Formativi
Prerequisiti
Metodi Didattici
Altre Informazioni
Modalità di verifica apprendimento
Programma del corso
Anno Accademico 2021-22
Coorte 2020 - Laurea Magistrale in INFORMATICA
Anno di corso
Secondo Anno - Primo Semestre
Dipartimento di Afferenza
Statistica, Informatica, Applicazioni "G. Parenti" (DiSIA)
Tipo insegnamento
Attività formativa monodisciplinare
Settore Scientifico disciplinare
SECS-S/01 - STATISTICA
Crediti Formativi
6
Ore Didattica
48
Periodo didattico
13/09/2021 ⇒ 23/12/2021
Frequenza Obbligatoria
No
Tipo Valutazione
Voto Finale
Contenuto del corso
mostra
Programma del corso
mostra
Docenza
Mutuazione
Insegnamento mutuato da:
B025406 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING
Laurea Magistrale in STATISTICA E DATA SCIENCE
Curriculum GENERALE
B025406 - MULTIVARIATE ANALYSIS AND STATISTICAL LEARNING
Laurea Magistrale in STATISTICA E DATA SCIENCE
Curriculum GENERALE
Lingua Insegnamento
Inglese
Contenuto del corso
Distribuzione Normale Multivariata. Introduzione ai modelli grafici, networks e Bayesian Networks. Versione per high dimensional data (stimatori lasso, ridge, elastic net). Metodi di Statistical Learning a fini esplorativi: Analisi in componenti principali e Analisi fattoriale e loro confronto. Metodi di supervised learning per la classificazione: CART, boosting, random forest, BART.
Metodi di unsupervised learning di clustering: clustering gerarchico, non gerarchico e basato su modello.
Metodi di unsupervised learning di clustering: clustering gerarchico, non gerarchico e basato su modello.
Libri di testo consigliati (Cerca nel catalogo della biblioteca)
Appunti e slides forniti dal docente, disponibili su Moodle.
Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.
Friedman, J., Hastie, T., & Tibshirani, R. (2013). The elements of statistical learning. Second edition. Springer, Berlin: Springer series in statistics.
Giudici, P. (2005). Applied data mining: statistical methods for business and industry. John Wiley & Sons.
Obiettivi Formativi
Il corso introduce lo studente all’applicazione ed alla teoria di metodi di analisi e modelli statistici per lo studio di dati multivariati e di grande dimensione. In particolare saranno trattati approfondimenti su analisi multivariata classica ed alcune metodologie di data mining e learning statistico. Per favorire la comprensione, l’interpretazione e l’uso delle metodologie, il corso prevede esercitazioni con il linguaggio R.
Prerequisiti
Inferenza statistica Modelli statistici (modello classico di regressione lineare) Algebra delle matrici.
Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica
Per gli studenti di SDS: Esami propedeutici: Inferenza statistica; Probabilità e matematica per la statistica
Metodi Didattici
Lezioni frontali, esercitazioni, flipped classes e competizioni.
Altre Informazioni
Gli studenti che seguono il corso (mutuato) da 6 CFU, dovranno concordare con il docente argomenti pari a 2/3 del programma.
Modalità di verifica apprendimento
L'esame consta di due progetti:
1) un progetto in gruppo, con presentazione seminariale del progetto con slides in un contest tra gruppi (30% del voto finale)
2) progetto personale, con presentazione seminariale individuale con slides (70% del voto finale).
Slides e codici devono essere spedite via mail al docente prima di ciascuna presentazione.
1) un progetto in gruppo, con presentazione seminariale del progetto con slides in un contest tra gruppi (30% del voto finale)
2) progetto personale, con presentazione seminariale individuale con slides (70% del voto finale).
Slides e codici devono essere spedite via mail al docente prima di ciascuna presentazione.
Programma del corso
1. La distribuzione Normale Multivariata: Distribuzione Normale bivariata e multivariata; distrib marginali e condizionate Coeff. di correlazione ed indipendenza marginale e condizionata; Inferenza sui parametri della distribuzione Normale Multivariata
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.
10. Cenni a Neural networks e Deep learning
2. Introduzione ai modelli grafici Introduzione ai grafi e proprietà dell’indipendenza condizionata Grafi non direzionati (networks / Markov random fields) Proprietà di Markov e fattorizzazione Modelli grafici gaussiani Modelli grafici log-lineari Grafi direzionati (Bayesian networks / DAGs) Proprietà di Markov e fattorizzazione Algoritmi di learning Cenni su Grafi a catena(primo e quarto tipo) Proprietà di Markov e fattorizzazione
3. Analisi in componenti principali Definizione di componenti: terminologia e notazione Metodi di estrazione delle componenti principali Uso ed interpretazione delle componenti principali Principali ambiti di applicazione
4. Introduzione allo statistical learning Definizione di statistical learning e differenziazione da Machine learning Supervised e Unsupervised Learning Regression e Classification Misure di accuratezza Trade-off variabilità e bias Metodi di resampling e cross-validation
5. Linear Model Selection e stimatori di regolarizzazione Subset Selection Shrinkage Ridge Lasso e Elastic net
6. Tree-Based Methods Basics of Decision Trees Regression Trees Classification Trees Bagging e Boosting Random Forests BART
7. Super learner per problemi di classificazione e regressione
8. Analisi fattoriale Introduzione all’analisi fattoriale esplorativa Rotazione degli assi Interpretazione degli assi fattoriali
9. Analisi dei gruppi Introduzione al problema della classificazione Distanze e metriche Metodi gerarchici e non gerarchici (k-means) Metodi probabilistici e fuzzy.
10. Cenni a Neural networks e Deep learning