Intro Prediction
Intro Prediction
Riferimenti
• An Introduction to Statistical Learning, paragrafi 2.1.5, 2.2
Introduzione
Consideriamo il seguente esempio con variabile risposta continua
1
• Punti neri: diagramma di dispersione per le coppie (yi , xi ) di cui disponiamo, i = 1, ..., n = 200
La risposta è generata secondo la relazione
1
Y = x+ϵ
30
ϵ ∼ N (0, 1)
• Linea blu: vera relazione che lega la variabile risposta y alla variabile esplicativa x
• Linea arancione (Modello 0): relazione stimata con una retta di regressione derivante dal
modello
Y = β1 X + ϵ
Con i dati a disposizione βˆ1 = 0.02859(1/30 = 0.033)
• Linea verde (Modello 1): relazione stimata con una regressione polinomiale (spline con 12
nodi)
• Situazione irrealistica
– Conosciamo la vera relazione tra la risposta e l’esplicativa
– Quale modello scegliere ?
Confrontando le relazioni stimate dei due modelli con la linea blu → Modello 0
• Situazione reale
– Non conosciamo la vera relazione
– Quale modello scegliere?
Consideriamo il training mean squared error
n
X
−1
M SEtr = n (yi − yˆi )2
i=1
dove yˆi∗ sono le previsioni che fornisce il modello (sulla base delle rispettive x∗i )
2
• Modello 0: M SEte = 1.0247233
• Modello 1: M SEte = 1.0304042
In sintesi
• L’indicazione che ci fornisce il M SEtr è di scegliere il Modello 1. Più il modello è flessibile e
più si adatterà ai dati → piùpiccolosaràMSEtr .
Problema: nella pratica si dispone di un solo insieme di dati. Come fare quindi per non basare la
propria scelta sul M SEtr ?
Metodi di valutazione
Training set - Test set
Una soluzione è quella di dividere l’insieme di dati a disposizione in due:
• Training set (insieme di stima): insieme di dati che verrà utilizzato per stimare i modelli
3
• Test set (insieme di verifica): insieme di dati che verrà utilizzato per valutare l’errore di
previsione.
Non vi è una regola precisa per determinare la proporzione di osservazioni che andranno a comporre
ciascuno degli insiemi. Dipende dalla complessità del problema (numero di variabili, numerosità
campionaria, . . . )
Consideriamo i dati presentati all’inzio e attuiamo la divisione casuale con proporzione: 75 % /25
%
Per esempio, Supponiamo di avere un insieme di dati composto dalla variabile risposta, y , e una
esplicativa, x. L’insieme è composto da 15 unità
4
Di seguito si riportano gli identificativi delle unità che compongono ciascuno dei 7 folds con cui si è
deciso di strutturare la convalida incrociata.
A titolo di esempio, si riporta il training set quando il Fold 1 attua da test set.
Sulla scelta del numero di fold si possono fare considerazioni dettagliate; indicativamente si sceglie
il numero di fold valutando quanto oneroso è il processo di stima/verifica.
Quando K = n la K fold la cross validation prende il nome di leave one out cross validation. A
differenza di una K fold, con K < n, non c’è aleatorietà del processo, tuttavia è computazionalmente
intenso.
Ritornando all’esempio di partenza, si ha che con la leave one out cross validation
5
1 Il contesto della classificazione
Per valutare gli errori dei classificatori si fa ricorso a misure di perdita diverse rispetto agli scarti al
quadrato tra valori veri e previsti.
Spesso si utilizza l’errore di classificazione
Iw̸=x (x)
con IA(x) (x) funzione indicatrice che vale 1 se si verifica l’evento A(x) (che dipende da x).
In concreto, l’errore di classificazione quando si considera yi e la sua previsione yˆi è
Sull’errore di previsione
Nel seguito ci ricondurremo al contesto di previsione di una variabile continua.
È opportuno fare la distinzione tra:
È bene richiamare quanto segue, le variabili esplicative si assumono fissate e la variabile risposta è
generata secondo la relazione
Y = γx + ϵ
con ϵ ∼ N (0, σ 2 )
La variabile risposta osservata per ciascuna unità, yi , è realizzazione di
Yi = γxi + ϵ
Disponiamo di coppie (yi , xi ), i = 1, ..., n, sulla base di tali coppie stimiamo il nostro modello e lo
indichiamo con M̂ .
La previsione restituita dal nostro modello sulla base di una nuova esplicativa x∗ è
yˆ∗ = M̂ (x∗ )
Y ∗ = γx∗ + ϵ
In formule:
h i2
EY ∗ Y ∗ − M̂ (x∗ )
6
Nella relazione di cui sopra, il valore atteso è solamente rispetto a Y ∗ , ovvero considero il campione
utilizzato per stimare M̂ , ovvero (yi , xi ),i = 1, . . . , n, fissato.
L’errore atteso di previsione condizionato è la quantità a cui naturalmente siamo interessati. Una
volta che ho ottenuto il modello stimato M̂ lo uso per fare previsione.
Y ∗ = γx∗ + ϵ
quando il modello è stimato utilizzando un gran numero di nuovi campioni di dimensione n generati
dalla relazione
Yi = γxi + ϵ
In formula:
h i2
EY y ∗ − M̂ (x∗ : Y )
• più adatta a stimare l’errore atteso di previsione quando il numero di fold è basso
se il numero di fold è basso, allora mi aspetto che gli insiemi di stima saranno molto
diversi rispetto all’insieme di stima composto dal campione intero e produrranno, quindi,
modelli stimati molto diversi da quello che si stima con l’intero insieme di dati
• più adatta a stimare l’errore atteso di previsione condizionato quando il numero di fold è alto
– se il numero di fold è elevato, allora mi aspetto che gli insiemi di stima saranno simili
rispetto all’insieme di stima composto dal campione intero e produrranno, quindi, modelli
stimati molto simili a quello che si stima con l’intero insieme di dati
– una leave one out cross validation dovrebbe essere la migliore stima dell’errore atteso di
previsione condizionato
Nella pratica, però, si è osservato che tutti i metodi tendono a stimare l’errore atteso di previsione.
7
Illustrazione
Consideriamo il calcolo teorico dell’errore atteso di previsione quando utilizziamo il Modello 0,
ovvero il modello di regressione lineare che postula la relazione Y = β1 X + ϵ
Sulla base del campione di cui disponiamo, (yi , xi ), i = 1, ..., n, il Modello 0 stimato è
M̂ = M̂ (z) = β̂1 z
dove β̂1 è la stima di β1 ottenuta con il metodo dei minimi quadrati
Pn
yi xi
β̂1 = Pi=1
n 2
i=1 xi
Vogliamo valutare
nh i2 o
EY y ∗ − M̂ (x∗ : Y )
quando
Y = γx + ϵ, ϵ ∼ N (0, σ 2 )
)
La coppia (y ,x rappresenta una nuova osservazione, sono quantità fissate
Nel seguito l’unica quantità stocastica è M̂ (x∗ ; Y ): va quindi pensata come variabile casuale. Questo
significa considerare lo stimatore β̂1 e non la stima
Pn
Yi xi
β̂1 = Pi=1 n 2
i=1 xi
Svolgiamo il quadrato
h i2
y ∗ − M̂ (x∗ ; Y ) = (y ∗ )2 + [M̂ (x∗ ; Y )]2 − 2M̂ (x∗ ; Y )y ∗