Il 0% ha trovato utile questo documento (0 voti)
29 visualizzazioni6 pagine

Domande Aperte Metodi

Il metodo k-means è un algoritmo iterativo di clustering non gerarchico che assegna ogni punto ai k centroidi più vicini minimizzando la distanza euclidea totale. L'algoritmo iterativamente riassegna i punti e ricalcola i centroidi fino a convergenza.

Caricato da

davidemeulli
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Il 0% ha trovato utile questo documento (0 voti)
29 visualizzazioni6 pagine

Domande Aperte Metodi

Il metodo k-means è un algoritmo iterativo di clustering non gerarchico che assegna ogni punto ai k centroidi più vicini minimizzando la distanza euclidea totale. L'algoritmo iterativamente riassegna i punti e ricalcola i centroidi fino a convergenza.

Caricato da

davidemeulli
Copyright
© © All Rights Reserved
Per noi i diritti sui contenuti sono una cosa seria. Se sospetti che questo contenuto sia tuo, rivendicalo qui.
Formati disponibili
Scarica in formato PDF, TXT o leggi online su Scribd
Sei sulla pagina 1/ 6

22/01/2021 NON CHIEDE

Si descriva il metodo del clustering k-means.

Il metodo k-means è un metodo di clustering non gerarchico con assegnazione di tipo hard.
Prevede di fissare a priori il numero di cluster K minore del numero di misure, vengono poi
scelti i valori iniziali dei centroidi u dei cluster a partire dalla media dei dati contenuti in essi.
Si sfrutta un algoritmo iterativo dove nel primo step vengono assegnati i dati in base alla
distanza euclidea dal centroide minimizzando la funzione obiettivo

stimando rnk con uk fisso e nel secondo step vengono ricalcolati i centroidi, riassegnati i dati
e viene stimato uk con rnk fisso minimizzando J. Questi due step vengono ripetuti finchè le
assegnazioni dei dati non cambiano più o quando si raggiunge un numero massimo di
iterazioni.

Si riportino le differenze che intercorrono tra una analisi alle componenti principali
(PCA) e una alle componenti indipendenti (ICA). In particolare, si evidenzino in modo
separato le ipotesi fatte da ognuno dei due metodi.

La PCA è una proiezione ortogonale che mira a spiegare la massima varianza possibile del
dataset usando il minor numero possibile di dati/componenti. Per essere usata
coerentemente richiede che i dati siano omogenei per unità di misura e a media nulla, perciò
bisogna z-scorare i dati prima di usarla.

ICA invece è un metodo per ricostruire M sorgenti da N loro combinazioni lineari che
costituiscono una matrice A detta di mixing. Per applicarla è necessario che N>=M e che le
sorgenti siano indipendenti e non gaussiane, A sia invertibile e che il rumore sia assunto
nullo.

Entrambe sono tecniche usate per la noise reduction

28/05/2020

La funzione di sopravvivenza S(t) esprime la probabilità di sperimentare un evento


dopo un certo istante t. Si definisca la funzione rischio (o hazard) evidenziandone le
proprietà e la funzione rischio cumulativo.
La funzione di rischio (hazard function) definita come h(t)=d/dt(lnS(t)), è una funzione
positiva, utile a descrivere in che modo il rischio di sperimentare l’evento varia nel tempo.
La funzione di rischio può assumere andamento: costante dove S(t)=exp(-ht), crescente
(l’evento tende a verificarsi alla fine del periodo di osservazione), decrescente (l’evento
tende a verificarsi all’ inizio del periodo di osservazione).
La funzione di rischio cumulativo H(t)=-lnS(t) è ottenuta a partire dalla funzione di
sopravvivenza e da un’idea dell’andamento della funzione di rischio h(t).

Definite l’ipotesi nulla del t-test non appaiato e la statistica test.


Il t-test è un test sulle medie che tiene conto della variabilità all’interno dei gruppi. Si vuole
testare l’ipotesi che date due popolazioni (omoschedastiche o eteroschedastiche) la loro
media è uguale, pertanto l’ipotesi nulla è: H0: u1=u2 e H1: u1=/=u2.
La statistica test è una quantità che viene calcolata a partire dai dati osservati in grado di
riassumere l’informazione campionaria rilevata ai fini della valutazione della verosimiglianza
dell’ipotesi, in questo caso bisogna trovare una statistica test la cui distribuzione teorica è
nota quando è vera l’ipotesi nulla: t=(u1-u2)/[Sp(1/n1+1/n2)^½] con t v.a. con ddp t-student,
Sp varianza della popolazione, u le medie e n i dati del gruppo.

18/06/2020 e 18/12/2020 NON CHIEDE

Si descriva il test U DI MANN-WHITNEY (o dell’ordine robusto dei ranghi) riportando


in particolare l’ipotesi nulla.
Il test U di MANN-WHITNEY è un test non parametrico. L’ipotesi nulla Ho riguarda
l’uguaglianza delle mediane dei due gruppi ( nel caso in cui il test abbia due code) e dunque
l’ipotesi alternativa H1 sarà Me1 diversa da Me2. Nel caso in cui il test sia ad una sola coda
l’ipotesi nulla sarà mediana del gruppo 1 < o > del gruppo due e la relativa H1 sarà la sua
negazione( rispettivamente > o <).Questo test si basa sulle precedenze per cui vanno
ordinati i dati dei due gruppi insieme e vanno misurati i dati (dell’altro gruppo) che precedono
i dati del gruppo di interesse.Si dovrà scegliere il gruppo con numero di precedenze minori
(aiutandosi con la formula n1*n2=U+U’). Nel caso in cui Ho si basi sull’uguaglianza delle
mediane dei due gruppi, U deve tendere ad un valore medio u=n1*n2/2 , per verificare la
significatività del test calcoliamo Z=(U-u)/std e calcoliamo il pvalue. Se il Pvalue è minore di
0.05 rifiutiamo l’ipotesi nulla.

Si riporti la funzione da minimizzare per il metodo di stima con penalità di tipo Ridge.
Si discuta cosa succede quanto il valore del parametro di regolarizzazione è minimo o
massimo.
Ridge, Lasso e Elastic Net sono dei metodi che permettono di aumentare la precisione delle
stime a discapito dell’accuratezza. Ridge è l’unico tra questi tre ad avere una forma chiusa
per calcolare i parametri da stimare.La funzione da minimizzare è beta = arg min ||Y-Xβ||^2
+ λ||β||^2.
Il parametro di regolarizzazione è lambda è mi permette di controllare il termine di penalità,
può essere maggiore o uguale a zero, nel caso in cui questo sia zero ritorniamo al caso
degli stimatori ai minimi quadrati, la funzione obiettivo non risente del termine di penalità. Nel
caso in cui lambda tenda a infinito il termine beta deve tendere a 0 perché il nostro obiettivo
è quello di minimizzare la funzione obiettivo.

Stimatore ai minimi quadrati


È una tecnica di ottimizzazione che permette di trovare la funzione che sia avvicina di più ai
dati. In particolare la funzione da trovare è quella che minimizza la distanza euclidea tra dati
e modello ovvero minimizza la funzione J=[y-Gp]^T[y-Gp] con p parametri incogniti.
In genere le misure hanno un errore che coincide con i residui che dunque ci danno una
stima dell’errore di misura indicandoci la “bontà” della predizione, vorremmo che la media
dei residui fosse nulla e la varianza sia compresa tra -1 e 1. Lo stimatore ai minimi quadrati
è unbiased.
Stimatore Maximum Likelihood
È una tecnica di ottimizzazione che permette di trovare la funzione che sia avvicina di più ai
dati. In particolare dato il modello y=𝞥𝞱+e fissato un valore di 𝞡 la funzione f(y) mi quantifica
quanto è probabile che 𝞡 sia corretto. Al variare di 𝞡 tale quantità è detta verosimiglianza di
y indicata con L(𝞡). Si può allora stimare 𝞡 massimizzando tale funzione L. Lo stimatore
Maximum Likelihood nel caso di misure statisticamente indipendenti o di rumore gaussiano
gode delle proprietà di non polarizzazione in media, di consistenza e di normalità.

Test statistici, accettazione/rifiuto ipotesi


Dopo aver scelto l’opportuno test in base al problema è possibile procedere con 2 metodi.
Metodo classico: prevede di fissare un valore alpha al di sotto del quale si rifiuta l’ipotesi
nulla, si individuano poi il valore/valori critici che delimitano la regione di accettazione e di
rifiuto, infine si guarda in quale regione cade il valore trovato dalla statistica test.
Metodo del p-value: in questo metodo si calcola il livello di significatività alpha osservato e lo
si confronta con un alpha prefissato rifiutando l’ipotesi nulla nel caso fosse minore di
quest’ultimo. Con questo metodo abbiamo anche un’indicazione di quanto l’ipotesi nulla è
confermata/rifiutata: tanto più alpha osservato è piccolo, tanto più il risultato osservato è
diverso dall’atteso.

Welch t-test
Il welch t-test è un t-test pensato per popolazioni eteroschedastiche ovvero con varianze
diverse. Utilizza le stesse ipotesi del t-test ma con statistica test

ANOVA a una via


L’anova è un test parametrico che analizza la varianze delle popolazioni determinando se
almeno una delle popolazioni analizzate è diversa dalle altre. Come assunzioni utilizza le
stesse del t-test: variabili continue con distribuzione normale,media e varianza indipendenti
e varianze omogenee. Come ipotesi nulla si pongono le medie delle popolazioni tutte uguali.
La variabilità viene suddivisa in variabilità entro i gruppi indicata con MSE e variabilità tra i
gruppi indicata con MSB. La statistica test ha distribuzione data da F=MSB/MSE dove se
F=1 l’ipotesi nulla è accettata mentre se F>1 l’ipotesi nulla viene rifiutata. Se il numero di
gruppi analizzati è pari a 2 l’anova equivale ad un t-test.

ANOVA a 2 vie
L’anova a 2 vie è un test parametrico simile all’anova ad una via ma permette di testare 2
fattori. L’ipotesi nulla è suddivisa in 2 ipotesi una riguardante il fattore A e l’altra il fattore B.
Vengono calcolate le varianze dei due fattori rispettivamente e la varianza dell’errore
(residui), la statistica test ha distribuzione Fa=varianzaA/varianzaE e
Fb=varianzaB/varianzaE, se F=1 l’ipotesi è accettata mentre se F>1 viene rifiutata.
Nel caso ci fosse interazione tra i fattori si aggiunge un’ipotesi Hab e si terrà conto
dell’interazione pertanto va calcolata anche la varianza di AB e il rispettivo Fab.
Test WMW
Il test WMW è un test non parametrico in cui l’ipotesi nulla riguarda l’uguaglianza delle
mediane dei 2 gruppi H0: Me1=Me2 mentre l’ipotesi alternativa assume le due mediane
diverse. Il test è basato sulla somma dei ranghi del gruppo meno numeroso che va
confrontata con la media attesa ut=n1(n1+n2+1)/2 dove n1<n2. Se la somma dei ranghi T è
diversa da ut l’ipotesi nulla viene rifiutata. La significatività della differenza tra le mediane
viene valutata confrontando T con ut tramite Z=T+-0.5-ut/𝞼t da cui ricaviamo il p-value che
se inferiore a 0.05 porta al rifiuto dell’ipotesi.

Test-S
Il test-s di Kendall è basato sul test-U e confronta anch’esso la mediana di due campioni
indipendenti. L’ipotesi nulla da testare è che la distribuzione di x nella variabile casuale X è
identica a quella di y in Y. Analogamente al test U i dati vengono raggruppati e ordinati
ottenendo n1*n2 coppie (xi,yi), di queste Uxy è il numero di coppie dove xi<yi e Uyx è il
numero di coppie dove xi>yi. Valori elevati di Uxy suggeriscono una distribuzione di Y > X
mentre valori elevati di Uyx il contrario.
Il test-S è fondato sulla statistic S=Uxy-Uyx che ha valore minimo pari a -n1*n2 e massimo
n1*n2 e valore atteso nullo. Il test-S è legato anche al test WMW in maniera analoga a
quanto visto. I tre test S, U, WMW sono equivalenti e i test di significatività operati su T1 o
su Uxy danno lo stesso risultato.

Clustering C-means
È una metodologia di clustering simile al k-means ma con assegnazione di tipo soft.
Al posto di assegnare ogni elemento ad un singolo cluster il metodo c-means si basa sull’
assegnare ad ogni elemento una certa probabilità di appartenere ad un cluster.
Inizialmente scelgo il valore iniziale pnk della probabilità di appartenenza e il fuzzy index m
che determina il peso di tale termine, divido poi gli N elementi in K cluster. Viene calcolato il
centroide di ogni cluster e successivamente riassegno pnk basandomi sulla distanza dato-
centroide. Ripeto iterativamente questi due ultimi passaggi finchè la probabilità raggiunge un
valore soglia o finchè non raggiungo il limite di iterazioni.

Clustering gerarchico (agglomerativo)


È una tipologia di clustering con assegnazione hard che a differenza del k-means e del c-
means non richiede di fissare a priori il numero di clusters. Inizialmente viene fissato K=N
numero di clusters, vengono poi calcolate le distanze di ogni coppia di misura e vengono fusi
i cluster più vicini tra loro in base alla tipologia di linkage scelta, che può essere
single/complete/centroid/average. Vengono aggiornate le distanze ora con K=N-1 clusters.
Si itera il processo fino ad ottenere il numero desiderato di clusters.
Va fatto notare che l’algoritmo del clustering gerarchico è molto più pesante rispetto a quello
del k-means o c-means.

Clustering DBSCAN
Questo metodo di clustering è basato sulla densità dei dati e richiede di fissare a priori il
raggio massimo del cluster e il numero minimo di punti contenuti al suo interno. I core points
dei cluster sono decisi inizialmente da un algoritmo basato sulle distanze. I punti vengono
assegnati ai vari cluster utilizzando due approcci uno density-reachable e uno density-
connected. Il clustering DBSCAN resiste bene al rumore e funziona su cluster con diverse
forme e dimensioni ma non funziona bene se le densità sono variabili o con set di dati molto
grandi.

Verifica dei cluster con indice cofrenetico e di inconsistenza


Nel caso di clustering gerarchico possiamo verificare se le altezze dell’albero rispecchiano
più o meno bene le distanze tra i dati. La distanza cofrenetica è l’altezza di un link che va
comparata con la distanza originale, per operare il confronto si utilizza il coefficiente
cofrenetico CC. Più CC si avvicina ad 1 più il clustering riflette bene i dati. Tramite questo
indice possiamo confrontare diversi metodi di linkage. L’indice di inconsistenza (IC) invece
permette di determinare dove operare il taglio dell’albero, confrontando l’altezza di un link
con l’altezza media al di sotto di esso. Settando una soglia per l’ IC possiamo tagliare
l’albero quando IC è maggiore della soglia imposta.

Analisi di sopravvivenza
L’analisis di sopravvivenza studia il tempo necessario al verificarsi di un evento. Tramite una
funzione di sopravvivenza si possono confrontare gruppi che ricevono trattamenti diversi e
valutare la capacità prognostica di diverse variabili prese in considerazione. Lo strumento
utilizzato nell’analisi di sopravvivenza sono le curve di Kaplan-Meier che mettono in
relazione la probabilità di sopravvivere con il tempo di osservazione. Il confronto tra due
curve di sopravvivenza viene effettuato tramite il log-rank test permettendoci di valutare
un’ipotesi sull’efficacia di trattamenti su due gruppi diversi.

Log-rank test
Il log-rank test permette di confrontare due curve di sopravvivenza. Come ipotesi nulla si
pone l’uguaglianza delle due curve (trattamenti con stessi effetti). Si assume che i due
campioni siano indipendenti, che le modalità di censura siano le stesse e che le curve siano
in relazione S2(t)=[S1(t)]^a con a=costante detta tasso di rischio. La statistica test è pari a
(mortalità attesa-osservata)^2/(somma dei prodotti delle mortalità attese nei due gruppi).
Affinchè il test risulti significativo (P<0.05) deve assumere un valore >=3.84 altrimenti
l’ipotesi nulla è accettata.

Modello di Cox
È un modello di regressione non parametrico utilizzato nell’analisi di sopravvivenza nel caso
di variabili covariate, infatti esprime il rischio in funzione del tempo e delle covariate
h(t|X)=ho(t)exp(βTX) funzione di rischio dove h0(t) è la funzione rischio di base positiva e
uguale per ogni soggetto, B vettore dei parametri e X vettore delle covariate.
Dati due individui con covariate Xa e Xb nel modello di cox il rapporto tra i rispettivi rischi è
costante nel tempo. Se tale rapporto è variabile allora non è possibile utilizzare il modello di
cox.

Lasso regression
Ridge, Lasso e Elastic Net sono dei metodi che permettono di aumentare la precisione delle
stime a discapito dell’accuratezza. Lasso a differenza della Ridge ha forma aperta per
calcolare i parametri da stimare ed è complessivamente un metodo più aggressivo. La
funzione da minimizzare è beta = arg min ||Y-Xβ||^2 + λ|β| dove lamba è il parametro di
regolarizzazione che mi permette di controllare il termine di penalità. Lamba può essere
maggiore o uguale a zero, nel caso in cui questo sia zero ritorniamo al caso degli stimatori ai
minimi quadrati, la funzione obiettivo non risente del termine di penalità. Nel caso in cui
lambda tenda a infinito il termine beta deve tendere a 0 perché il nostro obiettivo è quello di
minimizzare la funzione obiettivo.

Elastic Net
Ridge, Lasso e Elastic Net sono dei metodi che permettono di aumentare la precisione delle
stime a discapito dell’accuratezza. Elastic net è una via di mezzo tra la Ridge e la Lasso
regression ma comunque più accurata della Lasso e ovvia il problema per cui la sola
regolarizzazione L1 può portare a soluzioni non uniche. La funzione da minimizzare
presenta regolarizzazione sia L1 che L2 con fattori di penalty controllati dal parametro alpha
€[0,1]. Nel caso alpha=1 l’elastic net equivale ad una Lasso e nel caso alpha=0 equivale ad
una Ridge.

Logistic Regression
È un metodo di regressione non lineare che permette di predire variabili discrete tramite un
mix di predittori continui e discreti. L’uscita è appunto discreta e non è necessario che le
variabili indipendenti abbiano distribuzione normale o siano in relazione lineare. Utilizzando
un funzione logistica modellizziamo la probabilità con uscita compresa tra 0 e 1
p(X)=exp(β0+β1X)/(1+exp(β0+β1X)), da cui ricaviamo il temine Odds= p(X)/(1-p(X))
compreso tra 0 e infinito, dove la tendenza a infinito determina una probabilità molto alta di
appartenenza e 0 il contrario. Facendo il log di Odds possiamo stimare i parametri β0 e β1
massimizzando la funzione di likelihood.

Campionamento
I campioni permettono, con un numero inferiore di dati, di descrivere entro certi margini
l’intero set dei dati. Per scegliere il campione si possono usare 3 metodologie di
campionamento: campione casuale semplice (estrazione casuale con o senza ripetizione dal
dataset), campione sistematico (scelgo un unità ogni tot), campione stratificato (suddivisione
del dataset in strati omogenei e successiva estrazione casuale).

Correzione per confronti multipli


Nel verificare un sistema di ipotesi è sempre possibili il verificarsi di errori di tipo I e di tipo II.
Spesso siccome facciamo test multipli la probabilità di commettere questi errori si può alzare
anche di molto. È quindi opportuno utilizzare delle tecniche di post hoc dell’errore in modo
da correggerlo o almeno di quantificare la probabilità di commetterlo. Per controllare l’errore
si utilizzano due quantità: la FWER (probabilità che ipotesi rigettate contengano errori) e la
FDR (proporzione attesa di errori fra le ipotesi rifiutate). Vorremmo che queste due quantità
siano al massimo uguali ad alpha livello di significatività. La correzione di bonferroni opera
sul FWER e rifiuta l’ipotesi se pj<=alpha/m con m numero totale di ipotesi da testare e pj è il
p-value grezzo dell j-esima ipotesi. Questa tecnica è molto stringente che rigetta poche
ipotesi. Il controllo dell’ FDR è un tecnica meno stringente dove i p-value grezzi ordinati
vengono confrontati con un valore critico cj=j*alpha/m e vengono trovati i valori di j più
grandi per cui il p-value pj è minore del suo corrispondente cj rifiutando le ipotesi con i p-
value più piccoli.

Potrebbero piacerti anche