Funzione obiettivo

In ottimizzazione matematica e nella teoria della decisione, una funzione obiettivo o funzione di costo o ancora funzione di perdita^[1] (calco dell'inglese loss function) è una funzione che mappa un evento, o valori di una o più variabili, su un numero reale intuitivamente rappresenta un "costo" associato all'evento. Un problema di ottimizzazione cerca di minimizzare una funzione di costo. Mentre la funzione di costo o di perdita indicano una funzione da minimizzare, la funzione obiettivo denota una funzione che può essere necessario massimizzare; si parla allora di funzione di rinforzo, funzione di utilità, funzione di fitness, ecc...).

In statistica, viene in genere usata una funzione obiettivo (spesso chiamata loss function) per stimare dei parametri ed è una funzione della differenza tra i valori attesi e quelli reali, per un'istanza di dati. Il concetto, vecchio come Laplace, è stato reintrodotto in statistica da Abraham Wald a metà del XX secolo.^[2] In economia, ad esempio, si tratta generalmente di costi o di rimpianti. In classificazione statistica, rappresenta la penalità per la classificazione errata di un dato. Nella scienza attuariale, viene utilizzata in un contesto assicurativo per modellare le prestazioni pagate sui premi; si ritrova in particolare nei lavori di Harald Cramér negli anni '20^[3]. Nel controllo ottimo, è la penalità per il mancato raggiungimento del valore desiderato del funzionale di costo. Nella gestione dei rischi finanziari, la funzione è associata a una perdita monetaria.

In statistica classica (sia frequentista che bayesiana), una funzione di costo è generalmente usata come una sorta di convenzione matematica di fondo, anche se critici come William Edwards Deming e Nassim Nicholas Taleb hanno sostenuto che la funzione obiettivo dovrebbe riflettere un'esperienza empiricamente valida affinché sia usata per prendere decisioni reali.

Selezione di una funzione obiettivo

Una buona pratica statistica richiede la selezione di una funzione di stima coerente con l'effettiva variazione sperimentata nel contesto di una particolare applicazione. Pertanto, nella pratica, la selezione del metodo statistico da utilizzare per modellare un problema applicato dipende dalla conoscenza dei costi che si verificheranno a causa delle circostanze specifiche al problema^[4].

Un esempio comune riguarda la stima della "posizione". Sotto ipotesi statistiche tipiche, la media è il valore statistico usato per stimare quella posizione che minimizza l'errore con una funzione obiettivo quadratica, mentre la mediana è lo stimatore che minimizza l'errore con la funzione obiettivo che calcola la differenza assoluta. Stimatori si usano in altre circostanza, meno comuni.

In economia, quando un agente è agnostico rispetto al rischio, la funzione obiettivo viene semplicemente espressa come il valore atteso di una quantità monetaria, come il profitto, il reddito o la ricchezza alla fine di un periodo. Per gli agenti avversi al rischio (o amanti del rischio), la perdita viene misurata come la negata di una funzione di utilità e la funzione obiettivo da ottimizzare è il valore atteso dell'utilità.

Per la maggior parte degli algoritmi di ottimizzazione, è desiderabile avere una funzione di perdita che sia globalmente continua e differenziabile .

Due funzioni obiettivo molto comunemente usate sono l'errore quadratico medio, $L(a)=a^{2}$ e la devianza, $L(a)=|a|$ . Tuttavia, la devianza (che fa uso di un valore assoluto) ha lo svantaggio di non essere differenziabile in $a=0$ . Una funzione quadratica ha lo svantaggio di avere a essere dominata dai valori anomali, quando si effettua la somma su un insieme di valori $a$ (come in ${\textstyle \sum _{i=1}^{n}L(a_{i})}$ ), la somma finale tende ad essere il valore di alcuni dati particolarmente grandi di $a$ , piuttosto che l'espressione della media.

La scelta di una funzione obiettivo non è arbitraria e talvolta può essere vincolata dalle proprietà desiderabili che si vogliono sfruttare^[5]. Tra i principi di scelta vi sono, ad esempio, il requisito di completezza della classe di statistiche simmetriche nel caso di osservazioni i.i.d., il principio di informazione completa e altri ancora.

Nell'apprendimento automatico, la funzione obiettivo è centrale nel processo di apprendimento poiché rappresenta la misura di quanto il sistema (tipicamente una rete neurale) apprende. Di conseguenza, la scelta della funzione obiettivo è strettamente legata alle prestazioni degli algoritmi perché questi sono orientati ad ottenere i migliori valori possibili per la funzione, modificando, di conseguenza, i parametri del sistema (es: i pesi della rete) per avvicinarvisi.

Errore medio

Un valore molto semplice per la funzione obiettivo è data dalla misura dell'inconsistenza fra i valori attesi e quelli osservati^[6]. Questa misura è chiamato errore medio (in inglese: Mean Bias Error: MBE) ed è dato dalla media degli errori assoluti:

L({\hat {y}},y)={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})

dove ${\hat {y}}_{i}$ rappresentano i valori osservati rispetto ai valori attesi $y_{i}$ .

Questa misura è molto intuitiva e permette di identificare scostamenti sia positivi che negativi. Di contro, gli scostamenti si possono annullare a vicenda, in che implica una generale imprecisione del MBE.

Errore assoluto medio

Per ovviare al problema dell'annullamento dei valori, è stato introdotto l'errore assoluto medio (in inglese: Mean Absolute Error: MAE - chiamato anche Loss L1)^[7]. Si tratta della media del valore assoluto delle differenze fra previsioni e misure:

L({\hat {y}},y)={\frac {1}{n}}\sum _{i=1}^{n}|y_{i}-{\hat {y}}_{i}|

Questa funzione però ha un gradiente più complesso da calcolare data la sua discontinuità.

Funzione obiettivo quadratica

L'uso di una funzione obiettivo quadratica è comune (viene detta anche Loss L2), ad esempio quando si usano le tecniche dei minimi quadrati. Spesso una funzione quadratica è più matematicamente trattabile per via delle proprietà sulle varianze, oltre ad essere simmetrica. Su un insieme di elementi i, la funzione obiettivo quadratica è della forma:

L({\hat {y}},y)={\frac {1}{n}}\sum _{i=1}^{n}(y_{i}-{\hat {y}}_{i})^{2}

Molti metodi statistici, tra cui il test t, l'analisi di regressione, la progettazione di esperimenti, eccetera, utilizzano il metodo dei minimi quadrati applicati usando la teoria della regressione lineare, che si basa su una funzione obiettivo quadratica.

Funzione obiettivo 0-1

Nella statistica e nella teoria della decisione, una funzione obiettivo usata frequentemente è la funzione 0-1:

L({\hat {y}},y)=I({\hat {y}}\neq y),\,

dove $I$ è la funzione indicatrice.

Funzione obiettivo logaritmica

Molto usata in classificazione, la funzione obiettivo logaritmica, detta anche cross-entropy loss oppure log loss, misura le prestazioni di un modello di classificazione con uscite comprese fra 0 e 1:

L({\hat {y}},y)=-\sum _{i=1}^{n}(y_{i}\log({\hat {y}}_{i})+(1-y_{i})\log(1-{\hat {y}}_{i}))

Costo atteso

In alcuni contesti, il valore della funzione di costo stessa è una quantità casuale perché dipende dal risultato di una variabile casuale X.

In statistica

Sia la teoria statistica frequentista che quella bayesiana prendono una decisione basata sul valore atteso della funzione di costo; tuttavia, questa quantità è definita in modo diverso nei due paradigmi.

Costo atteso frequentista

Si ottiene prendendo il valore atteso rispetto alla distribuzione di probabilità, P _θ, dei dati osservati, X. Questo valore è anche chiamato funzione di rischio^[8]^[9]^[10]^[11] di una regola di decisione δ e parametro θ . Qui la regola di decisione dipende dal risultato di X. La funzione di rischio è data da:

R(\theta ,\delta )=\operatorname {E} _{\theta }L{\big (}\theta ,\delta (X){\big )}=\int _{X}L{\big (}\theta ,\delta (x){\big )}\,\mathrm {d} P_{\theta }(x).

Dove, θ è uno stato di natura fisso ma potenzialmente ignoto, X è un vettore di osservazioni stocasticamente tratte da una popolazione data, $\operatorname {E} _{\theta }$ è l'aspettativa su tutti i valori della popolazione di X, dP _θ è una misura di probabilità sullo spazio degli eventi di X (parametrizzato da θ ) e l'integrale è valutato su tutto il supporto di X

Costo atteso bayesiano

In un approccio bayesiano, l'aspettativa viene calcolata utilizzando la distribuzione a posteriori π^* del parametro θ :

\rho (\pi ^{*},a)=\int _{\Theta }L(\theta ,a)\,\mathrm {d} \pi ^{*}(\theta ).

Si dovrebbe quindi scegliere l'azione a^* che minimizza il costo previsto. Sebbene ciò comporti la scelta della stessa azione che scelta utilizzando il rischio frequentista, l'enfasi dell'approccio bayesiano è sull'interesse centrato nello scegliere l'azione ottimale in base ai dati osservati effettivi, mentre un problema molto più difficile riguarda come scegliere la regola di decisione ottimale frequentista, che è una funzione di tutte le possibili osservazioni.

Esempi in statistica

Per un parametro scalare θ, una funzione di decisione il cui output ${\hat {\theta }}$ è una stima di θ e una funzione di costo quadratica

L(\theta ,{\hat {\theta }})=(\theta -{\hat {\theta }})^{2},

la funzione di rischio diventa l'errore quadratico medio della stima,

R(\theta ,{\hat {\theta }})=\operatorname {E} _{\theta }(\theta -{\hat {\theta }})^{2}.

Nella stima della densità, il parametro ignoto è la densità di probabilità stessa. Come funzione di costo viene in genere scelta una norma in uno spazio funzionale appropriato. Ad esempio, per la norma L ²

L(f,{\hat {f}})=\|f-{\hat {f}}\|_{2}^{2}\,,

la funzione di rischio diventa l'errore quadratico integrato medio

R(f,{\hat {f}})=\operatorname {E} \|f-{\hat {f}}\|^{2}.\,

Scelte economiche in condizioni di incertezza

In economia, il processo decisionale in condizioni di incertezza è spesso modellato utilizzando la funzione di utilità von Neumann-Morgenstern nella variabile di interesse incerta. Poiché il valore di questa variabile è incerto, lo è anche il valore della funzione di utilità; è quindi il valore atteso dell'utilità che viene massimizzato.

Note

^ Entry ID 1570749, su iate.europa.eu, Terminologia interattiva per l'Europa. URL consultato il 22 luglio 2022.
^ A. Wald, Statistical Decision Functions, Wiley, 1950.
^ H. Cramér, On the mathematical theory of risk, in Centraltryckeriet, 1930.
^ J. Pfanzagl, Parametric Statistical Theory, Berlin, Walter de Gruyter, 1994, ISBN 978-3-11-013863-4.
^ B. Klebanov, Svetlozat T. Rachev e Frank J. Fabozzi, cap. 2, in Robust and Non-Robust Models in Statistics, New York, Nova Scientific Publishers, Inc., 2009.
^ (EN) Robert Gilmore Pontius, Olufunmilayo Thontteh e Hao Chen, Components of information for multiple resolution comparison between maps that share a real variable, in Environmental and Ecological Statistics, vol. 15, n. 2, giugno 2008, pp. 111–142, DOI:10.1007/s10651-007-0043-y. URL consultato il 22 luglio 2019.
^ (EN) Cj Willmott e K Matsuura, Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance, in Climate Research, vol. 30, 2005, pp. 79–82, DOI:10.3354/cr030079. URL consultato il 22 luglio 2019.
^ (EN) Risk of a statistical procedure, in Encyclopaedia of Mathematics, Springer e European Mathematical Society, 2002.
^ James O. Berger, Statistical decision theory and Bayesian Analysis, 2ª ed., New York, Springer-Verlag, 1985, ISBN 978-0-387-96098-2.
^ Morris DeGroot, Optimal Statistical Decisions, Wiley Classics Library, 2004 [1970], ISBN 978-0-471-68029-1.
^ Christian P. Robert, The Bayesian Choice, collana Springer Texts in Statistics, 2ª ed., New York, Springer, 2007, DOI:10.1007/0-387-71599-1, ISBN 978-0-387-95231-4.

Voci correlate

Funzione di costo

[1] Entry ID 1570749, su iate.europa.eu, Terminologia interattiva per l'Europa. URL consultato il 22 luglio 2022.

[2] A. Wald, Statistical Decision Functions, Wiley, 1950.

[3] H. Cramér, On the mathematical theory of risk, in Centraltryckeriet, 1930.

[4] J. Pfanzagl, Parametric Statistical Theory, Berlin, Walter de Gruyter, 1994, ISBN 978-3-11-013863-4.

[5] B. Klebanov, Svetlozat T. Rachev e Frank J. Fabozzi, cap. 2, in Robust and Non-Robust Models in Statistics, New York, Nova Scientific Publishers, Inc., 2009.

[6] (EN) Robert Gilmore Pontius, Olufunmilayo Thontteh e Hao Chen, Components of information for multiple resolution comparison between maps that share a real variable, in Environmental and Ecological Statistics, vol. 15, n. 2, giugno 2008, pp. 111–142, DOI:10.1007/s10651-007-0043-y. URL consultato il 22 luglio 2019.

[7] (EN) Cj Willmott e K Matsuura, Advantages of the mean absolute error (MAE) over the root mean square error (RMSE) in assessing average model performance, in Climate Research, vol. 30, 2005, pp. 79–82, DOI:10.3354/cr030079. URL consultato il 22 luglio 2019.

[8] (EN) Risk of a statistical procedure, in Encyclopaedia of Mathematics, Springer e European Mathematical Society, 2002.

[9] James O. Berger, Statistical decision theory and Bayesian Analysis, 2ª ed., New York, Springer-Verlag, 1985, ISBN 978-0-387-96098-2.

[10] Morris DeGroot, Optimal Statistical Decisions, Wiley Classics Library, 2004 [1970], ISBN 978-0-471-68029-1.

[11] Christian P. Robert, The Bayesian Choice, collana Springer Texts in Statistics, 2ª ed., New York, Springer, 2007, DOI:10.1007/0-387-71599-1, ISBN 978-0-387-95231-4.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]