Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario definisce i termini generali del machine learning, oltre ai termini specifici di TensorFlow.

A

ablazione

Una tecnica per valutare l'importanza di una funzionalità o di un componente rimuovendolo temporaneamente da un modello. Poi riaddestrare il modello senza questa funzionalità o quel componente e se il modello riaddestrato ha un rendimento notevolmente peggiore, la funzionalità o il componente rimosso sono stati probabilmente importanti.

Ad esempio, supponiamo di addestrare un modello di classificazione su 10 funzionalità e di ottenere l'88% di precisione sul set di test. Per controllare l'importanza della prima funzionalità, puoi addestrare nuovamente il modello utilizzando solo le altre nove funzionalità. Se le prestazioni del modello riaddestrato sono notevolmente peggiori (ad esempio, una precisione del 55%), la caratteristica rimossa probabilmente era importante. Al contrario, se il modello riavviato funziona altrettanto bene, è probabile che la funzionalità non sia così importante.

L'ablazione può anche aiutare a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, ad esempio un passaggio di pre-elaborazione dei dati

In entrambi i casi, puoi osservare come cambia (o meno) il rendimento del sistema dopo aver rimosso il componente.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: A e B. In genere, A è una tecnica esistente, mentre B è una nuova tecnica. I test A/B non solo determinano quale tecnica ha un rendimento migliore, ma anche se la differenza è statisticamente significativa.

I test A/B di solito confrontano una singola metrica su due tecniche. Ad esempio, come si confronta l'accuratezza del modello per due tecniche? Tuttavia, i test A/B possono anche confrontare un numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire i calcoli chiave necessari per gli algoritmi di deep learning.

I chip dell'acceleratore (o semplicemente gli acceleratori) possono significativamente aumenta la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU per uso generico. Sono ideali per l'addestramento neurali profonde e attività simili con elevata intensità di calcolo.

Ecco alcuni esempi di chip acceleratore:

Tensor Processing Unit di Google (TPU) con hardware dedicato per il deep learning.
Le GPU NVIDIA che, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per consentire l'elaborazione parallela, che può significativamente aumenta la velocità di elaborazione.

accuracy

#fundamentals

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 sbagliate avrebbe un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula di accuratezza per la classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

TP è il numero di veri positivi (previsioni corrette).
TN indica il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN indica il numero di falsi negativi (previsioni errate).

Confronta e contrapponi l'accuratezza con precisione e richiamo.

Fai clic sull'icona per visualizzare altre note.

Sebbene sia una metrica utile per alcune situazioni, l'accuratezza è molto fuorviante per altre. In particolare, l'accuratezza è di solito una metrica scarsa per valutare i modelli di classificazione che elaborano set di dati sbilanciati dalla classe.

Ad esempio, supponiamo che in una determinata città subtropicale nevichi solo 25 giorni al secolo. Dato che i giorni senza neve (la classe negativa) sono notevolmente numero di giorni con neve (classe positiva), il set di dati relativo alla neve per in questa città non c'è equilibrio di classe. Immagina un modello di classificazione binaria che dovrebbe prevedere se nevica o meno ogni giorno, ma prevede semplicemente "neve" ogni giorno. Questo modello è molto preciso, ma non ha potere predittivo. La tabella seguente riassume i risultati di un secolo di previsioni:

Categoria	Numero
VP	0
VN	36499
FP	0
FN	25

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36499) / (0 + 36499 + 0 + 25) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri una percentuale davvero impressionante, il modello non ha una capacità predittiva.

Precisione e richiamo sono in genere metriche più utili della precisione per la valutazione dei modelli addestrati su set di dati con classi sbilanciate.

Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate nel corso introduttivo al machine learning.

azione

#rl

Nel apprendimento per rinforzo, il meccanismo mediante il quale l'agente transizioni tra gli stati del ambiente. L'agente sceglie l'azione utilizzando un norme.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più utilizzate includono:

ReLU
Sigmoide

I grafici delle funzioni di attivazione non sono mai linee rette singole. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima riga ha una costante
valore y pari a 0, lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi
va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da infinito a +positivo, mentre i valori di y coprono l'intervallo da quasi 0 a +positivo
quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più elevata a 0,0,5 e pendenze in graduale diminuzione con l'aumentare del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano somma ponderata di tutti gli input in un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e dei pesi pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone è costituito da:

valore di input	peso inserito
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista di questa rete neurale scelga la funzione sigmoide come funzione di attivazione. In questo caso, il neurone calcola la funzione sigmoide di -2,0, che è approssimativamente 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) allo strato successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

Per saperne di più, consulta Reti neurali: funzioni di attivazione nel corso introduttivo al machine learning.

apprendimento attivo

Un approccio di formazione in cui algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare alla cieca un'esperienza di esempi etichettati, un algoritmo di apprendimento attivo cerca selettivamente gli esempi specifici di cui hanno bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che riscala i gradienti di ciascun parametro, assegnando a ciascun parametro un'velocità di apprendimento indipendente. Per una spiegazione completa, vedi questo articolo di AdaGrad.

agente

#rl

Nell'apprendimento per rinforzo, l'entità che utilizza un regolamento per massimizzare il ritorno previsto ottenuto dalla transizione tra stati dell' ambiente.

Più in generale, un agente è un software che pianifica ed esegue autonomamente una serie di azioni al fine di raggiungere un obiettivo, con la capacità di adattarsi alle variazioni del suo ambiente. Ad esempio, un agente basato su LLM potrebbe utilizzare un LLM per generare un piano anziché applicare un criterio di apprendimento tramite rinforzo.

clustering agglomerativo

#clustering

Consulta la sezione relativa al clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard di 10, il rilevamento di anomalie dovrebbe segnalare un valore pari a 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

Consulta la sezione AUC PR (area sotto la curva PR).

area sotto la curva ROC

Consulta AUC (area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra una vasta gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostri l'intelligenza generale artificiale potrebbe tradurre testo, comporre sinfonie e eccellere in giochi non ancora inventati.

intelligenza artificiale

#fundamentals

Un modello o un programma non umano in grado di risolvere attività complesse. Ad esempio, un programma o modello che traduce un testo, oppure un programma o modello che identifica le malattie dalle immagini radiologiche entrambi esibiscono intelligenza artificiale.

formalmente, il machine learning è un campo secondario dell'intelligenza l'intelligenza artificiale. Tuttavia, negli ultimi anni alcune organizzazioni hanno iniziato a utilizzare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una particolare parola o parte di una parola. L'attenzione si comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione può essere costituito somma ponderata in un insieme di input, in cui la La ponderazione di ogni input viene calcolata da un'altra parte del neurali profonde.

Fai riferimento anche all'auto-attenzione e l'auto-attenzione multi-testa, che sono i componenti di base dei Transformer.

Vedi LLM: che cos'è una grande lingua modello? in Machine Learning Crash Course per ulteriori informazioni sull'auto-attenzione.

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi spesso si riferiscono alle caratteristiche degli individui.

campionamento degli attributi

#df

Una tattica per addestrare una foresta decisionale in cui ogni L'albero decisionale prende in considerazione solo un sottoinsieme casuale di possibili features durante l'apprendimento della condizione. In genere, viene campionato un sottoinsieme diverso di funzionalità per ogni nodo. Al contrario, quando addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le possibili caratteristiche per ciascun nodo.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicino a 1,0, migliore è la capacità del modello di separare le classi.

Ad esempio, la seguente illustrazione mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) dalle classi negative (rettangoli viola). Questo modello non realisticamente perfetto ha una AUC di 1,0:

Una linea numerica con 8 esempi positivi da un lato e
9 esempi negativi dall'altro.

Al contrario, la seguente illustrazione mostra i risultati di un modello di classificazione che ha generato risultati casuali. Questo modello ha un AUC pari a 0,5:

Una linea numerica con 6 esempi positivi e 6 negativi.
La sequenza di esempi è positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positiva
negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0,0.

La maggior parte dei modelli si trova a metà tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi e i negativi, quindi ha un'AUC compresa tra 0,5 e 1,0:

Una linea numerica con 6 esempi positivi e 6 negativi.
La sequenza di esempi è negativa, negativa, negativa, negativa, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

L'AUC ignora qualsiasi valore impostato soglia di classificazione. Invece, l'AUC prende in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per scoprire la relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i valori positivi da quelli negativi è la seguente:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area è semplicemente la lunghezza della regione grigia (1,0) moltiplicata per la larghezza dell'area grigia (1,0). Pertanto, il prodotto di 1,0 e 1,0 genera un AUC pari esattamente a 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un classificatore che non può separare le classi è il seguente. L'area di questa regione grigia è 0,5.

Una curva ROC più tipica ha il seguente aspetto:

Sarebbe laborioso calcolare manualmente l'area sotto questa curva, per questo motivo un programma in genere calcola la maggior parte dei valori AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un classificatore abbia più fiducia nel fatto che un esempio positivo scelto a caso sia effettivamente positivo rispetto al fatto che un esempio negativo scelto a caso sia positivo.

Per ulteriori informazioni, consulta Classificazione: ROC e AUC nel corso introduttivo al machine learning.

realtà aumentata

#image

Una tecnologia che sovrappone un'immagine generata dal computer alla vista dell'utente del del mondo reale, fornendo così una vista composita.

autoencoder

#language

#image

Un sistema che impara a estrarre le informazioni più importanti di testo. I codificatori automatici sono una combinazione di un encoder e decoder. I codificatori automatici si basano sul seguente processo in due passaggi:

L'encoder mappa l'input a una dimensione (solitamente) con perdita di dati (intermedio).
Il decodificatore crea una versione con perdita dell'input originale mappando il formato di dimensioni inferiori al formato di input originale di dimensioni superiori.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decoder provi a ricostruisci l'input originale a partire dal formato intermedio dell'encoder il più vicino possibile. Poiché il formato intermedio è più piccolo (dimensioni inferiori) rispetto al formato originale, l'autoencoder viene forzato per capire quali informazioni nell'input sono essenziali e l'output non perfettamente identica all'input.

Ad esempio:

Se i dati di input sono un'immagine, la copia non esatta sarà simile all'immagine originale, ma leggermente modificata. Forse la copia non esatta rimuove rumore dall'immagine originale o riempie alcuni pixel mancanti.
Se i dati di input sono di tipo testo, un autoencoder genererà un nuovo testo che imita (ma non è identico) al testo originale.

Vedi anche autoencoder variazionali.

bias di automazione

#fairness

Quando un responsabile delle decisioni umano favorisce i consigli forniti da un decisionale basato sulle informazioni ottenute senza automazione, quando il sistema decisionale automatizzato commette errori.

Per saperne di più, consulta Equità: tipi di bias nel corso introduttivo al machine learning.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning . AutoML può eseguire automaticamente attività come:

Cerca il modello più appropriato.
Ottimizza gli iperparametri.
Prepara i dati (inclusa l'applicazione del feature engineering).
Eseguire il deployment del modello risultante.

AutoML è utile per i data scientist perché può far risparmiare tempo e impegno nello sviluppo di pipeline di machine learning e migliorare l'accuratezza delle previsioni. È utile anche per i non esperti, perché rende più accessibili le complesse attività di machine learning.

Per saperne di più, consulta Machine Learning automatizzato (AutoML) nel Machine Learning Crash Course.

modello autoregressivo

#language

#image

#generativeAI

Un modello che deduce una previsione in base al proprio modello precedente per le previsioni. Ad esempio, i modelli linguistici autoregressivi prevedono il prossimo token in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi poiché generano un'immagine in un singolo progresso in avanti e non iterativamente passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi in quanto generano un'immagine in passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme a una Principale della rete neurale del modello funzione di perdita, che consente di accelerare l'addestramento durante le prime iterazioni quando le ponderazioni vengono inizializzate in modo casuale.

Le funzioni di perdita ausiliarie trasmettono gradienti efficaci ai livelli precedenti. Questo facilita convergenza durante l'addestramento affrontando il problema di scomparsa del gradiente.

precisione media

Una metrica per riepilogare il rendimento di una sequenza di risultati classificata. La precisione media viene calcolata prendendo la media del i valori di precision per ogni risultato pertinente (ciascuno ha come risultato l'elenco classificato in cui il richiamo aumenta rispetto al risultato precedente).

Vedi anche Area sotto la curva PR.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che riguarda una sola caratteristica. Ad esempio, se l'area è una caratteristica, la seguente è una condizione allineata all'asse:

area > 200

Contrasta la condizione obliqua.

B

retropropagazione dell'errore

#fundamentals

L'algoritmo che implementa discesa del gradiente in reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante il passaggio in avanti, il sistema elabora un batch di esempi per generare una o più previsioni. Il sistema confronta ogni la previsione per ogni valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per quell'esempio. Il sistema aggrega le perdite di tutti gli esempi per calcolare la perdita totale per il batch corrente.
Durante il passaggio all'indietro (backpropagation), il sistema riduce la perdita modificando i pesi di tutti i neuroni in tutti i strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione determina se aumentare o diminuire i pesi applicati a determinati neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla il grado in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso di più di una un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione implementa la regola della catena. del calcolo. In altre parole, la retropropagazione calcola la derivata parziale dell'errore rispetto a ciascun parametro.

Anni fa, i professionisti del machine learning dovevano scrivere codice per implementare la retropropagazione. Le API ML moderne come Keras ora implementano la retropropagazione per te. Finalmente.

Vedi Reti neurali in Machine Learning Crash Course.

bagging

#df

Un metodo per addestrare un ensemble in cui ogni il modello del componente viene addestrato su un sottoinsieme casuale di esempi campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

Vedi Forestelle casuali nel corso sulle foreste decisionali per ulteriori informazioni.

bag of words

#language

Una rappresentazione delle parole in una frase o in un passaggio, a prescindere dall'ordine. Ad esempio, il bag of words rappresenta le seguenti tre frasi in modo identico:

il cane salta
fa saltare il cane
cane salta

Ogni parola è mappata a un indice di un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio: la frase il cane salta è mappata in un vettore di caratteristiche con valore diverso da zero ai tre indici corrispondenti alle parole the, dog e salti. Il valore diverso da zero può essere uno dei seguenti:

Un 1 per indicare la presenza di una parola.
Un conteggio del numero di volte in cui una parola compare nel bag. Ad esempio, se la frase fosse il cane marrone è un cane con pelo marrone, sia marrone che cane verrebbero rappresentati come 2, mentre le altre parole come 1.
Qualche altro valore, ad esempio il logaritmo del conteggio del numero di volte che una parola compare nel bag.

base di riferimento

Un modello utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere più complesso). Ad esempio, un modello di regressione logistica potrebbe essere un buon punto di riferimento per un modello di deep learning.

Per un problema specifico, la base aiuta gli sviluppatori di modelli a quantificare le prestazioni minime previste che un nuovo modello deve raggiungere perché sia utile.

batch

#fundamentals

L'insieme di esempi utilizzati in un addestramento iterazione. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione epocha per una spiegazione della relazione tra un batch e un'epoca.

Consulta Regressione lineare: Iperparametri in Machine Learning Crash Course.

inferenza batch

#TensorFlow

#GoogleCloud

Il processo di deduzione di previsioni su più esempi non etichettati suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallellizzazione dei chip di acceleratore. cioè più acceleratori possono dedurre contemporaneamente previsioni su diversi batch di degli esempi, aumentando drasticamente il numero di inferenze al secondo.

Consulta Sistemi di ML di produzione: statico e dinamico inferenza in Machine Learning Crash Course.

normalizzazione batch

Normalizzando l'input o l'output del funzioni di attivazione in un strato nascosto. La normalizzazione batch offrono i seguenti vantaggi:

Rendi le reti neurali più stabili proteggendo rispetto ai pesi outlier.
Attivare tassi di apprendimento più elevati, che possono un allenamento veloce.
Ridurre l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate le strategie più comuni per la dimensione dei batch:

Stochastic Gradient Descent (SGD), con dimensione del batch pari a 1.
Batch completo, in cui la dimensione del batch è il numero di esempi nell'intero set di addestramento. Ad esempio, se l'insieme di addestramento contiene un milione di esempi, la dimensione del batch sarà di un milione di esempi. Generalmente, l'intero batch è una strategia inefficiente.
mini-batch in cui la dimensione del batch di solito è compresa 10 e 1000. In genere, la strategia più efficiente è quella dei mini-batch.

Per ulteriori informazioni, consulta quanto segue:

Sistemi di ML di produzione: statici e dinamici inferenza in Machine Learning Crash Course.
Playbook sull'ottimizzazione del deep learning.

Rete neurale bayesiana

Una rete neurale probabilistica che tiene conto dell'incertezza nei pesi e negli output. Una rete neurale standard il modello di regressione in genere prevede un valore scalare; Ad esempio, un modello standard prevede il prezzo di una casa 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori. Ad esempio, un modello bayesiano prevede un prezzo di una casa di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli relativi ai prodotti farmaceutici. Le reti neurali bayesiane possono anche contribuire a evitare il sovraffittamento.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni oggettive di calcolo costoso ottimizzando invece un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiana. Poiché l'ottimizzazione bayesiana è molto costosa, in genere viene utilizzata per ottimizzare attività di valutazione complesse che hanno un numero ridotto di parametri, come la selezione degli iperparametri.

Equazione di Bellman

#rl

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla definizione Funzione Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questo identità per creare il Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre all'apprendimento per rinforzo, l'equazione di Bellman ha applicazioni programmazione dinamica. Consulta la voce di Wikipedia sull'equazione di Bellman.

BERT (Bidirectional Encoder rappresentazioni dei trasformatori)

#language

Un'architettura modello per la rappresentazione del testo. Un modello BERT addestrato può essere parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT presenta le seguenti caratteristiche:

Utilizza l'architettura Transformer e, pertanto, si basa sull'auto-attenzione.
Utilizza la parte di codifica del Transformer. Il compito dell'encoder consiste nel produrre buone rappresentazioni di testo, piuttosto che eseguire una specifica come la classificazione.
È bidirezionale.
Utilizza il mascheramento per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, che è un acronimo di A Light BERT.
LaBSE.

Per una panoramica di BERT, consulta Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing.

bias (etica/equità)

#fairness

#fundamentals

1. Stereotipi, pregiudizi o pregiudizi nei confronti di alcune cose, persone o gruppi rispetto ad altri. Questi bias possono influire sulla raccolta e sull'interpretazione dei dati, sulla progettazione di un sistema e sul modo in cui gli utenti interagiscono con un sistema. Le forme di questo tipo di bias includono:

bias di automazione
differenziazione di conferma
pregiudizi dell'sperimentatore
bias di attribuzione di gruppo
pregiudizi impliciti
bias in-group
bias di omogeneità fuori gruppo

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Le forme di questo tipo di bias includono:

bias di copertura
bias di mancata risposta
bias di partecipazione
Bias di segnalazione
bias di campionamento
bias di selezione

Da non confondere con il termine di bias nei modelli di machine learning o bias di previsione.

Per ulteriori informazioni, consulta la sezione Equità: tipi di bias nel capitolo introduttivo al machine learning.

bias (matematico) o termine bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro dei modelli di machine learning, simboleggiato da uno dei seguenti elementi:

b
w₀

Ad esempio, la bias è b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, il bias significa semplicemente "intercetta y". Ad esempio, la parzialità della linea nell'illustrazione seguente è 2.

Il grafico di una linea con una pendenza di 0,5 e un bias (intercetta sull'asse y) di 2.

Il bias esiste perché non tutti i modelli partono dall'origine (0,0). Ad esempio: supponiamo che l'ingresso a un parco divertimenti costi 2 euro e una 0,5 € per ogni ora di soggiorno del cliente. Di conseguenza, un modello che mappa il costo totale è di 2 perché il costo più basso è di 2 euro.

I pregiudizi non devono essere confusi con i pregiudizi etici e corretti o bias di previsione.

Per saperne di più, consulta la sezione Regressione lineare nel corso introduttivo al machine learning.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo target. Al contrario, un solo sistema unidirezionale valuta il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico con maschera che deve determinare le probabilità per la parola o le parole che rappresentano il tratto sottolineato nella seguente domanda:

Cosa _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "Che cosa", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe anche acquisire il contesto da "con" e "tu", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo in base al testo precedente e successivo.

bigramma

#seq

#language

Un n-gramma in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che predittivo una di due classi mutuamente esclusive:

la classe positiva
la classe negativa

Ad esempio, ognuno dei due modelli di machine learning seguenti per la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona presenta una particolare patologia (la classe positiva) o non presenta questa patologia malattia (la classe negativa).

È diverso dalla classificazione multiclasse.

Vedi anche regressione logistica e soglia di classificazione.

Consulta la sezione Classificazione in Machine Learning Crash Course.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere sì o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

È il contrario della condizione non binaria.

Vedi Tipi di condizioni nel corso sulle foreste decisionali per ulteriori informazioni.

Binning

Sinonimo di bucketing.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0,0 e 1,0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). Un punteggio BLEU di 1,0 indica una traduzione perfetta; un punteggio BLEU di 0,0 indica una traduzione terribile.

potenziamento

Una tecnica di machine learning che combina in modo iterativo un insieme di classificatori semplici e non molto accurati (chiamati classificatori "deboli") in un classificatore con elevata precisione (un classificatore "forte") assegnando un peso maggiore agli esempi che il modello attualmente classifica erroneamente.

Vedi Gradient Boosted Decision Alberi? nel corso sulle foreste decisionali per ulteriori informazioni.

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo intorno a un'area di come il cane nell'immagine qui sotto.

Fotografia di un cane seduto su un divano. Un riquadro delimitante verde
con coordinate in alto a sinistra (275, 1271) e in basso a destra
(2954, 2761) che delimita il corpo del cane

trasmissione

Espansione della forma di un operando in un'operazione matematica matriciale in dimensioni compatibili per l'operazione. Ad esempio, la algebra lineare richiede che i due operandi in un'operazione di somma di matrici devano avere le stesse dimensioni. Di conseguenza non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione abilita questa operazione espandere virtualmente il vettore di lunghezza n a una matrice di forma (m, n) di replicando gli stessi valori in ogni colonna.

Ad esempio, date le definizioni seguenti, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B in:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Vedi la seguente descrizione trasmissione in NumPy per ulteriori dettagli.

il bucketing

#fundamentals

Conversione di una singola funzionalità in più funzionalità binarie chiamate bucket o bin, tipicamente basate su un intervallo di valori. La caratteristica suddivisa è in genere una funzionalità continua.

Ad esempio, invece di rappresentare la temperatura come un singolo funzione rappresentazione in virgola mobile continua, potresti tagliare intervalli di temperature in bucket discreti come:

<= 10 gradi Celsius è il bucket "freddo".
11-24 gradi Celsius sarebbe la temperatura "temperata" di sincronizzare la directory di una VM con un bucket.
>= 25 gradi Celsius è la temperatura "calda" di sincronizzare la directory di una VM con un bucket.

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Per Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temperato, quindi tratta i due valori in modo identico.

Fai clic sull'icona per ulteriori note.

Se rappresenti la temperatura come una caratteristica continua, il modello la tratta come una singola caratteristica. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come caratteristica separata. Ciò significa che un modello può apprendere relazioni separate di ciascun bucket etichetta. Ad esempio, un Il modello di regressione lineare può apprendere ponderazioni separate per ogni bucket.

Aumentare il numero di bucket complica il modello perché aumenta il numero di relazioni che deve apprendere. Ad esempio, i bucket freddi, temperati e caldi sono essenzialmente tre caratteristiche separate su cui addestrare il tuo modello. Se decidi di aggiungere altri due bucket, ad esempio "congelamento" e "hot", il modello devono essere addestrati su cinque diverse funzionalità.

Come fai a sapere quanti bucket creare o quali devono essere gli intervalli per ogni bucket? Le risposte richiedono in genere una degli esperimenti.

Per ulteriori informazioni, consulta Dati numerici: gruppi nel corso introduttivo al machine learning.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto del bias di previsione. Le probabilità e le predizioni aggiustate devono corrispondere alla distribuzione di un insieme di etichette osservato.

generazione di candidati

#recsystems

L'insieme iniziale di consigli scelti da un sistema di consigli. Ad esempio, considera una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più piccolo di libri adatti per un determinato utente, ad esempio 500. Tuttavia, anche 500 libri sono troppi da consigliare a un utente. In seguito, più costoso, fasi di un sistema di suggerimenti (come il punteggio e riclassificazione) riduci a molto meno questi 500, insieme di consigli più utili.

Per ulteriori informazioni, consulta la Panoramica della generazione di candidati nel corso sui sistemi di raccomandazione.

campionamento dei candidati

Un'ottimizzazione dei tempi di addestramento che calcola una probabilità per tutte le Etichette positive, utilizzando, ad esempio, softmax, ma solo per un intervallo campione di etichette negative. Ad esempio, dato un esempio etichettato come beagle e cane, il campionamento dei candidati calcola le probabilità previste e i termini di perdita corrispondenti per:

beagle
cane
un sottoinsieme casuale delle classi negative rimanenti (ad es. gatto, lecca-lecca, recinzione).

L'idea è che Le classi escluse possono apprendere da una frequenza meno frequente rinforzo negativo purché Le classi positive ricevono sempre un numero positivo adeguato il rafforzamento, che è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, consideriamo un attributo categorico denominato traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come caratteristica categorica, un modello può apprendere impatti diversi di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche vengono a volte chiamate caratteristiche discrete.

È diverso dai dati numerici.

Per ulteriori informazioni, consulta la sezione Utilizzo dei dati categorici nel corso introduttivo al machine learning.

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Consulta il modello linguistico bidirezionale per i diversi approcci direzionali nella modellazione linguistica.

baricentro

#clustering

Il centro di un cluster determinato da un algoritmo k-means o k-mediana. Ad esempio, se k è 3, l'algoritmo k-means o k-median trova 3 centroidi.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

Clustering basato su centroidi

#clustering

Una categoria di algoritmi di clustering che organizzano i dati in cluster non gerarchici. K-means è l'algoritmo di clustering basato su centroidi più utilizzato.

A differenza degli algoritmi di clustering gerarchico.

Per saperne di più, consulta la sezione Algoritmi di clustering nel corso Clustering.

Chain-of-Thought Prompting

#language

#generativeAI

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) per spiegare la sua il ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g vengono sperimentate da un conducente in un'auto che passa da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta dell'LLM sarebbe probabilmente:

Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei punti appropriati.
Spiega perché ha scelto queste formule e il significato delle varie variabili.

La Chain-of-Thought Prompting costringe l'LLM a eseguire tutti i calcoli, che potrebbero portare a una risposta più corretta. Inoltre, la "catena di pensiero" consente all'utente di esaminare i passaggi dell'LLM per determinare se o meno la risposta abbia senso.

chat

#language

#generativeAI

I contenuti di un dialogo con un sistema di ML, in genere un modello linguistico di grandi dimensioni. L'interazione precedente in una chat (ciò che hai digitato e la risposta del modello linguistico di grandi dimensioni) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello durante o al termine dell'addestramento. Ad esempio, durante l'addestramento, puoi:

Interrompere l'addestramento, magari intenzionalmente o forse in seguito a alcuni errori.
Acquisisci il checkpoint.
In seguito ricarica il checkpoint, possibilmente su hardware diverso.
Riavvia addestramento.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identificano le razze canine, le classi possono essere barboncini, beagle, carlini, e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

Consulta la sezione Classificazione in Machine Learning Crash Course.

modello di classificazione

#fundamentals

Un modello la cui previsione è una classe. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? l'italiano?).
Un modello che prevede le specie di alberi (acero? Rovere? Baobab?).
Un modello che prevede la classe positiva o negativa per una determinata condizione medica.

Al contrario, i modelli di regressione prevedono numeri piuttosto che classi.

Due tipi comuni di modelli di classificazione sono:

classificazione binaria
classificazione multiclasse

soglia di classificazione

#fundamentals

In una classificazione binaria, una numero compreso tra 0 e 1 che converte l'output non elaborato di un Modello di regressione logistica in una previsione della classe positiva o la classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non è un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

Se questo valore non elaborato è superiore alla soglia di classificazione, viene prevista la classe positiva.
Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influisce notevolmente sul numero di falsi positivi e falsi negativi.

Fai clic sull'icona per ulteriori note.

Con l'evoluzione dei modelli o dei set di dati, a volte gli ingegneri modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni di classi positive possono diventare improvvisamente classi negative e viceversa.

Ad esempio, consideriamo un modello di previsione della malattia con classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore non elaborato per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente sussulta, "Oh, no! Non mi sento bene!")

Un anno dopo, forse i valori ora si presentano come segue:

Il valore non elaborato per lo stesso paziente rimane 0,95.
La soglia di classificazione cambia in 0,97.

Pertanto, il sistema ora riclassifica tale paziente come classe negativa. ("Buona giornata! Non sono malato". Stesso paziente. Diagnosi diversa.

Consulta Soglie e confusione una matrice in Machine Learning Crash Course.

set di dati sbilanciato per classe

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe è molto diverso. Ad esempio, prendiamo un set di dati di classificazione binaria le cui due etichette sono suddivise come segue:

1.000.000 di etichette escluse
10 etichette positive

Il rapporto tra etichette negative e positive è 100.000 a 1, quindi questo è un set di dati di tipo sbilanciato delle classi.

Al contrario, il seguente set di dati non presenta uno sbilanciamento delle classi perché il rapporto tra etichette negative ed etichette positive è relativamente vicino a 1:

517 etichette escluse
483 etichette positive

Anche i set di dati con più classi possono essere sbilanciati. Ad esempio, il set di dati di classificazione multiclasse è anch'esso sbilanciato dalle classi perché un'etichetta contiene molti più esempi rispetto agli altri due:

1.000.000 etichette con la classe "verde"
200 etichette con la classe "purple"
350 etichette con la classe "arancione"

Vedi anche entropia, classe di maggioranza, e classe di minoranza.

clipping

#fundamentals

Una tecnica per gestire gli outlier mediante una o entrambe le seguenti opzioni:

Ridurre i valori di feature superiori a un valore massimo fino alla soglia massima.
Aumento dei valori delle caratteristiche che sono inferiori a una soglia minima fino a quel momento una soglia minima.

Ad esempio, supponiamo che <0,5% dei valori di una particolare caratteristica rientri al di fuori dell'intervallo 40-60. In questo caso, potresti procedere nel seguente modo:

Taglia tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Ritaglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, a volte causando ponderazioni durante l'addestramento. Alcuni outlier possono anche danneggiare significativamente come la accuratezza. Il clipping è una tecnica comune per limitare i danni.

Forze taglio della sfumatura valori del gradiente entro un intervallo designato durante l'addestramento.

Consulta la sezione Dati numerici: Normalizzazione in Machine Learning Crash Course.

Cloud TPU

#TensorFlow

#GoogleCloud

Un acceleratore hardware specializzato progettato per accelerare carichi di lavoro di machine learning su Google Cloud.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, una persona può facoltativamente assegnare un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, l'algoritmo k-means agrupa gli esempi in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un ricercatore umano potrebbe quindi esaminare i cluster e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi di dimensioni standard".

Come altro esempio, prendiamo in considerazione un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, illustrato come segue:

Decine di punti dati sono disposti in cerchi concentrici, quasi come fori intorno al centro di una tavola da freccette. L'anello più interno
di punti dati è classificato come cluster 1, l'anello centrale
è classificato come cluster 2 e l'anello più esterno
cluster 3.

Per ulteriori informazioni, consulta il corso sul clustering.

co-adattamento

Quando i neuroni prevedono modelli nei dati di addestramento basandosi quasi esclusivamente sugli output di altri specifici neuroni, invece di fare affidamento sul comportamento della rete nel suo complesso. Quando gli schemi che causano la co-adattazione non sono presenti nei dati di convalida, la co-adattazione causa un adattamento eccessivo. La regolarizzazione con dropout riduce la co-adattazione perché il dropout garantisce che i neuroni non possano fare affidamento esclusivamente su altri neuroni specifici.

Filtro collaborativo

#recsystems

Effettuare previsioni sugli interessi di un utente in base agli interessi di molti altri utenti. Il filtraggio collaborativo viene spesso utilizzato nei sistemi di consigli.

Per saperne di più, consulta la sezione Filtro collaborativo nel corso sui sistemi di raccomandazione.

Spostamento del concetto

Uno spostamento nella relazione tra caratteristiche ed etichetta. Nel tempo, la deviazione concettuale riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buoni proxy per il mondo reale, il modello dovrebbe fare buone previsioni nel mondo reale. Tuttavia, a causa della deviazione concettuale, il modello le previsioni tendono a peggiorare nel tempo.

Ad esempio, considera una classificazione binaria modello di auto che preveda se un determinato modello di auto è "a basso consumo". In altre parole, le caratteristiche potrebbero essere:

peso dell'auto
compressione del motore
transmission type

mentre l'etichetta è:

a basso consumo di carburante
non a basso consumo di carburante

Tuttavia, il concetto di "auto a basso consumo di carburante" continua a cambiare. Un modello di auto etichettato come a basso consumo di carburante nel 1994 verrebbe quasi certamente etichettato come a elevato consumo di carburante nel 2024. Un modello che soffre di deriva del concetto tende a fare previsioni sempre meno utili nel tempo.

Confronta e contrapponi con la non stazionarietà.

Fai clic sull'icona per visualizzare altre note.

Per compensare la deriva del concetto, addestra nuovamente i modelli più velocemente del tasso di deriva del concetto. Ad esempio, se la deriva del concetto riduce la precisione del modello di un margine significativo ogni due mesi, riaddestra il modello più spesso di ogni due mesi.

condizione

#df

In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di un albero decisionale contiene due condizioni:

Una struttura decisionale composta da due condizioni: (x > 0) e
(y > 0).

Una condizione è chiamata anche suddivisione o test.

Contrasta la condizione con foglia.

Vedi anche:

condizione binaria
condizione non binaria.
axis-aligned-condition
condizione-obliqua

Per ulteriori informazioni, consulta la sezione Tipi di condizioni nel corso Foreste di decisione.

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico dell'allucinazione. Tuttavia, l'allucinazione è diventata popolare per prima.

configurazione

La procedura di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, tra cui:

i livelli di composizione del modello
la posizione dei dati
iperparametri come:

Nei progetti di machine learning, la configurazione può essere eseguita tramite un file di configurazione speciale o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#fairness

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in un che confermi le convinzioni o le ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero raccogliere o etichettare inavvertitamente i dati in modo da influenzare un risultato che supporti le loro convinzioni esistenti. Il bias di conferma è una forma di pregiudizio implicito.

Il bias dell'esperimento è una forma di bias di conferma, in cui uno sperimentatore continua ad addestrare i modelli finché ipotesi è confermata.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette ed errate effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Non tumorale (previsione)
Tumore (dati empirici reali)	18 (VP)	1 (FN)
Non tumori (dati empirici reali)	6 (FP)	452 (VN)

La matrice di confusione precedente mostra quanto segue:

Delle 19 previsioni in cui i dati empirici reali riguardavano Tumor, il modello è classificato correttamente 18 e classificato in modo errato 1.
Delle 458 previsioni in cui il valore basato su dati empirici reali era Non-Tumor, il modello ha classificato correttamente 452 e erroneamente 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare schemi di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a 3 classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando la verità di fondo fu Virginica, la matrice di confusione mostra che il modello era molto più propenso a generare prevedere Versicolor anziché Setosa:

	Setosa (prevista)	Versicolor (prevista)	Virginica (previsto)
Setosa (dati di fatto)	88	12	0
Versicolor (dato di fatto)	6	141	7
Virginica (dati di fatto)	2	27	109

Un altro esempio è che una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano libera tende a prevedere erroneamente 9 anziché 4, o prevedere erroneamente 1 invece di 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche delle prestazioni, tra cui la precisione e richiamo.

analisi del collegio elettorale

#language

Suddivisione di una frase in strutture grammaticali più piccole ("componenti"). Una parte successiva del sistema di ML, ad esempio un modello di comprensione del linguaggio naturale, può analizzare i costituenti più facilmente della frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un parser di costituenti può suddividere questa frase nei seguenti due costituenti:

Il mio amico è una frase nominale.
adopted two cats è una frase verbale.

Questi componenti possono essere ulteriormente suddivisi in componenti più piccoli. Ad esempio, la frase verbale

ha adottato due gatti

può essere ulteriormente suddiviso in:

adopted è un verbo.
due gatti è un'altra frase nominale.

Embedding del linguaggio contestualizzato

#language

#generativeAI

Un embedding che si avvicina alla "comprensione" di parole e frasi come farebbe un madrelingua. Linguaggio contestualizzato gli incorporamenti sono in grado di comprendere sintassi, semantica e contesto complessi.

Considera ad esempio le rappresentazioni distribuite della parola inglese cow. Incorporamenti meno recenti ad esempio word2vec può rappresentare l'inglese parole in modo che la distanza nello spazio di incorporamento da mucca a toro è simile alla distanza tra pecora (femmina) a ariete (maschio di pecora) o da femmina a maschio. Linguaggio contestualizzato gli incorporamenti possono fare un passo in più, riconoscendo che a volte gli anglofoni usare casualmente la parola mucca per indicare mucca o toro.

finestra di contesto

#language

#generativeAI

Il numero di token che un modello può elaborare in un determinato prompt. Maggiore è la finestra di contesto, più informazioni può utilizzare il modello per fornire risposte coerenti e coese al prompt.

funzione continua

#fundamentals

Una caratteristica in virgola mobile con una gamma infinita di possibili come temperatura o peso.

Crea un contrasto con una funzionalità discreta.

campionamento di convenienza

Utilizzo di un set di dati non raccolto scientificamente per eseguire rapide esperimenti. In un secondo momento, è essenziale passare a un set di dati raccolto in modo scientifico.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di loss cambiano molto poco o per nulla con ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:

Grafico cartesiano. L'asse X è in perdita. L'asse Y indica il numero di
iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
diminuisce drasticamente. Dopo circa 100 iterazioni, la perdita è ancora in calo, ma molto più gradualmente. Dopo circa 700 iterazioni,
la perdita rimane invariata.

Un modello converge quando non serve addestramento aggiuntivo migliorare il modello.

Nel deep learning, a volte i valori di perdita rimangono costanti o quasi per molte iterazioni prima di diminuire definitivamente. Durante un lungo periodo di valori di perdita costanti, potresti avere temporaneamente un falso senso di convergenza.

Vedi anche interruzione anticipata.

Per ulteriori informazioni, consulta la sezione Convergenza del modello e curve di perdita nel corso introduttivo al machine learning.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è una insieme convesso: La funzione convessa prototipica è a forma di qualcosa come la lettera U. Ad esempio, le seguenti sono tutte funzioni convesse:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la funzione seguente non è convessa. Nota che la regione sopra il grafico non è un insieme convesso:

Una curva a forma di W con due diversi punti minimi locali.

Una funzione strettamente convessa ha esattamente un punto minimo locale, che è anche il punto minimo globale. Le funzioni classiche a forma di U sono funzioni strettamente convesse. Tuttavia, alcune funzioni convesse (ad esempio le linee rette) non hanno forma a U.

Fai clic sull'icona per una visualizzazione più approfondita del calcolo.

Molte delle funzioni di perdita più comuni, tra cui seguenti sono funzioni convesse:

Perdita L₂
Perdita logaritmica
Regolarizzazione L₁
L₂ regolarizzazione

Molte varianti della discesa del gradiente troveranno un punto vicino al minimo di funzione strettamente convessa. Analogamente, molte varianti discesa stocastica del gradiente ha un'alta probabilità (anche se non è una garanzia) di trovare un punto vicino al minimo di funzione strettamente convessa.

La somma di due funzioni convessi (ad esempio, perdita L₂ + regolarizzazione L₁) è una funzione convessa.

I modelli deep non sono mai funzioni convesse. Sorprendentemente, gli algoritmi progettati per L'ottimizzazione convessa tendono a trovare ragionevolmente buone su reti profonde, anche se non è garantito che queste soluzioni siano un minimo globale.

Per ulteriori informazioni, consulta la sezione Funzioni di convergenza e convesse nel corso introduttivo al machine learning.

ottimizzazione convessa

Il processo di utilizzo di tecniche matematiche come discesa del gradiente per trovare il minimo di una funzione convessa. Gran parte della ricerca nel machine learning si è concentrata sulla formulazione di vari problemi come problemi di ottimizzazione convessa e sulla loro risoluzione in modo più efficiente.

Per i dettagli completi, si veda Boyd e Vandenberghe, Convex Ottimizzazione.

insieme convesso

Un sottoinsieme dello spazio euclideo in modo che una linea tracciata tra due punti qualsiasi rimane completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un'illustrazione di un rettangolo. Un'altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Illustrazione di un grafico a torta con una fetta mancante.
Un'altra illustrazione di un poligono molto irregolare.

convoluzione

#image

In matematica, in modo casuale, un mix di due funzioni. Nella macchina di machine learning, una convoluzione mescola la convoluzione filtro e la matrice di input per addestrare le ponderazioni.

Il termine "convoluzione" nel machine learning è spesso un modo abbreviato per fare riferimento all'operazione di convoluzione o al livello di convoluzione.

Senza le convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso distinto per ogni cella di un grande tensore. Ad esempio, un algoritmo di machine learning addestrato su immagini 2K x 2K sarebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, viene usata l'algoritmo deve trovare i pesi solo per ogni cella filtro convoluzionale, che riduce drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato il filtro convoluzionale, viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata per il filtro.

Consulta l'articolo Introduzione alla rete neurale convoluzionale Reti nel corso Classificazione delle immagini per ulteriori informazioni.

filtro convoluzionale

#image

Uno dei due attori in una operazioni convoluzionali. L'altro attore è un'estrazione di una matrice di input. Un filtro convoluzionale è una matrice con lo stesso rango della matrice di input, ma di dimensioni inferiori. Ad esempio, data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccolo di 28 x 28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale vengono in genere è impostato su uno schema costante di uno e zero. Nel machine learning, i filtri convoluzionali vengono generalmente avviati con numeri casuali e poi la rete li addestra ai valori ideali.

Vedi Convolution nel corso Classificazione delle immagini per ulteriori informazioni.

livello convoluzionale

#image

Un livello di una rete neurale profonda in cui un filtro convoluzionale passa lungo un input . Ad esempio, considera il seguente filtro convoluzionale:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

La seguente animazione mostra un livello convoluzionale di 9 le operazioni convoluzionali che coinvolgono la matrice di input 5x5. Tieni presente che ogni operazione di convoluzione agisce su un diverso segmento 3x3 della matrice di input. La matrice 3x3 risultante (a destra) è composta dai risultati delle 9 e operazioni convoluzionali:

Per saperne di più, consulta la sezione Livelli completamente connessi nel corso Classificazione delle immagini.

rete neurale convoluzionale

#image

Una rete neurale in cui almeno uno strato è un strato convoluzionale. Una tipica rete neurale convolzionale è costituita da una combinazione dei seguenti livelli:

livelli convoluzionali
livelli di pooling
Livelli densi

Le reti neurali convoluzionali hanno avuto un grande successo in determinati tipi di problemi, come il riconoscimento delle immagini.

operazione convoluzionale

#image

La seguente operazione matematica in due passaggi:

Moltiplicazione elemento per elemento del filtro convoluzionale e di una fetta di una matrice di input. Il segmento della matrice di input ha lo stesso rango e le stesse dimensioni del filtro convoluzionale.
Somma di tutti i valori nella matrice del prodotto risultante.

Considera ad esempio la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37.24.28.197.182], [33.28.92.195.179], [31.40.100.192.177].

Ora immagina il seguente filtro convoluzionale 2 x 2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione convoluzionale coinvolge una singola sezione 2x2 una matrice di input. Ad esempio, supponiamo di utilizzare il sezionamento 2x2 in alto a sinistra della matrice di input. Pertanto, l'operazione di convergenza su questo segmento è la seguente:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra della matrice di input, ovvero [[128,97], [35,22]].
Il filtro convoluzionale lascia intatti i moduli 128 e 22, ma gli zeri
il 97 e il 35. Di conseguenza, l'operazione di convergenza genera
il valore 150 (128 + 22).

Un livello convoluzionale è costituito da un serie di operazioni convoluzionali, ciascuna che agisce su una sezione diversa della matrice di input.

costo

Sinonimo di perdita.

addestramento collaborativo

Un approccio di apprendimento semi-supervisionato particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi senza etichetta e Gli esempi etichettati nel set di dati sono alti.
Si tratta di un problema di classificazione (binaria o multiclasse).
Il dataset contiene due diversi set di caratteristiche predittive indipendenti l'una dall'altra e complementari.

Il co-training amplifica essenzialmente gli indicatori indipendenti in un indicatore più forte. Ad esempio, considera un modello di classificazione che classifica le singole auto usate come Buono o Scadente. Un set di le caratteristiche predittive potrebbero concentrarsi su caratteristiche aggregate come anno, marca e modello dell'auto; un altro insieme di caratteristiche predittive potrebbe concentrarsi il libretto di guida del proprietario precedente e la cronologia degli interventi di manutenzione dell'auto.

L'articolo principale sulla co-addestramento è Combinare dati etichettati e non etichettati con Co-training di Blum e Mitchell.

equità controfattuale

#fairness

Una metrica di equità che verifica se un classificatore produce per un individuo lo stesso risultato che per un altro individuo identico al primo, tranne che in relazione a uno o più attributi sensibili. Valutazione di un classificatore per l'equità controfattuale è un metodo per far emergere potenziali fonti di pregiudizi esistenti in un modello.

Per ulteriori informazioni, consulta una delle seguenti risorse:

Equità: contenuti controfattuale equità in Machine Learning Crash Course.
When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness

bias di copertura

#fairness

Consulta la sezione relativa al bias di selezione.

arresto anomalo

#language

Una frase o una frase con un significato ambiguo. Le fioriture dei arresti anomali rappresentano un grave problema in naturali la comprensione delle lingue. Ad esempio, il titolo Nastro rosso regge un grattacielo è un perché un modello NLU potrebbe interpretare il titolo letteralmente o in senso figurato.

Fai clic sull'icona per ulteriori note.

Giusto per chiarire il titolo misterioso:

Burocrazia può fare riferimento a uno dei seguenti elementi:
- Un adesivo
- Burocrazia eccessiva
Aspetta può riferirsi a uno dei seguenti termini:
- Supporto strutturale
- Ritardi

critico

#rl

Sinonimo di Deep Q-Network.

entropia incrociata

Una generalizzazione della perdita di log per problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplessità.

convalida incrociata

Un meccanismo per stimare la capacità di un modello di generalizzare nuovi dati testando il modello su uno o più sottoinsiemi di dati non sovrapposti trattenute dal set di addestramento.

funzione di distribuzione cumulativa (CDF)

Una funzione che definisce la frequenza dei campioni minore o uguale a valore target. Considera ad esempio una normale distribuzione di valori continui. Una CDF indica che circa il 50% dei campioni deve essere inferiore o uguale alla media e che circa l'84% dei campioni deve essere inferiore o uguale a una deviazione standard sopra la media.

D

analisi dei dati

Ottenere una comprensione dei dati tenendo conto di campioni, misurazioni e visualizzazione. L'analisi dei dati può essere particolarmente utile quando viene ricevuto per la prima volta, prima di creare il primo modello. È inoltre fondamentale per comprendere gli esperimenti e i problemi di debug del sistema.

aumento dei dati

#image

Aumentare artificialmente l'intervallo e il numero di esempi di addestramento tramite la trasformazione di esempi esistenti per creare esempi aggiuntivi. Ad esempio: supponiamo che le immagini siano uno dei tuoi features, ma il tuo set di dati no Deve contenere un numero sufficiente di esempi di immagini per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere al set di dati un numero sufficiente di immagini etichettate per consentire al modello di addestrarsi correttamente. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, producendo eventualmente dati etichettati sufficienti per consentire un'ottima formazione.

DataFrame

#fundamentals

Un tipo di dati panda molto diffuso per la rappresentazione set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna di un DataFrame è strutturata come un array 2D, tranne per il fatto che a ogni colonna può essere assegnato un proprio tipo di dati.

Vedi anche i link ufficiali Riferimento pandas.DataFrame alla pagina di destinazione.

parallelismo dei dati

Un modo per scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme dei dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su modelli dimensioni dei batch; tuttavia, il parallelismo dei dati richiede sia abbastanza piccolo da poter essere installato su tutti i dispositivi.

Il parallelismo dei dati in genere velocizza l'addestramento e l'inferenza.

Vedi anche parallismo dei modelli.

set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzata in uno tra i seguenti formati:

un foglio di lavoro
un file in formato CSV (valori separati da virgole)

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per leggere i dati e trasformarli in una forma richiesta da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi, in cui ogni elemento contiene uno o più Tensori. Un oggetto tf.data.Iterator fornisce accesso agli elementi di un Dataset.

confine decisionale

Il separatore tra classi apprese da un model in un classe binaria oppure problemi di classificazione multiclasse. Ad esempio, nella seguente immagine che rappresenta un problema di classificazione binaria, la soglia di decisione è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e un'altra.

foresta decisionale

#df

Un modello creato da più alberi decisionali. Una foresta decisionale effettua una previsione aggregando le previsioni ai suoi alberi decisionali. Tra i tipi più diffusi di foreste decisionali ci sono foreste casuali e alberi ad alto gradiente.

Consulta la Decisione Foreste del corso sulle foreste decisionali per ulteriori informazioni.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme condizioni e lascia organizzate in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte
in modo gerarchico, che porta a cinque foglie.

decodificatore

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione interna elaborata, densa o a una rappresentazione più grezza, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui vengono accoppiato con un encoder.

Nelle attività di sequenza a sequenza, un decodificatore inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un decodificatore all'interno dell'architettura Transformer.

Scopri i modelli linguistici di grandi dimensioni (LLM) in Machine Learning Crash Course.

modello di deep learning

#fundamentals

Una rete neurale contenente più di un strato nascosto.

Un modello di questo tipo è chiamato anche rete neurale profonda.

Contrasta con il modello largo.

per le reti neurali profonde

Sinonimo di deep model.

Deep Q-Network (DQN)

#rl

In Q-learning, una rete neurale profonda che prevede le funzioni Q.

Critic è un sinonimo di Deep Q-Network.

Parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un attributo sensibile.

Ad esempio, se sia Lilliputiano sia Brobdingnagiano si applicano Glubbdubdrib University, la parità demografica si ottiene se la percentuale di lilliputi ammessi è uguale alla percentuale di Brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato rispetto all'altro.

È diverso da pari opportunità e uguaglianza di opportunità, che consentono ai risultati di classificazione aggregati di dipendere da attributi sensibili, ma non consentono ai risultati di classificazione per determinate etichette di verità oggettive specificate di dipendere da attributi sensibili. Consulta "Attacco discriminazione con un machine learning più intelligente" per una visualizzazione esplorare i compromessi nell'ottimizzazione per la parità demografica.

Consulta Equità: dati demografici parità in Machine Learning Crash Course.

riduzione del rumore

#language

Un approccio comune all'apprendimento autosupervisionato in cui:

Il rumore viene aggiunto artificialmente al set di dati.
Il modello tenta di rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi non etichettati. Il dataset originale funge da target o label e i dati rumorosi come input.

Alcuni modelli linguistici con maschera utilizzano il denoising come segue:

Il rumore viene aggiunto artificialmente a una frase non etichettata mascherando alcuni dei token.
Il modello prova a prevedere i token originali.

elemento denso

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori in virgola mobile. Ad esempio, il seguente tensore di 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Contrasta la caratteristica sparsa.

strato denso

Sinonimo di livello completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

il numero di livelli nascosti
il numero di strati di output, che in genere è 1
il numero di tutti gli strati di incorporamento

Ad esempio, una rete neurale con cinque strati nascosti e uno di output ha una profondità di 6.

Tieni presente che il livello di input non influisce sulla profondità.

sepCNN (rete neurale convoluzionale separabile profondamente)

#image

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception sono sostituiti da convolute separabili in base alla profondità. Chiamato anche Xception.

Una convoluzione separabile in profondità (abbreviata anche come convoluzione separabile) suddivide una convoluzione 3D standard in due operazioni di convoluzione separate che sono più efficienti dal punto di vista computazionale: innanzitutto, una convoluzione in profondità, con una profondità di 1 (n ✕ n ✕ 1) e, in secondo luogo, una convoluzione puntuale, con lunghezza e larghezza pari a 1 (1 ✕ 1 ✕ n).

Per scoprire di più, consulta Xception: deep learning con Depthwise Separable Convoluzioni.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un termine sovraccarico con le due possibili definizioni seguenti:

Una categoria di hardware in grado di eseguire una sessione TensorFlow, tra cui CPU, GPU e TPU.
Durante l'addestramento di un modello ML sui chip dell'acceleratore (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona su chip acceleratori. Al contrario, l'attributo host di solito viene eseguito su una CPU.

privacy differenziale

Nel machine learning, un approccio di anonimizzazione per proteggere dall'esposizione eventuali dati sensibili (ad esempio le informazioni personali di un individuo) inclusi nel set di addestramento di un modello. Questo approccio garantisce Che il modello non apprenda o non ricordi molto su una specifica privato. Questo viene ottenuto campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, mitigando il rischio di esporre i dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, talvolta i data scientist utilizzano la privacy differenziale per proteggere la privacy delle persone quando calcolano le statistiche sull'utilizzo dei prodotti per diversi gruppi demografici.

riduzione delle dimensioni

Riduzione del numero di dimensioni utilizzate per rappresentare una determinata funzionalità in un vettore di funzionalità, in genere mediante la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccaricato con una delle seguenti definizioni:

Il numero di livelli di coordinate in un tensore. Ad esempio:
- Uno scalare ha dimensioni pari a zero; ad esempio ["Hello"].
- Un vettore ha una dimensione; ad esempio [3, 5, 7, 11].
- Una matrice ha due dimensioni: ad esempio [[2, 4, 18], [5, 7, 14]]. Puoi specificare in modo univoco una particolare cella in un vettore unidimensionale con una sola coordinata; sono necessarie due coordinate per specificare particolare cella in una matrice bidimensionale.
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di embedding.

richiesta diretta

#language

#generativeAI

Sinonimo di prompt zero-shot.

caratteristica discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio: una caratteristica i cui valori possono essere solo animal, vegetable o mineral è un caratteristica discreta (o categorica).

Contrasta la funzionalità continua.

modello discriminativo

Un modello che prevede le etichette da un insieme di uno o altre funzionalità. In modo più formale, i modelli di classificazione definiscono la probabilità condizionale di un output in base alle funzionalità e ai pesi, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam proveniente da caratteristiche e ponderazioni è un modello discriminativo.

La maggior parte dei modelli di apprendimento supervisionato, inclusa la classificazione e di regressione, sono modelli discriminativi.

È diverso dal modello generativo.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete di GAN che determina se gli esempi creati dal generatore sono reali o falsi.

Per ulteriori informazioni, consulta la sezione Il discriminatore nel corso sulle GAN.

impatto imparziale

#fairness

Prendere decisioni sulle persone che influiscono in modo sproporzionato su diversi sottogruppi di popolazione. Di solito si riferisce a situazioni in cui un processo decisionale algoritmico danneggia o avvantaggia alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un Lilliputiano per un mutuo per una casa in miniatura abbia maggiori probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se i lilliputini di Big-Endian hanno maggiori probabilità indirizzi postali con questo codice postale rispetto ai Little-Endian Lilliputians, questo algoritmo potrebbe avere un impatto disparato.

Contrastarli con un trattamento dispari. che si concentra sulle disparità che si verificano quando le caratteristiche del sottogruppo sono input espliciti di un processo decisionale algoritmico.

trattamento diverso

#fairness

L'inserimento degli attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che i diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, prendiamo in considerazione un algoritmo che determina l'idoneità dei lillipuziani per un prestito per una casa in miniatura in base ai dati forniti nella richiesta di prestito. Se l'algoritmo utilizza come input l'affiliazione di un Lilliputiano come Big-Endian o Little-Endian, attua un trattamento diverso in base a questa dimensione.

Usa il contrasto con l'impatto disparato, che si concentra sulle disparità nell'impatto sociale delle decisioni algoritmiche sui sottogruppi, a prescindere dal fatto che questi sottogruppi siano input del modello.

distillazione

#generativeAI

Il processo di riduzione delle dimensioni di un modello (noto come teacher) in un modello più piccolo (noto come studente) che emula le previsioni del modello originale nel modo più fedele possibile. Distillazione è utile perché il modello più piccolo presenta due vantaggi principali rispetto a quello più grande modello (l'insegnante):

Tempi di inferenza più rapidi
Consumo energetico e di memoria ridotti

Tuttavia, le previsioni dello studente in genere non sono buone quanto quelle dell'insegnante.

La distillazione addestra il modello studente a ridurre al minimo funzione di perdita basata sulla differenza tra gli output delle previsioni dei modelli di studenti e insegnanti.

Confronta e contrapponi la distillazione con i seguenti termini:

ottimizzazione
apprendimento basato su prompt

Vedi LLM: ottimizzazione, distillazione e prompt ingegneristica in Machine Learning Crash Course.

distribution

La frequenza e l'intervallo di valori diversi per un determinato elemento o etichetta. Una distribuzione acquisisce la probabilità di un determinato valore.

La seguente immagine mostra gli istogrammi di due diverse distribuzioni:

A sinistra, una distribuzione della ricchezza in base alla legge di potenza rispetto al numero di persone che la possiedono.
A destra, una distribuzione normale dell'altezza rispetto al numero di persone che la possiedono.

Comprendere la distribuzione di ogni caratteristica e etichetta può aiutarti a stabilire in che modo per normalizzare i valori e rilevare gli outlier.

La frase fuori distribuzione si riferisce a un valore che non compare nel o è molto raro. Ad esempio, l'immagine del pianeta Saturno sarebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Consulta il clustering gerarchico.

sottocampionamento

#image

Termine sovraccaricato che può significare una delle seguenti opzioni:

Ridurre la quantità di informazioni in una caratteristica in per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, riduci la risoluzione delle immagini in un formato a risoluzione inferiore.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classi rappresentate in modo eccessivo per migliorare l'addestramento del modello sulle classi sottorappresentate. Ad esempio, in un set di dati con sbilanciamento delle classi, i modelli tendono ad apprendere molto sulla classe di maggioranza e non abbastanza sulla classe di minoranza. Il sottocampionamento aiuta a bilanciare la quantità di addestramento sulle classi di maggioranza e minoranza.

Per ulteriori informazioni, consulta Set di dati: set di dati sbilanciati nel corso introduttivo al machine learning.

DQN

#rl

Abbreviazione di Deep Q-Network.

regolarizzazione del dropout

Una forma di regolarizzazione utile per l'addestramento delle reti neurali. La regolarizzazione con dropoutrimuove una selezione casuale di un numero fisso di unità in un livello della rete per un singolo passo del gradiente. Più unità vengono escluse, più forte è la regolarizzazione. Questo è analogo all'addestramento della rete per emulare un ensemble esponenzialmente grande di reti più piccole. Per informazioni dettagliate, vedi Dropout: un modo semplice per impedire alle reti neurali Overfitting.

dinamico

#fundamentals

Qualcosa che viene fatto di frequente o continuamente. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati gli utilizzi comuni di dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato di frequente o di continuo.
La formazione dinamica (o formazione online) è il processo di addestramento spesso o continuamente.
L'inferenza dinamica (o inferenza online) è il processo di per generare previsioni on demand.

modello dinamico

#fundamentals

Un modello che è frequente (forse anche continuamente) riaddestrato. Un modello dinamico è un "aprendente permanente" che si adatta costantemente ai dati in evoluzione. Un modello dinamico è noto anche come modello online.

È diverso dal modello statico.

E

esecuzione entusiasta

#TensorFlow

Un ambiente di programmazione TensorFlow in cui vengono utilizzate le operazioni vengono eseguiti immediatamente. Al contrario, le operazioni richiamate l'esecuzione del grafico non viene eseguita finché non viene eseguita viene valutato. L'esecuzione con entusiasmo è un'interfaccia imperativa, come il codice nella maggior parte dei linguaggi di programmazione. I programmi di esecuzione eager sono generalmente molto più facili da eseguire il debug rispetto ai programmi di esecuzione del grafico.

interruzione anticipata

#fundamentals

Un metodo di regolarizzazione che prevede la fine addestramento prima della fine della perdita dell'addestramento in diminuzione. Con l'interruzione anticipata, interrompi intenzionalmente l'addestramento del modello quando la perdita in un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni della generalizzazione peggiorano.

Fai clic sull'icona per ulteriori note.

L'interruzione anticipata potrebbe sembrare controintuitiva. Dopotutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in diminuzione può sembrare come dire a uno chef di smettere di cucinare prima che il dolce sia completamente cotto. Tuttavia, l'addestramento di un modello troppo lungo può causare un overfitting. Vale a dire che se addestrare un modello troppo a lungo, potrebbe adattarsi ai dati di addestramento talmente tanto da il modello non fa buone previsioni su nuovi esempi.

distanza del movimento della terra (EMD)

Una misura della somiglianza relativa tra due distribuzioni. Più bassa è la distanza del movimento della terra, più simili sono le distribuzioni.

distanza di modifica

#language

Una misura della somiglianza tra due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice ed è un modo efficace per confrontare due stringhe note per essere o per trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni della distanza di modifica, ciascuna delle quali utilizza operazioni su stringhe diverse. Ad esempio, la distanza di Levenshtein considera il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza di Levenshtein tra le parole "cuore" e "dardi" è 3 perché le seguenti 3 modifiche sono il minor numero di cambiamenti da trasformare una parola nell'altro:

cuore → deart (sostituisci "h" con "d")
deart → esercito (elimina "e")
dardo → freccette (inserisci "s")

Notazione einsum

Una notazione efficiente per descrivere come devono essere combinati due tensori. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e poi sommando i prodotti. La notazione Einsum utilizza simboli per identificare gli assi di ciascun tensore e gli stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

strato di incorporamento

#language

#fundamentals

Uno speciale strato nascosto che viene addestrato su una caratteristica categorica ad alta dimensionalità per apprenderanno gradualmente un vettore di incorporamento di dimensione inferiore. Un livello di embedding consente a una rete neurale di essere addestrata in modo molto più efficiente rispetto all'addestramento solo sulla caratteristica categorica ad alta dimensione.

Ad esempio, al momento Earth supporta circa 73.000 specie di alberi. Supponiamo che specie di albero è una caratteristica nel modello, quindi la classe strato di input include un vettore one-hot 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in questo modo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. Gli ultimi 66.767 elementi contengono
il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi uno strato di incorporamento al modello, l'addestramento richiederà molto tempo a causa moltiplicando 72.999 zeri. Ad esempio, puoi scegliere che il livello di incorporamento sia costituito da 12 dimensioni. Di conseguenza, lo strato di incorporamento apprenderà gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcuni casi, l'hashing è un'alternativa ragionevole a un livello di embedding.

Consulta la sezione Incorporamenti. in Machine Learning Crash Course.

spazio di incorporamento

#language

Lo spazio vettoriale con dimensione D che parte da una dimensione uno spazio vettoriale. Idealmente, lo spazio di embedding contiene una struttura che genera risultati matematici significativi. Ad esempio, in uno spazio di embedding ideale, l'addizione e la sottrazione di embedding possono risolvere attività di analogia tra parole.

Il prodotto scalare di due embedding è una misura della loro somiglianza.

vettore di embedding

#language

In termini generali, un array di numeri in virgola mobile può essere preso da qualsiasi strato nascosto che descrive gli input per quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in uno strato di incorporamento. Ad esempio, supponiamo che un livello di embedding debba apprendere un vettore di embedding per ciascuna delle 73.000 specie di alberi sulla Terra. Forse seguente è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ognuno dei quali contiene un numero in virgola mobile
compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un insieme di numeri casuali. Uno strato di incorporamento determina questi valori tramite l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione in base a una caratteristica di una specie di albero. Quale rappresenta la specie di alberi una caratteristica? È molto difficile per essere individuate dagli esseri umani.

La parte matematicamente notevole di un vettore di incorporamento è simile elementi contengono insiemi simili di numeri in virgola mobile. Ad esempio, le specie di alberi simili hanno un insieme di numeri in virgola mobile più simile rispetto alle specie di alberi diverse. Le sequoie e le sequoie giganti sono specie di alberi correlate, quindi avranno un insieme di numeri con virgola mobile più simile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambia ogni volta che il modello viene riaddestrato, anche se il modello con input identico.

funzione di distribuzione empirica cumulativa (eCDF o EDF)

Una funzione di distribuzione cumulativa basata su misure empiriche di un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione di osservazioni nel set di dati minori o uguali al valore specificato.

minimizzazione del rischio empirico (ERM)

È stata scelta la funzione che minimizza la perdita nel set di addestramento. È diversa dalla minimizzazione del rischio strutturale.

codificatore

#language

In generale, qualsiasi sistema di ML che esegue la conversione da un ambiente non elaborato, sparso o in una rappresentazione più elaborata, più densa o interna.

I codificatori sono spesso un componente di un modello più grande, in cui vengono accoppiato con un decoder. Alcuni trasformatori encoder e decoder, sebbene altri Transformer utilizzino solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input di una classificazione di regressione lineare e una rete di regressione.

Nelle attività da sequenza a sequenza, un codificatore prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder in l'architettura Transformer.

Vedi LLM: che cos'è una grande lingua modello in Machine Learning Crash Course.

ensemble

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono mediate o aggregate. In molti casi, un insieme produce migliori predizioni rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme costituito da più alberi decisionali. Tieni presente che non tutte Le foreste decisionali sono insiemi.

Vedi Casuale Foresta in Machine Learning Crash Course.

entropia

#df

In teoria dell'informazione, una descrizione dell'imprevedibilità di una distribuzione di probabilità. In alternativa, l'entropia è definita anche come la quantità di informazione contenuta in ogni esempio. Una distribuzione ha la massima entropia possibile quando tutti i valori di una variabile aleatoria sono sempre possibili.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di esempi "1".
q è la frazione di "0" esempi. Tieni presente che q = (1 - p)
log è generalmente log₂. In questo caso, l'unità di misura dell'entropia è un bit.

Ad esempio, supponiamo quanto segue:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio 200 "0" e 200 "1") avrebbe un'entropia di 1,0 bit per esempio. Man mano che l'insieme diventa sempre più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare il guadagno di informazione per aiutare lo strumento di suddivisione a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confrontare l'entropia con:

impurità gini
Funzione di perdita di entropia incrociata

L'entropia viene spesso chiamata entropia di Shannon.

Vedi Suddivisione esatta per la classificazione binaria con funzionalità nel corso sulle foreste decisionali per ulteriori informazioni.

produzione

#rl

Nel reinforcement learning, il mondo che contiene l'agente e consente all'agente di osservare lo stato del mondo. Ad esempio: il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ciascuno dei tentativi ripetuti dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un pass completo per l'addestramento dell'intero set di formazione in modo che ogni esempio venga elaborato una sola volta.

Un'epoca rappresenta N/dimensione batch iterazioni di addestramento, dove N è il numero totale di esempi.

Ad esempio, supponiamo quanto segue:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

Consulta Regressione lineare: Iperparametri in Machine Learning Crash Course.

norme greedy epsilon

#rl

Nell'apprendimento basato su rinforzo, una norma che segue una norma casuale con probabilità epsilon o una norma avida in caso contrario. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un greedy il 10% delle volte.

Nelle varie puntate, l'algoritmo riduce il valore di epsilon per passare dal seguire un criterio casuale a seguire un criterio avido. Spostando il criterio, l'agente esplora prima in modo casuale l'ambiente e poi sfrutta avidamente i risultati dell'esplorazione casuale.

uguaglianza di opportunità

#fairness

Una metrica di equità per valutare se un modello predittivo è ugualmente efficace per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderabile di un modello è la classe positiva, l'obiettivo è che il tasso di veri positivi sia la la stessa per tutti i gruppi.

L'uguaglianza di opportunità è correlata alle probabilità uguali, che richiedono che entrambi i tassi di veri positivi e falsi positivi siano uguali per tutti i gruppi.

Supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i brobdingnagiani a un rigoroso programma di matematica. Lilliputiani le scuole secondarie offrono un un solido programma di lezioni di matematica e la stragrande maggioranza degli studenti qualificato per il programma universitario. Le scuole secondarie dei Brobdingnagiani non offrono affatto corsi di matematica e, di conseguenza, un numero molto minore di loro è qualificato. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita "ammissione" in relazione alla nazionalità (lillupiano o Brobdingnagian) se che gli studenti qualificati hanno la stessa probabilità di essere ammessi, indipendentemente dal fatto che sono lillupiani o brobdingnagian.

Ad esempio, supponiamo che 100 Lilliputi e 100 Brobdingnagian si applichino a Le decisioni relative all'ammissione e alla Glubbdubdrib University vengono prese come segue:

Tabella 1. Candidati lillupiani (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	3
Rifiutato	45	7
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati rifiutata: 7/10 = 70% Percentuale totale di studenti lilliputani ammessi: (45 + 3)/100 = 48%

Tabella 2. Candidati Brobdingnagian (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	9
Rifiutato	5	81
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati rifiutata: 81/90 = 90% Percentuale totale di studenti Brobdingnagian ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza di opportunità di accettazione gli studenti qualificati perché lilliputi e brobdingnagiani qualificati hanno il 50% di probabilità di essere ammessi.

Sebbene sia soddisfatta l'uguaglianza delle opportunità, le due metriche di equità riportate di seguito non sono soddisfatti:

Parità demografica: lilliputi e I Brobdingnagiani vengono ammessi all'università con tempistiche diverse; Il 48% degli studenti lilliputi è ammesso, ma solo il 14% di Sono ammessi studenti brobdingnag.
probabilità paritarie: sebbene la qualifica sia lillitica e gli studenti di Brobdingnagian hanno le stesse probabilità di essere ammessi, l'ulteriore vincolo che i lilliputi non qualificati e I brobdingnagia hanno la stessa probabilità di essere rifiutati soddisfatto. I lilliputi non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagias non qualificati hanno un tasso di rifiuto del 90%.

Consulta Equità: uguaglianza di opportunità in Machine Learning Crash Course.

probabilità equalizzato

#fairness

Una metrica di equità per valutare se un modello prevede i risultati in modo uguale bene per tutti i valori di un attributo sensibile con rispetto sia alla classe positiva che classe negativa: non solo una classe o l'altra in modo esclusivo. In altre parole, sia la percentuale di veri positivi sia la percentuale di falsi negativi devono essere uguali per tutti i gruppi.

Le probabilità ugualizzate sono correlate all'uguaglianza di opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che l'Università di Glubbdubdrib ammetta sia i lillipuziani che i Brobdingnagiani a un rigoroso programma di matematica. I licei dei Lillipuziani offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è idonea al programma universitario. I Brobdingnagiani non offrono affatto corsi di matematica nelle scuole secondarie e, di conseguenza, un numero molto inferiore di studenti è qualificato. Le probabilità uguali sono soddisfatte a condizione che, indipendentemente dal fatto che un richiedente sia un lillipuziano o un brobdignag, se è idoneo, abbia le stesse probabilità di essere ammesso al programma e, se non è idoneo, abbia le stesse probabilità di essere rifiutato.

Supponiamo che 100 Lilliputi e 100 Brobdingnagiani si applichino a Glubbdubdrib Le decisioni relative all'università e alle ammissioni vengono prese come segue:

Tabella 3. Lilliputian (90% idonei)

	Qualificato	Non qualificato
Ammesso	45	2
Rifiutato	45	8
Totale	90	10
Percentuale di studenti idonei ammessi: 45/90 = 50% Percentuale di studenti non idonei rifiutati: 8/10 = 80% Percentuale totale di studenti lillipuziani ammessi: (45+2)/100 = 47%

Tabella 4. Candidati Brobdingnagian (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	18
Rifiutato	5	72
Totale	10	90
Percentuale di studenti idonei ammessi: 5/10 = 50% Percentuale di studenti non idonei rifiutati: 72/90 = 80% Percentuale totale di studenti di Brobdingnag ammessi: (5+18)/100 = 23%

Le quote equalizzate sono soddisfatte perché i valori Lilliputian e Brobdingnagian sono qualificati entrambi gli studenti hanno il 50% di probabilità di essere ammessi, mentre quelli lillupiani non qualificati e Brobdingnagian hanno l'80% di probabilità di essere rifiutati.

Le probabilità ugualizzate sono definite formalmente in "Equality of Opportunity in Supervised Learning" come segue: "il predittore Ŷ soddisfa le probabilità ugualizzate rispetto all'attributo protetto A e al risultato Y se Ŷ e A sono indipendenti, in base a Y".

Estimator

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras anziché gli estimatori.

evals

#language

#generativeAI

Utilizzato principalmente come abbreviazione per valutazioni LLM. Più in generale, evals è un'abbreviazione per qualsiasi forma di valutazione.

valutazione

#language

#generativeAI

Il processo di misurazione della qualità di un modello o di confronto tra modelli diversi.

Per valutare un machine learning supervisionato modello, solitamente lo giudichi rispetto a un insieme di convalida e un set di test. Valutazione di un LLM comporta in genere valutazioni più ampie di qualità e sicurezza.

esempio

#fundamentals

I valori di una riga di caratteristiche e possibilmente un'etichetta. Esempi in L'apprendimento supervisionato si suddividono in due categorie generali:

Un esempio con etichetta è costituito da una o più caratteristiche e un'etichetta. Durante l'addestramento vengono usati esempi etichettati.
Un esempio non etichettato è costituito da una o più funzionalità, ma senza etichetta. Durante l'inferenza vengono utilizzati esempi non etichettati.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteo nei punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buono
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi non etichettati:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un dataset è in genere l'origine non elaborata di un esempio. In altre parole, un esempio è costituito in genere da un sottoinsieme di colonne del set di dati. Inoltre, le funzionalità di un esempio possono includere anche caratteristiche sintetiche, come incroci di caratteristiche.

Vedi Apprendimento supervisionato in il corso Introduction to Machine Learning per saperne di più.

riprodurre di nuovo l'esperienza

#rl

Nell'apprendimento per rinforzo, una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente archivia le transizioni di stato in un buffer di replica transizioni di esempio dal buffer di ripetizione per creare i dati di addestramento.

pregiudizi dello sperimentatore

#fairness

Consulta la sezione Bias di conferma.

problema del gradiente con esplosione

#seq

La tendenza dei gradienti nelle reti neurali profonde (in particolare reti neurali ricorrenti) a diventare sorprendentemente ripidi (alti). Le derive ripide spesso causano aggiornamenti molto elevati ai pesi di ogni nodo in una rete neurale profonda.

I modelli soggetti al problema del gradiente con esplosione diventano difficili o impossibile da addestrare. Taglio delle sfumature può mitigare questo problema.

Confronta con il problema della scomparsa del gradiente.

F

F₁

Una metrica di classificazione binaria "aggregata" che si basa sia sulla precisione sia sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ad esempio, in base a quanto segue:

precision = 0.6
richiamo = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F₁ è molto simile alla sua media. Quando precisione e richiamo differiscono In modo significativo, F₁ è più vicino al valore più basso. Ad esempio:

precisione = 0,9
recall = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

vincolo di equità

#fairness

Applicazione di una limitazione a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Esempi di vincoli di equità includono:

Esegui il post-trattamento dell'output del modello.
Modifica della funzione di perdita per includere una penalizzazione per violazione di una metrica di equità.
Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.

metrica di equità

#fairness

Una definizione matematica di "equità" misurabile. Alcune metriche di equità di uso comune includono:

quote paritarie
parità predittiva
equità controfattuale
parità demografica

Molte metriche di equità si escludono a vicenda; vedi incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals

Esempio in cui il modello prevede erroneamente classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non è spam (la classe negative), ma in realtà quel messaggio email è spam.

percentuale di falsi negativi

La proporzione di esempi positivi effettivi per cui il modello ha erroneamente ha previsto la classe negativa. La seguente formula calcola il falso tasso negativo:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

Per ulteriori informazioni, consulta Soglie e matrice di confusione nel corso introduttivo al machine learning.

falso positivo (FP)

#fundamentals

Esempio in cui il modello prevede erroneamente classe positiva. Ad esempio, il modello prevede che un determinato messaggio email sia spam (la classe positiva), ma in realtà il messaggio email non è spam.

Consulta Soglie e confusione una matrice in Machine Learning Crash Course.

tasso di falsi positivi (FPR)

#fundamentals

La proporzione di esempi negativi effettivi per i quali il modello ha previsto erroneamente la classe positiva. La seguente formula calcola il falso tasso positivo:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

Consulta la sezione Classificazione: ROC e AUC in Machine Learning Crash Course.

caratteristica

#fundamentals

Una variabile di input per un modello di machine learning. Un esempio è costituito da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Contrasto con l'etichetta.

Per saperne di più, consulta Apprendimento supervisionato nel corso Introduzione al machine learning.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata da "incroci" di caratteristiche categoriche o in bucket.

Ad esempio, considera le "previsioni del tuo stato d'animo" modello che rappresenta della temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

still
light
windy

Senza incroci di caratteristiche, il modello lineare si addestra in modo indipendente su ciascuno prima di sette diversi bucket. Pertanto, il modello viene addestrato, ad esempio, su freezing indipendentemente dall'addestramento su, ad esempio, windy.

In alternativa, puoi creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe le seguenti 12 possibili valori:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze di umore tra un giorno freezing-windy e un giorno freezing-still.

Se crei una caratteristica sintetica da due caratteristiche che hanno ciascuna molti bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una funzionalità ha 1000 bucket e l'altra 2000, l'intersezione delle funzionalità risultante ha 2.000.000 di bucket.

Formalmente, una croce è una Prodotto cartesiano.

Gli incroci di caratteristiche vengono utilizzati principalmente con i modelli lineari e vengono utilizzati raramente con le reti neurali.

Per ulteriori informazioni, consulta Dati categorici: croci tra funzionalità nel corso introduttivo al machine learning.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Una procedura che prevede le seguenti fasi:

Determinare quali funzionalità potrebbero essere utili durante l'addestramento di un modello.
Convertire i dati non elaborati del set di dati in versioni efficienti di queste funzionalità.

Ad esempio, potresti determinare che temperature potrebbe essere un utile funzionalità. Poi, puoi sperimentare il bucketing per ottimizzare ciò che il modello può apprendere da diversi intervalli temperature.

Il feature engineering è a volte chiamato l'estrazione delle caratteristiche o funzionalità.

Fai clic sull'icona per visualizzare ulteriori note su TensorFlow.

In TensorFlow, la creazione di funzionalità spesso significa convertire le voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

Per saperne di più, consulta la sezione Dati numerici: come un modello acquisisce i dati utilizzando vettori di funzionalità nel corso introduttivo al machine learning.

estrazione di funzionalità

Termine sovraccaricato con una delle seguenti definizioni:

Recupero delle rappresentazioni intermedie delle caratteristiche calcolate da un modello non supervisionato o preaddestrato (ad esempio, i valori dello strato nascosto in un rete neurale) da utilizzare in un altro modello come input.
Sinonimo di feature engineering.

importanza delle caratteristiche

#df

Sinonimo di importazioni variabili.

insieme di caratteristiche

#fundamentals

Il gruppo di caratteristiche del tuo machine learning Viene eseguito l'addestramento di model. Ad esempio, codice postale, dimensioni e condizioni della proprietà potrebbero costituiscono un semplice set di caratteristiche per un modello che prevede i prezzi delle abitazioni.

specifica della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle caratteristiche dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un contenitore per i dati, devi specificare quanto segue:

I dati da estrarre (ovvero le chiavi per le funzionalità)
Il tipo di dati (ad es. float o int)
La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori feature che compongono un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche distinte potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
Il livello di input contiene due nodi, uno contenente il valore
0,92 e l'altro contenente il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, pertanto il vettore di caratteristiche per l'esempio successivo potrebbe essere simile al seguente:

[0.73, 0.49]

Il feature engineering determina come rappresentare caratteristiche nel vettore di caratteristiche. Ad esempio, una caratteristica categorica binaria con cinque possibili valori potrebbe essere rappresentata con la codifica one-hot. In questo caso, la parte del vettore di caratteristiche per un determinato esempio sarà composta da quattro zeri e un singolo 1.0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come altro esempio, supponiamo che il modello sia costituito da tre elementi:

una caratteristica categorica binaria con cinque possibili valori rappresentati con codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre valori possibili rappresentati con codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
un valore con rappresentazione in virgola mobile; ad esempio: 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il valore il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

Consulta Dati numerici: modalità di importazione di dati da parte di un modello mediante le caratteristiche vettori in Machine Learning Crash Course.

creazione di funzionalità

Il processo di estrazione delle caratteristiche da un'origine di input, come un documento o un video e di mappare queste caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano la funzionalità come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra modelli di machine learning utilizzando esempi decentralizzati che risiedono su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello corrente da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati su di essi per apportare miglioramenti al modello. I dispositivi caricano poi i miglioramenti del modello (ma non gli esempi di addestramento) sul server di coordinamento, dove vengono aggregati con altri aggiornamenti per produrre un modello globale migliore. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere ignorati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue principi sulla privacy incentrati sulla raccolta e sulla minimizzazione dei dati.

Per ulteriori informazioni sull'apprendimento federato, consulta questo tutorial.

feedback loop

#fundamentals

Nel machine learning, si tratta di una situazione in cui le previsioni di un modello influenzano di addestramento per lo stesso modello o per un altro. Ad esempio, un modello che consiglia film influisce sui film che le persone guardano, il che a sua volta influisce sui modelli di consigli sui film successivi.

Consulta Sistemi di ML di produzione: domande per chiedi in Machine Learning Crash Course.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feedforward. A differenza delle reti neurali recurrenti, che sono cicliche.

apprendimento few-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare classificatori efficaci a partire da un numero limitato di esempi di addestramento.

Vedi anche one-shot learning e apprendimento zero-shot.

prompt few-shot

#language

#generativeAI

Un prompt contenente più di un esempio (alcuni) che dimostri come deve rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano a un modello linguistico di grandi dimensioni come rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`Regno Unito: GBP`	Un altro esempio.
`India:`	La query effettiva.

In genere, i prompt few-shot producono risultati più auspicabili rispetto ai prompt zero-shot e ai prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

Il prompt few-shot è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Per saperne di più, consulta la sezione Progettazione dei prompt nel Machine Learning Crash Course.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax e di altri codebase ML, queste funzioni e rappresentano modelli e addestramento iperparametri.

Violino presuppone che i codebase di machine learning siano generalmente suddivisi in:

Codice della libreria, che definisce i livelli e gli ottimizzatori.
Set di dati "glue" che chiama le librerie e collega tutti gli elementi tra loro.

Fiddle acquisisce la struttura di chiamata del codice di collegamento in un formato non valutato e mutabile.

ottimizzazione

#language

#image

#generativeAI

Un secondo pass per l'addestramento specifico per un'attività, eseguito su modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, l'intera sequenza di addestramento I modelli linguistici di grandi dimensioni sono i seguenti:

Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio per rispondere a domande mediche. Il perfezionamento implica in genere centinaia o migliaia di esempi incentrati su quell'attività specifica.

Un altro esempio è la sequenza di addestramento completa per un modello di immagini di grandi dimensioni:

Preaddestramento: addestrare un modello di immagini di grandi dimensioni su un vasto set di dati di immagini generali, come tutte le immagini di Wikimedia Commons.
Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio generando immagini di orche.

La messa a punto può comportare qualsiasi combinazione delle seguenti strategie:

Modifica di tutti i parametri esistenti del modello preaddestrato. Questa operazione è talvolta chiamata ottimizzazione completa.
Modificare solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini al livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini al livello di input). Consulta ottimizzazione efficiente dei parametri.
Aggiunta di altri livelli, in genere sopra i livelli esistenti più vicini al livello di output.

Il perfezionamento è una forma di transfer learning. Di conseguenza, la messa a punto fine potrebbe utilizzare una funzione di perdita o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti perfezionare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisce il numero di uccelli in un'immagine di input.

Confronta e contrapponi la messa a punto fine con i seguenti termini:

distillazione
Apprendimento basato su prompt

Vedi Ottimizzazione in Machine Learning Crash Course.

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Il lino offre funzioni per l'addestramento delle reti neurali, come metodi per valutarne le prestazioni.

Flaxformer

#language

Una libreria di Transformer open source basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

gate di dimenticanza

#seq

La parte della memoria a lungo termine a breve termine cella che regola il flusso di informazioni attraverso la cella. Dimentica le porte e mantieni il contesto decidendo quali informazioni scartare dallo stato della cella.

softmax completo

Sinonimo di softmax.

È diverso dal campionamento dei candidati.

Consulta Reti neurali: multiclasse di classificazione in Machine Learning Crash Course.

Strato completamente connesso

Uno strato nascosto in cui ogni nodo è collegato a ogni nodo nel successivo strato nascosto.

Uno strato completamente connesso è anche noto come strato denso.

trasformazione della funzione

Una funzione che prende una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di rete generative avversaria.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su nuovi, di dati non visti in precedenza. Un modello in grado di generalizzare è l'opposto di un modello in caso di overfitting.

Fai clic sull'icona per ulteriori note.

Un modello viene addestrato dagli esempi nel set di addestramento. Di conseguenza, apprende le peculiarità dei dati nel set di addestramento. La generalizzazione essenzialmente chiede se il tuo modello può fare buone previsioni su esempi che non sono nel set di addestramento.

Per favorire la generalizzazione, la regolarizzazione aiuta un modello ad addestrarsi meno in base alle peculiarità dei dati nel set di addestramento.

Per ulteriori informazioni, consulta la sezione Generalizzazione nel corso introduttivo al machine learning.

Gemini

#language

#image

#generativeAI

L'ecosistema che comprende l'IA più avanzata di Google. Gli elementi di questo ecosistema includono:

Vari modelli Gemini.
L'interfaccia di conversazione interattiva per un modello Gemini. Gli utenti digitano i prompt e Gemini risponde.
Varie API Gemini.
Vari prodotti aziendali basati sui modelli Gemini; ad esempio Gemini per Google Cloud.

Modelli Gemini

#language

#image

#generativeAI

Il sistema all'avanguardia di Google, basato su Transformer modelli multimodali. I modelli Gemini sono nello specifico progettato per l'integrazione con gli agenti.

Gli utenti possono interagire con i modelli Gemini in diversi modi, ad esempio tramite un'interfaccia di dialogo interattiva e tramite SDK.

curva di generalizzazione

#fundamentals

Un grafico sia della perdita di addestramento sia della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare possibili overfitting. Ad esempio, la curva di generalizzazione suggerisce l'overfitting, poiché la perdita di convalida diventa significativamente più alto della perdita dell'addestramento.

Un grafico cartesiano in cui l'asse y è etichettato come la perdita e l'asse x
è etichettato come iterazioni. Vengono visualizzati due grafici. Uno dei grafici mostra la
perdita di addestramento e l'altro la perdita di convalida.
I due grafici iniziano in modo simile, ma la perdita di addestramento alla fine
scende molto più in basso rispetto alla perdita di convalida.

Per ulteriori informazioni, consulta la sezione Generalizzazione nel corso introduttivo al machine learning.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione lineare minima, basati sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:

regressione logistica
regressione multiclasse
regressione lineare dei minimi quadrati

I parametri di un modello lineare generalizzato sono disponibili ottimizzazione convessa:

I modelli lineari generalizzati presentano le seguenti proprietà:

La previsione media del modello di regressione con minimi quadrati ottimale è uguale all'etichetta media sui dati di addestramento.
La probabilità media prevista dalla regressione logistica ottimale equivale all'etichetta media dei dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. Non mi piace un modello deep, un modello lineare generalizzato non può "imparare nuove caratteristiche".

rete generativa avversaria (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o non validi.

Per ulteriori informazioni, consulta il corso sulle reti generative avversarie.

IA generativa

#language

#image

#generativeAI

Un campo trasformativo emergente senza definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che soddisfano tutte le seguenti caratteristiche:

complesso
coerente
originale

Ad esempio, un modello di IA generativa può creare testi o immagini sofisticati.

Alcune tecnologie precedenti, tra cui gli LSTMs. e gli RNN, possono anche generare origini contenuti coerenti. Alcuni esperti considerano queste tecnologie precedenti come l'IA generativa, mentre altri ritengono che la vera IA generativa richieda più modelli di quello che le tecnologie precedenti erano in grado di produrre.

Confrontare con l'ML predittivo.

modello generativo

In pratica, un modello che esegue una delle seguenti operazioni:

Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. La parte relativa al generatore di un rete generativa avversaria in questa categoria.
Determina la probabilità che un nuovo esempio provenga un set di addestramento personalizzato o è stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi in inglese, un modello generativo potrebbe determinare la probabilità che il nuovo input sia una frase in inglese valida.

Un modello generativo può teoricamente distinguere la distribuzione di esempi o determinate funzionalità in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

A differenza dei modelli discriminativi.

generatore

Il sottosistema all'interno di una rete di GAN che crea nuovi esempi.

Contrasta il modello discriminativo.

Impurità di Gini

#df

Una metrica simile all'entropia. Separatori utilizzare i valori derivati dall'impurità o dall'entropia di gini per comporre condizioni per la classificazione alberi decisionali. Il guadagno di informazione deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; Tuttavia, questa metrica senza nome è importante quanto guadagno di informazioni.

L'impurità di Gini è chiamata anche indice di Gini o semplicemente Gini.

Fai clic sull'icona per visualizzare i dettagli matematici relativi all'impurità di gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dato proveniente dalla stessa distribuzione. L'impurità di Gini di un insieme con due possibili valori "0" e "1" (ad esempio le etichette in un problema di classificazione binaria) viene calcolata in base alla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità di Gini.
p è la frazione di "1" esempi.
q è la frazione di "0" esempi. Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità di Gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un’etichetta casuale dello stesso set di dati avrebbe una probabilità del 37,5% di essere classificati in modo errato e con una probabilità del 62, 5% di essere classificati in modo adeguato.

Un'etichetta perfettamente bilanciata (ad esempio 200 "0" e 200 "1") avrebbe un'impurità di 0,5. Un'etichetta molto sbilanciata avrebbe un'impurità gini vicina a 0,0.

set di dati di riferimento

Un insieme di dati selezionati manualmente che acquisiscono i dati empirici reali. I team possono utilizzare uno o più set di dati aurei per valutare la qualità di un modello.

Alcuni set di dati aurei catturano diversi sottodomini di dati empirici reali. Ad esempio, un set di dati di riferimento per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione delle immagini.

GPT (Generative Pre-trained Transformer)

#language

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer sviluppati da OpenAI.

Le varianti GPT possono essere applicate a diverse modalità, tra cui:

Generazione di immagini (ad esempio, ImageGPT)
generazione di testo in immagini (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. Il gradiente punta nella direzione della salita più ripida.

accumulo di gradiente

Una tecnica di retropropagazione che aggiorna la parametri solo una volta per epoca anziché una volta ogni dell'iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo del gradiente aggiorna semplicemente un totale corrente dei gradienti. Poi, dopo l'elaborazione dell'ultimo mini-batch nell'epoca, il sistema aggiorna finalmente i parametri in base al totale di tutte le modifiche del gradiente.

L'accumulo del gradiente è utile quando la dimensione del batch è molto grande rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è ridurre la dimensione del batch. Tuttavia, la riduzione della dimensione del batch in una normale retropropagazione dell'errore aumenta il numero di aggiornamenti dei parametri. L'accumulo di gradienti consente al modello di evitare problemi di memoria, ma di continuare ad addestrarsi in modo efficiente.

alberi a gradiente (decision) (GBT)

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa su incremento del gradiente.
Il modello debole è un albero decisionale.

Per ulteriori informazioni, consulta la sezione Albero decisionale con boosting della regressione nel corso Foreste decisionali.

incremento del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare in modo iterativo la qualità (ridurre la perdita) di un modello efficace. Ad esempio, un modello debole potrebbe essere un modello di albero decisionale lineare o di piccole dimensioni. Il modello efficace diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di aumento del gradiente, a ogni iterazione, un modello debole addestrato per prevedere il gradiente di perdita del modello forte. Poi, l'output del modello migliore viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello forte iniziale.
$F_{i+1}$ è il prossimo modello molto efficace.
$F_{i}$ è il modello attualmente forte.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, in modo analogo tasso di apprendimento in della discesa del gradiente.
$f_{i}$ è il modello debole addestrato a prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne del boosting per gradiente includono anche la seconda derivata (Hessian) della perdita nel calcolo.

Gli alberi decisionali vengono comunemente utilizzati come modelli deboli nell'aumento di gradiente. Consulta alberi ad alto gradiente (decisione).

taglio del gradiente

#seq

Un meccanismo di uso comune per attenuare il problema del gradiente esplosivo limitando artificialmente (tagliando) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente si regola in modo iterativo ponderazioni e pregiudizi, trovare gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più antica, molto, molto più antica, del machine learning.

Consulta Regressione lineare: gradiente descent in Machine Learning Crash Course.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi nel grafico rappresentano le operazioni. Gli archi sono diretti e rappresentano il passaggio del risultato di un'operazione (un tensore) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafo

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma costruisce inizialmente un grafico che ne esegue l'intero grafico o una sua parte. L'esecuzione del grafo è la modalità di esecuzione predefinita in TensorFlow 1.x.

È il contrario dell'esecuzione anticipata.

norme greedy

#rl

Nell'apprendimento per rinforzo, una norma che sceglie sempre con il ritorno previsto più elevato.

dati di fatto

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, prendiamo in considerazione un modello di classificazione binaria che prevede se uno studente al primo anno di università si laureerà entro sei anni. I dati di fatto per questo modello indicano se lo studente si è effettivamente laureato entro sei anni.

Fai clic sull'icona per visualizzare altre note.

Valutiamo la qualità del modello sulla base dei dati di fatto. Tuttavia, i dati di fatto non è sempre completamente veritiera. Ad esempio, considera seguenti esempi di potenziali imperfezioni nei dati di fatto:

Nell'esempio di laurea, possiamo assicurarci che i dati relativi alla laurea di ogni studente siano sempre corretti? I procedimenti di registrazione dell'università sono impeccabili?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio barometri). Come possiamo essere sicuri che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata eseguita nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo essere sicuri che ogni valutatore umano valuti gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono revisori umani esperti.

bias di attribuzione gruppo

#fairness

Supponendo che ciò che è vero per un individuo sia vero anche per tutti nel gruppo. Gli effetti del bias di attribuzione del gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, le attribuzioni che non riflettono la realtà.

Vedi anche bias di omogeneità fuori gruppo e bias in-group. Inoltre, vedi Equità: tipi di bias in Machine Learning Crash Course.

H

allucinazione

#language

La produzione di output apparentemente plausibili, ma in realtà errati, da parte di un modello di IA generativa che pretende di fare un'affermazione sul mondo reale. Ad esempio, un modello di IA generativa che afferma che Barack Obama è morto nel 1865 è allucinante.

hashing

Nel machine learning, un meccanismo per il raggruppamento di dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente visualizzate nel set di dati è relativamente ridotto.

Ad esempio, la Terra ospita circa 73.000 specie di alberi. Potresti rappresentano ciascuna delle 73.000 specie di alberi in 73.000 bucket. In alternativa, se in un set di dati vengono visualizzate solo 200 di queste specie di alberi, puoi utilizzare l'hashing per suddividerle in circa 500 bucket.

Un singolo secchio potrebbe contenere più specie di alberi. Ad esempio, l'hashing potrebbe inserire baobab e acero rosso, due specie geneticamente diverse, nello stesso bucket. In ogni caso, l'hashing è ancora un buon modo per mappare insiemi di categorie di grandi dimensioni nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un numero elevato di valori possibili in un numero molto inferiore di valori raggruppandoli in modo deterministico.

Per ulteriori informazioni, consulta Dati categorici: vocabolario e one-hot encoding nel corso introduttivo al machine learning.

euristica

Una soluzione a un problema semplice e rapidamente implementata. Ad esempio, "Con un'euristica abbiamo raggiunto un'accuratezza dell'86%. Quando abbiamo adottato una rete neurale profonda, l'accuratezza è aumentata fino al 98%".

strato nascosto

#fundamentals

Uno strato di una rete neurale tra livello di input (le caratteristiche) e il strato di output (la previsione). Ogni strato nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, la prima con tre neuroni e la seconda con due neuroni:

Una rete neurale profonda contiene più di un strati nascosti. Ad esempio, l'illustrazione precedente mostra una rete neurale profonda perché il modello contiene due strati nascosti.

Consulta Reti neurali: nodi e nascosti strati in Machine Learning Crash Course.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano un albero dei cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchico:

Il clustering agglomerativo assegna innanzitutto ogni esempio al proprio cluster e unisce in modo iterativo i cluster più vicini per creare un albero gerarchico.
Il clustering divisivo raggruppa prima tutti gli esempi in un unico cluster e poi divide in modo iterativo il cluster in un albero gerarchico.

È diverso dal clustering basato su centroidi.

Consulta la sezione Cluster algoritmi disponibili nel corso Clustering per ulteriori informazioni.

perdita della cerniera

Una famiglia di funzioni di perdita per la classificazione progettata per trovare il confine di decisione il più lontano possibile da ogni esempio di addestramento, quindi massimizzando il margine tra gli esempi e il confine. Le KSVM utilizzano la perdita cerniera (o una funzione correlata, come perdita di cerniera al quadrato). Per la classificazione binaria, la funzione di perdita di hinge è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta vera, -1 o +1, e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita a cerniera rispetto a (y * y') è il seguente:

Un grafico cartesiano costituito da due segmenti di linea uniti. Il primo
segmento di linea inizia in (-3, 4) e termina in (1, 0). La seconda riga
inizia da (1, 0) e continua all'infinito con una pendenza
pari a 0.

bias storico

#fairness

Un tipo di bias che esiste già nel mondo ed è entrato in un set di dati. Questi bias tendono a riflettere stereotipi culturali, disuguaglianze demografiche e pregiudizi esistenti nei confronti di determinati gruppi sociali.

Ad esempio, prendiamo in considerazione un modello di classificazione che predittivo se un richiedente di prestito non adempie o meno al proprio prestito. Il modello è stato addestrato con dati storici sui mancati pagamenti dei prestiti degli anni '80 di banche locali in due comunità diverse. Se in passato i richiedenti della Comunità A avevano sei volte più probabilità di non pagare i prestiti rispetto ai richiedenti della Comunità B, il modello potrebbe apprendere un bias storico che lo rende meno propenso ad approvare i prestiti nella Comunità A, anche se le condizioni storiche che hanno portato a tassi di insolvenza più elevati in quella comunità non sono più pertinenti.

Per saperne di più, consulta Equità: tipi di bias nel corso introduttivo al machine learning.

dati di controllo

Esempi non utilizzati intenzionalmente ("messi da parte") durante l'addestramento. Il set di dati di convalida e Il set di dati di test è un esempio di dati di holdout. Dati di holdout aiuta a valutare la capacità del modello di generalizzare in base a dati diversi da dati su cui è stato addestrato. La perdita nel set di esclusione fornisce una stima migliore della perdita in un set di dati non visto rispetto alla perdita nel set di addestramento.

host

#TensorFlow

#GoogleCloud

Quando addestrini un modello di ML su chip acceleratore (GPU o TPU), la parte del sistema che controlla entrambi i seguenti elementi:

Il flusso complessivo del codice.
L'estrazione e la trasformazione della pipeline di input.

In genere, l'host viene eseguito su una CPU, non su un chip di accelerazione. Il dispositivo manipola i tensori sui chip di accelerazione.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolare durante esecuzioni successive di addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti e impostare il tasso di apprendimento a 0,01 prima di una sessione di addestramento. Se stabilisci che 0,01 è troppo alto, potresti impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

I parametri, invece, sono i vari pesi e bias che il modello apprende durante l'addestramento.

Per ulteriori informazioni, consulta Regressione lineare: iperparametri nel corso introduttivo al machine learning.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una linea è un iperpiano in due dimensioni e un piano è un iperpiano in tre dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa un spazio ad alta dimensionalità. Le macchine a vettori di supporto con kernel utilizzano hyperplane per separare le classi positive dalle classi negative, spesso in uno spazio di dimensioni molto elevate.

I

i.i.d.

Abbreviazione di distribuzione indipendente e identica.

riconoscimento immagini

#image

Un processo che classifica oggetti, pattern o concetti in un'immagine. Il riconoscimento delle immagini è anche noto come classificazione delle immagini.

Per ulteriori informazioni, consulta ML Practicum: Image Classification.

Consulta il ML Practicum: classificazione delle immagini corso per ulteriori informazioni.

set di dati sbilanciato

Sinonimo di class-imbalanced dataset.

bias implicito

#fairness

Creare automaticamente un'associazione o un'ipotesi in base alle proprie opinioni di archiviazione e memoria. I pregiudizi impliciti possono influire su quanto segue:

Modalità di raccolta e classificazione dei dati.
Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando crei un classificatore per identificare le foto dei matrimoni, un ingegnere potrebbe usare la presenza di un abito bianco in una foto come caratteristica. Tuttavia, gli abiti bianchi sono stati consueti solo in determinate epoche e in determinate culture.

Vedi anche differenziazione della conferma.

imputazione

Forma abbreviata di attribuzione del valore.

Incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità siano reciprocamente incompatibili e non possano essere soddisfatte contemporaneamente. Di conseguenza, non esiste una sola metrica universale per quantificare l'equità che può essere applicata a tutti i problemi di ML.

Anche se può sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che gli sforzi per l'equità siano infruttuosi. Suggerisce invece l'equità deve essere definita contestualmente per un dato problema di ML, l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Vedi "Sulla (im)possibilità di equità" per una discussione più dettagliata su questo argomento.

Apprendimento contestuale

#language

#generativeAI

Sinonimo di prompt few-shot.

distribuite in modo indipendente e identico (i.i.d.)

#fundamentals

Dati estratti da una distribuzione che non cambia e in cui ogni valore estratto non dipende dai valori estratti in precedenza. Un i.i.d. è il gas ideale della macchina dell'apprendimento: un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web può essere i.i.d. in un breve periodo di tempo, ovvero la distribuzione non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente da quella di un'altra. Tuttavia, se espandi la finestra di tempo, potrebbero apparire differenze stagionali nei visitatori della pagina web.

Vedi anche nonstationarity.

equità individuale

#fairness

Una metrica di equità che verifica se persone simili sono classificate in modo simile. Ad esempio, la Brobdingnagian Academy potrebbe voler soddisfare la equità individuale garantendo che due studenti con voti e punteggi dei test standardizzati identici abbiano la stessa probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente sul modo in cui definisci la "somiglianza" (in questo caso, voti e punteggi dei test) ed è possibile correre il rischio Introduzione di nuovi problemi di equità se la metrica di somiglianza non riesce a individuare elementi importanti informazioni (ad esempio il rigore del programma di studio).

Vedi "Fairness Through Awareness" per approfondire l'argomento dell'equità individuale.

inferenza

#fundamentals

Nel machine learning, il processo di elaborazione di previsioni applicando un modello addestrato a esempi senza etichetta.

L'inferenza ha un significato leggermente diverso in statistica. Consulta le Articolo di Wikipedia sull'inferenza statistica per maggiori dettagli.

Consulta la sezione Apprendimento supervisionato nel corso Introduzione all'ML per conoscere il ruolo dell'inferenza in un sistema di apprendimento supervisionato.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, viene indicato il percorso seguito da un determinato esempio dalla radice ad altre condizioni, che termina con un elemento foglia. Ad esempio, nella seguente struttura decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle funzionalità:

x = 7
y = 12
z = -3

Il percorso di inferenza nell'illustrazione seguente attraversa tre condizioni prima di raggiungere la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

Per ulteriori informazioni, consulta la sezione Alberi decisionali nel corso Foreste di alberi decisionali.

guadagno di informazioni

#df

Nelle foreste di alberi decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (in base al numero di esempi) dell'entropia dei suoi nodi secondari. L'entropia di un nodo è l'entropia degli esempi in quel nodo.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo principale = 0,6
entropia di un nodo figlio con 16 esempi pertinenti = 0,2
entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Il 40% degli esempi si trova in un nodo figlio e il 60% nella dall'altro nodo figlio. Pertanto:

somma dell'entropia ponderata dei nodi secondari = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, l'acquisizione di informazioni è:

guadagno di informazioni = entropia del nodo padre - somma di entropia ponderata dei nodi figlio
guadagno informativo = 0,6 - 0,14 = 0,46

La maggior parte degli strumenti di suddivisione cerca di creare condizioni che massimizzano l'aumento delle informazioni.

bias nel gruppo

#fairness

Mostrare parzialità nei confronti del proprio gruppo o delle proprie caratteristiche. Se i tester o i valutatori sono amici, familiari o colleghi dello sviluppatore di machine learning, il bias di gruppo potrebbe invalidare i test del prodotto o il set di dati.

Il bias nel gruppo è una forma di bias di attribuzione del gruppo. Vedi anche bias di omogeneità del gruppo esterno.

Consulta la sezione Equità: tipi di pregiudizi Machine Learning Crash Course per ulteriori informazioni.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono sottoposti a iterazione per generare batch per l'addestramento, la valutazione e l'inferenza.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. In altre parole, il livello di input fornisce esempi per l'addestramento o per l'inferenza. Ad esempio, il livello di input nel seguente la rete neurale è composta da due funzionalità:

Quattro livelli: uno di input, due nascosti e uno di output.

Condizione in-set

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione in-set:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della caratteristica in stile casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica casalinga è un altro (ad esempio, ranch), questa condizione restituisce un valore pari a No.

Le condizioni in sede di solito portano a alberi decisionali più efficienti rispetto a che verificano le caratteristiche con codifica one-hot.

istanza

Sinonimo di example.

Ottimizzazione delle istruzioni

#generativeAI

Una forma di ottimizzazione che migliora una Abilità del modello di IA generativa istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello su una serie di prompt di istruzioni, che in genere coprono un'ampia gamma di attività. Il modello ottimizzato per l'istruzione risultante tende quindi generare risposte utili ai prompt zero-shot in una serie di attività.

Confronta e metti a confronto con:

ottimizzazione efficiente dei parametri
ottimizzazione del prompt

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello ML in comprensibili per un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, ha una capacità elevata interpretabili. (devi solo esaminare i pesi addestrati per ogni feature.) Le foreste di alberi decisionali sono anche altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per diventare interpretabili.

Puoi utilizzare lo Strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli di ML.

accordo tra classificatori

Una misurazione della frequenza con cui i revisori umani concordano nello svolgere un'attività. Se i revisori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni delle attività. Talvolta chiamato anche contratto inter-annotatore o affidabilità tra classificatori. Vedi anche Di Cohen Kappa, che è una delle più comuni misurazioni del contratto tra le valutazioni.

Per ulteriori informazioni, consulta Dati categorici: problemi comuni nel corso introduttivo al machine learning.

intersezione su unione (IoU)

#image

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini con il machine learning, l'IoU viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto dal modello rispetto al riquadro di delimitazione dei dati empirici reali. In questo caso, l'IoU per "due caselle" è il rapporto tra l'area di sovrapposizione e l'area totale, e il suo valore è compreso tra 0 (nessuna sovrapposizione del riquadro di delimitazione previsto e dei dati empirici reali il riquadro di delimitazione) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno esattamente le stesse coordinate).

Ad esempio, nell'immagine seguente:

Il riquadro di delimitazione previsto (le coordinate che delimitano il punto in cui il modello prevede che il comodino nel dipinto) sia contornato in viola.
Il riquadro di delimitazione dei dati empirici reali (le coordinate che delimitano il luogo della notte di Google Cloud nel dipinto) è contornato in verde.

Qui l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (sotto a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati empirici reali (sotto a destra) è 7, quindi l'IoU è $\frac{1}{7}$.

La stessa immagine dell'immagine precedente, ma con ciascun riquadro di delimitazione diviso in quattro
quadranti. Esistono in totale sette quadranti, poiché il quadrante in basso a destra
del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra
del riquadro di delimitazione previsto si sovrappongono. Questa
sezione sovrapposta (evidenziata in verde) rappresenta la
intersezione e ha un'area pari a 1.

Stessa immagine di cui sopra, ma con ogni riquadro di delimitazione diviso in quattro quadranti. Esistono in totale sette quadranti, poiché il quadrante in basso a destra
del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra
del riquadro di delimitazione previsto si sovrappongono.
L'intero interno racchiuso da entrambi i rettangoli delimitanti
(evidenziati in verde) rappresenta l'unione e ha
un'area di 7.

IoU

Abbreviazione di intersection over Union.

matrice di elementi

#recsystems

Nei sistemi di consigli, una matrice di vettori di incorporamento generata fattorizzazione matriciale che contengono indicatori latenti su ogni elemento. Ogni riga della matrice contiene il valore di un singolo elemento latente per tutti gli articoli. Ad esempio, considera un sistema di consigli sui film. Ogni colonna nella matrice degli elementi rappresenta un singolo filmato. Gli indicatori latenti possono rappresentare generi o essere indicatori più difficili da interpretare che coinvolgono interazioni complesse tra genere, stelle, età del film o altri fattori.

La matrice degli elementi ha lo stesso numero di colonne della matrice di destinazione che viene fattorizzata. Ad esempio, dato un sistema di consigli per i film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.

elementi

#recsystems

In un sistema di suggerimenti, le entità consigliate da un sistema. Ad esempio, i video sono gli articoli di un video consiglia, mentre i libri sono gli articoli consigliati da una libreria.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri di un modello, ovvero i suoi pesi e bias, durante l'addestramento. La dimensione del batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione coinvolge i seguenti due passaggi:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio all'indietro (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

J

JAX

Una libreria di array computing, che riunisce XLA (Accelerated Linear Algebra) e differenziazione automatica per il calcolo numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX offre funzionalità come:

grad (differenziazione automatica)
jit (compilazione just-in-time)
vmap (Vectorizzazione o batch automatici)
pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di analogo, ma di ambito molto più ampio, a NumPy di Python libreria. (Di fatto, la libreria .numpy in JAX è una funzione equivalente, ma una versione completamente riscritta della libreria Python NumPy.)

JAX è particolarmente adatta per accelerare molte attività di machine learning trasformando i modelli e i dati in una forma adatta al parallelismo su GPU e chip dell'acceleratore TPU.

Flax, Optax, Pax e molti altri sono basate sull'infrastruttura JAX.

K

Keras

Un'API di machine learning Python molto utilizzata. Keras funziona su diversi framework di deep learning, tra cui TensorFlow, dove è reso disponibile come tf.keras.

Macchine a vettori di supporto con kernel (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra positiva e classi negative mediante la mappatura dei vettori di dati di input in uno spazio dimensionale più elevato. Ad esempio, considera una classificazione problema in cui il set di dati di input ha un centinaio di caratteristiche. Per massimizzare il margine tra classi positive e negative, una KSVM potrebbe mappare internamente queste caratteristiche in uno spazio milionario. I KSVM utilizzano una funzione di perdita chiamata perdita a cerniera.

keypoints

#image

Coordinate di elementi particolari in un'immagine. Ad esempio, per un modello di riconoscimento delle immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, il gambo, lo stame e così via.

convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare con nuovi dati. Il valore k in k-fold si riferisce al numero di gruppi uguali in cui dividi gli esempi di un set di dati, ovvero addestra e testa il modello k volte. Per ogni fase di addestramento e test, un gruppo diverso è il set di test, mentre tutti i gruppi rimanenti costituiscono il set per iniziare. Dopo k cicli di addestramento e test, si calcola la media e deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia costituito da 120 esempi. Supponiamo inoltre che tu decida di impostare k su 4. Pertanto, dopo aver rimescolato gli esempi, suddividi il set di dati in quattro gruppi uguali di 30 esempi e conduci quattro fasi di addestramento e test:

Ad esempio, errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troverai la media e la deviazione standard dell'errore quadratico medio in tutti e quattro i round.

K-means

#clustering

Un algoritmo di clustering molto utilizzato che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo k-means esegue in sostanza le seguenti operazioni:

Determina iterativamente i migliori punti k centrali (noti come centroids).
Assegna ogni esempio al centroide più vicino. Gli esempi più vicini allo stesso centroide appartengono allo stesso gruppo.

L'algoritmo k-means sceglie le posizioni dei centroidi per ridurre al minimo il valore quadrato cumulativo delle distanze da ciascun esempio al centroide più vicino.

Ad esempio, considera il seguente diagramma di altezza rispetto alla larghezza del cane:

Un grafico cartesiano con diverse dozzine di punti dati.

Se k=3, l'algoritmo K-means determinerà tre centroidi. Ogni esempio al centroide più vicino, generando tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, ad eccezione di
con tre centroidi aggiunti.
I punti dati precedenti sono raggruppati in tre gruppi distinti,
ciascuno dei quali rappresenta i punti dati più vicini a un determinato
centroide.

Immagina che un produttore voglia determinare le taglie ideali per maglioni di taglia media e grande per cani. I tre centroidi identificano la media l'altezza e la larghezza media di ogni cane in quell'ammasso. Pertanto, il produttore dovrebbe basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-means per esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che k-means può raggruppare gli esempi in base a molte funzionalità.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato al clustering K-means. La differenza pratica tra i due è la seguente:

In K-means, i baridi vengono determinati minimizzando la somma dei quadrati della distanza tra un candidato centroide e ciascuno di i suoi esempi.
Nella mediana k, i baridi sono determinati minimizzando la somma dei distanza tra un candidato baricentro e ognuno dei suoi esempi.

Tieni presente che anche le definizioni di distanza sono diverse:

k-means si basa sulla distanza euclidea dal centroide a un esempio. (In due dimensioni, il modello la distanza indica che si usa il teorema di Pitagora per calcolare dell'ipotenusa). Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Il k-median si basa sulla distanza di Manhattan dal centroide a un esempio. Questa distanza è la somma dei variazioni assolute in ogni dimensione. Ad esempio, la mediana k la distanza tra (2,2) e (5,-2) sarebbe:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L₀ viene talvolta chiamata regolarizzazione della norma L0.

Fai clic sull'icona per visualizzare altre note.

La regolarizzazione L₀ è generalmente non pratica nei modelli di grandi dimensioni perché La regolarizzazione L₀ trasforma l'addestramento in una convessi problema di ottimizzazione.

Perdita L₁

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi delle etichette e i valori previsti da un modello. Ad esempio, di seguito è riportato il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto di delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perdita L₁

La perdita L₁ è meno sensibile agli outlier rispetto alla perdita di L₂.

L'errore medio assoluto è la media Perdita di ₁ per esempio.

Fai clic sull'icona per visualizzare il calcolo formale.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma del valore assoluto delle ponderazioni. La regolarizzazione L₁ aiuta a gestire la ponderazione di elementi o funzionalità appena pertinenti su 0. Una caratteristica con una ponderazione pari a 0 viene effettivamente rimossa dal modello.

È diversa dalla regolarizzazione L₂.

Perdita L₂

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perdita L₂

A causa della quadratura, la perdita L₂ amplifica l'influenza degli outlier. Vale a dire che la perdita L₂ reagisce più fortemente a previsioni errate rispetto a perdita di L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Nota che una singola i valori anomali rappresentano 9 dei 16.

I modelli di regressione in genere utilizzano la perdita L₂ come funzione di perdita.

Lo scarto quadratico medio è la perdita L₂ media per esempio. La perdita quadratica è un altro nome per la perdita L₂.

Fai clic sull'icona per visualizzare il calcolo formale.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
$y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma dei quadrati delle ponderazioni. La regolarizzazione L₂ aiuta a generare ponderazioni outlier (ovvero con valori positivi o negativi bassi) più vicini a 0 ma non proprio a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nelle modelli lineari.

Confrontare con la regolarizzazione L₁.

etichetta

#fundamentals

Nel machine learning supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio con etichetta è costituito da uno o più elementi e da un'etichetta. Ad esempio, in un file di rilevamento, l'etichetta sarà probabilmente "spam" o "non spam." In un set di dati sulla pioggia, l'etichetta potrebbe essere la quantità di pioggia caduta durante un determinato periodo.

Esempio con etichetta

#fundamentals

Un esempio che contiene una o più caratteristiche e un'etichetta. Ad esempio, la tabella seguente mostra tre esempi etichettati di un modello di valutazione di case, ciascuno con tre funzionalità e un'etichetta:

Numero di camere	Numero di bagni	Età della casa	Prezzo della casa (etichetta)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati ed effettuano previsioni su esempi non etichettati.

Confronta l'esempio etichettato con gli esempi senza etichetta.

fuga di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per etichetta. Ad esempio, considera un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un nome booleano SpokeToCustomerAgent. Supponiamo inoltre che un agente addetto alla clientela venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccaricato. Qui ci concentriamo sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialogo in grado di generare risposte di conversazione realistiche.

LaMDA: la nostra tecnologia di conversazione rivoluzionaria fornisce una panoramica.

punti di riferimento

#image

Sinonimo di keypoint.

modello linguistico

#language

Un modello che stima la probabilità che un token o una sequenza di token si verifichi in una sequenza più lunga di token.

Fai clic sull'icona per visualizzare altre note.

Sebbene controintuitivo, molti modelli che valutano il testo non sono modelli linguistici. Ad esempio, i modelli di classificazione del testo e di analisi del sentiment non sono modelli linguistici.

modello linguistico di grandi dimensioni

#language

Come minimo, un modello linguistico con un numero molto elevato di parametri. In modo più informale, qualsiasi Transformer (LLM), ad esempio Gemini o GPT.

spazio latente

#language

Sinonimo di spazio di incorporamento.

livello

#fundamentals

Un insieme di neuroni in una rete neurale. Tre tipi comuni di strati sono i seguenti:

Il livello di input, che fornisce i valori per tutte le caratteristiche.
Uno o più livelli nascosti, che trovano relazioni non lineari tra le caratteristiche e l'etichetta.
Lo strato di output, che fornisce la previsione.

Ad esempio, l'illustrazione seguente mostra una rete neurale con uno di input, due nascosti e uno di output:

Una rete neurale con un livello di input, due livelli nascosti e uno di output. Lo strato di input è costituito da due elementi. Il primo
è composto da tre neuroni e il secondo strato nascosto
è composto da due neuroni. Lo strato di output è costituito da un singolo nodo.

In TensorFlow, i livelli sono anche funzioni Python che accettano come input Tensor e opzioni di configurazione e producono come output altri tensori.

API Livelli (tf.layers)

#TensorFlow

Un'API TensorFlow per la creazione di una rete neurale profonda una composizione di strati. L'API Livelli ti consente di creare tipi di livelli, ad esempio:

tf.layers.Dense per uno strato completamente connesso.
tf.layers.Conv2D per un livello convoluzionale.

L'API Livelli segue le convenzioni dell'API per i livelli Keras. Ciò significa che, a parte un prefisso diverso, tutte le funzioni dell'API Layers hanno gli stessi nomi e le stesse firme delle relative controparti nell'API di Keras.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente quanto modificare le ponderazioni e i bias a ogni iterazione. Ad esempio, un tasso di apprendimento di 0,3 aggiusterebbe i pesi e i bias tre volte più efficacemente di un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti il tasso di apprendimento è troppo basso, l'addestramento richiederà troppo tempo. Se impostate il tasso di apprendimento troppo alto, la discesa del gradiente spesso ha difficoltà a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, discesa del gradiente l'algoritmo moltiplica tasso di apprendimento per gradiente. Il prodotto risultante è chiamato passaggio del gradiente.

regressione lineare dei minimi quadrati

Un modello di regressione lineare addestrato mediante la minimizzazione della perdita L₂.

lineare

#fundamentals

Una relazione tra due o più variabili che può essere rappresentata unicamente tramite addizione e moltiplicazione.

Il diagramma di una relazione lineare è una linea.

È il contrario di non lineare.

modello lineare

#fundamentals

Un modello che assegna un peso per feature per fare previsioni. I modelli lineari incorporano anche un bias. Al contrario, la relazione delle caratteristiche con le previsioni nei modelli diretti è generalmente nonlinear.

I modelli lineari sono in genere più facili da addestrare e più interpretabili rispetto ai modelli di deep learning. Tuttavia, i modelli di apprendimento profondo possono apprendere relazioni complesse tra le caratteristiche.

Regressione lineare e La regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare il calcolo.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

y' è la previsione non elaborata. In alcuni tipi di modelli lineari, questa previsione non elaborata verrà ulteriormente modificata. Ad esempio, consulta la regressione logistica.
b è il bias.
w è una ponderazione, quindi w₁ è il peso della prima caratteristica, w₂ è il peso seconda caratteristica e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda caratteristica e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti bias e pesi:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Di conseguenza, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ogni previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un determinato esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Se colleghi questi valori alla formula, ottieni una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come solo componente della formula che effettua le previsioni. Ad esempio, la regressione logistica esegue il post-trattamento della previsione non elaborata (y') per produrre un valore di previsione finale compreso tra 0 e 1, esclusivamente.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui si verificano entrambe le seguenti condizioni:

Il modello è un modello lineare.
La previsione è un valore con virgola mobile. (Questa è la parte di regressione della regressione lineare.)

Confronta la regressione lineare con la regressione logistica. Inoltre, confronta la regressione con la classificazione.

LIT

Abbreviazione per Strumento di interpretabilità dell'apprendimento (LIT), precedentemente noto come strumento di interpretabilità linguistica.

LLM

#language

#generativeAI

Abbreviazione di Large Language Model.

Valutazioni LLM (evals)

#language

#generativeAI

Un insieme di metriche e benchmark per valutare le prestazioni di modelli linguistici di grandi dimensioni (LLM). A livello generale, Valutazioni LLM:

Aiutare i ricercatori a identificare le aree in cui gli LLM devono essere migliorati.
Sono utili per confrontare diversi LLM e identificare l'LLM migliore per un un'attività specifica.
Contribuisci ad assicurare che gli LLM siano sicuri ed etici.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorica. Il termine regressione logistica solitamente si riferisce alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola probabilità di etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è perdita logaritmica. (È possibile posizionare più unità di perdita di log in parallelo per le etichette) con più di due valori possibili).
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche modelli profondi che prevedono le probabilità per le etichette categoriche.

Ad esempio, considera un modello di regressione logistica che calcola il la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Pertanto, il modello stima:

72% di probabilità che l'email sia spam.
28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due passaggi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare di caratteristiche di input.
Il modello utilizza questa previsione non elaborata come input per un funzione sigmoidale, che converte i dati non elaborati la previsione con un valore compreso tra 0 e 1, esclusi.

Come ogni modello di regressione, anche quello logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di una classificazione binaria modello come segue:

Se il numero previsto è maggiore del valore soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

logit

Il vettore di previsioni non elaborate (non normalizzate) che una classificazione generato dal modello, che di solito viene passato a una funzione di normalizzazione. Se il modello risolve una classificazione multiclasse problema, i logit di solito diventano un input Funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare il calcolo.

La seguente formula calcola la perdita logaritmica:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

where:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, ovvero $(x,y)$ coppie.
$y$ è l'etichetta in un esempio con etichetta. Poiché si tratta di regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, esclusi), dato l'insieme di funzionalità in $x$.

probabilità logaritmica

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare il calcolo.

Se l'evento è una probabilità binaria, odds si riferisce a il rapporto tra la probabilità di successo (p) e la probabilità di errore (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di fallimento del 10%. In questo caso, il valore di questa quota viene calcolato come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

I log-odd sono semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma in realtà il logaritmo potrebbe essere qualsiasi base maggiore di 1. Mantenendo la convenzione, le probabilità logaritmiche del nostro esempio sono quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione di probabilità logaritmica è l'inversa della funzione sigmoidea.

LSTM (Long Short-Term Memory).

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni come il riconoscimento della scrittura, traduzione e didascalie delle immagini. Gli LSTM risolvono il problema problema di scomparsa del gradiente che si verifica quando di addestramento degli RNN grazie a lunghe sequenze di dati mantenendo la cronologia in stato della memoria interna in base al nuovo input e al contesto delle celle precedenti nell'RNN.

LoRA

#language

#generativeAI

Abbreviazione di Low-Rank Adaptability.

perdita

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura della distanza tra la previsione di un modello e la sua etichetta.

Una funzione di perdita calcola la perdita.

aggregatore perdita

Un tipo di algoritmo di machine learning che migliora le prestazioni di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare una singola previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorare la loro accuratezza.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il grafico seguente mostra una perdita tipica curva:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra un brusco calo della perdita per le iterazioni iniziali, seguito da un calo graduale e poi da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello è in fase di convergenza o soffre di overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

perdita dell'addestramento
Perdita di convalida
perdita del test

Vedi anche curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, funzione matematica che calcola su un batch di esempi. Una funzione di perdita restituisce una perdita inferiore per i modelli che fanno buone previsioni rispetto a quelli che fanno cattive previsioni.

Lo scopo dell'addestramento è in genere minimizzare la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

Perdita L₂ (o errore quadratico medio) è la funzione di perdita della regressione lineare.

La perdita logaritmica è la funzione di perdita per la regressione logistica.

superficie di perdita

Un grafico di ponderazioni rispetto alla perdita. Obiettivi della discesa del gradiente per trovare i pesi per cui la superficie di perdita è al minimo locale.

Adattabilità a basso ranking (LoRA)

#language

#generativeAI

Una tecnica di ottimizzazione efficiente dei parametri per la ottimizzazione fine che "blocca" i parametri preaddestrati del modello (in modo che non possano più essere modificati) e poi inserisce un piccolo insieme di parametri addestrabili nel modello. Questo insieme di pesi addestrabili (noti anche come "matrici di aggiornamento") è notevolmente più piccolo del modello di base ed è perciò molto più velocemente da addestrare.

LoRa offre i seguenti vantaggi:

Migliora la qualità delle previsioni di un modello per il dominio in cui viene applicata la messa a punto fine.

Esegue la messa a punto più velocemente rispetto alle tecniche che richiedono la messa a punto di tutti i parametri di un modello.

Riduce il costo di calcolo dell'inferenza attivando distribuzione simultanea di più modelli specializzati che condividono la stessa base un modello di machine learning.

Fai clic sull'icona per scoprire di più sull'aggiornamento delle matrici in LoRA.

Le matrici di aggiornamento utilizzate in LoRA sono composte da matrici di decomposizione dei ranking, derivati dal modello di base per filtrare il rumore concentrarsi sull'addestramento sulle caratteristiche più importanti del modello.

LSTM

#seq

Abbreviazione di memoria a lungo termine.

M

machine learning

#fundamentals

Un programma o sistema che addestra una model dai dati di input. Il modello addestrato può fare previsioni utili sulla base di nuovi (mai visti) dati ricavati la stessa distribuzione di quella usata per addestrare il modello.

Il machine learning si riferisce anche all'ambito di studio con questi programmi o sistemi.

classe maggioritaria

#fundamentals

L'etichetta più comune in un insieme di dati con sbilanciamento delle classi. Ad esempio, dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

È il contrario di classe di minoranza.

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui le decisioni (o azioni) vengono intraprese per navigare in una sequenza di afferma il presupposto che Conservazioni della proprietà di Markov. Nel machine learning con rinforzo, queste transizioni tra stati restituiscono un premio numerico.

Proprietà di Markov

#rl

Una proprietà di determinati ambienti, in cui lo stato sono interamente determinate dalle informazioni implicite lo stato corrente e l'azione dell'agente.

modello linguistico con maschera

#language

Un modello linguistico che prevede la probabilità che i token candidati vengano inseriti negli spazi vuoti di una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità per le parole candidate per sostituire il tratto sottolineato nella seguente frase:

Il ____ nel cappello è tornato.

La letteratura utilizza in genere la stringa "MASK" anziché un'opzione di sottolineatura. Ad esempio:

Il "MASCHERA" nel cappello è tornato.

La maggior parte dei moderni modelli linguistici con mascheramento è bidirezionale.

matplotlib

Una libreria di tracciamento 2D Python open source. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

#recsystems

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima un matrice target.

Nei sistemi di consigli, la matrice di destinazione spesso contiene le valutazioni degli utenti relative agli elementi. Ad esempio, la matrice di destinazione per un sistema di consigli sui film potrebbe essere simile alla seguente, dove gli interi positivi sono le valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:

Casablanca La storia di Filadelfia Black Panther Wonder Woman Pulp Fiction

Utente 1 5,0 3,0 0.0 2.0 0.0

Utente 2 4.0 0.0 0.0 1,0 5,0

Utente 3 3,0 1,0 4.0 5,0 0.0

Lo scopo del sistema di consigli sui film è prevedere le valutazioni degli utenti per i film senza classificazione. Ad esempio, all'utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti è utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:

Una matrice utente, formata dal numero di utenti x il numero di dimensioni di embedding.

Una matrice di elementi, formata dal numero di dimensioni di embedding x il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale sui tre utenti e sui cinque articoli potrebbe generare le seguenti matrici utente e di articolo:

User Matrix Item Matrix 1.1 2.3 0.9 0.2 1.4 2.0 1.2 0.6 2.0 1.7 1.2 1.2 -0.1 2.1 2.5 0.5

Il prodotto scalare della matrice utente e della matrice elemento genera un suggerimento che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, prendi in considerazione la valutazione dell'utente 1 per Casablanca, pari a 5,0. Il prodotto punto corrispondente a quella cella nella matrice di consigli dovrebbe essere di circa 5,0 e in effetti è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ma soprattutto, l'utente 1 apprezzerà Black Panther? Il prodotto scalare corrispondente alla prima riga e alla terza colonna genera una valutazione prevista di 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale genera in genere una matrice utente e una matrice elemento che, insieme, sono molto più compatte della matrice target.

Errore medio assoluto (MAE)

La perdita media per esempio quando viene utilizzata la perdita L₁. Calcola l'errore assoluto medio come segue:

Calcolare la perdita L₁ di un batch.

Dividi la perdita L₁ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.

$y$ è il valore effettivo dell'etichetta.

$\hat{y}$ è il valore previsto dal modello per $y$.

Ad esempio, considera il calcolo della perdita L₁ sulla gruppo di cinque esempi riportato di seguito:

Valore effettivo dell'esempio Valore previsto del modello Perdita (differenza tra valore effettivo e previsto)

7 6 1

5 4 1

8 11 3

4 6 2

9 8 1

8 = L₁ perdita

Pertanto, la perdita L₁ è 8 e il numero di esempi è 5. Di conseguenza, l'errore medio assoluto è:

Mean Absolute Error = L₁ loss / Number of Examples Mean Absolute Error = 8/5 = 1.6

Confronta l'errore assoluto medio con l'errore quadratico medio e con l'errore quadratico medio della radice.

errore quadratico medio (MSE)

La perdita media per esempio quando la perdita di L₂ è in uso. Calcola lo scarto quadratico medio come segue:

Calcola la perdita L₂ per un batch.

Dividi la perdita L₂ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare la matematica formale.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ where:

$n$ è il numero di esempi.

$y$ è il valore effettivo dell'etichetta.

$\hat{y}$ è la previsione del modello per $y$.

Considera ad esempio la perdita nel seguente batch di cinque esempi:

Valore effettivo Previsione del modello Perdita Perdita quadratica

7 6 1 1

5 4 1 1

8 11 3 9

4 6 2 4

9 8 1 1

16 = perdita L₂

Pertanto, l'errore quadratico medio è:

Mean Squared Error = L₂ loss / Number of Examples Mean Squared Error = 16/5 = 3.2

Lo scarto quadratico medio è un popolare ottimizzatore dell'addestramento, in particolare per la regressione lineare.

Contrasto quadratico medio con Errore medio assoluto e Errore quadratico medio.

TensorFlow Playground utilizza lo scarto quadratico medio per calcolare i valori di perdita.

Fai clic sull'icona per visualizzare ulteriori dettagli sugli outlier.

I valori anomali influiscono notevolmente sullo scarto quadratico medio (errore quadratico medio). Ad esempio, una perdita di 1 corrisponde a un errore quadratico di 1, mentre una perdita di 3 corrisponde a un errore quadratico di 9. Nella tabella precedente, l'esempio con una perdita di 3 rappresenta circa il 56% dello scarto quadratico medio, mentre ognuno degli esempi con una perdita di 1 rappresenta solo il 6% dello scarto quadratico medio.

Gli outlier non influiscono sull'errore assoluto medio così fortemente come sull'errore quadratico medio. Ad esempio, la perdita di 3 account rappresenta solo il 38% circa dell'errore assoluto medio.

Il taglio è un modo per prevenire gli outlier dal danneggiamento della capacità predittiva del modello.

mesh

#TensorFlow

#GoogleCloud

Nella programmazione parallela del ML, un termine associato all'assegnazione dei dati ai chip TPU e definendo il modo in cui questi valori verranno sottoposti a sharding o replicati.

Mesh è un termine sovraccaricato che può significare uno dei seguenti:

Un layout fisico dei chip TPU.

Un costrutto logico astratto per mappare i dati e il modello ai chip TPU.

In entrambi i casi, un mesh viene specificato come shape.

meta-learning

#language

Un sottoinsieme del machine learning che scopre o migliora un algoritmo di apprendimento. Un sistema di metaapprendimento può anche avere lo scopo di addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita in attività precedenti. In genere, gli algoritmi di metaapprendimento cercano di ottenere quanto segue:

Migliorare o apprendere funzionalità progettate manualmente (come un inizializzatore o ottimizzatore).

Aumenta l'efficienza nei dati e nel calcolo.

Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow

Una statistica che ti interessa.

Un obiettivo è una metrica che un sistema di machine learning tenta di ottimizzare.

API Metrics (tf.metrics)

Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Un sottoinsieme piccolo e selezionato in modo casuale di un batch elaborato in un'iterazione. La dimensione del batch di un mini-batch è di solito tra 10 e 1000 esempi.

Ad esempio, supponiamo che l'intero set di addestramento (il batch completo) sia costituito da 1000 esempi. Supponiamo inoltre di impostare la dimensione del batch di ogni mini batch su 20. Pertanto, ogni l'iterazione determina la perdita su un 20 casuale dei 1.000 esempi regola le ponderazioni e facilità di conseguenza.

È molto più efficiente calcolare la perdita su un mini-batch rispetto alla perdita su tutti gli esempi del batch completo.

la discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, i modelli stocastici in mini-batch la discesa del gradiente stima il gradiente in base a un piccolo sottoinsieme di dati di addestramento. La discesa stocastica del gradiente standard utilizza un mini-batch di dimensione 1.

perdita minimax

Una funzione di perdita per le reti antagoniste generative, basata sulla entropia di crociera tra la distribuzione dei dati generati e quella dei dati reali.

La perdita Minimax viene utilizzata il primo articolo per descrivere reti generative avversarie.

classe di minoranze

#fundamentals

L'etichetta meno comune in un insieme di dati con sbilanciamento delle classi. Ad esempio: dato un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette positive appartengono alla minoranza.

Contrasta la classe di maggioranza.

Fai clic sull'icona per visualizzare altre note.

Un set di addestramento con un milione di esempi sembra impressionante. Tuttavia, se la minoranza è rappresentata in modo inadeguato, anche un set di addestramento molto grande potrebbe essere insufficiente. Concentrati di meno sul numero totale di esempi nel set di dati e altro ancora sul numero di di esempi nella classe delle minoranze.

Se il tuo set di dati non contiene esempi sufficienti della classe di minoranza, valuta la possibilità di utilizzare il downsampling (la definizione è riportata nel secondo punto elenco) per integrare la classe di minoranza.

una combinazione di esperti

#language

#generativeAI

Uno schema per aumentare l'efficienza della rete neurale di utilizzando solo un sottoinsieme dei suoi parametri (noto come esperto) per elaborare un determinato token di input o esempio di input. R rete di blocco inoltra ogni token di input o esempio all'esperto o agli esperti appropriati.

Per maggiori dettagli, vedi uno dei seguenti articoli:

Reti neurali straordinariamente grandi: Livello di miscela di esperti con limitazioni

Un mix di esperti e un'ampia scelta Calcolo dei percorsi

ML

Abbreviazione di machine learning.

MMIT

#language

#image

#generativeAI

Abbreviazione di ottimizzata per l'istruzione multimodale.

MNIST

#image

Un set di dati di dominio pubblico compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ciascuna delle quali mostra come una persona ha scritto manualmente un determinato cifra da 0 a 9. Ogni immagine viene archiviata come array di numeri interi 28x28, ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi di machine learning. Per maggiori dettagli, vedi Database MNIST per cifre scritte a mano libera.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

modello

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce come output. In altre parole, un modello è l'insieme di parametri e strutture necessari per consentire a un sistema di fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deducono un previsione come output. Nell'ambito del machine learning supervisionato, sono leggermente diversi. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di ponderazioni e un pregiudizio.

Un modello di rete neurale è costituito da:

Un insieme di strati nascosti, ciascuno contenente uno o più neuroni.

Le ponderazioni e i bias associati a ciascun neurone.

Un modello albero decisionale è costituito da:

La forma dell'albero; cioè il pattern in cui le condizioni e le foglie sono collegate.

Le condizioni e le foglie.

Puoi salvare, ripristinare o creare copie di un modello.

Anche il machine learning non supervisionato genera modelli, in genere una funzione che può mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli ML.

Un modello è una funzione algebrica come la seguente:

f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Analogamente, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

Un chiamante passa gli argomenti alla funzione Python precedente e la funzione Python genera l'output (tramite l'istruzione return).

Anche se una rete neurale profonda ha una struttura matematica molto diversa da quella di un modello algebrico o di programmazione , una rete neurale profonda prende comunque l'input (un esempio) e restituisce dell'output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatico.

capacità del modello

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la sua capacità. La capacità di un modello in genere aumenta con il numero di parametri del modello. Per una definizione formale della capacità dello strumento di classificazione, consulta Dimensione VC.

a cascata dei modelli

#generativeAI

Un sistema che sceglie il modello ideale per un'inferenza specifica query.

Immagina un gruppo di modelli, da molto grandi (molti parametri) a molto più piccoli (molto meno parametri). I modelli molto grandi consumano più risorse di calcolo in dei tempi di inferenza rispetto ai modelli più piccoli. Tuttavia, le dimensioni molto grandi e i modelli possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. La gestione a cascata del modello determina la complessità della query di inferenza sceglie il modello appropriato per eseguire l'inferenza. La motivazione principale per la distribuzione a cascata dei modelli è la riduzione dei costi di inferenza in genere selezionando modelli più piccoli e selezionando solo un modello più grande per per query complesse.

Immagina che un modello di piccole dimensioni venga eseguito su uno smartphone e una versione più grande su un server remoto. La gestione a cascata di un buon modello riduce i costi e la latenza consentendo al modello più piccolo di gestire richieste semplici e per gestire richieste complesse.

Vedi anche router modello.

parallelismo del modello

#language

Un modo di scalare l'addestramento o l'inferenza che pone parti diverse di una model su dispositivi diversi. Il parallelismo dei modelli consente di utilizzare modelli troppo grandi per un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere svolge le seguenti operazioni:

Shard (divide) il modello in parti più piccole.

Distribuisce l'addestramento di queste parti più piccole su più processori. Ogni processore addestra la propria parte del modello.

Combina i risultati per creare un singolo modello.

Il parallelismo del modello rallenta l'addestramento.

Vedi anche parallelismo dei dati.

router modello

#generativeAI

L'algoritmo che determina il modello ideale per la deduzione nella cascading dei modelli. Un router modello è a sua volta un modello di machine learning che apprende gradualmente come scegliere il modello migliore per un determinato input. Tuttavia, un modello di router a volte può essere una soluzione non-machine learning.

addestramento del modello

La procedura di determinazione del modello migliore.

Momentum

Un sofisticato algoritmo di discesa del gradiente in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio corrente, ma anche dalle derivate dei passaggi immediatamente precedenti. L'indicatore Momentum prevede il calcolo di una media mobile ponderata esponenzialmente dei gradienti nel tempo, in modo analogo allo slancio in fisica. A volte lo slancio impedisce all'apprendimento di rimanere bloccato in minimi locali.

MOE

#language

#image

#generativeAI

Abbreviazione di misto di esperti.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono appartenere a una delle seguenti tre classi:

Iris setosa

Iris virginica

Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo di iris su nuovi esempi esegue una classificazione multi-classe.

Al contrario, i problemi di classificazione che distinguono esattamente due sono modelli di classificazione binaria. Ad esempio, un modello di email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, la classificazione multiclasse si riferisce a più di due cluster.

regressione logistica multiclasse

Utilizzo della regressione logistica per i problemi di classificazione multiclasse.

auto-attenzione multi-testa

#language

Un'estensione dell'attenzione autoreferenziale che applica il meccanismo di attenzione autoreferenziale più volte per ogni posizione nella sequenza di input.

I Transformer hanno introdotto l'auto-attenzione multi-head.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, prendi in considerazione un modello che prende sia un'immagine sia una didascalia (due modalità) come caratteristiche e genera un punteggio che indica quanto è appropriata la didascalia per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

multimodal instruction-tuned

#language

Un modello ottimizzato per le istruzioni in grado di elaborare l'input oltre al testo, come immagini, video e audio.

classificazione multinomiale

Sinonimo di classificazione multi-classe.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo modello viene addestrato per eseguire più attività.

I modelli multitasking vengono creati mediante l'addestramento su dati appropriati per ciascuna delle diverse attività. Questo consente al modello di imparare a condividere le informazioni tra le varie attività, aiutando il modello ad apprendere in modo più efficace.

Un modello addestrato per più attività spesso ha capacità di generalizzazione migliorate e può essere più efficace nel gestire diversi tipi di dati.

No

Trappola NaN

Quando un numero nel modello diventa NaN durante l'addestramento, molti o tutti gli altri numeri nel modello diventano eventualmente NaN.

NAN è un'abbreviazione di Not a Number.

comprensione del linguaggio naturale

#language

Determinazione delle intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare che cosa sta cercando l'utente in base a ciò che ha digitato o detto.

classe esclusa

#fundamentals

Nella classificazione binaria, una classe è definita positiva e l'altra negativa. La classe positiva è l'elemento o l'evento su cui il modello sta eseguendo il test, mentre la classe negativa è un'altra possibilità. Ad esempio:

La classe negativa in un test medico potrebbe essere "nessun tumore".

La classe esclusa in un classificatore email potrebbe essere "non spam".

È il contrario della classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per progettare automaticamente l'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

Il NAS in genere utilizza:

Uno spazio di ricerca, ovvero un insieme di architetture possibili.

Una funzione di idoneità, che è una misura del rendimento di una determinata architettura in una determinata attività.

Gli algoritmi NAS spesso partono da un piccolo insieme di possibili architetture e espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende cosa più efficaci. La funzione di fitness si basa in genere sul delle prestazioni dell'architettura su un set di addestramento e l'algoritmo di solito addestrati utilizzando tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nel trovare architetture ad alte prestazioni per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.

feed-forward

#fundamentals

Un modello contenente almeno un livello nascosto. Una rete neurale profonda è un tipo di rete neurale contenente più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due livelli nascosti.

Ogni neurone di una rete neurale si connette a tutti i nodi del livello successivo. Ad esempio, nel diagramma precedente, tieni presente che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i due neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer vengono a volte chiamate reti neurali artificiali per distinguerle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di uno strato nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due fasi:

Calcola la somma ponderata dei valori di input moltiplicati per i relativi pesi.

Trasmette la somma ponderata come input a una funzione di attivazione.

Un neurone nel primo strato nascosto accetta input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi strato nascosto successivo al primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone nel secondo strato nascosto accetta input dalla neuroni nel primo strato nascosto.

L'illustrazione seguente mette in evidenza due neuroni e i relativi input.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e altre parti del sistema nervoso.

N-grammi

#seq

#language

Una sequenza ordinata di N parole. Ad esempio, truly madly è un bigramma. Poiché l'ordine è pertinente, madly truly è un bigramma diverso da truly madly.

No Nomi di questo tipo di n-grammi Esempi

2 bigram o 2 grammi andare, andare, pranzare, cena

3 trigram o 3 grammi ate too much, three blind mice, the bell tolls

4 4 grammi camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su N-gram per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello di NLU basato su trigrammi probabilmente prevede che l'utente digiterà topi.

Confronta gli n-grammi con i bag of words, che sono insiemi non ordinati di parole.

NLU

#language

Abbreviazione di comprensione del linguaggio naturale.

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condition o leaf.

Nodo (rete neurale)

#fundamentals

Un neurone in uno strato nascosto.

Nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafo TensorFlow.

rumore

In termini generali, qualsiasi elemento che offusca l'indicatore in un set di dati. Rumore possono essere introdotte nei dati in vari modi. Ad esempio:

I revisori commettono errori nell'etichettare gli elementi.

Persone e strumenti registrano erroneamente o omettono i valori delle caratteristiche.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

nonlinear

#fundamentals

Una relazione tra due o più variabili che non possono essere rappresentate esclusivamente attraverso addizioni e moltiplicazioni. Una relazione lineare può essere rappresentata come una linea, mentre una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli che associano ciascuno una singola funzionalità a una singola etichetta. Il modello a sinistra è lineare mentre quello a destra non è lineare:

Bias di non risposta

#fairness

Vedi bias di selezione.

non stazionarietà

#fundamentals

Un elemento i cui valori variano in una o più dimensioni, in genere nel tempo. Ad esempio, considera i seguenti esempi di non stazionarietà:

Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.

La quantità di un particolare frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma elevato per un breve periodo.

A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

È il contrario della stazionarietà.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo effettivo di una variabile di valori in un intervallo standard di valori, come ad esempio:

Da -1 a +1

Da 0 a 1

Punteggi z (all'incirca da -3 a +3)

Ad esempio, supponiamo che l'intervallo effettivo dei valori di una determinata funzionalità sia compreso tra 800 e 2400. Nell'ambito della creazione di funzionalità, puoi normalizzare i valori effettivi in un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune il feature engineering. In genere i modelli si addestrano più velocemente (e produrre previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha più o meno lo stesso intervallo.

Per ulteriori dettagli, consulta il modulo sull'utilizzo dei dati numerici del corso introduttivo al machine learning. Consulta anche Normalizzazione del punteggio Z.

rilevamento delle novità

La procedura per determinare se un nuovo esempio (inedito) proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo addestramento sul set di addestramento, il rilevamento delle novità determina se un nuovo esempio (durante l'inferenza o durante l'addestramento aggiuntivo) outlier:

È diverso dal rilevamento di outlier.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o a valori reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente le dimensioni di una casa (in piedi quadrati o metri quadrati) come dati numerici. La rappresentazione di una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. In altre parole, il numero di metri quadrati di una casa ha probabilmente una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio: i codici postali in alcune parti del mondo sono numeri interi, mentre il codice postale intero i codici non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale 20000 non è due volte (o la metà) più efficace di un codice postale 10000. Inoltre, anche se i codici postali diversi sono correlati a valori immobiliari diversi, non possiamo assumere che i valori immobiliari del codice postale 20000 siano il doppio di quelli del codice postale 10000. I codici postali devono essere rappresentati come dati categorici .

Le caratteristiche numeriche a volte vengono chiamate funzionalità continue.

NumPy

Un libreria di matematica open source che fornisce operazioni su array efficienti in Python. pandas è basato su NumPy.

O

scopo

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è solitamente la perdita quadratica media. Pertanto, quando si addestra un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è accuratezza, l'obiettivo è per massimizzare la precisione.

Vedi anche perdita.

condizione obliqua

#df

In un albero decisionale, una condizione che includa più di una funzionalità. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

height > width

Contrasta con la condizione allineata all'asse.

offline

#fundamentals

Sinonimo di static.

Inferenza offline

#fundamentals

Il processo con cui un modello genera un batch di previsioni e quindi memorizzare nella cache (salvare) queste previsioni. Le app possono quindi accedere la previsione dalla cache anziché eseguire nuovamente il modello.

Ad esempio, prendiamo in considerazione un modello che genera previsioni meteo locali (previsioni) una volta ogni quattro ore. Dopo l'esecuzione di ogni modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

È diverso dall'inferenza online.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come vettore in cui:

Un elemento è impostato su 1.

Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

"Danimarca"

"Svezia"

"Norvegia"

"Finlandia"

"Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori come segue:

country Vettoriale

"Danimarca" 1 0 0 0 0

"Svezia" 0 1 0 0 0

"Norvegia" 0 0 1 0 0

"Finlandia" 0 0 0 1 0

"Islanda" 0 0 0 0 1

Grazie alla codifica one-hot, un modello può apprendere diverse connessioni in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, la rappresentanza Dal punto di vista numerico i paesi scandinavi non sono una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

"Danimarca" è 0

"Sweden" è 1

"Norvegia" è 2

"Finlandia" è 3

"Islanda" è 4

Con la codifica numerica, un modello interpreterà i numeri non elaborati matematicamente e cercherà di addestrarsi su questi numeri. Tuttavia, l'Islanda non è il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello arriverebbe a conclusioni strane.

apprendimento one-shot

Un approccio di machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per apprendere classificatori efficaci da un singolo esempio di addestramento.

Consulta anche apprendimento few-shot e apprendimento zero-shot.

Prompt one-shot

#language

#generativeAI

Un prompt contenente un esempio che mostra come Il modello linguistico di grandi dimensioni (LLM) deve rispondere. Ad esempio, il seguente prompt contiene un esempio che mostra a un modello linguistico di grandi dimensioni come rispondere a una query.

Parti di un prompt Note

Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.

Francia: EUR Un esempio.

India: La query effettiva.

Confronta e contrapponi i prompt one-shot con i seguenti termini:

prompt zero-shot

prompt few-shot

one-vs-all

#fundamentals

Dato un problema di classificazione con le classi N, soluzione costituita da N separate classificatori binari: un classificatore binario per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi animale, vegetale o minerale, una soluzione unica contro tutti fornirebbe seguenti tre classificatori binari separati:

animale e non animale

vegetale/non vegetale

minerale/non minerale

online

#fundamentals

Sinonimo di dinamico.

Inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio: supponiamo che un'app passi l'input a un modello ed emetta una richiesta per la previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituisce la previsione all'app).

È diverso dall'inferenza offline.

operazione (op)

#TensorFlow

In TensorFlow, qualsiasi procedura che crei, manipola o distrugge un Tensor. Per Ad esempio, la moltiplicazione matriciale è un'operazione che prende due tensori come e genera un Tensor come output.

Optax

Una libreria di ottimizzazione e elaborazione del gradiente per JAX. Optax facilita la ricerca fornendo componenti di base che possono essere ricombinati in modi personalizzati per ottimizzare modelli parametrici in reti neurali profonde. Altri obiettivi includono:

Fornire implementazioni leggibili, ben testate ed efficienti dei componenti di base.

Migliorare la produttività consentendo di combinare ingredienti di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).

Accelerare l'adozione di nuove idee semplificando la partecipazione di chiunque.

optimizer

Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più diffusi includono:

AdaGrad, che sta per ADAptive GRADient descent (discesa del gradiente adattiva).

Adam, che sta per ADAptive with Momentum.

bias di omogeneità del gruppo esterno

#fairness

La tendenza a considerare i membri del gruppo esterno più simili ai membri del gruppo interno quando si confrontano atteggiamenti, valori, tratti della personalità e altre caratteristiche. In gruppo si riferisce alle persone con cui interagisci regolarmente. out-group si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi ai gruppi di esclusione, questi attributi potrebbero essere meno sfumati e più stereotipati rispetto agli attributi elencati dai partecipanti per le persone del loro gruppo di appartenenza.

Ad esempio, i lillipuziani potrebbero descrivere le case di altri lillipuziani in modo molto dettagliato, citando piccole differenze in stili architettonici, finestre, porte e dimensioni. Gli stessi lilliputi potrebbero semplicemente dichiarare che I Brobdingnagia vivono tutti in case identiche.

Il bias di omogeneità fuori gruppo è una forma di bias di attribuzione del gruppo.

Vedi anche bias in-group.

Rilevamento outlier

Il processo di identificazione degli outlier in un set di addestramento.

È diverso dal rilevamento di novità.

le anomalie

Valori lontani dalla maggior parte degli altri valori. Nel machine learning, che seguono sono outlier:

Inserisci dati i cui valori sono maggiori di circa 3 deviazioni standard dalla media.

Ponderazioni con valori assoluti elevati.

Valori previsti relativamente lontani dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una funzionalità di un determinato modello. Supponiamo che la media widget-price sia di 7 euro con una deviazione standard di 1 euro. Gli esempi contenenti un valore widget-price di 12 euro o 2 euro verrebbero quindi considerati valori anomali perché ciascuno di questi prezzi è a cinque deviazioni standard dalla media.

I valori anomali sono spesso causati da errori di battitura o altri errori di input. In altri casi, i valori anomali non sono errori; dopotutto, assegna un valore a cinque deviazioni standard sono rari ma difficilmente impossibili.

I valori anomali spesso causano problemi durante l'addestramento del modello. Il taglio è un modo per gestire gli outlier.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di un foresta decisionale testando ogni albero decisionale rispetto alla esempi non utilizzati durante formazione per l'albero decisionale. Ad esempio, nel diagramma seguente, tieni presente che il sistema addestra ogni albero decisionale su circa due terzi degli esempi e poi esegue la valutazione rispetto al terzo rimanente degli esempi.

La valutazione immediata è una valutazione conservativa ed efficiente dal punto di vista approssimazione del meccanismo di convalida incrociata. Nella convalida incrociata viene addestrato un modello per ogni fase di convalida incrociata (ad esempio, 10 modelli vengono addestrati con una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging nasconde alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

livello di output

#fundamentals

Lo strato "finale" di una rete neurale. Il livello di output contiene la previsione.

La seguente illustrazione mostra una piccola rete neurale profonda con uno strato di input, due strati nascosti e uno di output:

overfitting

#fundamentals

Creazione di un modello che corrisponde ai dati di addestramento in modo così preciso da non riuscire a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre il fenomeno di overfitting. L'addestramento su un set di addestramento ampio e diversificato può anche ridurre il fenomeno di overfitting.

Fai clic sull'icona per ulteriori note.

L'overfitting è come seguire fermamente i consigli solo dei tuoi insegnante. Probabilmente avrai successo nella lezione di quell'insegnante, potresti "overfitting" alle idee di quell'insegnante e non avere successo in altre . Seguire i consigli di diversi insegnanti ti consentirà di adattarti meglio alle nuove situazioni.

oversampling

Riutilizzo degli esempi di una classe di minoranza in un set di dati sbilanciato per classe al fine di creare un set di addestramento più equilibrato.

Ad esempio, considera una classificazione binaria problema in cui il rapporto tra la classe di maggioranza e la della classe di minoranza è 5000:1. Se il set di dati contiene un milione di esempi, contiene solo circa 200 esempi della classe di minoranza, che potrebbero essere troppo pochi per un addestramento efficace. Per ovviare a questa mancanza, potrebbe sovracampionare (riutilizzare) quei 200 esempi più volte, ottenendo esempi sufficienti per un addestramento utile.

Devi fare attenzione all'overfitting eccessivo quando sovracampionamento.

Contrastare il sottocampionamento.

P

dati compressi

Un approccio per archiviare i dati in modo più efficiente.

I dati compressi vengono memorizzati utilizzando un formato compresso o in un altro modo per accedervi in modo più efficiente. I dati compressi riducono al minimo la quantità di memoria e di calcolo necessaria per accedervi, il che consente un addestramento più rapido e un'inferenza del modello più efficiente.

I dati pacchettizzati vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e regolarizzazione, migliorando ulteriormente il rendimento modelli.

panda

#fundamentals

Un'API di analisi dei dati orientata a colonne basata su numpy. Molti framework di machine learning, tra cui TensorFlow, supportano le strutture dati Pandas come input. Per informazioni dettagliate, consulta la documentazione di pandas.

parametro

#fundamentals

Le ponderazioni e i bias che un modello apprende durante l'addestramento. Ad esempio, in una di regressione lineare, i parametri sono costituiti da il bias (b) e tutti i pesi (w₁, w₂, e così via) nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#language

#generativeAI

Un insieme di tecniche per ottimizzare un grande modello linguistico preaddestrato (PLM) in modo più efficiente rispetto all'ottimizzazione completa. Efficienza dei parametri l'ottimizzazione in genere perfeziona molti meno parametri rispetto alla configurazione completa perfezionato, ma generalmente produce un modello linguistico di grandi dimensioni (LLM) che esegue nonché (o quasi) come un modello linguistico di grandi dimensioni (LLM) basato dei modelli.

Confronta e contrapporre l'ottimizzazione efficiente dei parametri con:

Ottimizzazione delle istruzioni

ottimizzazione dei prompt

L'ottimizzazione efficiente dei parametri è anche nota come ottimizzazione efficiente dei parametri.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in una un'impostazione distribuita.

aggiornamento dei parametri

L'operazione di regolazione dei parametri di un modello durante di addestramento, tipicamente entro una singola iterazione discesa del gradiente.

derivata parziale

derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come funzione di x sola (ovvero mantenendo y costante). La derivata parziale di f rispetto a x si concentra solo su come cambia x e ignora tutte le altre variabili dell'equazione.

bias di partecipazione

#fairness

Sinonimo di bias di non risposta. Vedi bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale le variabili sono suddivise server dei parametri.

Pax

Un framework di programmazione progettato per l'addestramento su larga scala di modelli di reti neurali così grandi da occupare più TPU chip acceleratore slice o pod.

Pax è basato su Flax, che è basato su JAX.

Percettrone

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola come valore di output. Nel machine learning, la funzione è in genere non lineare, ad esempio ReLU, sigmoidea o tanh. Ad esempio, il seguente perceptron si basa sulla funzione sigmoidale per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il percettrone riceve tre input, ciascuno dei quali viene modificato da un peso prima di entrare nel percettrone:

I percetroni sono i neuroni della reti neurali.

prestazioni

Termine sovraccarico con i seguenti significati:

Significato standard nel campo del software engineering. Nello specifico: quanto velocemente (o in modo efficiente) viene eseguito questo software?

Il significato nel machine learning. In questo caso, il rendimento risponde alla seguente domanda: quanto è corretto questo modello? In altre parole, quanto sono buone le previsioni del modello?

importanza delle variabili di permutazione

#df

Un tipo di importanza della variabile che valuta l'aumento dell'errore di previsione di un modello dopo la permutazione dei valori della caratteristica. L'importanza delle variabili di permutazione è indipendente dal modello in un file di dati.

perplessità

Una misura dell'efficacia di un modello nello svolgimento delle sue attività. Ad esempio, supponiamo che la tua attività sia leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di uno smartphone e offrire un elenco di possibili parole di completamento. La complessità, P, per questa attività è pari a circa il numero di ipotesi da presentare in modo che l'elenco contenga parola che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, il loro inserimento in file di dati di addestramento, l'addestramento di uno o più modelli ed l'esportazione dei modelli in produzione.

pipeline

#language

Una forma di parallelismo dei modelli in cui l'elaborazione di un modello è suddivisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la precedente possono lavorare sul batch successivo.

Vedi anche addestramento graduale.

pjit

Una funzione JAX che suddivide il codice da eseguire su più chip dell'acceleratore. L'utente passa una funzione a pjit, che restituisce una funzione che ha la semantica equivalente ma che è compilata in un calcolo XLA eseguito su più dispositivi (come GPU o core TPU).

pjit consente agli utenti di partizionare i calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stata unita a jit. Consulta Array distribuiti e caricamento in contemporanea per ulteriori informazioni.

PLM

#language

#generativeAI

Abbreviazione di modello linguistico preaddestrato.

mappa p

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

#rl

Nell'apprendimento per rinforzo, la mappatura probabilistica di un agente da stati ad azioni.

di pooling

#image

Ridurre una o più matrici create da un modello precedente livello convoluzionale a una matrice più piccola. In genere, l'aggregazione comporta l'utilizzo del valore massimo o medio nell'area aggregata. Ad esempio, supponiamo di avere seguente matrice 3x3:

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide che la matrice in sezioni e quindi far scorrere l'operazione convoluzionale passi. Ad esempio, supponiamo che l'operazione di pooling divide la matrice convoluzionale in sezioni 2x2 con passo 1x1. Come illustrato nel diagramma seguente, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo quattro:

La sommatoria consente di applicare l'invarianza di traslazione nella matrice di input.

Il pooling per le applicazioni di visione è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali in genere fanno riferimento al raggruppamento come raggruppamento temporale. Il pooling viene spesso chiamato sottocampionamento o downsampling in modo meno formale.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza per dell'incorporamento del token. I modelli di transformer utilizzano l'codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Una comune implementazione della codifica posizionale utilizza una funzione sinusoidale. (Nello specifico, la frequenza e l'ampiezza della funzione sinusoidale sono determinato dalla posizione del token nella sequenza). Questa tecnica consente a un modello Transformer di imparare a essere prese in considerazione sequenza in base alla loro posizione.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumore". La classe positiva in un classificatore di email potrebbe essere "spam".

È il contrario della classe negativa.

Fai clic sull'icona per ulteriori note.

Il termine classe positiva può creare confusione perché il termine "positive" risultato di molti test è spesso un risultato indesiderato. Ad esempio, la classe positiva in molti test medici corrispondono a tumori o malattie. In genere, vorresti che un dottore ti dicesse: "Congratulazioni. I risultati del test sono stati negativi." Indipendentemente da ciò, la classe positiva è l'evento che il test sta cercando di trovare.

Devo ammettere che state eseguendo contemporaneamente il test sia della risposta positiva che di quella negativa .

post-elaborazione

#fairness

#fundamentals

Modifica dell'output di un modello dopo l'esecuzione del modello. Il post-trattamento può essere utilizzato per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione che viene mantenuta la uguaglianza di opportunità per alcuni attributi, controllando che il tasso di veri positivi è uguale per tutti i valori dell'attributo.

AUC PR (area sotto la curva PR)

Area sotto l'interpolazione curva di precisione-richiamo, ottenuta tracciando (richiamo, precisione) per i diversi valori di soglia di classificazione. In base a come viene calcolata, l'AUC PR può essere equivalente precisione media del modello.

Praxis

Una libreria ML di base ad alte prestazioni di Pax. Praxis viene spesso chiamata "libreria di livelli".

Praxis non contiene solo le definizioni per la classe Layer, ma anche la maggior parte dei suoi componenti di supporto, tra cui:

input di dati

librerie di configurazione (HParam e Fiddle)

Ottimizzatori

Praxis fornisce le definizioni per la classe Model.

precisione

Una metrica per i modelli di classificazione che risponde la seguente domanda:

Quando il modello ha previsto la classe positiva, qual è stata la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.

falso positivo significa che il modello ha erroneamente previsto la classe positiva.

Ad esempio, supponiamo che un modello abbia effettuato 200 previsioni positive. Di queste 200 previsioni positive:

150 erano veri positivi.

50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta accuratezza e richiamo.

Consulta la sezione Classificazione: accuratezza, richiamo, precisione e relativi metriche per ulteriori informazioni.

curva di precisione-richiamo

Una curva di precisione e richiamo a valori diversi soglie di classificazione.

previsione

#fundamentals

L'output di un modello. Ad esempio:

La previsione di un modello di classificazione binaria è la classe positiva o la classe negativa.

La previsione di un modello di classificazione multi-classe è una classe.

La previsione di un modello di regressione lineare è un numero.

bias di previsione

Un valore che indica quanto dista la media di previsioni è la media delle etichette nel set di dati.

Da non confondere con il termine di bias nei modelli di machine learning o con pregiudizi etici e corretti.

ML predittivo

Qualsiasi sistema di machine learning standard ("classico").

Il termine ML predittivo non ha una definizione formale. Il termine distingue piuttosto una categoria di sistemi di ML non basati su IA generativa.

parità predittiva

#fairness

Una metrica di equità che verifica se, per un determinato classificatore, i tassi di precisione sono equivalenti per i sottogruppi presi in considerazione.

Ad esempio, un modello che prevede l'accettazione in un college soddisfa la parità predittiva per la nazionalità se il suo tasso di precisione è lo stesso per i lillipuziani e i brobdingnagiani.

La parità predittiva è talvolta chiamata anche parità di tariffa predittiva.

Consulta la sezione "Definizioni di equità" Spiegazione" (sezione 3.2.1) per una discussione più dettagliata sulla parità predittiva.

parità di tariffa predittiva

#fairness

Un altro nome per la parità predittiva.

pre-elaborazione

#fairness

Elaborazione dei dati prima che vengano utilizzati per addestrare un modello. La pre-elaborazione potrebbe essere semplice come rimuovere parole da un corpus di testo in inglese che non sono presenti nel dizionario inglese o potrebbero essere complesse come la riespressione i punti dati in modo da eliminare il maggior numero possibile di attributi correlati con attributi sensibili possibili. La pre-elaborazione può aiutare a soddisfare i vincoli di equità.

modello preaddestrato

#language

#image

#generativeAI

Modelli o componenti di modelli (ad esempio un vettore di embedding) già addestrati. A volte, dovrai inserire vettori di embedding pre-addestrati in una rete neurale. Altre volte, il modello addestra i vettori di embedding stessi anziché fare affidamento sugli embedding preaddestrati.

Il termine modello linguistico preaddestrato si riferisce a un modello linguistico di grandi dimensioni che è stato sottoposto a preaddestramento.

preaddestramento

#language

#image

#generativeAI

L'addestramento iniziale di un modello su un set di dati di grandi dimensioni. Alcuni modelli preaddestrati sono goffi giganti e solitamente devono essere perfezionati con un addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni su un vasto set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo l'addestramento, il modello risultante potrebbe essere ulteriormente perfezionato tramite una delle seguenti tecniche:

distillazione

ottimizzazione

ottimizzazione delle istruzioni

ottimizzazione efficiente dei parametri

ottimizzazione dei prompt

credenza precedente

Cosa pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L₂ si basa su un presupposto secondo cui i pesi devono essere piccoli e distribuiti normalmente intorno allo zero.

modello di regressione probabilistica

Un modello di regressione che utilizza non solo i pesi per ogni caratteristica, ma anche l'incertezza di questi pesi. Un modello di regressione probabilistica genera una previsione e l'incertezza di questa previsione. Ad esempio, un di regressione probabilistica potrebbe produrre una previsione di 325 con un deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo notebook Colab su tensorflow.org.

funzione di densità di probabilità

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un un valore specifico. Quando i valori di un set di dati sono in virgola mobile continui numeri, raramente si verificano corrispondenze esatte. Tuttavia, l'integrazione di una funzione di densità di probabilità dal valore x al valore y genera la frequenza prevista dei campioni di dati tra x e y.

Ad esempio, prendiamo in considerazione una distribuzione normale con una media di 200 e una deviazione standard di 30. Per determinare la frequenza prevista degli esempi di dati che rientrano nell'intervallo 211,4-218,7, puoi integrare la funzione di probabilità di densità per una distribuzione normale da 211,4 a 218,7.

richiesta

#language

#generativeAI

Qualsiasi testo inserito come input in un modello linguistico di grandi dimensioni (LLM) condizionare il modello affinché si comporti in un certo modo. I prompt possono essere brevi come una frase o lunghi in modo arbitrario (ad esempio l'intero testo di un romanzo). Prompt rientrano in più categorie, incluse quelle indicate nella seguente tabella:

Categoria di prompt Esempio Note

Domanda A che velocità può volare un piccione?

Istruzione Scrivi una poesia divertente sull'arbitraggio. Un prompt che chiede al modello linguistico di grandi dimensioni di fare qualcosa.

Esempio Tradurre il codice Markdown in HTML. Ad esempio: Markdown: * elemento dell'elenco HTML: <ul> <li>elemento dell'elenco</li> </ul> La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.

Ruolo Spiegare perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning per un dottorato in fisica. La prima parte della frase è un'istruzione; la frase "a un dottorato in fisica" è la parte relativa al ruolo.

Input parziale da completare dal modello Il Primo Ministro del Regno Unito vive a Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso.

Un modello di IA generativa può rispondere a un prompt con testo, codice, immagini, embedding, video e quasi tutto.

apprendimento basato su prompt

#language

#generativeAI

Una funzionalità di alcuni modelli che consente loro di adattare il loro comportamento in risposta a input di testo arbitrari (prompt). In un tipico paradigma di apprendimento basato su prompt, un modello linguistico di grandi dimensioni risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca la seguente richiesta:

Riassumi la terza legge della moto di Newton.

Un modello in grado di apprendere basato su prompt non è addestrato specificamente per rispondere il prompt precedente. Piuttosto, il modello "sa" molti fatti sulla fisica, molto sulle regole generali del linguaggio e molto su cosa costituiscono risposte generalmente utili. Queste informazioni sono sufficienti per offrire (si spera) utili risposta. Feedback umano aggiuntivo ("La risposta era troppo complicata" oppure "Cos'è una reazione?") consente ad alcuni sistemi di apprendimento basato su prompt di migliorare l'utilità delle risposte.

progettazione dei prompt

#language

#generativeAI

Sinonimo di prompt engineering.

ingegneria del prompt

#language

#generativeAI

L'arte di creare prompt che suscitano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono il prompt con il feature engineering. Scrivere prompt ben strutturati è una parte essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. La progettazione del prompt dipende molti fattori, tra cui:

Il set di dati utilizzato per preaddestrare e possibilmente ottimizzare il modello linguistico di grandi dimensioni.

La temperatura e altri parametri di decodifica che utilizzato dal modello per generare risposte.

Per ulteriori dettagli su come scrivere prompt utili, consulta Introduzione alla progettazione dei prompt.

progettazione dei prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language

#generativeAI

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettiva.

Una variante della regolazione del prompt, a volte chiamata regolazione del prefisso, consiste nell'anteporre il prefisso a ogni livello. Al contrario, la maggior parte della regolazione dei prompt aggiunge solo un prefisso al livello di input.

Fai clic sull'icona per scoprire di più sui prefissi.

Per l'ottimizzazione dei prompt, il "prefisso" (noto anche come "soft prompt") è un manciata di vettori appresi e specifici per attività anteposti al token di testo incorporamenti dal prompt effettivo. Il sistema apprende il prompt flessibile bloccando tutti gli altri parametri del modello e ottimizzandoli su un'attività specifica.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo che tu debba addestrare un modello per prevedere livello di stress. Il set di dati contiene molte funzionalità di previsione, ma non contiene un'etichetta denominata livello di stress. Senza scoraggiarti, scegli "incidenti sul lavoro" come etichetta proxy per il livello di stress. Dopotutto, i dipendenti sottoposti a stress elevato hanno più incidenti rispetto ai dipendenti calmi. O no? Forse gli incidenti sul lavoro in realtà aumentano e diminuiscono per diversi motivi.

Come secondo esempio, supponi di voler usare sta piove? come etichetta booleana. per il tuo set di dati, ma non contiene dati sulle precipitazioni. Se sono disponibili fotografie, potresti stabilire che le immagini di persone con ombrello sono un'etichetta proxy per è in corso una pioggia? È un'etichetta proxy valida? È possibile, ma in alcune culture le persone ha più probabilità di portare ombrelli per proteggersi dal sole che dalla pioggia.

Le etichette proxy sono spesso imperfette. Se possibile, scegli le etichette effettive etichette proxy. Detto questo, quando manca un'etichetta reale, scegli con molta attenzione l'etichetta proxy, scegliendo quella meno sgradevole.

proxy (attributi sensibili)

#fairness

Un attributo utilizzato come sostituto di un attributo sensibile. Ad esempio, un il codice postale di un individuo potrebbe essere utilizzato come sostituto del suo reddito, gruppo etnico.

funzione pura

Una funzione i cui output si basano solo sugli input e che non ha lato e gli effetti sonori. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, come il contenuto di un file o il valore di una variabile esterna alla funzione.

Le funzioni pure possono essere usate per creare codice a protezione dei thread, il che è utile durante lo sharding del codice del modello su più chip dell'acceleratore.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano funzioni pure.

Q

Funzione Q

#rl

Nell'apprendimento per rinforzo, la funzione che predice il ritorno previsto dall'adozione di un' azione in un stato e poi seguendo una determinata norma.

La funzione Q è nota anche come funzione di valore stato-azione.

Apprendimento Q

#rl

Nel apprendimento per rinforzo, un algoritmo che consente a un agente per apprendere la funzione Q ottimale di una Il processo decisionale di Markov applicando il Equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

quantile

Ogni bucket in bucketing quantile.

bucketing dei quantili

Distribuzione dei valori di una caratteristica in bucket in modo che ogni contiene lo stesso numero di esempi. Ad esempio: Nella figura seguente, 44 punti sono suddivisi in 4 secchi, ognuno dei quali contiene 11 punti. Affinché ogni bucket nella figura contenga lo stesso numero di punti, alcuni bucket hanno una larghezza diversa dei valori x.

quantizzazione

Termine sovraccaricato che può essere utilizzato in uno dei seguenti modi:

Implementazione del bucketing quantile su una determinata caratteristica.

Trasformare i dati in zeri e uno per archiviare, addestrare e inferenza. Poiché i dati booleani sono più resistenti al rumore e agli errori rispetto altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono arrotondamento, troncamento e binning.

Ridurre il numero di bit utilizzati per archiviare parametri. Ad esempio, supponiamo che i parametri di un modello memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione li converte da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:

Utilizzo di computing, memoria, disco e rete

Tempo per dedurre una predizione

Consumo energetico

Tuttavia, a volte la quantizzazione riduce la correttezza delle predizioni di un modello.

coda

#TensorFlow

Un'operazione TensorFlow che implementa i dati di una coda alla struttura del centro di costo. Generalmente utilizzato in I/O.

R

RAG

#fundamentals

Abbreviazione di generazione potenziata dal recupero.

foresta casuale

#df

Un insieme di alberi decisionali a in cui ogni albero decisionale viene addestrato con uno specifico rumore casuale, come bagging.

Le foreste casuali sono un tipo di foresta decisionale.

criterio casuale

#rl

Nel apprendimento per rinforzo, una norma che sceglie azione a caso.

classifica

Un tipo di apprendimento supervisionato il cui scopo è ordinare un elenco di elementi.

ranking (ordinalità)

La posizione ordinale di una classe in un problema di machine learning che classifica dalla più alta alla più bassa. Ad esempio, il ranking comportamentale di sistema può classificare le ricompense di un cane da più alte (una bistecca) a il più basso (cavolo appassito).

ranking (Tensor)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio, un scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.

Da non confondere con il ranking (ordinalità).

valutatore

#fundamentals

Una persona che fornisce le etichette per gli esempi. "Annotatore" è un altro nome per recensore.

richiamo

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando i dati di fatto erano i classe positiva, quale percentuale di previsioni ha restituito il modello identifica correttamente come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.

Un falso negativo indica che il modello ha erroneamente previsto la classe negativa.

Ad esempio, supponiamo che il modello abbia effettuato 200 previsioni su esempi per i quali la verità sul campo era la classe positiva. Di queste 200 previsioni:

180 erano veri positivi.

20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Fai clic sull'icona per visualizzare le note sui set di dati con classi sbilanciate.

Il richiamo è particolarmente utile per determinare il potere predittivo dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati non bilanciato dalle classi in cui la classe positiva per una determinata malattia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello effettui cinque milioni di previsioni che generano i seguenti risultati:

30 veri positivi

20 falsi negativi

4.999.000 veri negativi

950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN) recall = 30 / (30 + 20) = 0.6 = 60%
Al contrario, l'accuratezza di questo modello è:
accuracy = (TP + TN) / (TP + TN + FP + FN) accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo valore elevato dell'accuratezza sembra impressionante, ma è essenzialmente privo di significato. Il richiamo è una metrica molto più utile per i set di dati non bilanciati sulle classi rispetto all'accuratezza.

Per ulteriori informazioni, consulta Classificazione: accuratezza, richiamo, precisione e metriche correlate.

sistema di suggerimenti

#recsystems

Un sistema che seleziona per ogni utente un gruppo relativamente piccolo di elementi di un grande corpus. Ad esempio, un sistema di consigli per i video potrebbe consigliare due video da un corpus di 100.000 video, tra cui Casablanca e The Philadelphia Story per un utente, Wonder Woman e Black Panther per un altro. Un sistema di consigli per i video basare i suoi consigli su fattori quali:

Film che utenti simili hanno valutato o guardato.

Genere, registi, attori, gruppo demografico di destinazione…

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

Se l'input è negativo o pari a zero, l'output è 0.

Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

Se l'input è -3, l'output è 0.

Se l'input è +3, l'output è 3.0.

Ecco un grafico di ReLU:

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo comportamento semplice, la funzione ReLU consente comunque a una rete neurale di apprendere le relazioni non lineari tra le caratteristiche e l'etichetta.

rete neurale ricorrente

#seq

Una rete neurale che viene eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono inserite in quella successiva. In particolare, gli strati nascosti dell'esecuzione precedente forniscono parte allo stesso strato nascosto nella prossima esecuzione. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale sulle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita quattro volte. Tieni presente che i valori appresi nei livelli nascosti della prima esecuzione diventano parte dell'input degli stessi livelli nascosti nella seconda esecuzione. Analogamente, i valori appresi nello strato nascosto la seconda esecuzione diventa parte dell'input per lo stesso strato nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente si addestra gradualmente prevede il significato dell'intera sequenza anziché solo il significato di singole parole.

modello di regressione

#fundamentals

Informale, un modello che genera una previsione numerica. (Al contrario, un modello di classificazione genera una classe prediction.) Ad esempio, di seguito sono riportati tutti i modelli di regressione:

Un modello che prevede il valore di una certa casa, come 423.000 euro.

Un modello che prevede la aspettativa di vita di un determinato albero, ad esempio 23,2 anni.

Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle successive sei ore, ad esempio 0,48 pollici.

Due tipi comuni di modelli di regressione sono:

Regressione lineare, che trova la retta migliore Adatta i valori delle etichette alle caratteristiche.

Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema in genere mappa a una previsione di classe.

Non tutti i modelli che producono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è in realtà solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non un modello di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi di regolarizzazione più comuni includono:

L₁ regolarizzazione

L₂ regolarizzazione

regolarizzazione del dropout

Ispezione anticipata (non è un metodo di regolarizzazione formale, ma può limitare efficacemente l'overfitting)

La regolarizzazione può essere definita anche come la penalizzazione della complessità di un modello.

Fai clic sull'icona per ulteriori note.

La regolarizzazione è controintuitiva. L'aumento della regolarizzazione solitamente aumenta la perdita di addestramento, il che genera confusione perché l'obiettivo di minimizzare la perdita di addestramento?

In realtà no. L'obiettivo non è minimizzare la perdita di addestramento. L'obiettivo è fare previsioni eccellenti su esempi reali. Sorprendentemente, anche se L'aumento della regolarizzazione aumenta la perdita dell'addestramento, di solito aiuta i modelli a previsioni migliori su esempi reali.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa di regolarizzazione durante l'addestramento. Aumentando la percentuale di regolarizzazione riduce l'overfitting, ma può riducono la capacità predittiva del modello. Al contrario, la riduzione o l'omissione il tasso di regolarizzazione aumenta l'overfitting.

Fai clic sull'icona per visualizzare i calcoli.

Il tasso di regolarizzazione è in genere rappresentato dalla lettera greca lambda. La seguente equazione semplificata della perdita mostra l'influenza di lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dove per regolarizzazione si intende qualsiasi meccanismo di regolarizzazione, tra cui:

Regolarizzazione L₁

Regolarizzazione L₂

apprendimento per rinforzo (RL)

#rl

Una famiglia di algoritmi che apprendono un criterio ottimale, il cui obiettivo è massimizzare il ritorno quando si interagisce con un ambiente. Ad esempio, il premio finale della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono padroneggiare le attività complesse di giochi valutando sequenze di mosse di gioco precedenti che alla fine ha portato a vittorie e sequenze che alla fine hanno portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#generativeAI

#rl

Utilizzare il feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le sue risposte future in base a questo feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

replay buffer

#rl

Negli algoritmi di tipo DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato riproduci l'esperienza.

Cloud SQL

Una copia del set di addestramento o del modello, in genere su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il parallismo dei dati:

Posiziona le repliche di un modello esistente su più macchine.

Invia sottoinsiemi diversi del set di addestramento a ogni replica.

Aggrega gli aggiornamenti dei parametri.

bias di segnalazione

#fairness

Il fatto che la frequenza con cui le persone scrivono di azioni, risultati o proprietà non rifletta le loro frequenza reali o il grado in cui una proprietà è caratteristica di una classe di individui. Il bias di reporting può influire sulla composizione degli elementi dai quali i sistemi di machine learning apprendono.

Ad esempio, nei libri la parola risate è più prevalente di respira. Un modello di machine learning che stima la frequenza relativa di ridere e respirare dalla raccolta di un libro potrebbe determinare che ridere è più comune che respirare.

vettoriale prima che arrivassero

Il processo di mappatura dei dati a funzionalità utili.

riassegnazione

#recsystems

La fase finale di un sistema di consigli durante i quali gli elementi con un punteggio possono essere rivalutati in base ad altri (di solito, non ML). Il ricoinvolgimento valuta l'elenco di elementi generato dalla fase di assegnazione del punteggio, adottando azioni quali:

Eliminazione di articoli già acquistati dall'utente.

Aumentare il punteggio degli elementi più recenti.

RAG (Retrieval Augmented Generation)

#fundamentals

Una tecnica per migliorare la qualità dell'output del modello linguistico di grandi dimensioni (LLM) basandolo su fonti di conoscenza recuperate dopo l'addestramento del modello. RAG migliora l'accuratezza delle risposte LLM fornendo all'LLM addestrato accesso a informazioni recuperate da knowledge base o documenti attendibili.

Le motivazioni comuni per l'utilizzo della generazione aumentata con il recupero includono:

Aumentare l'accuratezza oggettiva delle risposte generate da un modello.

Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato.

Modifica delle conoscenze utilizzate dal modello.

Consentire al modello di citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi PaLM API per generare riepiloghi correlate alle query degli utenti. Quando il backend dell'app riceve una query, il backend:

Cerca ("recupera") i dati pertinenti alla query dell'utente.

Aggiunge ("aumenta") i dati chimici pertinenti alla query dell'utente.

Indica all'LLM di creare un riepilogo in base ai dati aggiunti.

invio

#rl

Nell'apprendimento tramite rinforzo, dati un determinato criterio e uno stato, il rendimento è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue il criterio dal stato alla fine dell'episodio. L'agente tiene conto della natura ritardata dei premi previsti scontandoli in base alle transizioni di stato necessarie per ottenerli.

Pertanto, se il fattore di sconto è $\gamma$, e $r_0, \ldots, r_{N}$ indica le ricompense fino alla fine della puntata, poi il calcolo dei resi è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

regolarizzazione dei picchi

Sinonimo di regolarizzazione L₂. Il termine La regolarizzazione della cresta è utilizzata più spesso nella statistica pura contesti, mentre la regolarizzazione L₂ è utilizzata più spesso nel machine learning.

RNN

#seq

Abbreviazione di recurrent Neural Networks.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Un grafico della percentuale di veri positivi rispetto alla percentuale di falsi positivi per diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binario di separare le classi positive dalle classi negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

La curva ROC per il modello precedente ha il seguente aspetto:

Al contrario, l'illustrazione seguente mostra un grafico della regressione logistica non elaborata. per un modello pessimo che non sia in grado di separare le classi negative classi positive:

La curva ROC per questo modello ha il seguente aspetto:

Nel mondo reale, la maggior parte dei modelli di classificazione binaria classi positive e negative in una certa misura, ma di solito non perfettamente. Pertanto, una curva ROC tipica si trova a metà tra i due estremi:

Il punto di una curva ROC più vicino a (0,0,1,0) identifica teoricamente la soglia di classificazione ideale. Tuttavia, diversi altri problemi reali influiscono sulla selezione della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molti più problemi dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore con virgola mobile.

Prompt del ruolo

#language

#generativeAI

Componente facoltativo di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un prompt per il ruolo, un modello linguistico di grandi dimensioni fornisce una risposta che può essere o meno utile per la persona che pone le domande. Con un prompt sul ruolo, un modello linguistico di grandi dimensioni può rispondere in modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte della richiesta del ruolo dei seguenti prompt è in grassetto:

Riassumi questo articolo per un dottorato in economia.

Descrivi come funzionano le onde per un bambino di dieci anni.

Spiega la crisi finanziaria del 2008. Parla come faresti con un bambino piccolo o un golden retriever.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice nella parte superiore dell'albero decisionale. Ad esempio:

directory root

#TensorFlow

La directory specificata per l'hosting di sottodirectory dei file di checkpoint e eventi di TensorFlow di più modelli.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore quadratico medio.

invarianza di rotazione

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di a classificare le immagini anche quando cambia l'orientamento. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis se è rivolta verso l'alto, di lato o verso il basso. Nota che l'invarianza rotazionale non è sempre desiderabile; Ad esempio, un 9 capovolto non deve essere classificato come 9.

Vedi anche invarianza traslazionale e invarianza delle dimensioni.

R al quadrato

Una metrica di regressione che indica la variazione in un L'etichetta è dovuta a una singola funzionalità o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare come segue:

Un valore R-quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta all'insieme di funzionalità.

Un R al quadrato pari a 1 indica che tutte le variazioni di un'etichetta sono dovute alla un insieme di caratteristiche.

Una R al quadrato compreso tra 0 e 1 indica in che misura la variazione può essere prevista da una particolare caratteristica o dall'insieme di caratteristiche. Ad esempio, un R al quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto all'insieme di caratteristiche, un R al quadrato di 0,20 significa che Il 20% è dovuto all'insieme di caratteristiche e così via.

R al quadrato è il quadrato del coefficiente di correlazione Pearson tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#fairness

Vedi bias di selezione.

campionamento con sostituzione

#df

Un metodo per scegliere elementi da un insieme di elementi candidati in cui lo stesso elemento può essere scelto più volte. La frase "con sostituzione" significa che dopo ogni selezione l'elemento selezionato venga restituito di candidati. Il metodo inverso, il campionamento senza sostituzione, significa che un elemento candidato può essere scelto una sola volta.

Ad esempio, considera il seguente set di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se si utilizza il campionamento con sostituzione, il sistema seleziona secondo elemento della serie seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente scegliere di nuovo fig.

Se si utilizza il campionamento senza sostituzione, una volta scelto, un campione non può scelto di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non può più essere selezionato. Pertanto, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Fai clic sull'icona per visualizzare altre note.

La parola sostituzione in campionamento con sostituzione confonde molte persone. In inglese, replacement significa "sostituzione". Tuttavia, il campionamento con sostituzione utilizza in realtà la definizione in francese. per la sostituzione, ovvero il "ripristino di qualcosa".

La parola inglese replacement è tradotta come francese sostituzione.

SavedModel

#TensorFlow

Formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente sistemi e strumenti di livello superiore per produrre, utilizzare e trasformare TensorFlow di grandi dimensioni.

Consulta il capitolo Salvataggio e ripristino nella Guida per i programmatori TensorFlow per i dettagli completi.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di ranking 0. Ad esempio, righe di codice creano ognuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string) temperature = tf.Variable(27, tf.int16) precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi tecnica o trasformazione matematica che sposta l'intervallo di un'etichetta e/o del valore della funzionalità. Alcune forme di scalabilità sono molto utili per le trasformazioni come la normalizzazione.

Le forme di scalabilità più comuni utili nel machine learning includono:

la scalabilità lineare, che in genere utilizza una combinazione di sottrazioni e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 oppure tra 0 e 1.

la scalabilità logaritmica, che sostituisce il valore originale con il suo e il logaritmo.

Normalizzazione del punteggio z, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica.

scikit-learn

Una popolare piattaforma di machine learning open source. Consulta scikit-learn.org.

calcolo punteggio

#recsystems

La parte di un sistema di consigli che fornisce un valore o un ranking per ogni articolo prodotto dal nella fase di generazione dei candidati.

bias di selezione

#fairness

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde alla popolazione per la quale il modello di machine learning fa previsioni.

Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo di destinazione.

bias da mancata risposta (chiamato anche bias di partecipazione): utenti di alcuni gruppi disattivano i sondaggi con frequenze diverse rispetto a quelle degli utenti e altri gruppi.

Ad esempio, supponiamo che tu stia creando un modello di machine learning che prevede la fruizione di un film da parte delle persone. Per raccogliere i dati di addestramento, distribuisci un sondaggio a tutti coloro che siedono nella prima fila di un cinema dove viene proiettato il film. Potrebbe sembrare un modo ragionevole per raccogliere un set di dati; Tuttavia, questa forma di raccolta dei dati può introducono le seguenti forme di bias di selezione:

bias di copertura: in base a un campionamento da una popolazione che ha scelto di visualizzare per il film, le previsioni del modello potrebbero non essere generalizzate che non hanno manifestato già quel livello di interesse nei confronti del film.

Bias di campionamento: anziché eseguire un campionamento casuale della popolazione di destinazione (tutte le persone che guardano il film), hai campionato solo le persone della prima fila. È possibile che le persone sedute in prima fila erano più interessati al film che a quelli in altre righe.

bias non di risposta: in generale, le persone con opinioni forti tendono a rispondere ai sondaggi facoltativi con maggiore frequenza rispetto alle persone con lieve entità opinioni personali. Poiché il sondaggio sui film è facoltativo, le risposte hanno maggiori probabilità di formare distribuzione bimodale rispetto a una normale distribuzione (a forma di campana).

auto-attenzione (chiamato anche livello di auto-attenzione)

#language

Un livello di rete neurale che trasforma una sequenza di embedding (ad esempio, embedding dei token) in un'altra sequenza di embedding. Ogni incorporamento nella sequenza di output costruiti integrando le informazioni dagli elementi della sequenza di input attraverso un meccanismo di attenzione.

La parte relativa al sé dell'auto-attenzione si riferisce alla sequenza che segue piuttosto che in un altro contesto. L'auto-attenzione è uno dei principali elementi costitutivi dei Transformer e utilizza la terminologia di ricerca nel dizionario, ad esempio "query", "chiave" e "valore".

Un livello di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input di una parola può essere un semplice embedding. Per ogni parola in una sequenza di input, la rete valuta la pertinenza della parola per ogni elemento nell'intera sequenza di parole. I punteggi di pertinenza determinano quanto la rappresentazione finale della parola incorpora le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

L'illustrazione seguente (da Transformer: una nuova architettura di rete neurale per il linguaggio Comprensione) mostra lo schema di attenzione di uno strato di auto-attenzione per il pronome it, con l'oscurità di ogni riga, che indica quanto ogni parola contribuisca alla rappresentazione:

Il livello di auto-attenzione mette in evidenza le parole pertinenti a "esso". In questo caso, lo strato di attenzione ha imparato a evidenziare le parole che potrebbe facendo riferimento, assegnando il peso più alto ad animal.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una in ciascuna posizione nella sequenza.

Consulta anche le sezioni attenzione e auto-attenzione multi-head.

apprendimento auto-supervisionato

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette sostitutive da esempi non etichettati.

Alcuni modelli basati su Transformer, come BERT, utilizzano il metodo di apprendimento autosupervisionato.

La formazione autonoma è una apprendimento semi-supervisionato.

autoaddestramento

Una variante dell'apprendimento autonomo che è particolarmente utile quando tutte le seguenti condizioni sono vere:

Il rapporto tra esempi non etichettati e esempi etichettati nel set di dati è elevato.

Si tratta di un problema di classificazione.

L'autoaddestramento funziona iterando sui seguenti due passaggi finché il modello non smette di migliorare:

Utilizza il machine learning supervisionato per addestrare un modello sugli esempi etichettati.

Utilizza il modello creato nel passaggio 1 per generare previsioni (etichette) sugli esempi non etichettati, spostando quelli in cui è presente un'elevata affidabilità negli esempi etichettati con l'etichetta prevista.

Nota che ogni iterazione del Passaggio 2 aggiunge altri esempi etichettati per il Passaggio 1 eseguire l'addestramento.

apprendimento semi-supervisionato

Addestramento di un modello su dati in cui alcuni esempi di addestramento sono etichettati, ma altri no. Una tecnica per l'apprendimento semi-supervisionato consiste nell'eseguire l'inferenza delle etichette per gli esempi non etichettati e poi nell'addestramento sulle etichette dedotte per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere ma gli esempi senza etichetta sono numerosi.

L'addestramento autonomo è una tecnica di apprendimento semi-supervisionato.

attributo sensibile

#fairness

Un attributo umano che può essere preso in considerazione in particolare per motivi legali, etici, sociali o personali.

analisi del sentiment

#language

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo (positivo o negativo) di un gruppo nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire l'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado in cui il corso è piaciuto o meno agli studenti in generale.

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, prevedere il prossimo video guardato da una sequenza di video guardati in precedenza.

Attività di sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in un output una sequenza di token. Ad esempio, due tipi comuni di compiti di sequenza a sequenza sono:

Traduttori:

Sequenza di input di esempio: "Ti amo".

Sequenza di output di esempio: "Je t'aime."

Risposta alle domande:

Sequenza di input di esempio: "Devo avere la mia auto a New York?"

Esempio di sequenza di output: "No. Per favore, porta l'auto a casa".

del modello.

La procedura per rendere disponibile un modello addestrato per fornire previsioni tramite inferenza online o inferenza offline.

shape (Tensor)

Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata come un elenco di numeri interi. Ad esempio: il seguente tensore bidimensionale ha la forma di [3,4]:

[[5, 7, 6, 4], [2, 9, 4, 8], [3, 6, 5, 1]]

TensorFlow utilizza il formato di riga principale (in stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un TensorFlow Tensor bidimensionale, la forma è [numero di righe, numero di colonne].

Una forma statica è una forma del tensore nota in fase di compilazione.

Una forma dinamica è sconosciuta al momento della compilazione e viene perciò dipendono dai dati di runtime. Questo tensore può essere rappresentato con una segnaposto in TensorFlow, ad esempio [3, ?].

shard

#TensorFlow

#GoogleCloud

Una divisione logica del set di addestramento o del model. In genere, alcuni processi creano frammenti dividendo gli esempi o i parametri in (di solito) blocchi di dimensioni uguali. Ogni shard viene poi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato parallismo dei modelli; lo sharding dei dati è chiamato parallismo dei dati.

ritiro

#df

Un iperparametro in boosting per gradiente che controlla l'overfitting. Il calo nell'aumento del gradiente è analogo al tasso di apprendimento nella discesa del gradiente. Lo restringimento è un numero decimale compreso tra 0,0 e 1,0. Un valore di riduzione inferiore riduce l'overfitting più di un valore di riduzione maggiore.

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, generalmente da 0 a 1 o da -1 a +1. In altre parole, puoi passare qualsiasi numero (2, un milione, un miliardo negativo e così via) a una funzione sigmoide e l'output rimarrà nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea è il seguente:

La funzione sigmoidea ha diversi utilizzi nel machine learning, tra cui:

La conversione dell'output non elaborato di un regressione logistica o di regressione multinomiale per una probabilità.

Agire come funzione di attivazione in alcune neurali profonde.

Fai clic sull'icona per visualizzare il calcolo.

La funzione sigmoidea su un numero di input x ha la seguente formula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Nel machine learning, x è generalmente una somma ponderata.

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare quanto sono simili due esempi.

singolo programma/più dati (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su diversi dati di input in parallelo su dispositivi diversi. L'obiettivo di SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza delle dimensioni

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto indipendentemente dal fatto che consumi 2 milioni di pixel o 200.000 pixel. Tieni presente che anche i migliori algoritmi di classificazione delle immagini presentano ancora limiti pratici all'invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o una persona) classifichi correttamente un'immagine gatto che consuma solo 20 pixel.

Vedi anche invarianza traslazionale e invarianza rotazionale.

disegno

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare delle somiglianze esempi. Gli algoritmi per disegnare utilizzano funzione hash sensibile a livello di località per identificare i punti che potrebbero essere simili, quindi raggruppa in bucket.

Gli schizzi riducono il calcolo necessario per i calcoli delle somiglianze su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ogni bucket.

skip-gram

#language

Un n-gramma che può omettere (o "saltare") parole dal contesto originale, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Altro precisamente, un "k-skip-n-gram" è un n-grammo per cui possono esistere fino a k parole saltate.

Ad esempio, "volpe volpe marrone" ha i seguenti 2 grammi possibili:

"the quick"

"quick brown"

"volpe marrone"

A "1-salto-2 grammi" è costituito da un paio di parole separate da massimo 1 parola. Pertanto, "la volpe marrone veloce" ha i seguenti bigrammi con 1 salto:

"marrone"

"volpe veloce"

Inoltre, tutti i bigrammi sono anche bigrammi con un salto, poiché è possibile saltare meno di una parola.

I grammi ignorabili sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "volpe" è stato direttamente associato a "rapido" nel set 1-saltare-2 grammi, ma non nel set di 2 grammi.

Salta grammi per addestrare di incorporamento delle parole.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni classe possibile in un modello di classificazione multi-classe. Le probabilità sommate danno esattamente 1.0. Ad esempio, la tabella seguente mostra la modalità di distribuzione delle varie probabilità:

L'immagine è un... Probabilità

cane 0,85

gatto 0,13

cavallo 0,02

La funzione softmax è chiamata anche full softmax.

È diverso dal campionamento dei candidati.

Fai clic sull'icona per visualizzare i calcoli.

L'equazione della funzione softmax è la seguente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
where:

$\sigma_i$ è il vettore di output. Ogni elemento del vettore di output specifica la probabilità di questo elemento. La somma di tutti gli elementi nel vettore di output è 1,0. Il vettore di output contiene lo stesso numero di elementi come vettore di input, $z$.

$z$ è il vettore di input. Ogni elemento del vettore di input contiene un valore con virgola mobile.

$K$ è il numero di elementi nel vettore di input (e l'output vettoriale).

Ad esempio, supponiamo che il vettore di input sia:

[1.2, 2.5, 1.8]

Pertanto, la funzione softmax calcola il denominatore come segue:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilità softmax di ogni elemento è quindi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Di conseguenza, il vettore di output è:

$$\sigma = [0.154, 0.565, 0.281]$$

La somma dei tre elementi in $\sigma$ è 1,0. Finalmente.

Ottimizzazione dei prompt flessibili

#language

#generativeAI

Una tecnica per ottimizzare un modello linguistico di grandi dimensioni (LLM) per un'attività specifica, senza consumare risorse perfezionamenti. Invece di riaddestrare tutti i Ponderazioni nel modello, ottimizzazione dei prompt soft regola automaticamente un prompt per raggiungere lo stesso obiettivo.

Data un prompt testuale, l'ottimizzazione dei prompt soft in genere aggiunge ulteriori incorporamenti di token al prompt e utilizza la retropropagazione dell'errore per ottimizzare l'input.

Un "complesso" contiene token effettivi anziché incorporamenti di token.

elemento sparso

#language

#fundamentals

Una caratteristica i cui valori sono prevalentemente pari a zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è sparsa. Al contrario, un attributo densa ha valori che prevalentemente non sono nulli o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche è sparso. Le caratteristiche categoriche sono in genere sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un albero di acero. In alternativa, tra i milioni di possibili video di una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere le caratteristiche sparse vengono rappresentate con la codifica one-hot. Se la codifica one-hot è di grandi dimensioni, puoi inserire uno strato di incorporamento sopra lo una codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language

#fundamentals

Memorizzazione solo delle posizioni degli elementi diversi da zero in una funzionalità sparsa.

Ad esempio, supponiamo che una caratteristica categorica denominata species identifichi il 36 specie di alberi di una determinata foresta. Supponiamo inoltre che ogni esempio identifichi una sola specie.

Puoi utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la determinata specie di albero nell'esempio) e 35 1 (per rappresentare le 35 specie di alberi non presenti nell'esempio). Pertanto, la rappresentazione one-hot di maple potrebbe avere il seguente aspetto:

In alternativa, la rappresentazione sparsa dovrebbe semplicemente identificare la posizione del specie particolari. Se maple si trova in posizione 24, la rappresentazione sparsa di maple sarà semplicemente:

24

Nota che la rappresentazione sparsa è molto più compatta della una rappresentazione visiva.

Nota: non devi passare una rappresentazione sparsa come input diretto della funzionalità a un modello. Dovresti invece convertire la rappresentazione sparsa in un una rappresentazione one-hot prima di iniziare l'addestramento.

Fai clic sull'icona per un esempio leggermente più complesso.

Supponiamo che ogni esempio nel modello debba rappresentare le parole, ma non l'ordine di queste parole, in una frase in inglese. L'inglese è composto da circa 170.000 parole, quindi l'inglese è una definizione con circa 170.000 elementi. La maggior parte delle frasi inglesi una frazione molto ridotta delle 170.000 parole, quindi l'insieme di parole in un singolo esempio sarà quasi certamente costituito da dati sparsi.

Prendi in considerazione la seguente frase:

My dog is a great dog

Potresti utilizzare una variante del vettore one-hot per rappresentare le parole in questo una frase. In questa variante, più celle del vettore possono contenere un valore diverso da zero. Inoltre, in questa variante, una cella può contenere un numero intero diverso da uno. Sebbene le parole "mio", "è", "un" e "fantastico" compaiano solo una volta nella frase, la parola "cane" compare due volte. Utilizzando questa variante di di un vettore one-hot per rappresentare le parole in questa frase produce quanto segue: Vettore con 170.000 elementi:

Una rappresentazione sparsa della stessa frase sarebbe semplicemente:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Fai clic sull'icona in caso di dubbi.

Il termine "rappresentazione sparsa" confonde molte persone perché di per sé non è un vettore sparso. Piuttosto sparsa è in realtà una rappresentazione densa di un vettore sparso. Il sinonimo di rappresentazione dell'indice è un po' più chiaro di "rappresentazione sparsa".

vettore sparso

#fundamentals

Un vettore i cui valori sono prevalentemente zeri. Vedi anche sparse caratteristiche e sparsità.

sparsità

Il numero di elementi impostati su zero (o nulli) in un vettore o una matrice diviso per il numero totale di voci in quel vettore o matrice. Ad esempio: consideriamo una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo la sparsità è la seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

La sparsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche. sparsità del modello si riferisce alla sparsità dei pesi del modello.

pooling spaziale

#image

Consulta la sezione pooling.

Spalato

#df

In un albero decisionale, un altro nome per condition.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) responsabile del trovare la migliore condizione in ogni nodo.

SPMD

Abbreviazione di programma singolo / più dati.

perdita della cerniera al quadrato

Il quadrato della perdita della cerniera. La perdita della cerniera quadrata penalizza outlier in modo più rigido rispetto alla normale perdita di cerniere.

perdita quadratica

#fundamentals

Sinonimo di L₂ loss.

addestramento graduale

#language

Una tattica per addestrare un modello in una sequenza di fasi distinte. L'obiettivo può essere accelerare il processo di addestramento o ottenere una qualità del modello migliore.

Di seguito è riportata un'illustrazione dell'approccio di impilamento progressivo:

La fase 1 contiene 3 livelli nascosti, la fase 2 contiene 6 livelli nascosti e la fase 3 contiene 12 livelli nascosti.

La Fase 2 inizia l'addestramento con i pesi appresi nei 3 strati nascosti. della fase 1. La fase 3 inizia l'addestramento con i pesi appresi nei 6 livelli nascosti della fase 2.

Vedi anche pipelining.

stato

#rl

Nell'apprendimento tramite rinforzo, i valori dei parametri che descrivono la configurazione corrente dell'ambiente, che l'agente utilizza per scegliere un'azione.

funzione valore azione-stato

#rl

Sinonimo di Q-function.

static

#fundamentals

Un'operazione eseguita una sola volta anziché in modo continuativo. I termini statico e offline sono sinonimi. Di seguito sono riportati alcuni utilizzi comuni di statici e offline nel machine learning:

Un modello statico (o modello offline) è un modello addestrato una volta e poi utilizzato per un po' di tempo.

L'addestramento statico (o addestramento offline) è il processo di addestramento di un un modello statico.

inferenza statica (o inferenza offline) è un in cui un modello genera un batch di previsioni alla volta.

È il contrario di dinamico.

inferenza statica

#fundamentals

Sinonimo di inferenza offline.

stazionarietà

#fundamentals

Un elemento i cui valori non cambiano in una o più dimensioni, in genere il tempo. Ad esempio, una funzionalità i cui valori sono simili nel 2021 e nel 2023 presenta stabilità.

Nel mondo reale, pochissime caratteristiche mostrano stazionarietà. Anche le caratteristiche sinonimo di stabilità (come il livello del mare) cambiano nel tempo.

È il contrario della non stazionarietà.

fase

Un passaggio in avanti e uno all'indietro di un batch.

Per saperne di più, consulta la retropropagazione tra il passaggio in avanti e il passaggio all'indietro.

passo

Sinonimo di tasso di apprendimento.

discesa stocastica del gradiente (SGD)

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è uno. In altre parole, la SGD viene addestrata su un singolo esempio scelto in modo uniforme e casuale da un set di addestramento.

stride

#image

In un'operazione di convoluzione o pooling, il delta in ogni dimensione della successiva serie di slice di input. Ad esempio, la seguente animazione dimostra uno stride (1, 1) durante un'operazione di convoluzione. Pertanto, la sezione di input successiva inizia una posizione a destra dell'input precedente sezione. Quando l'operazione raggiunge il bordo destro, il segmento successivo è completamente a sinistra, ma una posizione più in basso.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche lo stride sarà tridimensionale.

Riduzione al minimo del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

La necessità di creare il modello più predittivo (ad esempio, la perdita più bassa).

La necessità di mantenere il modello il più semplice possibile (ad esempio, regolarizzazione).

Ad esempio, una funzione che minimizza la perdita + la regolarizzazione sull'insieme di addestramento è un algoritmo di minimizzazione del rischio strutturale.

Mettersi a confronto con la minimizzazione empirica del rischio.

sottocampionamento

#image

Consulta la sezione pooling.

token della sottoparola

#language

Nei modelli linguistici, un token è una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "elencare" potrebbe essere suddivisa nei pezzi "elemento" (una parola base) e "izzare" (un suffisso), ciascuno dei quali è rappresentato dal proprio token. Suddividere le parole non comuni in parti simili, denominate sottoparole, consente linguistici di grandi dimensioni per operare sulle parti costitutive più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "andare" potrebbero non essere suddivise e rappresentare un singolo token.

riepilogo

#TensorFlow

In TensorFlow, un valore o insieme di valori calcolati in base a un determinato step, in genere utilizzata per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un modello a partire da caratteristiche e dalle relative etichette. Il machine learning supervisionato è analogo all'apprendimento di un argomento tramite lo studio di un insieme di domande e delle rispettive risposte. Dopo aver padroneggiato la mappatura tra domande e risposte, uno studente potrà quindi fornire delle risposte a nuove domande (mai viste in precedenza) domande sullo stesso argomento.

Confronta con machine learning non supervisionato.

elemento sintetico

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblati da uno o più di essi. Metodi per la creazione di caratteristiche sintetiche include:

Suddivisione in bucket di una caratteristica continua in intervalli.

Creare un incrocio di caratteristiche.

Moltiplicare (o dividere) un valore della caratteristica per altri valori della caratteristica o da sola. Ad esempio, se a e b sono caratteristiche di input, allora il valore Ecco alcuni esempi di caratteristiche sintetiche:

ab

A²

Applicazione di una funzione trascendentale a un valore della funzionalità. Ad esempio, se c è una caratteristica di input, i seguenti sono esempi di caratteristiche sintetiche:

sin(c)

ln(c)

Le funzionalità create solo tramite normalizzazione o riscalata non sono considerate sintetiche.

T

T5

#language

Un modello di transfer learning da testo a testo introdotto da L'IA di Google nel 2020. T5 è un modello encoder-decoder, basato sul Transformer, addestrata su un modello del set di dati. È efficace per una serie di attività di elaborazione del linguaggio naturale, come la generazione di testo, la traduzione di lingue e la risposta a domande in modo conversazionale.

T5 prende il nome dalle cinque "T" in "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare l'elaborazione del linguaggio naturale su larga scala (NLP). T5 è implementato nel codice di base di T5X (che è basato su JAX e Flax).

Apprendimento Q tabulare

#rl

Nel apprendimento per rinforzo, l'implementazione Q-learning mediante l'utilizzo di una tabella in cui archiviare funzioni Q per ogni combinazione di state e azione.

target

Sinonimo di label.

rete target

#rl

In Deep Q-learning, una rete neurale che è un'approssimazione stabile della rete neurale principale, dove la rete neurale principale implementa una funzione Q o una norma. Poi, puoi addestrare la rete principale sui valori Q previsti dalla rete di destinazione. Di conseguenza, eviterai il ciclo di feedback che si verifica quando l'istanza principale la rete addestra sui valori Q previsti automaticamente. Evitando questo feedback, la stabilità durante l'addestramento.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning come:

classificazione

regressione

clustering

rilevamento di anomalie

temperatura

#language

#image

#generativeAI

Un iperparametro che controlla il grado di casualità dell'output di un modello. Le temperature più alte generano un output più casuale, mentre le temperature più basse si traducono in un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e le proprietà preferite dell'output del modello. Ad esempio, probabilmente aumenteresti la temperatura quando crei un'applicazione che genera output creativo. Al contrario, probabilmente abbasseresti la temperatura quando si crea un modello che classifica immagini o testo al fine di migliorare l'accuratezza e la coerenza del modello.

La temperatura viene spesso utilizzata con softmax.

dati temporali

Dati registrati in momenti diversi. Ad esempio, le vendite di cappotti invernali registrate per ogni giorno dell'anno sono dati temporali.

Tensore

#TensorFlow

La struttura di dati principale nei programmi TensorFlow. I tensori sono strutture di dati N-dimensionali (dove N può essere molto grande), in genere scalari, vettori o matrici. Gli elementi di un Tensor possono contenere numeri interi, rappresentazioni in virgola mobile o valori di stringa.

TensorBoard

#TensorFlow

La dashboard che mostra i riepiloghi salvati durante l'esecuzione di uno o più programmi TensorFlow.

TensorFlow

#TensorFlow

Una piattaforma di machine learning distribuita e su larga scala. Il termine si riferisce anche al livello API di base nello stack TensorFlow, che supporta i calcoli generali sui grafici di flusso di dati.

Anche se TensorFlow viene utilizzato principalmente per il machine learning, puoi utilizzarlo anche per attività non ML che richiedono calcoli numerici utilizzando i grafici di flusso di dati.

TensorFlow Playground

#TensorFlow

Un programma che mostra in che modo diversi iperparametri influiscono sull'addestramento del modello (principalmente rete neurale). Vai a http://playground.tensorflow.org per sperimentare con TensorFlow Playground.

Distribuzione di TensorFlow

#TensorFlow

Una piattaforma per il deployment dei modelli addestrati in produzione.

Tensor Processing Unit (TPU)

#TensorFlow

#GoogleCloud

Un circuito integrato specifico per applicazioni (ASIC) che ottimizza le prestazioni dei carichi di lavoro di machine learning. Questi ASIC vengono implementati come più chip TPU su un dispositivo TPU.

Rango del tensore

#TensorFlow

Vedi rank (Tensor).

Forma del tensore

#TensorFlow

Il numero di elementi contenuti in un tensore in varie dimensioni. Ad esempio, un tensore [5, 10] ha una forma di 5 in una dimensione e 10 in un'altra.

Dimensione tensore

#TensorFlow

Il numero totale di scalari contenuti in un Tensor. Ad esempio, un [5, 10] Tensor ha una dimensione di 50.

TensorStore

Una raccolta per leggere e leggere in modo efficiente scrivere grandi array multidimensionali.

condizione di interruzione

#rl

Nel apprendimento per rinforzo, le condizioni che stabilire quando finisce una puntata, ad esempio quando l'agente raggiunge stato o supera una soglia per le transizioni di stato. Ad esempio, nel gioco del tris (noto anche come morra), una partita termina quando un giocatore segna tre caselle consecutive o quando tutte le caselle sono contrassegnate.

test

#df

In un albero decisionale, un altro nome per una condizione.

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto a il set di test. Quando crei un modello, in genere cerca di ridurre al minimo la perdita di dati. Questo perché una perdita di prova bassa è un segnale di qualità più forte rispetto a una bassa perdita dell'addestramento o con una bassa perdita di convalida.

A volte un grande divario tra perdita di test e perdita di addestramento o perdita di convalida suggerisce che è necessario aumentare tasso di regolarizzazione.

set di test

Un sottoinsieme del dataset riservato per i test un modello addestrato.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento

un set di convalida

un set di test

Ogni esempio in un set di dati deve appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non deve appartenere sia al set di addestramento sia al set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente legati all'addestramento di un modello. Poiché il set di test è associato all'addestramento solo indirettamente, la perdita di test è una metrica meno distorta e di qualità superiore rispetto a la perdita di addestramento o la perdita di convalida.

intervallo di testo

#language

L'intervallo dell'indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

tf.Example

#TensorFlow

Un modello buffer di protocollo per descrivere i dati di input per l'addestramento o l'inferenza del modello di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrata TensorFlow:

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una funzionalità. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

Questa forma del termine soglia è diversa da soglia di classificazione.

analisi delle serie temporali

#clustering

Un sottocampo del machine learning e della statistica che analizza dati temporali. Molti tipi di machine learning problemi richiedono l'analisi delle serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, potresti utilizzare analisi delle serie temporali per prevedere le vendite future di cappotti invernali per mese in base ai dati storici sulle vendite.

timestep

#seq

Una cella "srotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre fasi temporali (etichettate con i pedici t-1, t e t+1):

token

#language

In un modello linguistico, l'unità atomica del modello è l'addestramento e l'elaborazione delle previsioni. Un token è tipicamente uno dei seguenti:

una parola: ad esempio, la frase "cani come gatti" è composta da tre token di parola: "cani", "come" e "gatti".

un carattere, ad esempio la frase "pesci bicicletta" è composto da nove di caratteri. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.

sottoparole in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza le sottoparole come token potrebbe considerare la parola "cani" come due token (la parola principale "cane" e il suffisso plurale "i"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alto" come due sottoparole (la parola principale "alto" e il suffisso "er").

In domini esterni ai modelli linguistici, i token possono rappresentare altri tipi di unità atomiche. Ad esempio, nella visione artificiale, un token potrebbe essere un sottoinsieme di un'immagine.

torre

Un componente di una rete neurale profonda che è una rete neurale profonda. In alcuni casi, ogni torre legge da un'origine dati indipendente e queste torri rimangono indipendenti finché il loro output non viene combinato in un livello finale. In altri casi, ad esempio nelle torri di encoder e decoder di molti trasformatori, le torri sono collegate tra loro.

TPU

#TensorFlow

#GoogleCloud

Abbreviazione di Tensor Processing Unit.

Chip TPU

#TensorFlow

#GoogleCloud

Un acceleratore di algebra lineare programmabile con memoria a larghezza di banda elevata on-chip ottimizzato per carichi di lavoro di machine learning. Più chip TPU vengono implementati su un dispositivo TPU.

Dispositivo TPU

#TensorFlow

#GoogleCloud

Una scheda per circuiti stampati (PCB) con più chip TPU. interfacce di rete a larghezza di banda elevata e hardware di raffreddamento del sistema.

Master TPU

#TensorFlow

#GoogleCloud

Il processo di coordinamento centrale in esecuzione su una macchina host che invia e riceve dati, risultati, programmi, prestazioni e informazioni sullo stato del sistema ai worker TPU. Il master TPU gestisce anche la configurazione e l'arresto dei dispositivi TPU.

Nodo TPU

#TensorFlow

#GoogleCloud

Una risorsa TPU su Google Cloud con un tipo di TPU specifico. Il nodo TPU si connette alla tua rete VPC da una rete VPC peer. I nodi TPU sono una risorsa definita API Cloud TPU.

pod di TPU

#TensorFlow

#GoogleCloud

Una configurazione specifica dei dispositivi TPU in un ambiente data center. Tutti i dispositivi in un pod di TPU sono connessi tra loro su una rete dedicata ad alta velocità. Un pod di TPU è la configurazione più grande Dispositivi TPU disponibili per una versione specifica di TPU.

Risorsa TPU

#TensorFlow

#GoogleCloud

Un'entità TPU su Google Cloud che crei, gestisci o utilizzi. Ad esempio, i nodi TPU e i tipi di TPU sono risorse TPU.

Sezione TPU

#TensorFlow

#GoogleCloud

Una sezione TPU è una parte frazionaria dei dispositivi TPU in un pod TPU. Tutti i dispositivi in una sezione TPU sono connessi tramite una rete dedicata ad alta velocità.

Tipo di TPU

#TensorFlow

#GoogleCloud

Una configurazione di uno o più dispositivi TPU con una versione hardware TPU specifica. Selezioni un tipo di TPU durante la creazione un nodo TPU su Google Cloud. Ad esempio, un tipo di TPU v2-8 è un singolo dispositivo TPU v2 con 8 core. Un tipo di TPU v3-2048 ha 256 dispositivi TPU v3 in rete e un totale di 2048 core. I tipi di TPU sono definita nel API Cloud TPU.

Nodo di lavoro TPU

#TensorFlow

#GoogleCloud

Un processo che viene eseguito su una macchina host ed esegue programmi di machine learning su dispositivi TPU.

formazione

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e pregiudizi) che comprende un modello. Durante l'addestramento, un sistema legge esempi e regola gradualmente i parametri. L'addestramento utilizza ogni ad esempio da poche a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una a una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia errore quadratico medio. Forse la perdita di addestramento (la media scarto quadratico) per la decima iterazione è 2.2, e la perdita di addestramento la 100a iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di esercizi. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

Una curva discendente implica che il modello sta migliorando.

Una curva ascendente implica che il modello sta peggiorando.

Una pendenza piatta implica che il modello abbia raggiunto convergenza.

Ad esempio, la seguente curva di perdita un po' idealizzata mostra:

Una forte discesa durante le iterazioni iniziali, che implica un rapido miglioramento del modello.

Una curva gradualmente in piano (ma comunque in calo) fino alla fine dell'addestramento, il che implica un miglioramento continuo del modello a un ritmo leggermente più lento rispetto alle iterazioni iniziali.

Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Sebbene la perdita di addestramento sia importante, consulta anche la sezione sulla generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante addestramento e le prestazioni dello stesso modello durante pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento

un set di convalida

un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere a uno solo dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

traiettoria

#rl

Nell'apprendimento per rinforzo, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, dove ogni tupla corrisponde allo stato, all'azione, ricompensa e allo stato successivo per una determinata transizione di stato.

trasferimento dell'apprendimento

Trasferimento di informazioni da un'attività di machine learning all'altra. Ad esempio, nell'apprendimento multitasking, un singolo modello risolve più attività, ad esempio un modello profondo con diversi nodi di output per diverse attività. Il Transfer Learning può implicare il trasferimento delle conoscenze dalla soluzione di un'attività più semplice a una più complessa, oppure trasferire la conoscenza da un'attività con più dati a un'altra in cui ci sono meno dati.

La maggior parte dei sistemi di machine learning risolve una singola attività. Il trasferimento dell'apprendimento è un primo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

#language

Un'architettura di rete neurale sviluppata da Google che fa affidamento su meccanismi di auto-attenzione per trasformare sequenza di incorporamenti di input in una sequenza di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visualizzato come uno stack di livelli di auto-attenzione.

Un Transformer può includere uno qualsiasi dei seguenti elementi:

un codificatore

un decoder

sia un encoder che un decoder

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza di della stessa lunghezza. Un encoder include N strati identici, ognuno dei quali contiene due e i sottolivelli. Questi due sottolivelli vengono applicati in ciascuna posizione dell'input sequenza di incorporamento, trasformando ogni elemento della sequenza in un nuovo incorporamento. Il primo livello secondario dell'encoder aggrega informazioni da tutti i una sequenza di input. Il secondo sottolivello del codificatore trasforma le informazioni aggregate in un embedding di output.

Un decodificatore trasforma una sequenza di rappresentazioni distribuite di input in una sequenza di rappresentazioni distribuite di output, eventualmente con una lunghezza diversa. Un decoder include anche N strati identici con tre sottostrati, due dei quali sono simili nei sottolivelli dell'encoder. Il terzo sottolivello del decodificatore prende l'output dell'elaboratore e applica il meccanismo di auto-attenzione per raccogliere informazioni.

Il blog post Transformer: A Novel Neural Network Architecture for Language Comprensione offre un'ottima introduzione ai Transformer.

invarianza traslazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di a classificare le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, che sia nel al centro o all'estremità sinistra dell'inquadratura.

Consulta anche invarianza di scala e invarianza di rotazione.

trigramma

#seq

#language

Un N-gram in cui N=3.

vero negativo (VN)

#fundamentals

Un esempio in cui il modello prevede correttamente classe esclusa. Ad esempio, il modello deduce un particolare messaggio email non è spam e tale messaggio è davvero non spam.

veri positivi (VP)

#fundamentals

Un esempio in cui il modello prevede correttamente classe positiva. Ad esempio, il modello deduce che un determinato messaggio email è spam e che questo messaggio email è effettivamente spam.

tasso di veri positivi (TPR)

#fundamentals

Sinonimo di richiamo. Ossia:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

Il tasso di veri positivi è l'asse y in una curva ROC.

U

Mancanza di consapevolezza (di un attributo sensibile)

#fairness

Una situazione in cui sono presenti attributi sensibili, ma non sono inclusi nei dati di addestramento. Poiché gli attributi sensibili sono spesso correlati con altri attributi dei propri dati, un modello addestrato se non conosce un attributo sensibile potrebbe avere un impatto non soddisfacente rispetto a quell'attributo, o violare altri vincoli di equità.

sottostima

#fundamentals

Produzione di un modello con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare sottostima, tra cui:

Addestramento con l'insieme errato di funzionalità.

Addestramento per un numero troppo ridotto di epoche o con una velocità di apprendimento troppo bassa.

Addestramento con una tasso di regolarizzazione troppo elevata.

Fornire un numero troppo basso di strati nascosti in una in una rete neurale profonda.

sottocampionamento

Rimuovere gli esempi dal classe di maggioranza in una set di dati sbilanciati dalla classe per crea un set di addestramento più equilibrato.

Ad esempio, considera un set di dati in cui il rapporto tra la classe di maggioranza e la classe di minoranza è 20:1. Per superare questo squilibrio tra le classi, potresti creare un set di addestramento costituito da tutti gli esempi della classe di minoranza, ma solo da un decimo degli esempi della classe di maggioranza, il che costituirebbe un rapporto tra le classi del set di addestramento di 2:1. A causa del sottocampionamento, questo di addestramento bilanciato può produrre un modello migliore. In alternativa, questo insieme di dati di addestramento più equilibrato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Confrontare con il sovracampionamento.

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo target. Al contrario, un sistema bidirezionale valuta sia il testo che precede sia quello che segue una sezione di testo target. Per ulteriori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sulla token visualizzati prima, non dopo dei token di destinazione. Confrontare con il modello linguistico bidirezionale.

esempio non etichettato

#fundamentals

Un esempio contenente le caratteristiche, ma senza un'etichetta. Ad esempio, la tabella seguente mostra tre esempi senza etichetta di una casa di valutazione, ciascuna con tre caratteristiche ma senza valore della casa:

Numero di camere Numero di bagni Età della casa

3 2 15

2 1 72

4 2 34

Nel machine learning supervisionato, i modelli vengono addestrati su esempi etichettati e fanno previsioni esempi senza etichetta.

In semi-supervisionato e apprendimento non supervisionato, durante l'addestramento vengono usati esempi non etichettati.

Confronta l'esempio non etichettato con l'esempio etichettato.

machine learning non supervisionato

#clustering

#fundamentals

Addestramento di un modello per trovare pattern in un set di dati, in genere una senza etichetta.

L'uso più comune del machine learning non supervisionato è raggruppare i dati in gruppi di esempi simili. Ad esempio, una macchina non supervisionata algoritmo di apprendimento può raggruppare i brani in base a varie della musica. I cluster risultanti possono diventare input per altri algoritmi di machine learning (ad esempio, per un servizio di consigli musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in domini come anti-abuso e attività fraudolente, i cluster possono aiutare le persone a comprendere meglio i dati.

Effettuare il confronto con il machine learning supervisionato.

Fai clic sull'icona per ulteriori note.

Un altro esempio di machine learning non supervisionato è l'analisi delle componenti principali (PCA). Ad esempio, l'applicazione del PCA a un set di dati contenente i contenuti di milioni di carrelli degli acquisti potrebbe rivelare che i carrelli degli acquisti contenenti limoni spesso contengono anche antiacidi.

modellazione dell'incremento

Una tecnica di definizione del modello, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Di seguito sono riportati due esempi:

I medici potrebbero utilizzare modelli di incremento per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) in base al età e storia clinica di un paziente (individuo).

I professionisti del marketing potrebbero utilizzare la creazione di modelli di incremento per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a un annuncio (trattamento) su una persona (individuo).

La modellazione dell'incremento è diversa dalla classificazione o regressione in quanto alcune etichette (ad esempio, metà delle etichette nei trattamenti binari) mancano sempre nella modellazione dell'incremento. Ad esempio, un paziente può ricevere o meno una cura. Pertanto, possiamo osservare se il paziente guarisce o meno solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di incremento è che può generare previsioni per la situazione non osservata (il controfattuale) e utilizzarla per calcolare l'effetto causale.

ponderazione

Applicare un peso alla classe riscalata uguale al fattore di riduzione.

matrice di utenti

#recsystems

Nei sistemi di suggerimenti, un vettore di embedding generato dalla fattorizzazzione matriciale che contiene indicatori latenti sulle preferenze degli utenti. Ogni riga della matrice utente contiene informazioni sull'intensità relativa di vari indicatori latenti per un singolo utente. Ad esempio, prendi in considerazione un sistema di consigli sui film. In questo sistema, gli indicatori latenti nella matrice utente potrebbero rappresentare l'interesse di ciascun utente per generi specifici oppure potrebbero essere indicatori più difficili da interpretare che coinvolgono interazioni complesse in più fattori.

La matrice utente ha una colonna per ogni caratteristica latente e una riga per ogni utente. Ciò significa che la matrice utente ha lo stesso numero di righe del target matrice che viene fattorizzata. Ad esempio, dato un film di consigli per 1.000.000 utenti, la matrice dell'utente avrà 1.000.000 di righe.

V

convalida

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché l'insieme di convalida è diverso dall'insieme di addestramento, la convalida aiuta a proteggersi dall'overfitting.

Si potrebbe pensare di valutare il modello rispetto al set di convalida come prima fase di test e valutazione del modello rispetto set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello sul set di convalida durante una determinata iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, il modello addestrato viene valutato più volte rispetto al set di convalida prima di essere valutato rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento

un set di convalida

un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia il set di addestramento sia il set di convalida.

attribuzione del valore

Procedura di sostituzione di un valore mancante con un valore sostitutivo accettabile. Quando manca un valore, puoi ignorare l'intero esempio oppure possiamo usare l'imputazione del valore per salvare l'esempio.

Ad esempio, prendiamo in considerazione un set di dati contenente una funzionalità temperature che dovrebbe essere registrata ogni ora. Tuttavia, la lettura della temperatura non era disponibile per una determinata ora. Ecco una sezione del set di dati:

Timestamp Temperatura

1680561000 10

1680564600 12

1680568200 mancante

1680571800 20

1680575400 21

1680579000 21

Un sistema potrebbe eliminare l'esempio mancante o attribuire quello mancante temperatura di 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.

problema della scomparsa del gradiente

#seq

La tendenza dei gradienti dei primi strati nascosti di alcune reti neurali profonde per diventare sorprendentemente piatto (basso). Gradienti sempre più bassi si traducono in un aumento variazioni più piccole delle ponderazioni sui nodi in una rete neurale profonda, poco o nessun apprendimento. Modelli interessati dal problema della scomparsa del gradiente diventano difficili o impossibile da addestrare. Le celle memoria a lungo termine risolvono questo problema.

Confrontalo con il problema del gradiente esplosivo.

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ciascuno feature al modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle case. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: taglia, età e stile. Se un insieme di importanza delle variabili per le tre caratteristiche viene calcolato come {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono esperti di ML su diversi aspetti dei modelli.

autoencoder variazionale (VAE)

#language

Un tipo di autoencoder che sfrutta la discrepanza tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'IA generativa.

Gli VAE si basano sull'inferenza variazionale: una tecnica per stimare il valore parametri di un modello di probabilità.

vettoriale

Termine molto sovraccarico il cui significato varia a seconda della matematica e campi scientifici. Nel machine learning, un vettore ha due proprietà:

Tipo di dati: i vettori nel machine learning di solito contengono numeri in virgola mobile.

Numero di elementi: si tratta della lunghezza o della dimensione del vettore.

Ad esempio, considera un vettore di caratteristiche che contiene otto numeri con rappresentazione in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione pari a otto. Tieni presente che i vettori di machine learning hanno spesso un numero enorme di dimensioni.

Puoi rappresentare molti tipi diversi di informazioni come vettore. Ad esempio:

Qualsiasi posizione sulla superficie della Terra può essere rappresentata come un vettore bidimensionale, in cui una dimensione è la latitudine e l'altra la longitudine.

I prezzi correnti di ciascuno dei 500 titoli azionari possono essere rappresentati come una Vettore a 500 dimensioni.

Una distribuzione di probabilità su un numero finito di classi può essere rappresentata come vettore. Ad esempio, un di classificazione multiclasse prevede che uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) per indicare P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati; di conseguenza, è possibile creare una varietà di media diversi rappresentato come un singolo vettore. Alcuni modelli operano direttamente concatenazione di molte codifiche one-hot.

I processori specializzati come le TPU sono ottimizzati per le prestazioni operazioni matematiche sui vettori.

Un vettore è un tensore di ranking 1.

M

Perdita di Wasserstein

Una delle funzioni di perdita comunemente utilizzate nelle reti antagoniste generative, baseada sulla distanza di Earth Mover tra la distribuzione dei dati generati e i dati reali.

peso

#fundamentals

Un valore moltiplicato da un modello per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello; l'inferenza è il processo di utilizzo di questi pesi appresi per effettuare previsioni.

Fai clic sull'icona per visualizzare un esempio di pesi in un modello lineare.

Immagina un modello lineare con due caratteristiche. Supponiamo che l'addestramento determini i seguenti pesi (e bias):

Il bias, b, ha un valore di 2,2

Il peso, w₁ associato a una caratteristica è 1,5.

Il peso, w₂ associato all'altra caratteristica è 0,4.

Ora immagina un esempio con i seguenti valori di funzionalità:

Il valore di una caratteristica, x₁, è 6.

Il valore dell'altra caratteristica, x₂, è 10.

Questo modello lineare utilizza la seguente formula per generare una previsione: y':

$$y' = b + w_1x_1 + w_2x_2$$

Pertanto, la previsione è:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se un peso è pari a 0, la funzionalità corrispondente non contribuisce al modello. Ad esempio, se w₁ è 0, il valore di x₁ è irrilevante.

Alternativa ponderata (WALS)

#recsystems

Un algoritmo per ridurre al minimo la funzione obiettivo durante scomposizione matriciale in sistemi di consigli, che consentono sottoponderazione degli esempi mancanti. WALS minimizza l'errore quadratico ponderato tra la matrice originale e la ricostruzione alternando la correzione della fattorizzazione delle righe e della fattorizzazione delle colonne. Ognuna di queste ottimizzazioni può essere risolta con i minimi quadrati ottimizzazione convessa: Per maggiori dettagli, consulta il corso sui sistemi di raccomandazione.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per i relativi coefficienti. Ad esempio, supponiamo che gli input pertinenti siano i seguenti:

valore dell'input peso inserito

2 -1,3

-1 0,6

3 0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello Wide

Un modello lineare che in genere ha molti caratteristiche di input sparse. Definiamo "wide" dal giorno Un modello di questo tipo è un tipo speciale di rete neurale con una un numero elevato di input che si connettono direttamente al nodo di output. Modelli Wide sono spesso più facili da sottoporre a debug e ispezionare rispetto ai modelli diretti. Sebbene i modelli wide non possano esprimere le non linearità tramite livelli nascosti, possono utilizzare trasformazioni come incrocio di funzionalità e bucketizzazione per modellare le non linearità in modi diversi.

È diverso dal modello di deep learning.

larghezza

Il numero di neuroni in un determinato strato di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un grande gruppo di persone ("la folla") spesso produce risultati sorprendenti. Ad esempio, prendiamo in considerazione un gioco in cui le persone devono indovinare il numero di gelee beans in un barattolo grande. Sebbene la maggior parte dei singoli non saranno precise, la media di tutte le ipotesi è stata dimostrato empiricamente essere sorprendentemente vicino al numero effettivo di caramelle gommose nel barattolo.

Gli ensemble sono un'analogia software della saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli genera spesso in modo sorprendente buone previsioni. Ad esempio, anche se un singolo albero decisionale potrebbe fare previsioni sbagliate, una foresta di alberi decisionali spesso genera previsioni molto buone.

word embedding

#language

Rappresentazione di ogni parola in un insieme di parole all'interno di un vettore di incorporamento, ovvero rappresentazione di ogni parola come un vettore di valori a virgola mobile compresi tra 0,0 e 1,0. Parole con simili significati hanno rappresentazioni più simili delle parole con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero avuto un rendimento relativamente rappresentazioni simili, che sarebbero molto diverse dalle rappresentazioni come aereo, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore open source di machine learning per GPU, CPU e acceleratori ML.

Il compilatore XLA prende i modelli dai principali framework di ML, come PyTorch, TensorFlow e JAX, e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori di ML.

Z

apprendimento zero-shot

Un tipo di addestramento del machine learning in cui il modello deducono una previsione per un compito per il quale non è stato già addestrato in modo specifico. In altre parole, il modello non vengono forniti esempi di addestramento specifico per le attività, ma viene chiesto di inferenza per quell'attività.

Prompt zero-shot

#language

#generativeAI

Un prompt che non fornisce un esempio di come vuoi il modello linguistico di grandi dimensioni (LLM). Ad esempio:

Parti di un prompt Note

Qual è la valuta ufficiale del paese specificato? La domanda a cui vuoi che l'LLM risponda.

India: La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con uno dei seguenti elementi:

Rupia

INR

₹

Rupia indiana

La rupia

La rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta e contrapponi i prompt zero-shot con i seguenti termini:

prompt one-shot

prompt few-shot

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore grezzo della funzionalità con un valore con virgola mobile che rappresenta il numero di deviazioni standard dalla media della funzionalità. Ad esempio, considera un attributo la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra in che modo la normalizzazione del punteggio Z mappa il valore non elaborato al relativo punteggio Z:

Valore non elaborato Punteggio z

800 0

950 +1,5

575 -2,25

Il modello di machine learning viene quindi addestrato utilizzando i punteggi Z per quella caratteristica anziché sui valori non elaborati.

	Casablanca	La storia di Filadelfia	Black Panther	Wonder Woman	Pulp Fiction
Utente 1	5,0	3,0	0.0	2.0	0.0
Utente 2	4.0	0.0	0.0	1,0	5,0
Utente 3	3,0	1,0	4.0	5,0	0.0

No	Nomi di questo tipo di n-grammi	Esempi
2	bigram o 2 grammi	andare, andare, pranzare, cena
3	trigram o 3 grammi	ate too much, three blind mice, the bell tolls
4	4 grammi	camminare nel parco, polvere al vento, il ragazzo mangiava lenticchie

country	Vettoriale
"Danimarca"	1	0	0	0	0
"Svezia"	0	1	0	0	0
"Norvegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islanda"	0	0	0	0	1

Categoria di prompt	Esempio	Note
Domanda	`A che velocità può volare un piccione?`
Istruzione	`Scrivi una poesia divertente sull'arbitraggio.`	Un prompt che chiede al modello linguistico di grandi dimensioni di fare qualcosa.
Esempio	`Tradurre il codice Markdown in HTML. Ad esempio: Markdown: * elemento dell'elenco HTML: <ul> <li>elemento dell'elenco</li> </ul>`	La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo	`Spiegare perché la discesa del gradiente viene utilizzata nell'addestramento del machine learning per un dottorato in fisica.`	La prima parte della frase è un'istruzione; la frase "a un dottorato in fisica" è la parte relativa al ruolo.
Input parziale da completare dal modello	`Il Primo Ministro del Regno Unito vive a`	Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso.

Timestamp	Temperatura
1680561000	10
1680564600	12
1680568200	mancante
1680571800	20
1680575400	21
1680579000	21