Apuntes Exposicion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 13

Libro: Statistical Mechanics of Learning de A. Engel y C.

Van den Broeck

Capitulo 12

Redes Multicapa

Introducción

Las redes multicapa, son una generalización del perceptrón(El perceptrón es una red
neuronal artificial simple que tiene unidades de entrada conectadas directamente a una
unidad de salida) que superan la limitación de este último al poder implementar cualquier
función booleana. Esto las hace especialmente útiles en aplicaciones prácticas y estudios
neurofisiológicos, ya que la mayoría de las neuronas en redes neuronales biológicas son
interneuronas
Las redes neuronales multicapa pueden realizar todas las funciones booleanas posibles
entre entrada y salida, esto hace que tengan aplicaciones prácticas. También al tener mayor
complejidad hace que el análisis de la mecánica estadística de sus habilidades de
aprendizaje sea más complicado y en general impide la caracterización detallada que se
realiza para el perceptrón simple.
.

12.1 Arquitecturas Básicas

Una red neuronal multicapa de está definida por varias capas de neuronas formales con
conexiones sinápticas dirigidas que solo conectan capas sucesivas. Las arquitecturas
varían en el número y tamaño de las capas ocultas. Se considera un caso simplificado con
una sola unidad de salida y una única capa oculta. Los acoplamientos sinápticos se refieren
a las conexiones ponderadas entre neuronas.Existen distintas arquitecturas de la clase de
redes multicapa, que se diferencian en el número y el tamaño de las capas ocultas.
Capa de entrada: recibe las señales de entrada.
Capas ocultas: son una o más capas intermedias que están entre la capa de entrada y la
capa de salida. Estas procesan la información de la capa anterior y pasan los resultados a
la siguiente capa.
Capa de salida: está es la que produce la salida final de la red.
Neurona formal: Cada neurona en una red neuronal es un modelo matemático que toma un
conjunto de entradas, las procesa (generalmente mediante una función de activación), y
produce una salida. Poner la fórmula de la neurona formal.
Arquitectura de Red Multicapa con una Capa Oculta:

sgn() : La función de signo, que devuelve ( +1 ) si el argumento es mayor o igual a cero, y (


-1 ) si es menor.

La activación de las unidades ocultas en una red neuronal multicapa se refiere al estado
binario de las neuronas ocultas después de procesar las entradas. Estas activaciones
determinan la salida final de la red.

K vectores de acoplamiento J1,..., JK que conectan las N entradas Si; con las unidades
ocultas τι,..., τk.

El vector τ = (τ1,...,τK ) se denomina representación interna de la entrada S.


Se consideran 2 tipos de arquitectura de redes multicapas

1. Arquitectura Completamente Conectada: Todas las unidades ocultas están conectadas a


todas las entradas.
2. Arquitectura de Árbol: Cada unidad oculta se alimenta de diferentes unidades de entrada
(campos receptivos no superpuestos).
Arquitectura totalmente conectada (izquierda) y en árbol (derecha) de una red multicapa con
una capa oculta.
La diferencia de estas 2 arquitecturas radica en la conexión entre las capas de entrada y las
ocultas.
Arquitectura totalmente conectada (izquierda) y en árbol (derecha) de una red multicapa con
una capa oculta.

Máquinas de Paridad y Comité

Dos configuraciones importantes son la Máquina de Paridad y la Máquina de Comité:

La máquina de paridad en redes neuronales multicapa se refiere a una arquitectura


específica que implementa una función booleana de paridad. Esta función toma una serie
de entradas binarias y produce un 1 si el número de entradas igual a 1 es impar y un 0 si es
par. Para implementar la función de paridad usando neuronas de McCulloch-Pitts, se
necesita una capa adicional de unidades ocultas debido a la complejidad de esta función

La máquina de comité es otra arquitectura específica en redes neuronales multicapa. En


este caso, la salida se determina mediante una función de mayoría sobre las salidas de las
unidades ocultas. La máquina de comité es útil porque permite que la salida sea una
representación promedio ponderada de las salidas de las unidades ocultas, lo que puede
mejorar la generalización del modelo

Explicación de las ecuaciones


Máquina de paridad:

Producto de Booleanos: Esta ecuación toma el producto de (K) variables booleanas,


(\tau_1, \tau_2, ..., \tau_K).

Valor de la Función:Si todas las (\tau_k) son iguales a 1, entonces el producto será 1.Si
alguna de las (\tau_k) es 0, entonces el producto será 0.
Interpretación: Esta función implementa una operación AND (lógica) entre todas las
variables booleanas (\tau_k). Es decir, ( F(\tau) ) será 1 si y solo si todas las (\tau_k) son 1,
y será 0 en cualquier otro caso.

Máquina de comité

Promedio Escalado: Primero, se calcula el promedio de las (K) variables booleanas (\tau_1,
\tau_2, ..., \tau_K), escalado por el factor (\frac{1}{\sqrt{K}}).

Signo: Luego, se aplica la función signo (sgn) al valor obtenido. La función signo (sgn) se
define como:(\text{sgn}(x) = 1) si (x > 0)(\text{sgn}(x) = 0) si (x = 0)(\text{sgn}(x) = -1) si (x <
0)

Valor de la Función:La suma de las (\tau_k) dará un valor entre 0 y (K).Al escalar esta suma
por (\frac{1}{\sqrt{K}}), el rango del argumento de la función signo será de 0 a
(\sqrt{K}).Dependiendo del signo de este valor (positivo, negativo o cero), la función (F(\tau))
devolverá 1, -1 o 0 respectivamente.

Interpretación: Esta función realiza una especie de votación entre las (K) variables
booleanas (\tau_k). La salida será determinada por la mayoría de los votos:Si la mayoría de
las (\tau_k) son 1, el resultado será 1.Si la mayoría de las (\tau_k) son 0, el resultado será
-1.En el caso raro donde el promedio exacto sea cero, el resultado será 0.

Estas configuraciones simplifican la representación de la salida en función de las


actividades de las unidades ocultas.

Las funciones booleanas se construyen utilizando operaciones booleanas básicas como:

AND (Y): (A \wedge B), que es (1) si y solo si tanto (A) como (B) son (1).
OR (O): (A \vee B), que es (1) si al menos uno de (A) o (B) es (1).
NOT (NO): (\neg A), que es (1) si (A) es (0) y viceversa.
XOR (O Exclusivo): (A \oplus B), que es (1) si (A) y (B) son diferentes.

La capacidad de generalización de una red se refiere a su habilidad para aplicar lo


aprendido a nuevos datos no vistos durante el entrenamiento, siendo el entrenamiento en
redes neuronales el proceso de ajustar los acoplamientos sinápticos (pesos) para que la red
aprenda a realizar una tarea específica. El error de generalización es la medida de la
capacidad de una red neuronal para realizar predicciones precisas sobre nuevos datos que
no fueron utilizados durante el entrenamiento. Es una indicación de cuán bien la red ha
aprendido el modelo subyacente en lugar de simplemente memorizar los datos de
entrenamiento.
Física Estadística

A Anexos
A.1 Problemas de Almacenamiento y Generalización
En el contexto de las redes neuronales multicapa, los problemas de almacenamiento y generali-
zación son dos tareas fundamentales que determinan la capacidad de una red para aprender y
realizar predicciones precisas. A continuación, exploraremos estos problemas en detalle.
Problema de Almacenamiento
El problema de almacenamiento se refiere a la capacidad de una red para memorizar y reproducir
un conjunto de patrones de entrada-salida. Esta capacidad está vinculada a la arquitectura de
la red y al número de unidades ocultas disponibles.
Capacidad de Almacenamiento (αc ):
La capacidad de almacenamiento αc se define como la proporción máxima de patrones de
entrada-salida que una red puede memorizar y reproducir correctamente. En el contexto de
una red con K unidades ocultas, la capacidad de almacenamiento está acotada por el límite de
Mitchison-Durbin, dado por:

ln K
αc ≤ αM D ≈
ln 2

Este límite indica que la capacidad de almacenamiento aumenta logarítmicamente con el número
de unidades ocultas K. La ecuación sugiere que al duplicar el número de unidades ocultas, la
capacidad de almacenamiento aumenta de manera significativa.
Análisis de la Ecuación:
-ln K:Representa el logaritmo natural del número de unidades ocultas en la red. A medida que K
aumenta, ln K también aumenta, pero de manera más lenta debido a la naturaleza logarítmica.
-ln 2: Es una constante derivada del logaritmo natural de 2, aproximadamente igual a 0.693.
Esta constante normaliza la relación logarítmica en la ecuación.
La implicación práctica de esta ecuación es que, para aumentar significativamente la capacidad
de almacenamiento de la red, se requiere un incremento exponencial en el número de unidades
ocultas.
Problema de Generalización
El problema de generalización se refiere a la capacidad de una red para inferir correctamente
los patrones de salida para nuevas entradas no vistas durante el entrenamiento. Esta capacidad
es crucial para que la red sea útil en aplicaciones prácticas donde los datos de prueba pueden
diferir de los datos de entrenamiento.
Errores de Generalización:
El error de generalización mide la discrepancia entre la salida predicha por la red y la salida real
para nuevas entradas. Se puede estimar el error de generalización utilizando técnicas estadísticas
y de recocido. El recocido proporciona una estimación del error basada en el tamaño del conjunto
de entrenamiento y la complejidad de la red.
Aproximación de Recocido:
La aproximación de recocido es una técnica que emula el proceso físico de recocido para mi-
nimizar el error de generalización. Consiste en un proceso iterativo donde la red ajusta sus

3
Universidad Distrital Francisco José de Caldas

parámetros (pesos sinápticos) para minimizar la función de error, simulando un enfriamiento


lento que permite alcanzar un estado de energía mínima (o error mínimo).
Ecuación de Error de Generalización:
Aunque el documento no proporciona una fórmula específica para el error de generalización,
en el contexto de la teoría del aprendizaje, una expresión típica del error de generalización Eg
puede tener la forma:

1 ∑
N
Eg = (yi − ŷi )2
N
i=1

Donde: - N es el número de muestras en el conjunto de prueba. - yi es la salida esperada para


la i-ésima muestra. - ŷi es la salida predicha por la red para la i-ésima muestra.
Análisis de la Ecuación:
- N1 : Promedia el error cuadrático sobre todas las muestras del conjunto de prueba, proporcio-
nando una medida del rendimiento global de la red.
-(yi − ŷi )2 : Representa el error cuadrático entre la salida esperada y la salida predicha para cada
muestra, penalizando más los errores mayores.
Este error de generalización debe minimizarse para mejorar la capacidad de la red de hacer
predicciones precisas sobre datos no vistos previamente.
Conclusión
El análisis de los problemas de almacenamiento y generalización en redes neuronales multicapa
revela la importancia de la arquitectura de la red y el tamaño del conjunto de entrenamiento. La
capacidad de almacenamiento depende críticamente del número de unidades ocultas, mientras
que la capacidad de generalización se puede mejorar mediante técnicas como el recocido y el
ajuste adecuado de los parámetros de la red.
Esta profundización proporciona una comprensión más detallada de cómo las redes neuronales
multicapa manejan estos problemas fundamentales y las estrategias empleadas para optimizar
su rendimiento en tareas prácticas.
Si necesitas más detalles sobre algún otro subtema o una mayor profundización, por favor
avísame.

A.2 Errores de Generalización


Errores de Generalización
El error de generalización mide la capacidad de una red neuronal para hacer predicciones precisas
en datos no vistos durante el entrenamiento. Este error es crucial para evaluar el rendimiento
de la red en escenarios del mundo real donde se enfrenta a nuevos datos.
Definición y Cálculo del Error de Generalización
El error de generalización se define típicamente como la diferencia entre la salida esperada y la
salida predicha por la red para nuevas entradas. Una expresión común para calcular el error de
generalización es el error cuadrático medio (MSE, por sus siglas en inglés):

1 ∑
N
Eg = (yi − ŷi )2
N
i=1

4
Física Estadística

Donde: - N es el número de muestras en el conjunto de prueba.

- yi es la salida esperada para la i-ésima muestra.

- ŷi es la salida predicha por la red para la i-ésima muestra.

Análisis de la Ecuación:

- N1 : Este término normaliza la suma de los errores cuadráticos, promediándolos sobre todas
las muestras del conjunto de prueba. Esto proporciona una medida global del rendimiento de
la red.

- (yi − ŷi )2 : Representa el error cuadrático entre la salida esperada y la salida predicha para
cada muestra. Esta métrica penaliza más los errores grandes debido a la naturaleza cuadrática
del término.

Factores que Afectan el Error de Generalización

1. Complejidad de la Red:

- Overfitting (Sobreajuste): Ocurre cuando la red tiene demasiados parámetros (pesos y


biases) en relación con la cantidad de datos de entrenamiento, lo que permite que la red aprenda
incluso el ruido en los datos de entrenamiento. Esto lleva a un bajo error de entrenamiento pero
a un alto error de generalización.

- Underfitting (Subajuste): Ocurre cuando la red es demasiado simple para capturar la


estructura subyacente de los datos, resultando en un alto error tanto en el entrenamiento como
en la generalización.

2. Tamaño del Conjunto de Entrenamiento:

- Un conjunto de entrenamiento pequeño puede llevar a un sobreajuste, ya que la red no tiene


suficientes datos para aprender patrones generales.

- Un conjunto de entrenamiento grande ayuda a la red a aprender patrones más generales,


reduciendo el error de generalización.

3. Regularización:

- Técnicas como la regularización L2 (también conocida como weight decay) añaden un término
de penalización al error de entrenamiento para evitar pesos excesivamente grandes. Esto ayuda
a mejorar la generalización al evitar el sobreajuste.

- La regularización L1 (que induce sparsity) también puede ser usada para mejorar la generali-
zación.

Técnicas de Reducción del Error de Generalización

1. Early Stopping:

- Durante el entrenamiento, se monitorea el error de validación y se detiene el entrenamiento


cuando el error de validación comienza a aumentar, indicando un posible sobreajuste.

2. Dropout:

- Una técnica donde, durante el entrenamiento, algunas neuronas se desactivan aleatoriamente.


Esto previene que la red dependa demasiado de ciertas neuronas y promueve la generalización.

3. Data Augmentation:

5
Universidad Distrital Francisco José de Caldas

- Incrementar artificialmente el tamaño del conjunto de entrenamiento mediante transformacio-


nes de los datos existentes (como rotaciones, traslaciones, etc.). Esto ayuda a la red a aprender
más robustamente y a generalizar mejor.
Ejemplo Detallado de Cálculo de Error de Generalización
Supongamos que tenemos un conjunto de prueba con 5 muestras. Las salidas esperadas y pre-
dichas son las siguientes:

Muestra i Salida Esperada (yi ) Salida Predicha (yi ) Error Cuadrático ((yi − ŷi )2 )
1 1.0 0.9 0.01
2 0.0 0.1 0.01
3 1.0 0.8 0.04
4 0.0 0.2 0.04
5 1.0 0.95 0.0025

El error de generalización Eg se calcula como:

1∑
5
1 0.1025
Eg = (yi − ŷi )2 = (0.01 + 0.01 + 0.04 + 0.04 + 0.0025) = = 0.0205
5 5 5
i=1

Este valor de Eg indica el error promedio en las predicciones de la red para las nuevas muestras.
Conclusión
El error de generalización es una métrica crucial para evaluar el rendimiento de una red neuronal
en datos no vistos. Minimizar este error implica balancear la complejidad de la red, el tamaño
del conjunto de entrenamiento, y utilizar técnicas adecuadas de regularización y prevención de
sobreajuste. Con una comprensión profunda de estos conceptos, se puede diseñar y entrenar
redes neuronales que no solo performen bien en el entrenamiento, sino que también generalicen
efectivamente a nuevos datos.
Espero que esta profundización sobre los errores de generalización te sea útil. Si necesitas más
detalles o alguna otra sección del documento, por favor avísame.

A.3 Análisis de la Mecánica Estadística


El análisis de la mecánica estadística en redes neuronales multicapa es fundamental para com-
prender cómo estas redes aprenden y generalizan a partir de los datos. Este enfoque utiliza
herramientas y conceptos de la física estadística para modelar y analizar el comportamiento de
sistemas complejos como las redes neuronales.
Fundamentos de la Mecánica Estadística
La mecánica estadística se ocupa del estudio de sistemas con un gran número de grados de
libertad, como las redes neuronales, donde las interacciones entre las neuronas y los datos de
entrada pueden ser muy complejas. A través de este enfoque, es posible derivar propiedades
macroscópicas (como la capacidad de almacenamiento y los errores de generalización) a partir
de la descripción microscópica del sistema (los pesos sinápticos y las neuronas).
Aplicación a Redes Neuronales Multicapa
En el contexto de las redes neuronales multicapa, el análisis de la mecánica estadística se centra
en:

6
Física Estadística

1. Distribuciones de Probabilidad:
- La función de partición Z es una herramienta clave, que resume todas las posibles configura-
ciones del sistema ponderadas por sus probabilidades. Se define como:

Z= e−βE(w)
{w}

donde w representa los pesos de la red, E(w) es la energía asociada a una configuración de
1
pesos, y β es el inverso de la temperatura (en unidades naturales, β = kT ).
2. Energía y Función de Error:
- La energía E(w) se relaciona con la función de error que la red intenta minimizar durante
el aprendizaje. Por ejemplo, para una red entrenada con un conjunto de datos D, la energía
podría representarse como: ∑
E(w) = (y − f (w, x))2
(x,y)∈D

donde f (w, x) es la salida de la red para una entrada x con pesos w.


3. Distribuciones Posteriores y Priori:
- Las distribuciones a priori P (w) y a posteriori P (w|D) de los pesos también juegan un papel
crucial. La distribución a posteriori se puede calcular utilizando la regla de Bayes:

P (D|w)P (w)
P (w|D) =
P (D)

donde P (D|w) es la probabilidad de los datos dado los pesos (verosimilitud), y P (D) es una
constante de normalización.
Técnicas de Análisis
1. Método de Recocido Simulado:
- Este método es una técnica de optimización inspirada en el proceso físico de recocido, donde
un material se enfría lentamente para alcanzar un estado de mínima energía. En el contexto
de redes neuronales, se utiliza para minimizar la función de error evitando mínimos locales. La
temperatura en el algoritmo de recocido simulado controla la probabilidad de aceptar soluciones
peores en las primeras etapas del proceso:

P (aceptar) = e−
∆E
T

donde ∆E es el cambio en la energía (error) y T es la temperatura.


2. Teoría de Campos Medios:
- Esta teoría se aplica para simplificar el análisis de sistemas complejos al asumir que cada
componente del sistema experimenta un campo promedio debido a todos los demás componentes.
En redes neuronales, esto puede ayudar a aproximar la dinámica de los pesos sinápticos.
Ejemplo Detallado de Análisis
Consideremos una red neuronal simple con un conjunto de datos D y pesos w. La función de
error E(w) puede ser representada como:


N
E(w) = (yi − f (w, xi ))2
i=1

7
Universidad Distrital Francisco José de Caldas

Donde:
- N es el número de muestras en el conjunto de datos.
- yi es la salida esperada para la muestra i.
- f (w, xi ) es la salida de la red para la entrada xi .
Para minimizar esta función de error utilizando recocido simulado, se puede definir un procedi-
miento iterativo donde los pesos w se actualizan según:
1. Proponer una nueva configuración de pesos w′ .
2. Calcular el cambio en la energía (error) ∆E = E(w′ ) − E(w).

3. Aceptar la nueva configuración con una probabilidad P (aceptar) = e−


∆E
T .
Este proceso se repite mientras se reduce gradualmente la temperatura T para encontrar una
configuración de pesos que minimice la función de error de manera global, evitando quedar
atrapado en mínimos locales.
Conclusión
El análisis de la mecánica estadística proporciona un marco riguroso para entender y optimizar
el aprendizaje en redes neuronales multicapa. Al aplicar conceptos como la función de partición,
las distribuciones a priori y a posteriori, y técnicas como el recocido simulado y la teoría de
campos medios, se puede obtener una comprensión más profunda de cómo las redes aprenden
y generalizan a partir de los datos. Este enfoque no solo mejora la precisión y la eficiencia del
aprendizaje, sino que también abre nuevas posibilidades para la investigación y el desarrollo de
algoritmos de aprendizaje más avanzados.
Espero que esta explicación detallada sobre el análisis de la mecánica estadística sea útil. Si
necesitas más información o detalles adicionales, por favor, házmelo saber.

A.4 Ejemplos y Resultados Clave


Este subtema se centra en ilustrar cómo las técnicas y teorías discutidas en los capítulos an-
teriores se aplican en casos prácticos y qué resultados significativos se han obtenido de estos
análisis. Vamos a revisar ejemplos específicos y sus resultados clave, detallando las ecuaciones
y sus implicaciones.
Ejemplo 1: Capacidad de Generalización en Redes Neuronales
Uno de los ejemplos importantes en el estudio de redes neuronales multicapa es evaluar la
capacidad de generalización de la red. Consideremos una red simple que se entrena con un
conjunto de datos y luego se evalúa en un conjunto de prueba para medir su rendimiento de
generalización.
Configuración del Experimento:
- Datos de Entrenamiento: Un conjunto de muestras Dtrain con Ntrain pares de entrada-
salida.
- Datos de Prueba: Un conjunto de muestras Dtest con Ntest pares de entrada-salida.
- Red Neuronal: Una red con una capa oculta y una capa de salida.
Función de Error de Generalización: La función de error de generalización se puede expresar
como:

8
Física Estadística

1 ∑
N test

Eg = (yi − ŷi )2
Ntest
i=1

Donde:
- yi es la salida esperada para la i-ésima muestra del conjunto de prueba.
- ŷi es la salida predicha por la red para la i-ésima muestra.
Resultados Clave:
- Capacidad de Generalización: La red muestra una capacidad de generalización adecuada
si Eg es bajo, lo que indica que las predicciones de la red son precisas para nuevas entradas.
- Impacto del Tamaño del Conjunto de Entrenamiento: Un mayor Ntrain generalmen-
te mejora la capacidad de generalización hasta cierto punto, más allá del cual los beneficios
adicionales son marginales.
Ejemplo 2: Recocido Simulado para Optimización de Pesos
El recocido simulado es una técnica utilizada para encontrar configuraciones de pesos óptimas
en redes neuronales evitando mínimos locales.
Proceso de Recocido Simulado:
1. Inicialización: Comenzar con una configuración inicial de pesos w0 .
2. Iteración: - Proponer una nueva configuración de pesos w′ .
- Calcular el cambio en la función de error ∆E = E(w′ ) − E(w).

- Aceptar la nueva configuración con probabilidad P (aceptar) = e−


∆E
T , donde T es la tempera-
tura.
3. Enfriamiento: Reducir gradualmente la temperatura T .
Ecuación del Cambio de Energía:

∆E = E(w′ ) − E(w)

Resultados Clave:
- Eficiencia en la Optimización: El recocido simulado es eficaz para encontrar configuraciones
de pesos que minimizan la función de error sin quedar atrapado en mínimos locales.
- Convergencia: La tasa de enfriamiento y el número de iteraciones afectan la velocidad y la
calidad de la convergencia hacia una solución óptima.
Ejemplo 3: Análisis de la Capacidad de Almacenamiento
La capacidad de almacenamiento de una red determina cuántos patrones de entrada-salida
puede memorizar correctamente.
Modelo de Capacidad de Almacenamiento:
- Número de Unidades Ocultas K: La capacidad de almacenamiento está relacionada con
K.
- Capacidad Crítica αc :
ln K
αc ≤ αM D ≈
ln 2

9
Universidad Distrital Francisco José de Caldas

Resultados Clave:
- Incremento Logarítmico: La capacidad de almacenamiento aumenta logarítmicamente con
el número de unidades ocultas.
- Límites Prácticos: En la práctica, hay un límite en K más allá del cual el incremento en
capacidad es marginal comparado con el costo computacional.
Conclusión
El análisis de ejemplos y resultados clave en redes neuronales multicapa proporciona una com-
prensión práctica de cómo los conceptos teóricos se aplican en la realidad. Los experimentos
demuestran la importancia de parámetros como el tamaño del conjunto de entrenamiento, las
técnicas de optimización de pesos y la estructura de la red en la capacidad de almacenamiento y
generalización. Estos resultados guían el diseño y la implementación de redes neuronales eficaces
y eficientes para diversas aplicaciones.
Espero que esta explicación detallada sobre los ejemplos y resultados clave sea útil. Si necesitas
más información o detalles adicionales, por favor, házmelo saber.

10

También podría gustarte