Apuntes Exposicion
Apuntes Exposicion
Apuntes Exposicion
Capitulo 12
Redes Multicapa
Introducción
Las redes multicapa, son una generalización del perceptrón(El perceptrón es una red
neuronal artificial simple que tiene unidades de entrada conectadas directamente a una
unidad de salida) que superan la limitación de este último al poder implementar cualquier
función booleana. Esto las hace especialmente útiles en aplicaciones prácticas y estudios
neurofisiológicos, ya que la mayoría de las neuronas en redes neuronales biológicas son
interneuronas
Las redes neuronales multicapa pueden realizar todas las funciones booleanas posibles
entre entrada y salida, esto hace que tengan aplicaciones prácticas. También al tener mayor
complejidad hace que el análisis de la mecánica estadística de sus habilidades de
aprendizaje sea más complicado y en general impide la caracterización detallada que se
realiza para el perceptrón simple.
.
Una red neuronal multicapa de está definida por varias capas de neuronas formales con
conexiones sinápticas dirigidas que solo conectan capas sucesivas. Las arquitecturas
varían en el número y tamaño de las capas ocultas. Se considera un caso simplificado con
una sola unidad de salida y una única capa oculta. Los acoplamientos sinápticos se refieren
a las conexiones ponderadas entre neuronas.Existen distintas arquitecturas de la clase de
redes multicapa, que se diferencian en el número y el tamaño de las capas ocultas.
Capa de entrada: recibe las señales de entrada.
Capas ocultas: son una o más capas intermedias que están entre la capa de entrada y la
capa de salida. Estas procesan la información de la capa anterior y pasan los resultados a
la siguiente capa.
Capa de salida: está es la que produce la salida final de la red.
Neurona formal: Cada neurona en una red neuronal es un modelo matemático que toma un
conjunto de entradas, las procesa (generalmente mediante una función de activación), y
produce una salida. Poner la fórmula de la neurona formal.
Arquitectura de Red Multicapa con una Capa Oculta:
La activación de las unidades ocultas en una red neuronal multicapa se refiere al estado
binario de las neuronas ocultas después de procesar las entradas. Estas activaciones
determinan la salida final de la red.
K vectores de acoplamiento J1,..., JK que conectan las N entradas Si; con las unidades
ocultas τι,..., τk.
Valor de la Función:Si todas las (\tau_k) son iguales a 1, entonces el producto será 1.Si
alguna de las (\tau_k) es 0, entonces el producto será 0.
Interpretación: Esta función implementa una operación AND (lógica) entre todas las
variables booleanas (\tau_k). Es decir, ( F(\tau) ) será 1 si y solo si todas las (\tau_k) son 1,
y será 0 en cualquier otro caso.
Máquina de comité
Promedio Escalado: Primero, se calcula el promedio de las (K) variables booleanas (\tau_1,
\tau_2, ..., \tau_K), escalado por el factor (\frac{1}{\sqrt{K}}).
Signo: Luego, se aplica la función signo (sgn) al valor obtenido. La función signo (sgn) se
define como:(\text{sgn}(x) = 1) si (x > 0)(\text{sgn}(x) = 0) si (x = 0)(\text{sgn}(x) = -1) si (x <
0)
Valor de la Función:La suma de las (\tau_k) dará un valor entre 0 y (K).Al escalar esta suma
por (\frac{1}{\sqrt{K}}), el rango del argumento de la función signo será de 0 a
(\sqrt{K}).Dependiendo del signo de este valor (positivo, negativo o cero), la función (F(\tau))
devolverá 1, -1 o 0 respectivamente.
Interpretación: Esta función realiza una especie de votación entre las (K) variables
booleanas (\tau_k). La salida será determinada por la mayoría de los votos:Si la mayoría de
las (\tau_k) son 1, el resultado será 1.Si la mayoría de las (\tau_k) son 0, el resultado será
-1.En el caso raro donde el promedio exacto sea cero, el resultado será 0.
AND (Y): (A \wedge B), que es (1) si y solo si tanto (A) como (B) son (1).
OR (O): (A \vee B), que es (1) si al menos uno de (A) o (B) es (1).
NOT (NO): (\neg A), que es (1) si (A) es (0) y viceversa.
XOR (O Exclusivo): (A \oplus B), que es (1) si (A) y (B) son diferentes.
A Anexos
A.1 Problemas de Almacenamiento y Generalización
En el contexto de las redes neuronales multicapa, los problemas de almacenamiento y generali-
zación son dos tareas fundamentales que determinan la capacidad de una red para aprender y
realizar predicciones precisas. A continuación, exploraremos estos problemas en detalle.
Problema de Almacenamiento
El problema de almacenamiento se refiere a la capacidad de una red para memorizar y reproducir
un conjunto de patrones de entrada-salida. Esta capacidad está vinculada a la arquitectura de
la red y al número de unidades ocultas disponibles.
Capacidad de Almacenamiento (αc ):
La capacidad de almacenamiento αc se define como la proporción máxima de patrones de
entrada-salida que una red puede memorizar y reproducir correctamente. En el contexto de
una red con K unidades ocultas, la capacidad de almacenamiento está acotada por el límite de
Mitchison-Durbin, dado por:
ln K
αc ≤ αM D ≈
ln 2
Este límite indica que la capacidad de almacenamiento aumenta logarítmicamente con el número
de unidades ocultas K. La ecuación sugiere que al duplicar el número de unidades ocultas, la
capacidad de almacenamiento aumenta de manera significativa.
Análisis de la Ecuación:
-ln K:Representa el logaritmo natural del número de unidades ocultas en la red. A medida que K
aumenta, ln K también aumenta, pero de manera más lenta debido a la naturaleza logarítmica.
-ln 2: Es una constante derivada del logaritmo natural de 2, aproximadamente igual a 0.693.
Esta constante normaliza la relación logarítmica en la ecuación.
La implicación práctica de esta ecuación es que, para aumentar significativamente la capacidad
de almacenamiento de la red, se requiere un incremento exponencial en el número de unidades
ocultas.
Problema de Generalización
El problema de generalización se refiere a la capacidad de una red para inferir correctamente
los patrones de salida para nuevas entradas no vistas durante el entrenamiento. Esta capacidad
es crucial para que la red sea útil en aplicaciones prácticas donde los datos de prueba pueden
diferir de los datos de entrenamiento.
Errores de Generalización:
El error de generalización mide la discrepancia entre la salida predicha por la red y la salida real
para nuevas entradas. Se puede estimar el error de generalización utilizando técnicas estadísticas
y de recocido. El recocido proporciona una estimación del error basada en el tamaño del conjunto
de entrenamiento y la complejidad de la red.
Aproximación de Recocido:
La aproximación de recocido es una técnica que emula el proceso físico de recocido para mi-
nimizar el error de generalización. Consiste en un proceso iterativo donde la red ajusta sus
3
Universidad Distrital Francisco José de Caldas
1 ∑
N
Eg = (yi − ŷi )2
N
i=1
1 ∑
N
Eg = (yi − ŷi )2
N
i=1
4
Física Estadística
Análisis de la Ecuación:
- N1 : Este término normaliza la suma de los errores cuadráticos, promediándolos sobre todas
las muestras del conjunto de prueba. Esto proporciona una medida global del rendimiento de
la red.
- (yi − ŷi )2 : Representa el error cuadrático entre la salida esperada y la salida predicha para
cada muestra. Esta métrica penaliza más los errores grandes debido a la naturaleza cuadrática
del término.
1. Complejidad de la Red:
3. Regularización:
- Técnicas como la regularización L2 (también conocida como weight decay) añaden un término
de penalización al error de entrenamiento para evitar pesos excesivamente grandes. Esto ayuda
a mejorar la generalización al evitar el sobreajuste.
- La regularización L1 (que induce sparsity) también puede ser usada para mejorar la generali-
zación.
1. Early Stopping:
2. Dropout:
3. Data Augmentation:
5
Universidad Distrital Francisco José de Caldas
Muestra i Salida Esperada (yi ) Salida Predicha (yi ) Error Cuadrático ((yi − ŷi )2 )
1 1.0 0.9 0.01
2 0.0 0.1 0.01
3 1.0 0.8 0.04
4 0.0 0.2 0.04
5 1.0 0.95 0.0025
1∑
5
1 0.1025
Eg = (yi − ŷi )2 = (0.01 + 0.01 + 0.04 + 0.04 + 0.0025) = = 0.0205
5 5 5
i=1
Este valor de Eg indica el error promedio en las predicciones de la red para las nuevas muestras.
Conclusión
El error de generalización es una métrica crucial para evaluar el rendimiento de una red neuronal
en datos no vistos. Minimizar este error implica balancear la complejidad de la red, el tamaño
del conjunto de entrenamiento, y utilizar técnicas adecuadas de regularización y prevención de
sobreajuste. Con una comprensión profunda de estos conceptos, se puede diseñar y entrenar
redes neuronales que no solo performen bien en el entrenamiento, sino que también generalicen
efectivamente a nuevos datos.
Espero que esta profundización sobre los errores de generalización te sea útil. Si necesitas más
detalles o alguna otra sección del documento, por favor avísame.
6
Física Estadística
1. Distribuciones de Probabilidad:
- La función de partición Z es una herramienta clave, que resume todas las posibles configura-
ciones del sistema ponderadas por sus probabilidades. Se define como:
∑
Z= e−βE(w)
{w}
donde w representa los pesos de la red, E(w) es la energía asociada a una configuración de
1
pesos, y β es el inverso de la temperatura (en unidades naturales, β = kT ).
2. Energía y Función de Error:
- La energía E(w) se relaciona con la función de error que la red intenta minimizar durante
el aprendizaje. Por ejemplo, para una red entrenada con un conjunto de datos D, la energía
podría representarse como: ∑
E(w) = (y − f (w, x))2
(x,y)∈D
P (D|w)P (w)
P (w|D) =
P (D)
donde P (D|w) es la probabilidad de los datos dado los pesos (verosimilitud), y P (D) es una
constante de normalización.
Técnicas de Análisis
1. Método de Recocido Simulado:
- Este método es una técnica de optimización inspirada en el proceso físico de recocido, donde
un material se enfría lentamente para alcanzar un estado de mínima energía. En el contexto
de redes neuronales, se utiliza para minimizar la función de error evitando mínimos locales. La
temperatura en el algoritmo de recocido simulado controla la probabilidad de aceptar soluciones
peores en las primeras etapas del proceso:
P (aceptar) = e−
∆E
T
∑
N
E(w) = (yi − f (w, xi ))2
i=1
7
Universidad Distrital Francisco José de Caldas
Donde:
- N es el número de muestras en el conjunto de datos.
- yi es la salida esperada para la muestra i.
- f (w, xi ) es la salida de la red para la entrada xi .
Para minimizar esta función de error utilizando recocido simulado, se puede definir un procedi-
miento iterativo donde los pesos w se actualizan según:
1. Proponer una nueva configuración de pesos w′ .
2. Calcular el cambio en la energía (error) ∆E = E(w′ ) − E(w).
8
Física Estadística
1 ∑
N test
Eg = (yi − ŷi )2
Ntest
i=1
Donde:
- yi es la salida esperada para la i-ésima muestra del conjunto de prueba.
- ŷi es la salida predicha por la red para la i-ésima muestra.
Resultados Clave:
- Capacidad de Generalización: La red muestra una capacidad de generalización adecuada
si Eg es bajo, lo que indica que las predicciones de la red son precisas para nuevas entradas.
- Impacto del Tamaño del Conjunto de Entrenamiento: Un mayor Ntrain generalmen-
te mejora la capacidad de generalización hasta cierto punto, más allá del cual los beneficios
adicionales son marginales.
Ejemplo 2: Recocido Simulado para Optimización de Pesos
El recocido simulado es una técnica utilizada para encontrar configuraciones de pesos óptimas
en redes neuronales evitando mínimos locales.
Proceso de Recocido Simulado:
1. Inicialización: Comenzar con una configuración inicial de pesos w0 .
2. Iteración: - Proponer una nueva configuración de pesos w′ .
- Calcular el cambio en la función de error ∆E = E(w′ ) − E(w).
∆E = E(w′ ) − E(w)
Resultados Clave:
- Eficiencia en la Optimización: El recocido simulado es eficaz para encontrar configuraciones
de pesos que minimizan la función de error sin quedar atrapado en mínimos locales.
- Convergencia: La tasa de enfriamiento y el número de iteraciones afectan la velocidad y la
calidad de la convergencia hacia una solución óptima.
Ejemplo 3: Análisis de la Capacidad de Almacenamiento
La capacidad de almacenamiento de una red determina cuántos patrones de entrada-salida
puede memorizar correctamente.
Modelo de Capacidad de Almacenamiento:
- Número de Unidades Ocultas K: La capacidad de almacenamiento está relacionada con
K.
- Capacidad Crítica αc :
ln K
αc ≤ αM D ≈
ln 2
9
Universidad Distrital Francisco José de Caldas
Resultados Clave:
- Incremento Logarítmico: La capacidad de almacenamiento aumenta logarítmicamente con
el número de unidades ocultas.
- Límites Prácticos: En la práctica, hay un límite en K más allá del cual el incremento en
capacidad es marginal comparado con el costo computacional.
Conclusión
El análisis de ejemplos y resultados clave en redes neuronales multicapa proporciona una com-
prensión práctica de cómo los conceptos teóricos se aplican en la realidad. Los experimentos
demuestran la importancia de parámetros como el tamaño del conjunto de entrenamiento, las
técnicas de optimización de pesos y la estructura de la red en la capacidad de almacenamiento y
generalización. Estos resultados guían el diseño y la implementación de redes neuronales eficaces
y eficientes para diversas aplicaciones.
Espero que esta explicación detallada sobre los ejemplos y resultados clave sea útil. Si necesitas
más información o detalles adicionales, por favor, házmelo saber.
10