0% encontró este documento útil (0 votos)
27 vistas51 páginas

Compendio

Este libro ofrece una introducción al aprendizaje automático, abordando sus fundamentos, tipos de algoritmos y aplicaciones prácticas. A través de ejemplos y código en Python y R, los lectores aprenderán a desarrollar modelos de machine learning y a evaluar su rendimiento. Está dirigido a estudiantes y profesionales interesados en la inteligencia artificial y el análisis de datos.

Cargado por

lelly.useche
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
27 vistas51 páginas

Compendio

Este libro ofrece una introducción al aprendizaje automático, abordando sus fundamentos, tipos de algoritmos y aplicaciones prácticas. A través de ejemplos y código en Python y R, los lectores aprenderán a desarrollar modelos de machine learning y a evaluar su rendimiento. Está dirigido a estudiantes y profesionales interesados en la inteligencia artificial y el análisis de datos.

Cargado por

lelly.useche
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 51

Maestría en:

CIENCIA DE DATOS Y
MÁQUINA DE APRENDIZAJE

MACHINE LEARNING

Autor:

Diego Teran-Pineda

Noviembre 2024
Asignatura: Machine Learning 2
Resumen
En este libro, exploraremos el fascinante mundo del aprendizaje automático, una
rama de la inteligencia artificial que revoluciona la forma en que los sistemas infor-
máticos aprenden y se adaptan a nuevos datos. A través de los capítulos concisos
y accesibles, aprenderás a dominar los algoritmos de machine learning más pop-
ulares y a aplicarlos en problemas reales.

Aprende a:
• Comprender los fundamentos del aprendizaje automático y sus diferentes
tipos

• Desarrollar modelos de aprendizaje supervisado y no supervisado

• Evaluar y seleccionar el mejor algoritmo para un problema específico

• Implementar técnicas de preprocesamiento de datos y selección de carac-


terísticas

• Utilizar métricas de evaluación para medir el rendimiento de tus modelos

Destacados:
• Ejemplos prácticos y casos de estudio para ilustrar cada concepto

• Código de ejemplo en Python y R para implementar los algoritmos

• Recursos adicionales y referencias para profundizar en cada tema

Dirigido a:
• Estudiantes de ciencias de la computación y matemáticas

• Profesionales de la industria que buscan mejorar sus habilidades en machine


learning

• Cualquiera interesado en aprender sobre inteligencia artificial y análisis de


datos

¡Descubre el poder del aprendizaje automático y


comienza a desarrollar modelos precisos y eficientes
hoy mismo!

Asignatura: Machine Learning i


Asignatura: Machine Learning ii
Metodología de Machine Learning - Parte I

Bienvenidos al reino del aprendizaje automático: donde las máquinas aprenden a


pensar
¿Alguna vez te has preguntado cómo Netflix parece conocer tus gustos a la
perfección, o cómo Google encuentra entre millones de imágenes justo la que
buscas? La respuesta, amigo mío, está en el aprendizaje automático.
En este capítulo, nos adentraremos en este apasionante campo de la inteligen-
cia artificial, donde las máquinas dejan de ser meros receptores de instrucciones
para convertirse en aprendices voraces. Olvida las reglas predefinidas y los pro-
gramas rígidos: aquí, los algoritmos se alimentan de datos, descubriendo patrones
ocultos y haciendo predicciones con una precisión asombrosa.
Desde predecir el comportamiento de los clientes hasta diagnosticar enfer-
medades con una simple imagen, las aplicaciones del aprendizaje automático
son tan amplias como tu imaginación. Acompáñanos en este viaje al corazón de
la revolución tecnológica que está transformando nuestro mundo a una velocidad
vertiginosa.
Prepárate para explorar los conceptos básicos, las herramientas esenciales y los
ejemplos prácticos que te permitirán comprender y dominar el poder del apren-
dizaje automático. ¡Empecemos!

Asignatura: Machine Learning 1


Asignatura: Machine Learning 2
Chapter 1

Introducción

“Es crucial buscar formas de compartir la información


derivada de la ciencia y tecnología con aquella sociedad
que enfrentan dificultades para acceder a ella.”
— Dieguin Ck

Una breve historia

Aprendizaje automático o Machine Learning en inglés


En la década de 1950, con el mundo aún fascinado por las posibilidades de las
computadoras, un grupo de visionarios comenzó a soñar un sueño audaz: ¿Y si
las máquinas pudieran aprender? No solo seguir instrucciones preprogramadas,
sino aprender de la experiencia, como lo hacen los humanos. Este fue el génesis
del Machine Learning, una historia de ambición, descubrimiento y la búsqueda
incesante de crear máquinas que piensen.
Arthur Samuel, un maestro del ajedrez y pionero de la inteligencia artificial, dio
uno de los primeros pasos con su programa para jugar damas. No era un simple
autómata que seguía reglas; Samuel diseñó un programa que aprendía de sus
errores, analizando miles de partidas para mejorar su estrategia. Con cada jugada,
con cada victoria y derrota, la máquina se volvía más astuta, hasta que finalmente
superó a su creador.
En las décadas siguientes, el Machine Learning vivió un viaje lleno de altibajos.
Al principio, la emoción superaba a la realidad. Las computadoras de la época,
con su limitada potencia de cálculo, luchaban por procesar la complejidad del
aprendizaje automático. El ”invierno de la IA” se cernió sobre la disciplina, mientras
las promesas incumplidas generaban escepticismo.
Pero la llama de la innovación nunca se extinguió por completo. En la década
de 1980, el desarrollo de nuevos algoritmos, como las redes neuronales inspiradas
en el cerebro humano, junto con el acceso a conjuntos de datos cada vez más
grandes, inyectaron una nueva vida al campo. El Machine Learning comenzó a
demostrar su valía en áreas como el reconocimiento de patrones y la predicción,

3
aunque todavía lejos de la conciencia que algunos habían imaginado.
El verdadero punto de inflexión llegó en el siglo XXI. La explosión de datos, im-
pulsada por Internet y la digitalización masiva, proporcionó el combustible que el
Machine Learning anhelaba. Al mismo tiempo, la ley de Moore finalmente se hizo
realidad: las computadoras alcanzaron una potencia de procesamiento inimag-
inable décadas atrás. El Machine Learning, antes un sueño lejano, se convirtió en
una fuerza imparable.
Hoy en día, el Machine Learning impregna nuestras vidas de formas que ape-
nas podemos comprender. Desde las recomendaciones personalizadas en Net-
flix hasta los coches autónomos que navegan por las calles, la capacidad de las
máquinas para aprender está transformando industrias enteras y redefiniendo lo
que significa ser humano en la era digital.
La historia del Machine Learning aún está siendo escrita. Cada nuevo avance,
cada algoritmo innovador, nos acerca un paso más a la realización de ese sueño
inicial: crear máquinas que no solo aprendan, sino que también comprendan, in-
noven y, quizás algún día, sueñen como nosotros.

Figure 1.1: Describe concisamente los avances fundamentales que han impulsado
el desarrollo de los métodos de aprendizaje estadístico moralesIntroduccion.

La ciencia de datos
En un mundo inundado de datos, donde la información fluía como un torrente
imparable, vivía Aurora, una joven científica de datos con una sed insaciable por
el conocimiento. Su laboratorio, un santuario de pantallas brillantes y algoritmos
danzantes, era el lugar donde las frías cifras cobraban vida.
Un día, mientras analizaba el genoma de miles de especies de plantas, Aurora
notó un patrón peculiar. Era sutil, casi imperceptible, pero ella, con la intuición de

Asignatura: Machine Learning 4


un detective experimentado, supo que allí se escondía un secreto. Decidió recurrir
a su arma secreta: Gaia, un sistema de Machine Learning que había diseñado
para desentrañar los misterios ocultos en la complejidad del mundo natural.
Gaia, con su red neuronal tan intrincada como las raíces de un árbol milenario,
comenzó a devorar los datos. Horas se convirtieron en días mientras la máquina
aprendía, ajustando sus parámetros, buscando conexiones invisibles para el ojo
humano. Aurora, con la paciencia de una artesana, guiaba a Gaia, alimentán-
dola con nuevas variables, podando las ramas innecesarias de su análisis.
Finalmente, tras semanas de arduo trabajo, Gaia despertó. En la pantalla, un
mapa tridimensional se desplegó ante los ojos de Aurora, revelando una intrincada
red de conexiones entre genes, especies y ecosistemas. Era como si la propia nat-
uraleza le estuviera revelando su lenguaje secreto.
El descubrimiento de Aurora, impulsado por el poder del Machine Learning,
revolucionó la biología. Gracias a la comprensión profunda de la genética de las
plantas, se desarrollaron cultivos más resistentes a las enfermedades y al cambio
climático, combatiendo el hambre en el mundo. La sinfonía de datos, interpretada
por la mente brillante de Aurora y la inteligencia artificial de Gaia, había dado paso
a una nueva era de armonía entre la humanidad y la naturaleza.
La historia de Aurora nos recuerda que en el corazón de la ciencia de datos y el
Machine Learning reside el potencial para resolver los desafíos más apremiantes de
nuestro tiempo. Es un campo en constante evolución, una danza entre la intuición
humana y la capacidad de cálculo de las máquinas, donde la curiosidad y la
perseverancia son las claves para desvelar los secretos que aún se esconden en el
océano de datos que nos rodea.

Herramientas esenciales para el aprendizaje automático


El Machine Learning (ML) está transformando el mundo, y tú puedes ser parte de
esta revolución. Si bien puede parecer complejo al principio, con la base ade-
cuada y dedicación, cualquier persona puede adentrarse en este apasionante
campo. No te preocupes si no eres un experto en matemáticas o programación,
lo importante es tener un entendimiento sólido de los conceptos básicos para luego
profundizar en áreas específicas.
Aquí te presentamos una guía completa de los requisitos para iniciarte en el
mundo del Machine Learning:

1. Matemáticas: El lenguaje del Machine Learning


Las matemáticas son el lenguaje en el que se basan los algoritmos de ML.
comprender a fondo las matemáticas que lo sustentan te permitirá no solo
aplicar algoritmos existentes, sino también comprender cómo funcionan a un
nivel más profundo e incluso desarrollar tus propios modelos.

• Álgebra lineal: Imagina que los datos son como un mapa lleno de pun-
tos. El álgebra lineal te proporciona las herramientas para entender la

Asignatura: Machine Learning 5


relación entre estos puntos, utilizando matrices y vectores para repre-
sentar y manipular grandes conjuntos de datos. Aprenderás sobre op-
eraciones con matrices, sistemas de ecuaciones lineales, autovalores y
autovectores, conceptos esenciales para comprender cómo funcionan
los algoritmos a bajo nivel.
Esta rama de las matemáticas te permite:

- Organizar y representar datos: Las matrices y los vectores son la forma


más eficiente de almacenar y manipular grandes conjuntos de datos,
esenciales para entrenar modelos de ML.
- Realizar operaciones eficientes: Sumar, multiplicar o invertir matrices
son operaciones que se traducen directamente en cálculos rápidos y
eficientes sobre tus datos, optimizando el proceso de entrenamiento.
- Comprender transformaciones geométricas: Muchos algoritmos de ML,
como el análisis de componentes principales (PCA), utilizan transforma-
ciones geométricas para encontrar patrones en los datos. Los autoval-
ores y autovectores, conceptos clave del álgebra lineal, te permiten en-
tender cómo se comportan los datos bajo estas transformaciones.

• Cálculo: Si el álgebra lineal nos ayuda a entender la estructura de los


datos, el cálculo nos permite analizar su comportamiento. Las derivadas
y gradientes son como brújulas que guían a los algoritmos de ML ha-
cia la mejor solución, permitiéndoles aprender de los datos y ajustar sus
parámetros para hacer predicciones precisas. La optimización de fun-
ciones es otro concepto clave para encontrar los mejores parámetros
para tu modelo.

- Derivadas y gradientes: Imagina que estás entrenando un modelo


para predecir el precio de una casa. El gradiente te indica la direc-
ción en la que debes ajustar los parámetros del modelo para minimizar
el error en la predicción. Las derivadas son la base para calcular este
gradiente.
- Optimización de funciones: El objetivo de muchos algoritmos de ML es
encontrar los parámetros que minimizan una función de coste, que mide
el error del modelo. El cálculo proporciona algoritmos de optimización,
como el descenso del gradiente, para encontrar estos parámetros ópti-
mos.

• Probabilidad y estadística: El Machine Learning se basa en la inferencia


estadística para tomar decisiones a partir de datos inciertos. Aprenderás
sobre distribuciones de probabilidad, que describen la probabilidad de
diferentes resultados, y pruebas de hipótesis, que te permiten determi-
nar si un patrón en los datos es significativo o simplemente aleatorio. El
análisis de regresión te ayudará a modelar la relación entre diferentes

Asignatura: Machine Learning 6


variables.

- Distribuciones de probabilidad: Te permiten modelar la probabilidad


de diferentes resultados. Por ejemplo, la distribución normal se utiliza
para modelar variables continuas como la altura o el peso.
- Pruebas de hipótesis: Te ayudan a determinar si un patrón observado
en los datos es estadísticamente significativo o simplemente fruto del
azar.
- Análisis de regresión: Te permite modelar la relación entre diferentes
variables y hacer predicciones basadas en esta relación.

2. Programación: Dando vida a los algoritmos Una vez que comprendas los fun-
damentos matemáticos, necesitarás un lenguaje de programación para im-
plementar y experimentar con algoritmos de ML.

• Python: Python se ha convertido en el lenguaje preferido para el Ma-


chine Learning gracias a su sintaxis sencilla y legible, similar al lenguaje
natural. Además, cuenta con una amplia gama de librerías especial-
izadas que facilitan la creación e implementación de modelos de ML.
– Librerías de ML: Estas librerías son como cajas de herramientas que
contienen funciones predefinidas para realizar tareas comunes de
ML, ahorrándote tiempo y esfuerzo. Algunas de las más populares
son:
– Scikit-learn: Ideal para iniciarse en el ML, ofrece una interfaz intuitiva
para trabajar con algoritmos clásicos como regresiones, máquinas
de vectores de soporte y clustering.
– TensorFlow y PyTorch: Estas librerías son ideales para trabajar con
redes neuronales, un tipo de algoritmo de ML inspirado en el cerebro
humano, que ha revolucionado campos como el reconocimiento
de imágenes y el procesamiento del lenguaje natural.
• Estructuras de datos y algoritmos: Un conocimiento básico de estruc-
turas de datos, como listas, diccionarios y árboles, te ayudará a organi-
zar y manipular datos de forma eficiente. Comprender la complejidad
de los algoritmos te permitirá elegir el más adecuado para cada prob-
lema y optimizar su rendimiento.

3. Conceptos básicos de Machine Learning: Entendiendo el proceso de apren-


dizaje, con las bases matemáticas y de programación, es hora de sumergirse
en los conceptos centrales del Machine Learning. El ML se divide en difer-
entes tipos de aprendizaje según la tarea que se quiera realizar:

• Supervisado: Se utiliza para predecir una salida específica a partir de un


conjunto de datos etiquetados. Se divide en clasificación (predecir una
etiqueta categórica) y regresión (predecir un valor continuo).

Asignatura: Machine Learning 7


• No supervisado: Se utiliza para descubrir patrones ocultos en datos no
etiquetados. Incluye técnicas como clustering (agrupar datos similares)
y reducción de dimensionalidad (simplificar datos complejos).
• Por refuerzo: Se basa en la idea de entrenar a un agente para que tome
decisiones en un entorno con el objetivo de maximizar una recompensa.

Métricas de evaluación: Para saber si tu modelo de ML está funcionando cor-


rectamente, necesitas evaluar su rendimiento. Las métricas de evaluación te
permiten cuantificar la precisión, la exhaustividad y otros aspectos del mod-
elo. Es importante elegir las métricas adecuadas para el problema que estás
resolviendo.

Datos
Los datos son un componente crucial en el campo del Aprendizaje Automático
(Machine Learning). Se refieren al conjunto de observaciones o mediciones que
pueden utilizarse para entrenar un modelo de aprendizaje automático. La calidad
y cantidad de datos disponibles para el entrenamiento y las pruebas juegan un pa-
pel significativo en la determinación del rendimiento de un modelo de aprendizaje
automático. Los datos pueden presentarse en diversas formas, como datos numéri-
cos, categóricos o de series temporales, y pueden provenir de varias fuentes, como
bases de datos, hojas de cálculo o APIs GeeksforGeeks, n.d.
Los datos son piezas de información que, por sí solas, pueden no tener mucho
significado, pero cuando se recopilan, organizan y analizan, se convierten en una
fuente valiosa de conocimiento. Piensa en los datos como los ingredientes de una
receta: por separado son solo elementos, pero juntos y bien combinados crean
algo delicioso.
Los datos pueden clasificarse en tres categorías principales según su estructura
y organización:

Datos estructurados: • Se caracterizan por tener un formato fijo y predefinido.


• Se organizan en filas y columnas, similar a una tabla de Excel.
• Ejemplos incluyen:
– Bases de datos relacionales
– Hojas de cálculo
– Archivos CSV (Valores Separados por Comas)
• Son fácilmente procesables por máquinas y sistemas de gestión de bases
de datos.

Datos no estructurados: • No tienen un formato o estructura predefinida.


• Son más complejos de procesar y analizar automáticamente.
• Ejemplos incluyen:

Asignatura: Machine Learning 8


– Texto de redes sociales (como tweets)
– Contenido de videos
– Imágenes
– Archivos de audio
• Requieren técnicas avanzadas de procesamiento, como minería de texto
o reconocimiento de patrones.

Datos semi-estructurados: • Combinan elementos de datos estructurados y no


estructurados.
• Tienen cierta organización, pero no se ajustan a una estructura rígida.
• Ejemplos incluyen:
– Correos electrónicos (con campos estructurados como remitente y
fecha, y contenido no estructurado)
– Documentos XML y JSON
– Páginas web con etiquetas HTML
• Ofrecen flexibilidad en el almacenamiento y la recuperación de infor-
mación.

¿Por qué aprender Machine Learn-


ing para la Ciencia de Datos?
En la era del Big Data, la ciencia de datos se ha vuelto indispensable para com-
prender el mundo que nos rodea. Y en el corazón de esta revolución se encuentra
el Machine Learning, una poderosa herramienta que está transformando la forma
en que extraemos conocimiento y valor de los datos.
Imagina poder:

• Predecir el futuro: Anticipar tendencias del mercado, identificar riesgos cred-


iticios o prever la demanda de productos, todo con un nivel de precisión sin
precedentes.

• Automatizar lo complejo: Delegar tareas repetitivas y análisis complejos a


algoritmos inteligentes, liberando tiempo para la creatividad y la toma de
decisiones estratégicas.

• Descubrir lo invisible: Revelar patrones ocultos en datos complejos, descubriendo


conexiones y conocimientos que de otra manera pasarían desapercibidos.

Aprender Machine Learning te equipa con la capacidad de convertir mon-


tañas de datos en información procesable, permitiéndote:

• Resolver problemas del mundo real: Desde la medicina y la biología hasta


las finanzas y el marketing, el Machine Learning está impulsando soluciones
innovadoras en todas las industrias.

Asignatura: Machine Learning 9


• Convertirte en un agente de cambio: Lidera la próxima generación de des-
cubrimientos y soluciones impulsadas por datos, impactando positivamente
el mundo que te rodea.

• Asegurar tu futuro profesional: En un mercado laboral cada vez más com-


petitivo, el dominio del Machine Learning te posiciona como un profesional
altamente demandado y con un conjunto de habilidades a prueba del fu-
turo.

Este libro te guiará en un viaje fascinante a través del mundo del Machine Learn-
ing, proporcionándote las herramientas y el conocimiento necesarios para:

• Comprender los fundamentos teóricos: Desde los algoritmos básicos hasta


las técnicas más avanzadas, te brindaremos una base sólida para construir
tu conocimiento.

• Aplicar tus habilidades en la práctica: A través de ejemplos concretos y casos


de estudio, aprenderás a implementar soluciones de Machine Learning para
problemas del mundo real.

• Desarrollar tu intuición: Te enseñaremos a pensar como un científico de datos,


permitiéndote seleccionar las técnicas adecuadas y optimizar tus modelos
para obtener resultados óptimos.

No importa tu experiencia previa, este libro te proporcionará las herramientas y


la confianza necesarias para embarcarte en el apasionante mundo del Machine
Learning y la ciencia de datos. ¡Prepárate para liberar el poder de los datos y
transformar el futuro!

Ciclo de Trabajo en Machine Learning


Los ciclos de trabajo en machine learning generalmente siguen un proceso itera-
tivo conocido como el ciclo de vida del aprendizaje automático. Aquí te presento
los principales pasos de este ciclo:

• Definición del Problema

• Preparación de datos

• Representación de datos

• Modelamiento/Aprendizaje

• Evaluación

• Paso a producción

Asignatura: Machine Learning 10


Definición del Problema
Atención! con los problemas de los proyectos

Definir el problema es un paso crucial en machine learning ya que establece el


objetivo y la dirección para el proyecto. Esto ayuda a garantizar que todos los
miembros del equipo estén en la misma página y trabajan hacia el mismo objetivo.
Además, al definir claramente el problema, se pueden identificar las características
clave y los datos necesarios para resolverlo.
Sin una definición clara del problema, es difícil diseñar un modelo de apren-
dizaje automático efectivo y puede llevar a resultados inesperados o a la creación
de modelos que no son adecuados para el problema que se intenta resolver.
Además, al definir el problema, se puede identificar posibles sesgos y limitaciones
en los datos, lo que permite tomar medidas para abordarlos. su importancia radica
en varios aspectos cruciales:

1. Enfoque y Dirección:
Sin una definición clara del problema, es como navegar sin rumbo. Estable-
cer objetivos específicos y medibles desde el principio proporciona un en-
foque claro y evita desviaciones innecesarias durante el desarrollo del mod-
elo.

2. Selección del Enfoque Adecuado:


La naturaleza del problema dictará qué algoritmos y técnicas de Machine
Learning son los más adecuados. Un problema de clasificación requiere un
enfoque diferente al de un problema de regresión o de agrupamiento.

3. Relevancia de los Datos:


Definir el problema te ayuda a identificar qué datos son relevantes para el
aprendizaje del modelo y cuáles no. Esto facilita la recopilación de datos sig-
nificativos y evita el ruido que puede afectar negativamente el rendimiento.

4. Evaluación del Éxito:


¿Cómo sabrás si tu modelo de Machine Learning es exitoso? Una definición
clara del problema te permite establecer métricas de evaluación relevantes
que midan el rendimiento del modelo en relación con los objetivos iniciales.

5. Comunicación Efectiva:
Al comunicar tu proyecto a otros, una definición clara del problema facilita la
comprensión de los objetivos, métodos y resultados, lo que es esencial para
obtener apoyo y colaboración.

Al definir un problema en Machine Learning, es fácil caer en algunas trampas


comunes que pueden afectar negativamente todo el proyecto. Aquí te presento
algunos de los errores más comunes:

Asignatura: Machine Learning 11


1. Definición demasiado amplia o ambigua:
Ejemplo: ”Quiero usar Machine Learning para mejorar las ventas”.
Problema: ¿Qué tipo de ventas? ¿Qué se considera una mejora? Falta de
especificidad dificulta la elección de datos, algoritmos y métricas.

2. Definir un problema que no necesita Machine Learning:


Ejemplo: ”Quiero automatizar el envío de correos electrónicos a clientes”.
Problema: Si la lógica es simple, una secuencia de comandos o reglas pueden
ser suficientes. Machine Learning es más adecuado para problemas comple-
jos con patrones ocultos en los datos.

3. Ignorar la disponibilidad y calidad de los datos:


Ejemplo: ”Quiero predecir el éxito de una película antes de su estreno usando
datos de redes sociales”.
Problema: Obtener datos confiables y relevantes puede ser costoso o incluso
imposible. Es crucial verificar la viabilidad de los datos antes de definir el prob-
lema.

4. No considerar el sesgo en los datos:


Ejemplo: ”Quiero desarrollar un modelo para evaluar candidatos a un puesto
de trabajo”.
Problema: Si los datos históricos de contratación reflejan sesgos (de género,
raza, etc.), el modelo puede perpetuarlos. Es fundamental identificar y miti-
gar el sesgo en los datos.

5. Establecer expectativas poco realistas:


Ejemplo: ”Quiero un modelo que prediga el mercado de valores con un 100%
de precisión”.
Problema: Los modelos de Machine Learning son aproximaciones y siempre
hay un margen de error. Es importante establecer expectativas realistas y
comunicar las limitaciones del modelo.

Para evitar estos errores:

• Comienza con un objetivo empresarial claro. ¿Qué problema empresarial


estás tratando de resolver?

• Investiga y comprende tus datos. ¿Qué datos tienes disponibles? ¿Son rele-
vantes para el problema?

• Divide el problema en partes más pequeñas y manejables.

• Comunica claramente el problema a todas las partes interesadas.

• Itera y ajusta la definición del problema a medida que aprendes más.

Asignatura: Machine Learning 12


• Recordar que definir el problema es un proceso iterativo y colaborativo. La
comunicación constante y la retroalimentación son clave para el éxito.

Definiendo el Problema: El Primer Paso hacia el Éxito en Machine Learning

Por Juan Pablo Morales


En el apasionante mundo del Machine Learning, es fácil dejarse llevar por la
emoción de los algoritmos y las promesas de soluciones mágicas. Sin embargo,
antes de sumergirnos en líneas de código, es fundamental dedicar tiempo a un
paso crucial, a menudo subestimado: definir el problema correctamente.
¿Por qué es tan importante?
Definir el problema con claridad y precisión es como trazar una ruta en un mapa
antes de emprender un viaje. Sin ella, corremos el riesgo de:

• Perseguir problemas inexistentes: Dedicar esfuerzos a soluciones que no abor-


dan necesidades reales.

• Reinventar la rueda: Ignorar soluciones más simples y efectivas que no involu-


cren Machine Learning.

• Perdernos en el laberinto de datos: Sin un objetivo claro, la abundancia de


datos puede resultar abrumadora e inútil.

• Desarrollar soluciones inútiles: Si no podemos medir el impacto de nuestro


modelo, ¿cómo sabremos si realmente funciona?

Definir un problema real, relevante para tu empresa o aplicación, es el cimiento


sobre el cual se construirá el éxito de tu proyecto de Machine Learning.

Encontrando el Problema Adecuado

Para asegurarnos de estar en el camino correcto, debemos hacernos las preguntas


correctas:

1. ¿Qué problema específico buscamos resolver? Seamos claros y concisos en


la definición.

2. ¿Qué tipo de aprendizaje necesitamos?

• Aprendizaje supervisado: Predecir un valor (continuo o discreto) o una


etiqueta.
• Aprendizaje no supervisado: Agrupar elementos similares.
• Aprendizaje por refuerzo: Optimizar un proceso mediante prueba y error.

En este caso, nos enfocaremos en el aprendizaje supervisado, dada su relevan-


cia actual en la industria.

Asignatura: Machine Learning 13


Aterrizando tu Problema de Aprendizaje Supervisado

Profundicemos en la definición de nuestro problema:

• ¿Qué valor queremos predecir (variable objetivo)?

– Continuo: Edad, precio, temperatura.


– Discreto: Categoría de producto, sentimiento (positivo/negativo).

• ¿Cómo definimos el éxito de una predicción? Establezcamos métricas claras


y medibles.

• ¿Con qué datos contamos para hacer la predicción? Asegurémonos de que


los datos sean relevantes, accesibles y de calidad.

• ¿El problema pertenece a alguna disciplina en particular? La experiencia en


el dominio puede aportar información valiosa.

• Considerando nuestra intuición, ¿creemos que los datos nos permitirán pre-
decir nuestro objetivo? Seamos realistas con las limitaciones de los datos.

Al responder estas preguntas con honestidad y precisión, estaremos un paso


más cerca de construir soluciones de Machine Learning realmente impactantes.

Preparación de datos
La preparación de datos es una etapa crucial en el proceso de machine learning,
ya que la calidad y formato de los datos influyen directamente en el rendimiento
de los modelos. Este subcapítulo aborda los pasos esenciales para preparar datos
de manera efectiva.

Limpieza de datos

La limpieza de datos es el primer paso en la preparación y consiste en:

• Identificación y manejo de valores faltantes

• Eliminación de duplicados

• Corrección de errores e inconsistencias

• Tratamiento de valores atípicos (outliers)

Manejo de valores faltantes Existen varias estrategias para tratar los valores fal-
tantes, como:

• Eliminación de registros con valores faltantes

• Imputación de valores (media, mediana, moda)

• Uso de algoritmos avanzados de imputación

Asignatura: Machine Learning 14


Transformación de datos

La transformación de datos implica convertir los datos en un formato adecuado


para el análisis:

• Normalización y estandarización

• Codificación de variables categóricas

• Discretización de variables continuas

• Creación de nuevas características (feature engineering)

Normalización y estandarización Estas técnicas son importantes para que todas


las características tengan una escala similar:

x − xmin
xnormalizado = (1.1)
xmax − xmin

x−µ
xestandarizado = (1.2)
σ
Donde µ es la media y σ es la desviación estándar.

Exploración y visualización de datos

La exploración de datos ayuda a comprender mejor el conjunto de datos:

• Análisis estadístico descriptivo

• Visualización de distribuciones

• Identificación de correlaciones

• Detección de patrones y tendencias

Herramientas de visualización Algunas herramientas populares para la visualización


de datos incluyen:

• Matplotlib

• Seaborn

• Plotly

• Tableau

Asignatura: Machine Learning 15


Selección de características

La selección de características ayuda a reducir la dimensionalidad y mejorar el


rendimiento del modelo:

• Métodos de filtro

• Métodos de envoltura (wrapper methods)

• Métodos integrados (embedded methods)

Importancia de la selección de características La selección adecuada de car-


acterísticas puede:

• Reducir el sobreajuste

• Mejorar la precisión del modelo

• Reducir el tiempo de entrenamiento

• Facilitar la interpretación del modelo

Representación de datos
La representación de datos es fundamental en machine learning, ya que deter-
mina cómo la información se presenta a los algoritmos. Una representación ade-
cuada puede mejorar significativamente el rendimiento del modelo y facilitar el
aprendizaje.

Tipos de datos

En machine learning, nos encontramos con diversos tipos de datos:

• Numéricos (continuos y discretos)

• Categóricos (nominales y ordinales)

• Textuales

• Temporales

• Imágenes

• Audio

Datos numéricos Los datos numéricos pueden ser continuos (como la altura o el
peso) o discretos (como el número de hijos). Su representación suele ser directa,
pero puede requerir normalización.

Asignatura: Machine Learning 16


Datos categóricos Los datos categóricos requieren codificación especial:

• One-hot encoding

• Label encoding

• Binary encoding

Codificación de variables categóricas

One-hot encoding Transforma cada categoría en una columna binaria:

RojoAzulV erde → 100010001 (1.3)

Label encoding Asigna un número entero a cada categoría:

Rojo → 0, Azul → 1, V erde → 2 (1.4)

Representación de texto

El texto requiere técnicas especiales de representación:

• Bag of Words (BoW)

• TF-IDF (Term Frequency-Inverse Document Frequency)

• Word embeddings (Word2Vec, GloVe)

TF-IDF Calcula la importancia de una palabra en un documento:

T F − IDF (t, d, D) = T F (t, d) × IDF (t, D) (1.5)

Donde t es el término, d es el documento y D es el conjunto de documentos.

Representación de imágenes

Las imágenes se representan típicamente como matrices multidimensionales:

• Escala de grises: matriz 2D

• RGB: matriz 3D (altura × ancho × 3 canales)

Normalización de imágenes Es común normalizar los valores de píxeles:

pixeloriginal
pixelnormalizado = (1.6)
255

Asignatura: Machine Learning 17


Representación de series temporales

Las series temporales pueden representarse de varias formas:

• Secuencias de valores

• Ventanas deslizantes

• Características extraídas (media, varianza, etc.)

Ventana deslizante Ejemplo de una ventana de tamaño 3:

...
x1 x2 x3 x2 x3 x4 x3 x4 x5 ...... (1.7)

Reducción de dimensionalidad

Técnicas para reducir la dimensionalidad de los datos:

• PCA (Principal Component Analysis)

• t-SNE (t-Distributed Stochastic Neighbor Embedding)

• UMAP (Uniform Manifold Approximation and Projection)

PCA PCA encuentra los componentes principales que maximizan la varianza:

1
Cov(X) = X T X = P ΛP T (1.8)
n−1
Donde P son los eigenvectores y Λ los eigenvalores.

Consideraciones finales

La elección de la representación de datos debe considerar:

• Naturaleza del problema

• Algoritmo de aprendizaje a utilizar

• Recursos computacionales disponibles

• Interpretabilidad del modelo resultante

Modelamiento y Aprendizaje
El modelamiento y aprendizaje son el núcleo del machine learning, donde los al-
goritmos aprenden patrones a partir de los datos para hacer predicciones o tomar
decisiones.

Asignatura: Machine Learning 18


Tipos de aprendizaje

Existen varios paradigmas de aprendizaje en machine learning:

• Aprendizaje supervisado

• Aprendizaje no supervisado

• Aprendizaje semisupervisado

• Aprendizaje por refuerzo

Aprendizaje supervisado En este tipo, el modelo aprende de datos etiquetados.


Sea X el conjunto de características y y las etiquetas:

f :X→y (1.9)

Aprendizaje no supervisado Aquí, el modelo busca patrones en datos no etique-


tados:

f : X → patrones (1.10)

Algoritmos de aprendizaje supervisado

• Regresión lineal y logística

• Árboles de decisión y bosques aleatorios

• Máquinas de vectores de soporte (SVM)

• Redes neuronales

Regresión lineal Modelo para predecir una variable continua:

y = β0 + β1 x1 + β2 x2 + ... + βn xn + ϵ (1.11)

Regresión logística Para problemas de clasificación binaria:

1
P (y = 1|X) = (1.12)
1+ e−(β0 +β1 x1 +...+βn xn )

Algoritmos de aprendizaje no supervisado

• Clustering (K-means, DBSCAN)

• Análisis de componentes principales (PCA)

• Modelos de mezcla gaussiana

• Autoencoders

Asignatura: Machine Learning 19


K-means Algoritmo de clustering que minimiza:

X
k X
J= ∥x − µi ∥2 (1.13)
i=1 x∈Ci

Donde k es el número de clusters, Ci es el i-ésimo cluster y µi su centroide.

Redes neuronales y aprendizaje profundo

Las redes neuronales son modelos versátiles capaces de aprender representaciones


complejas.

Perceptrón multicapa Una red neuronal básica:


X
hi = σ( wij xj + bi ) (1.14)
j

Donde σ es la función de activación, wij son los pesos y bi el sesgo.

Funciones de activación comunes

• ReLU: f (x) = max(0, x)

1
• Sigmoid: f (x) = 1+e−x

ex −e−x
• Tanh: f (x) = ex +e−x

Entrenamiento de modelos

El proceso de aprendizaje implica optimizar una función objetivo.

Función de pérdida Mide la discrepancia entre las predicciones y los valores reales.
Ejemplos:

Pn
• Error cuadrático medio: M SE = 1
n i=1 (yi − ŷi )2
P
• Entropía cruzada: CE = − i yi log(ŷi )

Optimización Algoritmos para minimizar la función de pérdida:

• Descenso de gradiente

• Descenso de gradiente estocástico (SGD)

• Adam, RMSprop, etc.

Asignatura: Machine Learning 20


Regularización

Técnicas para prevenir el sobreajuste:


P
• L1 (Lasso): λ i |wi |
P 2
• L2 (Ridge): λ i wi

• Dropout

• Early stopping

Evaluación de modelos

Métricas para evaluar el rendimiento del modelo:

• Precisión, recall, F1-score

• Área bajo la curva ROC (AUC-ROC)

• R-cuadrado

• Error cuadrático medio (MSE)

Validación cruzada Técnica para evaluar la generalización del modelo:

1X k
CVscore = scorei (1.15)
k i=1

Donde k es el número de folds.

Hiperparámetros y ajuste de modelos

Técnicas para encontrar los mejores hiperparámetros:

• Grid search

• Random search

• Optimización bayesiana

Consideraciones finales

Al modelar y entrenar, es importante considerar:

• Balance entre sesgo y varianza

• Complejidad del modelo vs. tamaño del conjunto de datos

• Interpretabilidad vs. rendimiento

• Costo computacional y tiempo de entrenamiento

Asignatura: Machine Learning 21


Tipos de Aprendizaje - Algoritmos de Inteligencia Ar-
tificial - Parte II

Este capítulo te sumerge en el fascinante universo de la Inteligencia Artificial (IA),


explorando cómo dotamos a las máquinas con la capacidad de realizar tareas
que tradicionalmente requerían la destreza de la mente humana.
Nuestro viaje comienza con el aprendizaje automático (Machine Learning o
ML), un pilar fundamental de la IA. Imagina un sistema que, en lugar de ser min-
uciosamente programado para cada pequeña acción, aprende por sí mismo a
partir de la información que recibe. Los algoritmos de ML son los artífices de este
proceso: analizan datos, detectan patrones ocultos y, con base en ellos, hacen
predicciones.
A medida que profundizamos en el funcionamiento del ML, nos topamos con
el aprendizaje profundo (Deep Learning o DL), una subcategoría aún más espe-
cializada. Aquí, las estrellas son las redes neuronales artificiales, estructuras com-
plejas inspiradas en el cerebro humano, con múltiples capas de procesamiento
interconectadas. Esta arquitectura permite al DL desentrañar relaciones y repre-
sentaciones altamente complejas dentro de conjuntos de datos masivos, llevando
la capacidad de aprendizaje automático a nuevas dimensiones.
Prepárate para desvelar los secretos detrás de estas tecnologías que están rev-
olucionando nuestro mundo a pasos agigantados.

Asignatura: Machine Learning 22


Chapter 2

Fundamentos de la Inteligencia
Artificial

“ Lo que todos tenemos que hacer es asegurarnos de que estamos


usando la IA de una manera que sea en beneficio
de la humanidad, no en detrimento de la humanidad.”
— Tim Cook

Algoritmos de Inteligencia Artificial


La Inteligencia Artificial (IA) se enfoca en adquirir, analizar y aplicar métodos de
expresión del conocimiento para simular actividades intelectuales humanas. Este
campo se basa en una amplia variedad de disciplinas, incluyendo informática,
lógica, biología, psicología y filosofía, y emplea computadoras para simular com-
portamientos inteligentes humanos, dotándolas de la capacidad de aprender y
tomar decisiones, entre otras habilidades Da Xu et al., 2021; C. Zhang and Lu, 2021.
La IA desempeña un papel crucial en el desarrollo social, transformando la vida
cotidiana y convirtiéndose en una estrategia de desarrollo global de gran impor-
tancia; además, ha producido avances revolucionarios al mejorar la eficiencia
laboral, reducir costos laborales, optimizar la estructura de los recursos humanos
y crear nuevas demandas en el mercado laboral Duan et al., 2019.
Este desarrollo ha generado un impacto económico significativo y ha contribuido
al progreso social. Con condiciones técnicas relativamente maduras, incluyendo
datos, algoritmos y capacidades informáticas, la inteligencia artificial ha comen-
zado a abordar eficazmente problemas y a generar beneficios económicos reales.
Desde una perspectiva de aplicaciones, las industrias, las finanzas, la atención
médica, la automoción y el comercio, han desarrollado escenarios de aplicación
de la inteligencia artificial relativamente maduros Z. Zhang et al., 2020.
Los avances en inteligencia artificial han impulsado la investigación y desarrollo
de diversos algoritmos de aprendizaje automático o machine learning inspirados
en el aprendizaje infantil. Estos algoritmos permiten que las computadoras apren-
dan y analicen datos de forma automática, facilitando la toma de decisiones y la

23
predicción de eventos del mundo real. Uno de los enfoques destacados en el ám-
bito del aprendizaje automático son las redes neuronales, las cuales han sido ob-
jeto de mejoras constantes para superar limitaciones y mejorar la precisión. Como
resultado, se han desarrollado algoritmos más avanzados basados en redes neu-
ronales, conocidos como aprendizaje profundo o deep learning.

Aprendizaje automático - Machine Learning


La idea fundamental del aprendizaje automático es utilizar algoritmos para apren-
der de los datos y resolver problemas. Además, los cuatro problemas más signi-
ficativos que se abordan a través del aprendizaje automático son: la predicción,
la agrupación, la clasificación y la reducción de dimensionalidad. Basándonos en
estos problemas, el aprendizaje automático se puede clasificar en tres categorías.

• Aprendizaje supervisado: cuando se dispone de datos etiquetados con resul-


tados y se desee predecir los resultados para el futuro. Este tipo de algoritmos
son utilizados para predecir y clasificar.

• Aprendizaje no supervisado: utiliza algoritmos para analizar conjuntos de datos


sin etiquetar y clasificarlos en grupos o clústeres. Identifica patrones ocultos
sin intervención humana.

• Aprendizaje por refuerzo: Imitan el método de ensayo y error humano para


lograr objetivos. Refuerzan las acciones que contribuyen al logro de su ob-
jetivo y desatienden las que se desvían. Siguen un patrón de recompensa y
castigo al analizar los datos, aprendiendo de los resultados de cada acción
para determinar las vías de procesamiento más eficaces.

Un algoritmo de aprendizaje automático se nutre de una colección de car-


acterísticas cuantitativamente medidas de un objeto o evento que se busca que
el algoritmo aprenda. Normalmente, representamos un ejemplo como un vector,
denotado como x ∈ Rn , en el que cada entrada, xi , representa una caracterís-
tica distinta. Los distintos modelos de aprendizaje automático se centran principal-
mente en la resolución de problemas de clasificación y regresión, lo que permite
abordar tareas que resultarían complejas de afrontar mediante soluciones desar-
rolladas por seres humanos. Son varias tareas que puede resolver el aprendizaje
automático, entre los más comunes tenemos Goodfellow et al., 2016:

• Clasificación: La clasificación es una tarea fundamental en la informática y


el aprendizaje automático, en la que un programa informático se encarga
de asignar una entrada específica a una de varias categorías posibles. Para
lograr esto, se emplea una función que mapea las características de las en-
tradas a códigos numéricos representativos de las distintas categorías. Este
proceso es ampliamente utilizado en diversas aplicaciones, siendo el reconocimiento
de objetos un ejemplo destacado. En el contexto del reconocimiento de ob-
jetos, la tarea implica clasificar una imagen en categorías específicas, lo que
permite identificar los objetos presentes en una imagen o incluso reconocer
rostros humanos en fotografías.

Asignatura: Machine Learning 24


• Clasificación con datos incompletos: La clasificación con entradas incom-
pletos plantea un desafío significativo en el campo del aprendizaje automático
cuando no se dispone de todas los valores en un vector de entrada. En lugar
de depender de una única función de clasificación, se requiere el desar-
rollo de múltiples funciones, cada una adaptada a un subconjunto particular
de datos faltantes. Esta problemática es particularmente común en aplica-
ciones médicas costosas o invasivas, donde no es factible obtener todos los
datos requeridos para una evaluación exhaustiva.
Una estrategia efectiva para afrontar esta situación implica el aprendizaje
de una distribución de probabilidad que abarque todas las variables per-
tinentes y permita la clasificación, incluso cuando algunas variables falten.
Esta aproximación proporciona un conjunto completo de funciones de clasi-
ficación sin necesidad de aprender una función separada para cada esce-
nario de datos faltantes. Esto se traduce en una mayor eficiencia y utilidad
del aprendizaje automático en una variedad de tareas, y destaca su ver-
satilidad en la resolución de problemas en los que los datos de entrada son
incompletos.

• Regresión: La regresión, como tipo de tarea en el aprendizaje automático,


implica que un programa informático debe realizar predicciones de valores
numéricos basándose en un conjunto de datos de entrada. Para resolver
este tipo de tarea, se requiere que el algoritmo de aprendizaje genere una
función f : Rn → R, donde R representa los números reales. Si bien la re-
gresión comparte similitudes con la clasificación, la distinción clave radica
en que en la regresión, la salida es de naturaleza numérica. La regresión,
por lo tanto, se posiciona como una herramienta valiosa en la predicción de
valores numéricos en una amplia gama de campos, y ejemplifica la versa-
tilidad del aprendizaje automático en la resolución de problemas complejos
de predicción.

• Transcripción: En esta categoría de tareas, se encomienda al sistema de


aprendizaje automático la labor de observar representaciones de datos rela-
tivamente no estructuradas y transformarlas en una forma textual y discreta.
Un ejemplo destacado de esta tarea es el reconocimiento óptico de car-
acteres, donde imágenes de texto son convertidas en secuencias de car-
acteres, como en los formatos ASCII o Unicode. Estas aplicaciones ilustran
la capacidad del aprendizaje automático para abordar la transcripción de
datos no estructurados en formatos textuales, ofreciendo un potencial signi-
ficativo en campos que van desde el procesamiento de imágenes hasta la
conversión de voz en texto.

• Traduccion automática: En el contexto de una tarea de traducción automática,


la entrada se compone de una secuencia de símbolos en un idioma determi-
nado, y se le encomienda al programa de computadora la labor de convertir
esta secuencia en una secuencia de símbolos en otro idioma.

• Salida estructurada: Las tareas de salida estructurada abarcan aquellas en

Asignatura: Machine Learning 25


las que la salida se presenta en forma de un vector u otra estructura de datos
con relaciones significativas entre sus elementos. Este tipo de tareas es diverso
y engloba no solo la transcripción y la traducción, como mencionado previ-
amente, sino también una variedad de otras actividades. Por ejemplo, el
análisis sintáctico implica la conversión de una oración en un idioma natural
en un árbol que describe su estructura gramatical, incluyendo la etiquetación
de los nodos del árbol con categorías como verbos, sustantivos y adverbios,
entre otras.

• Detección de anomalías: La detección de anomalías implica que un pro-


grama de computadora analiza un conjunto de eventos u objetos y identifica
aquellos que son inusuales o atípicos. Un ejemplo relevante de esta tarea es
la detección de eventos de la marcha humana para el estudio biomecánico
de la caminata. Al modelar los eventos de caminata, se puede comparar
patrones de comportamiento para medir, analizar y detectar diferentes al-
teraciones en la marcha. En consecuencia, estos resultados pueden ser uti-
lizados en diferentes áreas de estudio.

• Síntesis y muestreo: En esta categoría de tareas, se requiere que el algo-


ritmo de aprendizaje automático genere nuevos ejemplos que guarden simil-
itud con los datos presentes en el conjunto de entrenamiento. La síntesis
y el muestreo mediante el aprendizaje automático resultan particularmente
valiosos en aplicaciones relacionadas con la salud humana, donde la gen-
eración manual de grandes volúmenes de contenido puede ser costosa o
monótona, como por ejemplo, en datos médicos.

• Imputación de valores faltantes: En este tipo de tarea, se proporciona al algo-


ritmo de aprendizaje automático un nuevo ejemplo x ∈ Rn , pero con algunas
de las entradas xi de x faltantes. El algoritmo debe realizar una predicción
de los valores de las entradas faltantes.

• Eliminación de ruido: En este tipo de tarea, se suministra al algoritmo de


aprendizaje automático un ejemplo de entrada que ha sido corrompido,
denotado como x ∈ Rn , y que se ha obtenido a través de un proceso de
corrupción desconocido a partir de un ejemplo original no corrompido, rep-
resentado como x ∈ Rn . El sistema debe predecir el ejemplo no corrompido
x a partir de su versión corrompida x, o, en términos más generales, prever la
distribución de probabilidad condicional p(x|x).

• Estimación de densidad o estimación de función de masa de probabilidad:


En el problema de estimación de densidad, se pide al algoritmo de apren-
dizaje automático que aprenda una función pmodelo : Rn → R, donde pmodelo (x)
puede interpretarse como una función de densidad de probabilidad (si x es
continua) o una función de masa de probabilidad (si x es discreta) en el es-
pacio del cual se extrajeron los ejemplos.

La habilidad de los modelos de aprendizaje automático para automatizar el


proceso de toma de decisiones a partir de datos cuantitativos los convierte en

Asignatura: Machine Learning 26


herramientas poderosas en una amplia gama de campos de estudio y aplicación,
entre los más utilizados se detallan a continuación.

Árboles de decisión

Se trata de modelos predictivos que clasifican categorías utilizando reglas binarias


(Sí/No) asociadas a regiones del espacio de entrada. Los nodos internos dividen
esta región en subregiones según cada fila del nodo, como se puede apreciar en
la Figure 2.1. Cada nodo del árbol elegido puede ser nodo hijo izquierdo (0) o
nodo hijo derecho (1), y se muestra con un identificador de cadena binaria corre-
spondiente a su posición en el árbol. Este identificador se obtiene añadiendo un
dígito a su identificador padre (0 para elegir a la izquierda o arriba, 1 para elegir
a la derecha o abajo). Las opciones de parámetros incluyen la cantidad máxima
de divisiones y el criterio de división (índice de diversidad de Gini, regla de Two-
ing, reducción máxima de desviación). Es un algoritmo de machine learning muy
popular utilizados para tareas de regresión y clasificación.

Figure 2.1: Diagrama que describe cómo funciona un arboles de decisiónGoodfel-


low et al., 2016.

Análisis Discriminante

El análisis discriminante (AD) es una técnica multivariante utilizada para dividir gru-
pos de observaciones basados en variables medidas en cada muestra experimen-
tal, y para entender cómo cada parámetro afecta esta división. Además, permite
predecir o asignar nuevas observaciones a grupos previamente definidos medi-
ante funciones lineales o cuadráticas. Se basa en una función discriminante, que
puede ser única o múltiple dependiendo del número de grupos, y utiliza combina-
ciones lineales de variables predictoras para lograr la mejor discriminación entre los
grupos. Una vez construidas estas funciones con una muestra conocida, pueden
aplicarse a nuevos casos cuya pertenencia al grupo sea desconocida pero que
contengan mediciones de las variables predictoras. Se presupone que diferentes
clases generan datos basados en distribuciones Gaussianas. El optimizador tiene
dos tipos de modelos: Discriminante Lineal (LDA) y Discriminante Cuadrático (QDA).

Asignatura: Machine Learning 27


Bayes Ingenuo (Naive Bayes)

Es un algoritmo que estima la probabilidad de que un objeto pertenezca a cierta


clase o grupo, basándose en sus características. Utiliza el teorema de Bayes de
la ecuación 2.1 y la densidad de probabilidad de los predictores X dada la clase
Y para estimar P (X|y). Este enfoque lo convierte en un clasificador probabilístico,
ampliamente utilizado para resolver problemas de clasificación.

P (X|y)P (y)
P (y|X) = HE (2.1)
P (X)
donde:

• y y X son eventos (y es la clase) y P (X) ̸= 0

• Con respecto a conjunto de datos y es una variable de clase y X es un vec-


tor de características dependientes (de tamaño n) o también se denomina
evidencia.

• P (y) es la probabilidad a priori de la clase.

• P (X) es la probabilidad marginal (la probabilidad de la evidencia).

• P (y|X) es la probabilidad a posteriori de la clase dado el predictor (X , atrib-


utos).

• P (X|y) es la probabilidad de verosimilitud, es decir, la probabilidad del pre-


dictor dada la clase

En la Figure 2.2 se muestra cómo se utiliza el teorema de Bayes para encontrar


la distribución posterior. Este teorema se basa en la probabilidad de verosimilitud
P (X|y), que indica la probabilidad de que una hipótesis sea cierta dadas las ev-
idencias, así como en la probabilidad marginal P (X) (la probabilidad de la evi-
dencia) y la probabilidad a priori P (y) del evento antes de observar la evidencia.
Es importante destacar que la evidencia se refiere al valor de un atributo de una
instancia desconocida, es decir, del evento X .
Se tiene cuatro tipos de modelo NB:

1. Naive Bayes Gaussiano: Este algoritmo se utiliza cuando los atributos son con-
tinuos y siguen una distribución gaussiana o normal. Aunque acelera significa-
tivamente la búsqueda, es importante tener en cuenta que, en condiciones
más flexibles, el error puede ser hasta dos veces mayor que el del Naive Bayes
Óptimo.

2. Naive Bayes Óptimo: Este algoritmo elige la clase con la mayor probabilidad
posterior de acontecimiento, siendo su nombre indicativo de su caracterís-
tica óptima. Sin embargo, este proceso implica revisar todas las posibilidades,
lo cual resulta en un proceso lento y que demanda mucho tiempo.
1
https://www.turing.com//

Asignatura: Machine Learning 28


Figure 2.2: Diagrama que describe cómo funciona el algoritmo de Bayes. Imagen
extraída de Turing 1

3. Naive Bayes Bernoulli: Es un método adecuado para conjuntos de datos que


contienen atributos binarios o booleanos, en los que los atributos pueden
tomar valores de sí o no, útil o no, concedido o rechazado.

4. Naive Bayes Multinomial: Se aplica en la clasificación de documentos, donde


las características requeridas son la frecuencia de las palabras obtenidas del
texto del documento.

Máquina de Soporte Vectorial

Las Máquinas de Vectores de Soporte (SVM, por sus siglas en inglés) son un poderoso
algoritmo supervisado que se destaca en la clasificación de conjuntos de datos pe-
queños pero complejos. Este algoritmo encuentra el hiperplano óptimo que separa
las clases y clasifica los datos en función de su ubicación respecto a este hiper-
plano. SVM puede utilizar diferentes funciones de núcleo, como lineal, gaussiano,
cuadrático y cúbico, y también cuenta con un parámetro de restricción de caja
que controla la penalización máxima impuesta a las observaciones que violan el
margen.
La Figure 2.3 muestra las partes importantes del algoritmo SVM. Los Vectores
de Soporte son los puntos más cercanos al hiperplano, del cual surgen las líneas
separadoras definidas como hiperplanos positivo y negativo. El margen es la dis-
tancia entre los hiperplanos y los vectores de soporte. En SVM, un margen grande
2
https://www.analyticsvidhya.com//

Asignatura: Machine Learning 29


Figure 2.3: Funcionamiento del algoritmo SVM. Imagen extraída de Analytics Vid-
hya 2

se considera óptimo, existiendo dos tipos de márgenes: el margen duro y el margen


suave.
En SVM, se define en términos de los vectores de soporte, sin preocuparnos por
otras observaciones como en otros algoritmos donde el clasificador se define en
todos los puntos. En este método, el margen se construye utilizando los puntos que
están más cerca del hiperplano (vectores de soporte).
Para entender el funcionamiento, supongamos que tenemos un conjunto de
datos que tiene dos clases para clasificar (verde y azul como se puede apreciar
en la Figure 2.3). Para clasificar estos puntos, podemos tener muchas fronteras de
decisión clasificadas por una línea. Se debe tener en cuenta que si trazamos los
puntos de datos en un gráfico bidimensional, llamamos a esta frontera de decisión
una ”línea recta”, pero si tenemos más dimensiones, la llamamos un ”hiperplano”.
El propósito fundamental del algoritmo SVM es identificar el hiperplano óptimo,
que es aquel que maximiza la distancia entre ambas clases. Para lograr esto, el
algoritmo busca entre diferentes hiperplanos que clasifiquen las etiquetas de man-
era eficaz, seleccionando finalmente aquel que se encuentre más alejado de los
puntos de datos o que disponga del margen máximo disponible.

k-Vecinos más cercanos

K-Vecinos más Cercanos (KNN, por sus siglas en inglés) es un modelo de clasifi-
cación que agrupa datos según su distancia. En lugar de aproximar globalmente
la función objetivo f (x) = y , durante cada predicción, KNN aproxima la función
objetivo localmente. Para hacer una predicción (etiqueta de clase u objetivo con-
tinuo), el algoritmo KNN encuentra los k vecinos más cercanos a un punto de con-
sulta y calcula la etiqueta de clase (en clasificación) o el objetivo continuo (en
regresión) basándose en los k puntos más similares.
K representa el número de vecinos más próximos que deben tenerse en cuenta
al realizar la predicción y los k puntos de datos con las menores distancias al punto

Asignatura: Machine Learning 30


objetivo son los vecinos más próximos.
En el subpanel izquierdo de la Figure 2.4, los ejemplos de entrenamiento se rep-
resentan como puntos negros, mientras que un punto de consulta que se desea
clasificar se muestra como un signo de interrogación. En el subpanel derecho de
la Figure 2.4, las etiquetas de las clases y la línea punteada indican el punto más
cercano a la consulta, según una métrica de distancia euclidiana. La métrica de
distancia más utilizadas son:

• Distancia Euclideana

• Distancia Manhattan

• Distancia Minkowski

En el problema de clasificación, se determinan las etiquetas de clase a través


de un proceso de votación mayoritaria, donde la clase que aparece con mayor
frecuencia entre los vecinos se asigna como la clase predicha para el punto de
datos objetivo. En el problema de regresión, se calcula la etiqueta de clase tomando
el promedio de los valores objetivo de los K vecinos más cercanos. Este promedio
se utiliza como la salida predicha para el punto de datos objetivo.

Figure 2.4: Ilustración del algoritmo de clasificación del vecino más cercanos de
dos características x1 y x2 raschka38stat

Neural Network

Inspirados en la forma en que las neuronas se conectan en el cerebro humano,


tienen la intención de simular las activaciones para clasificar muestras. La neurona
biológica comúnmente se representa mediante un modelo matemático conocido
como Perceptrón o neurona artificial, el cual se ilustra en la Figure 2.5. Cada neu-
rona recibe señales de entrada procedentes de la capa superior, realiza el cálculo
de la suma ponderada de dichas entradas y genera salidas destinadas a la capa
siguiente a través de una función de activación. Se puede expresar con el sigu-
iente modelo.

Asignatura: Machine Learning 31


Figure 2.5: Representación de una red biológica en una neurona artificialWang et
al., 2021.

X
n
Yj = wji xi + bj (2.2)
i=1

Donde X = [x1 , x2 , ....., xn ] es un conjunto de entradas de jth neuronas, Wj =


[wj1 , wj2 , ....., wjn ] es el vector peso, bj es el bias, y Yj es la suma ponderada de en-
tradas.
Las cantidades Yj se denominan activaciones. Cada una de ellas se transforma
mediante una función de activación diferenciable y no lineal φ(•) para obtener la
salida

zj = φ(Yj ) (2.3)

Estas cantidades corresponden a las salidas de las funciones de base en ecuación


2.2, que, en el contexto de las redes neuronales, se llaman unidades ocultas (hid-
den units). Las funciones de activación no lineales φ(•) suelen ser funciones como:
sigmoide, tanh, ReLU y sof tmax.
El perceptrón se concibe como el modelo de una única neurona y, en con-
secuencia, tiene limitaciones cuando se trata de abordar datos no lineales. Para
superar esta restricción, se desarrolló el perceptrón multicapa o MLP, que consta
de capas de entrada y salida, así como una o más capas ocultas que alojan múlti-
ples neuronas interconectadas. Mientras que en el perceptrón tradicional se uti-
liza una función de activación que impone un umbral, como la función ReLU o la
sigmoide, las neuronas en un perceptrón multicapa tienen la flexibilidad de emplear
cualquier función de activación arbitraria.
En la Figure 2.6 se muestra la configuración de una red neuronal multicapa,
también conocida como perceptrón multicapa. A modo de ejemplo, la red de la
Figure 2.6 consta de una capa de entrada con 6 nodos de entrada, seguida de
una primera capa oculta con 4 nodos ocultos (4 perceptrones), luego una segunda
capa oculta con 3 nodos ocultos (3 perceptrones) y, finalmente, una capa de
salida con 1 nodo de salida.
El perceptrón multicapa, clasificado como un algoritmo de avance (feedfor-
ward) ver Figure 2.6, se caracteriza por la propagación de las combinaciones lin-
eales a través de las capas. Cada capa alimenta a la siguiente con sus resultados,
incluyendo las capas ocultas, y culmina en la capa de salida. No obstante, para lo-
grar un aprendizaje efectivo, es esencial que el algoritmo vaya más allá de simple-
mente calcular sumas ponderadas y propagar los resultados, ya que de lo contrario

Asignatura: Machine Learning 32


Figure 2.6: Perceptrón multicapabishop2006pattern

no sería capaz de aprender los pesos que minimizan la función de costos (MSE), ver
ecuación 2.4. En este proceso, la retropropagación desempeña un papel crucial.
La retropropagación, o backpropagation en inglés, es el mecanismo de apren-
dizaje que permite al perceptrón multicapa ajustar de forma iterativa los pesos en
la red con el fin de minimizar la función de costo. Para que la retropropagación
funcione correctamente, es esencial que las funciones utilizadas en las neuronas,
como la suma ponderada y la función umbral (por ejemplo, ReLU), sean diferen-
ciables y tengan derivadas acotadas, ya que el Descenso de Gradiente suele ser
el método de optimización empleado en el Perceptrón Multicapa.
En cada iteración, después de que las sumas ponderadas se propaguen a
través de todas las capas, se procede a calcular el gradiente del Error Cuadrático
Medio (MSE), también conocido como función de costo o pérdida indicada en la
ecuación 2.4, para todos los pares de entrada y salida. Esto nos permite evaluar
qué tan bien se están prediciendo los valores objetivos.

1
Cost(J) = (Ŷ − Y )2 (2.4)
2
donde, Ŷ es el valor estimado y Y es el valor real.
Luego, para retropropagar este gradiente, se actualizan los pesos de la primera
capa oculta con su valor, permitiendo que los pesos se propaguen de vuelta al
inicio de la red neuronal. Este proceso continúa hasta que el gradiente para cada
par de entrada y salida haya convergido, lo que implica que el gradiente recién

Asignatura: Machine Learning 33


calculado no ha cambiado más allá de un umbral de convergencia especificado
en comparación con la iteración anterior. La ecuación de la retropropagación
esta definida de la siguiente manera:

dJ
∆w(t) = −α + ∆w(t−1) (2.5)
dw(t)

donde, ∆w (t) es la iteración actual de gradiente, J es el costo, dw(t) es el vector


peso, α es la tasa de aprendizaje y, ∆w(t−1) es la iteración anterior de gradiente.

Aprendizaje profundo - Deep Learning


El Aprendizaje Profundo, del inglés Deep Learning (DL) es una subdisciplina de
Aprendizaje Automático (ML) que se fundamenta en redes neuronales (NN) que
estan siendo muy utilizadas en la actualidad. Desde sus inicios, DL ha provocado
disrupciones cada vez más significativas, demostrando un éxito sobresaliente en
casi todos los dominios de aplicaciones.
Cuando el volumen de datos se incrementa, las técnicas de ML, por más op-
timizadas que estén, tienden a volverse ineficientes en cuanto a su rendimiento
y precisión, en contraste, el aprendizaje profundo demuestra un desempeño no-
tablemente superior en tales situaciones. Además, en ML, las características o fea-
tures se proporcionan manualmente, mientras que el aprendizaje profundo aprende
características directamente de los datos. Es posible clasificar las redes neuronales
de acuerdo con la arquitectura, como se detalla en la Figure 2.7.
Los algortimos de aprendizaje profundo más comunes detallados por Alzubaidi
et al., 2021 se describen a continuación.

Red Neuronal Recurrente - Recurrent Neural Networks

La red neuronal recurrente (RNN) se caracteriza por realimentar su propia entrada


para mejorar la predicción resultante, y su diseño se centra en la retención de
la salida de una capa anterior. En general, comienza con una capa de retroali-
mentación, seguida de una capa de red neuronal recurrente, donde una función
de memoria conserva parte de la información previamente procesada en pasos
de tiempo anteriores como se puede apreciar en la Figure 2.8. En este contexto,
se lleva a cabo una propagación hacia adelante con el propósito de almacenar
datos relevantes para usos futuros. En caso de predicciones incorrectas, se recurre
a la tasa de aprendizaje para realizar ajustes menores y, de esta manera, mejorar
progresivamente la precisión durante el proceso de retropropagación Alzubaidi et
al., 2021.
Una de las ventajas de las redes neuronales recurrentes es su capacidad para
modelar datos secuenciales, donde se presume que cada muestra depende de las
muestras anteriores. En ocasiones, se utilizan junto con capas de convolución para

3
https://www.aalerin.com/
4
https://www.viso.ai/

Asignatura: Machine Learning 34


Figure 2.7: Tipo de arquitectura de las Redes Neuronales. Imagen extraída de aa-
lerin 3

mejorar la eficacia en el procesamiento de imágenes, especialmente en el análi-


sis de píxeles. Sin embargo, las redes neuronales recurrentes presentan desafíos,
como los problemas de explosión y desvanecimiento de gradientes, lo que puede
hacer que el entrenamiento sea una tarea compleja. Además, resulta complicado
procesar secuencias de datos largas cuando se emplea la función de activación
ReLU.
Este tipo de redes neuronales se emplea ampliamente en una variedad de
aplicaciones, incluyendo el procesamiento de texto para tareas como sugeren-
cias automáticas, corrección gramatical, conversión de texto a voz, etiquetado
de imágenes, análisis de sentimientos y traducción.

Redes LSTM (Memoria a Largo y Corto Plazo - Long Short-Term Memory)

Las redes LSTM constituyen una variante de las RNN, que incorpora unidades espe-
ciales además de las unidades convencionales. Las unidades LSTM se destacan
por su capacidad para mantener información en una “celda de memoria” du-
rante largos intervalos de tiempo. Esto se logra mediante un conjunto de puertas
que controlan el flujo de información hacia la memoria, su liberación y su elim-
inación. Estas puertas se dividen en tres categorías: la puerta de entrada, que
determina cuánta información de la muestra previa se retiene en la memoria; la
puerta de salida, que regula la cantidad de datos transmitidos a la siguiente capa;
y las puertas de olvido, que gestionan la tasa de eliminación de la información al-

Asignatura: Machine Learning 35


Figure 2.8: Red Neuronal Recurrente o conocido en inglés Recurrent Neural Net-
works - RNN . Imagen extraída de viso 4

macenada. Gracias a esta arquitectura, las redes LSTM son capaces de aprender
dependencias a largo plazo Alzubaidi et al., 2021.

Figure 2.9: Redes LSTM (Memoria a Largo y Corto Plazo o su siglas en inglés que
corresponden Long Short-Term Memory). Imagen extraída de mygreatlearning 5

Red Neuronal Convolucional - Convolutional Neural Network

La Red Neuronal Convolucional (CNN) presenta una disposición tridimensional de


neuronas en lugar del convencional arreglo bidimensional. Su primera capa, de-
nominada capa de convolución, procesa exclusivamente información de porciones
5
https://www.mygreatlearning.com/

Asignatura: Machine Learning 36


reducidas del campo visual. Las características de entrada se agrupan en lotes,
similar a un filtro, y la red comprende las imágenes en fragmentos, ejecutando
estas operaciones de manera iterativa hasta completar el procesamiento de la
imagen completa Alzubaidi et al., 2021. Esta transformación implica la conversión
de la imagen desde una escala de color RGB o HSI a escala de grises, lo que fa-
cilita la detección de bordes y permite la clasificación de las imágenes en diversas
categorías.

Figure 2.10: Concepto de una red neuronal convoluional. Imagen extraída de viso
6

La propagación puede ser unidireccional, donde la CNN consta de una o más


capas de convolución seguidas de capas de agrupación, o bidireccional, donde
la salida de la capa de convolución se dirige hacia una red neuronal completa-
mente conectada que clasifica las imágenes, tal como se ilustra en la Figure 2.10.
En este proceso, se utilizan filtros para extraer características específicas de la im-
agen. En el caso de MLP, las entradas se ponderan y se envían a una función de
activación. Mientras que la convolución emplea la función ReLU, MLP hace uso
de una función de activación no lineal, seguida de softmax. Las redes neuronales
convolucionales han demostrado su eficacia en el reconocimiento de imágenes y
videos, el análisis semántico y la detección de paráfrasis.
La CNN se utiliza con frecuencia en el aprendizaje profundo debido a su ca-
pacidad para lograr un alto rendimiento con menos parámetros en comparación
con las MLP. Sin embargo, su diseño y mantenimiento pueden resultar comparati-
vamente más complejos, y su velocidad de entrenamiento puede ser más lenta,
especialmente en función del número de capas ocultas.

Modelos de secuencia a secuencia - Sequence to sequence models

Un modelo secuencia a secuencia comprende dos Redes Neuronales Recurrentes.


En este contexto, se incluye un proceso de codificación para la entrada y un pro-
ceso de decodificación para la salida. Estos procesos de codificación y decodifi-
cación operan en paralelo, ya sea compartiendo los mismos parámetros o emple-
ando conjuntos diferentes. A diferencia de las RNN convencionales, este modelo
6
https://www.viso.ai/

Asignatura: Machine Learning 37


Figure 2.11: Modelos de secuencia a secuencia o en inglés Sequence to sequence
models. Imagen extraída de mygreatlearning 7

demuestra su eficacia especialmente en situaciones en las que la longitud de los


datos de entrada es igual a la longitud de los datos de salida. A pesar de com-
partir similitudes en términos de ventajas y limitaciones con las RNN, estos modelos
se aplican con mayor frecuencia en aplicaciones como chatbots, traducción au-
tomática y sistemas de respuesta a preguntas.

7
https://www.mygreatlearning.com/

Asignatura: Machine Learning 38


Métricas de calidad de modelos - Parte III

En la era dorada de la inteligencia artificial, donde algoritmos complejos toman de-


cisiones que impactan nuestras vidas a diario, surge una pregunta crucial: ¿cómo
podemos estar seguros de que estas decisiones son correctas? La respuesta reside
en el corazón mismo del desarrollo de la IA: la evaluación.
Este capitulo se adentra en el fascinante mundo de las métricas de evaluación
del machine learning, herramientas esenciales que nos permiten medir la eficacia,
eficiencia y confiabilidad de nuestros modelos. Desde la precisión de un sistema
de diagnóstico médico hasta la robustez de un vehículo autónomo, la elección de
las métricas correctas es fundamental para garantizar un desarrollo responsable y
exitoso del machine learning.
A lo largo de estas páginas, exploraremos un amplio abanico de métricas, desde
las más tradicionales hasta las más novedosas, desentrañando sus fortalezas, de-
bilidades y aplicaciones específicas. Aprenderemos a interpretar sus resultados, a
identificar las trampas comunes y a seleccionar las métricas más adecuadas para
cada tipo de problema y objetivo.
Más que un simple compendio de fórmulas, este capítulo busca proporcionar
una comprensión profunda del papel crítico que juega la evaluación en el ciclo
de vida del machine learning. Porque solo a través de una evaluación rigurosa
y significativa podremos construir una Algoritmo de IA que esté a la altura de su
promesa: mejorar nuestras vidas de manera tangible y confiable.

Asignatura: Machine Learning 39


Asignatura: Machine Learning 40
Chapter 3

Medidas o métricas de evaluación

“ La mayoría de las ideas fundamentales de la ciencia


son esencialmente sencillas, y por regla general pueden
ser expresadas en un lenguaje comprensible para todos.”
— Albert Einstein

Las medidas o métricas de evaluación son esenciales para determinar la efica-


cia de un modelo de IA. La elección de las métricas depende del tipo de tarea
(clasificación, regresión, clustering, etc.) y del objetivo específico del problema.

Evaluación del rendimiento.


Dado que existen numerosos algoritmos y enfoques diseñados para abordar un
problema específico, se requiere un mecanismo de evaluación que permita com-
pararlos de manera objetiva y determinar cuál es más efectivo que otro. Esta eval-
uación se basa en la comparación entre el rendimiento ideal y el rendimiento real
de un algoritmo, y se logra mediante la utilización de medidas cuantitativas de de-
sempeño y conjuntos de datos de prueba diversos. Estos recursos permiten valorar
de manera objetiva los resultados obtenidos por cada algoritmo y determinar cuál
es el más adecuado para resolver el problema en cuestión.

Medidas de rendimiento
Las métricas de rendimiento son esenciales en el aprendizaje automático, permiten
evaluar el progreso y cuantificar el rendimiento de los modelos. Cada tarea se
puede clasificar en regresión o clasificación, y existen múltiples métricas para cada
tipo. Su comprensión es crucial para evaluar de manera efectiva los modelos de
aprendizaje automático.

Métricas de regresión

Los modelos de regresión generan una salida continua, lo que implica la necesidad
de utilizar métricas que evalúen la discrepancia entre las predicciones y los valores

41
reales. A continuación, se presentarán las métricas más utilizadas en el desarrollo
de la tesis:

• Error Cuadrático Medio - Mean Squared Error (MSE): Es una métrica funda-
mental en la evaluación de modelos de regresión. Su función es medir la
magnitud de las desviaciones entre las predicciones del modelo y los valores
reales. Un valor más bajo de MSE indica un ajuste más preciso del modelo a
los datos, lo que significa que las predicciones del modelo se acercan más a
los valores reales.

1 XN
M SE = (yj − ŷj )2 (3.1)
N j=1

donde: yj es el valor verdadero, ŷj es el valor predicho y, N es el número de


datos.

• Error Cuadrático Medio Raíz - Root Mean Squared Error (RMSE): El RMSE sirve
para medir cuánto se desvían las predicciones de un modelo de regresión
de los valores reales en una escala similar a la de los datos originales. Cuanto
menor sea el valor del RMSE, mejor será el ajuste del modelo a los datos.
v
u
u1 X
N
RM SE = t (yj − ŷj )2 (3.2)
N j=1

donde yj es el valor verdadero, ŷj es el valor predicho y, N es el número de


datos.

• R2 (R-Cuadrado): El coeficiente de determinación R2 indica la proporción


de la varianza en la variable dependiente que es predecible a partir de la
variable independiente(s), valores más altos de R2 indican un mejor ajuste
del modelo; es decir, un valor de R2 más cercano a 1 indica un mejor ajuste
del modelo a los datos.
Su importancia radica en proporcionar una medida intuitiva de cuán bien el
modelo captura la estructura subyacente de los datos. R2 es útil para com-
parar modelos en el mismo conjunto de datos y determinar cuál explica mejor
la variación en la variable objetivo.

M SEres
R2 = 1 − (3.3)
M SEtot
X
N X
N
M SEres = (yj − ŷj )2 M SEtot = (yj − ȳj )2 (3.4)
j=1 j=1

donde: M SEres es la suma de los cuadrados de las diferencias entre los val-
ores observados y los valores predichos por el modelo, M SEtot es la suma total
de los cuadrados, que representa la suma de los cuadrados de las diferen-
cias entre los valores observados y la media de los valores observados, ŷj es
el valor predicho, ȳ es la media y, N es el número de datos.

Asignatura: Machine Learning 42


Métricas de clasificación

Los problemas de clasificación son ampliamente estudiados y tienen aplicaciones


en diversos sectores industriales. Estos modelos generan resultados discretos, lo que
requiere métricas específicas para evaluar su desempeño. Las métricas de clasi-
ficación proporcionan una evaluación de cuán efectiva es la clasificación de un
modelo, y existen varias métricas que evalúan el rendimiento de manera diferente.
A continuación, se analizarán las siguientes métricas para evaluar modelos de clasi-
ficación.

• Matriz de confusión - Confusion Matrix: La Matriz de Confusión es una repre-


sentación en forma de tabla que compara las etiquetas reales con las predic-
ciones del modelo. Cada fila de esta matriz representa las instancias que
el modelo predijo como pertenecientes a una determinada clase, mientras
que cada columna representa las instancias reales de esa clase. Es impor-
tante destacar que la Matriz de Confusión no es en sí misma una métrica
de rendimiento, pero proporciona una base fundamental sobre la cual otras
métricas evalúan los resultados.

Figure 3.1: Representación de la matriz de confusión y sus detalles. Imagen extraída


de impulsatek 1

Cada celda de la matriz de confusión (Ver Figure 3.1) representa un factor


de evaluación con sus respectivos conceptos:

– Verdadero Positivo (TP) significa cuántas muestras de la clase positiva tu


modelo predijo correctamente.
– Verdadero Negativo (TN) significa cuántas muestras de la clase nega-
tiva tu modelo predijo correctamente.
– Falso Positivo (FP) significa cuántas muestras de la clase negativa tu mod-
elo predijo incorrectamente. Este factor representa el error de Tipo I en
la nomenclatura estadística. La posición de este error en la matriz de
confusión depende de la elección de la hipótesis nula.
1
https://www.impulsatek.com/

Asignatura: Machine Learning 43


– Falso Negativo (FN) significa cuántas muestras de la clase positiva tu
modelo predijo incorrectamente. Este factor representa el error de Tipo
II en la nomenclatura estadística. La posición de este error en la matriz
de confusión también depende de la elección de la hipótesis nula.

• Precisión (P): La precisión es la proporción de verdaderos positivos y positivos


totales predichos:

TP
P = (3.5)
TP + FP

• Recall/Sensivilidad/Hit-Rate: El Recall es, en esencia, la proporción de ver-


daderos positivos entre todos los positivos en la verdad terrenal. La sensitivi-
dad también se lo conoce como Tasa de verdaderos positivos (TPR) y repre-
senta la probabilidad de obtener un resultado positivo en la prueba cuando
el individuo es verdaderamente positivo.

TP
R= (3.6)
TP + FN

• Especificidad/selectividad: Es la tasa negativa verdadera y refleja la proba-


bilidad de obtener un resultado negativo en la prueba cuando el individuo
es verdaderamente negativo.

TN
TNR = (3.7)
TN + FP

• F1-score: La métrica F1-score utiliza una combinación de precisión y recall


para mostrar la capacidad del modelo de equilibrar ambos aspectos en la
clasificación de las clases positivas y negativas. En efecto, el puntaje F1 es
la media armónica de ambas métricas. Un valor alto de F1-score indica un
buen equilibrio entre precisión y recall.

2
F1 = 1 1 (3.8)
P + R

• Área bajo la curva de características de operación del receptor (AUC-ROC):


Hace uso de las tasas de verdaderos positivos (TPR) y falsos positivos (FPR) y
se lo representa mediante curva.

TP
TPR = (3.9)
TP + FN

FP
FPR = (3.10)
FP + TN

Asignatura: Machine Learning 44


Chapter 4

Bibliografía

“ a mejor vida no es la más larga, sino la más


rica en buenas acciones.”
— Marie Curie

45
Asignatura: Machine Learning 46
Bibliography

Alzubaidi, L., Zhang, J., Humaidi, A. J., Al-Dujaili, A., Duan, Y., Al-Shamma, O., San-
tamaría, J., Fadhel, M. A., Al-Amidie, M., & Farhan, L. (2021). Review of deep
learning: Concepts, cnn architectures, challenges, applications, future direc-
tions. Journal of big Data, 8, 1–74.
Da Xu, L., Lu, Y., & Li, L. (2021). Embedding blockchain technology into iot for security:
A survey. IEEE Internet of Things Journal, 8(13), 10452–10473.
Duan, N., Liu, L.-Z., Yu, X.-J., Li, Q., & Yeh, S.-C. (2019). Classification of multichannel
surface-electromyography signals based on convolutional neural networks.
Journal of Industrial Information Integration, 15, 201–206.
GeeksforGeeks. (n.d.). Ml | introduction to data in machine learning [Accessed:
2024-05-01].
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Wang, X., Liu, Y., & Xin, H. (2021). Bond strength prediction of concrete-encased
steel structures using hybrid machine learning method. Structures, 32, 2279–
2292.
Zhang, C., & Lu, Y. (2021). Study on artificial intelligence: The state of the art and
future prospects. Journal of Industrial Information Integration, 23, 100224.
Zhang, Z., Cui, P., & Zhu, W. (2020). Deep learning on graphs: A survey. IEEE Transac-
tions on Knowledge and Data Engineering, 34(1), 249–270.

47

También podría gustarte