Actividad 5:
Ejercicio
Nombre: Héctor Alejandro Rojas Ortíz
Materia: Explotación de datos empresariales
Programa: Maestría Ciencia de Datos
Docente: Patricia Rayón Villela
San Nicolás de los Garza, N. L., a 04 de agosto 2019
0
Contenido
Introducción...................................................................................................................................2
Reporte............................................................................................................................................2
Conclusión......................................................................................................................................8
Bibliografía......................................................................................................................................8
1
Introducción
El siguiente ejemplo de uso de la matriz de confusión para evaluar la
calidad de la salida de un clasificador en el conjunto de datos de iris, que en
Inteligencia Artificial se aplica para entrenar modelos de clasificación y regresión,
visualizando los límites de decisión de los clasificadores de regresión lineal en las
dimensiones largo y ancho del sépalo.
Reporte
1. Se importan las librerías para trabajar el ejercicio
2. Se importa el dataset iris y se crean matrices de entrada y salida, tomando
el primero y el segundo dato.
2
2.1 Se revisan los valores de x
2.2 Se revisan los valores de y
3. Se dividen los datos en un set de entrenamiento y prueba, esto creará un
set de origen y destino en cada uno de estos.
3
4. Se crea una instancia de Neighbours Classifier y ajustar los datos, en el
modelo de entrenamiento para realizar algunas predicciones.
4.1 Se crea la función para plotear una matriz de confusión. Los datos de
entrada son:
Cm: Matriz de confusion (n-darray).
Classes:Nombre de las clases, lista de strings con el nombre de
cada clase.
Title: Titulo de la matriz de confusion, string.
Cmap: Color de la matriz de confusión
4
4.2 Calculemos la matriz de confusión, en el resultado vemos que las figuras
muestran la matriz de confusión con y sin normalización por tamaño de soporte de
clase (número de elementos en cada clase). Este tipo de normalización puede ser
interesante en caso de desequilibrio de clase para tener una interpretación más
visual de qué clase se está clasificando erróneamente.
Resultados:
Confusion matrix, without normalization
[[13 0 0]
[ 0 11 5]
[ 0 4 5]]
Normalized confusion matrix
[[1. 0. 0. ]
[0. 0.69 0.31]
[0. 0.44 0.56]]
5
5. Trazar el límite de decisión en datos completos, asignándole un color
diferente a cada punto de la malla. Los elementos diagonales representan
el número de puntos para los cuales la etiqueta pronosticada es igual a la
etiqueta verdadera, mientras que los elementos fuera de la diagonal son
aquellos que están mal etiquetados por el clasificador. Cuanto mayores
sean los valores diagonales de la matriz de confusión, mejor, lo que indica
muchas predicciones correctas.
6
Resultado:
Aquí los resultados no son tan buenos como podrían ser, ya que nuestra elección
para el parámetro de regularización C no fue la mejor.
7
Conclusión
Es muy interesante ver como la utilidad de una buena técnica de análisis de
datos elegida correctamente puede lograr un gran empuje a la obtención del éxito
de un modelo, esto teniendo en claro el gran mundo de datos que conforma las
base de datos. Un modelo de clasificación es el que puede predecir a que clase
pertenecerá una instancia, basándose en lo aprendido con los datos históricos, en
una matriz de confusión se profundiza, teniendo en cuenta los tipos de
predicciones correctas o incorrectas que realiza el clasificador, un ejemplo donde
puede ser utilizada es para predecir si un cliente dejará de usar un producto.
Bibliografía
Marturet J. (2018). Evaluación de redes neuronales convolucionales para la
clasificación de imágenes histológicas de cáncer colorrectal mediante
transferencias de aprendizaje. Agosto 04, 2019, de
http://openaccess.uoc.edu Sitio web:
http://openaccess.uoc.edu/webapps/o2/bitstream/10609/74105/6/jmarturetT
FM0118memoria.pdf
Meruane V. & Salamanca E. (2017). OPTIMIZACIÓN DEL
MANTENIMIENTO PREVENTIVO DE FLOTAS EN BASE A TÉCNICAS DE
CLUSTERING Y APRENDIZAJE SUPERVISADO. Agosto 04, 2019, de
http://repositorio.uchile.cl Sitio web:
http://repositorio.uchile.cl/bitstream/handle/2250/149529/Optimizacion-del-
mantenimiento-preventivo-de-flotas-en-base-a-tecnicas-de-clustering.pdf?
sequence=1&isAllowed=y