Semana2 Apoyo
Semana2 Apoyo
Semana2 Apoyo
j.maidanagonzalez
Introducción
Fases en
CRISP-DM Metodologı́a CRISP-DM
Referencias
1
Docente: Jean Paul Maidana González, PhD
1
Facultad de Ingenierı́a
[email protected]
DM
Marzo, 2024
Table of Contents
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
1 Introducción
2 Fases en CRISP-DM
3 Referencias
Agradecimientos
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Propiedad intelectual
Parte de la información presentada en esta diapositiva fue presentada por McConnel, J. &
Clinton, R. An Introduction to the CRISP-DM methodology y las diapositivas de
nuestra docente Mag. Paulette Reyes.
Table of Contents
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
1 Introducción
2 Fases en CRISP-DM
3 Referencias
Introducción
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Cuando se trabaja con grandes conjuntos de datos, las metodologı́as en minerı́a de datos
nos guı́an a encontrar patrones valiosos con un enfoque organizado y estructurado.
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
Referencias
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
OSEMN (Obtain, Scrub, Explore, Model, iNterpret)
Metodologı́as en Minerı́a de Datos
DM
j.maidanagonzalez
Introducción
CRISP-DM (Cross-Industry Standard Process for Data Mining)
Fases en
CRISP-DM
SEMMA (Sample, Explore, Modify, Model, Assess)
Referencias
KDD (Knowledge Discovery in Databases)
TDSP (Team Data Science Process)
Agile Data Mining
OSEMN (Obtain, Scrub, Explore, Model, iNterpret)
Microsoft CRISP-DM Extension
Cada metodologı́a tiene sus fortalezas y debilidades, la elección depende de las
necesidades especı́ficas y los requerimientos de cada proyecto.
3 Pilares
áreas de alto nivel para predecir/minerı́a de datos
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Esta es la taxonomı́a de IBM, la cual es una buena referencia para proyectos de minerı́a de
datos.
En cada área, tenemos un proceso/ciclo y una serie de eventos que queremos predecir y
encontrar un perfil.
Table of Contents
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
1 Introducción
2 Fases en CRISP-DM
3 Referencias
¿Qué es CRISP-DM?
DM
j.maidanagonzalez
CRISP-DM
Introducción
Cross-Industry Standard Process for Data Mining (CRISP-DM) es un estándar abierto el
Fases en
cual describe un enfoque común para abordar proyectos de Minerı́a de datos. Esta
CRISP-DM
metodologı́a comprende 6 fases.
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Las fases de esta metodologı́a no son todas estrictamente secuenciales, ya que por lo
general es necesario volver atrás para realizar iteraciones.
El personal y sus roles
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Roles y etapas
En las fases de proceso CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
1. Comprensión del Negocio
CRISP-DM
Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
1. Comprensión del Negocio
CRISP-DM
Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Realizar una evaluación de la situación actual determinando los antecedentes y
requisitos del problema, tanto en términos de negocio como de minerı́a de datos.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
1. Comprensión del Negocio
CRISP-DM
Referencias
El enfoque principal de la primera fase de un proceso de minerı́a de datos es comprender
los requisitos y objetivos de dicho proyecto.
Establecer cuáles serán los criterios para medir el éxito en el proyecto, ya sean de tipo
cualitativo o cuantitativo.
Realizar una evaluación de la situación actual determinando los antecedentes y
requisitos del problema, tanto en términos de negocio como de minerı́a de datos.
Traza un plan de proyecto donde se tiene en cuenta qué pasos se deben seguir y qué
procedimientos se emplearán en cada uno de ellos.
Fases en CRISP-DM
1. Comprensión del Negocio
DM
j.maidanagonzalez
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Fases en CRISP-DM
DM
j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Fases en CRISP-DM
DM
j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Explorar los datos aplicando técnicas básicas de estadı́stica descriptiva que revelan
propiedades de estos.
Fases en CRISP-DM
DM
j.maidanagonzalez
2. Comprensión de los Datos
Introducción
Es esta fase se lleva a cabo la recolección y exploración inicial de los datos, con el objetivo
Fases en
CRISP-DM de establecer un primer contacto con el problema. En esta etapa es clave es identificar
Referencias cualquier error de registro que exista para su posterior corrección.
Recolectar datos iniciales y adaptarlos a las necesidades del proyecto para su posterior
procesamiento.
Describir los datos obtenidos: número de instancias (filas) y atributos (columnas), el
significado de los atributos y formato de los datos.
Explorar los datos aplicando técnicas básicas de estadı́stica descriptiva que revelan
propiedades de estos.
Verificar los datos para determinar su consistencia, la cantidad y distribución de los
valores nulos o valores fuera de rango (datos atı́picos) que puedan provocar ruido en el
modelado posterior.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
DM
j.maidanagonzalez
DM
j.maidanagonzalez
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
4. Modelado
Introducción
Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Fases en CRISP-DM
DM
j.maidanagonzalez
4. Modelado
Introducción
Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Fases en CRISP-DM
DM
j.maidanagonzalez
4. Modelado
Introducción
Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Fases en CRISP-DM
DM
j.maidanagonzalez
4. Modelado
Introducción
Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Construir los modelos, ejecutando los algoritmos seleccionados sobre los datos
preparados, experimentando con varios modelos y calculando las métricas.
Fases en CRISP-DM
DM
j.maidanagonzalez
4. Modelado
Introducción
Fases en
En esta fase, se aplican diferentes algoritmos de minerı́a de datos para construir modelos
CRISP-DM con el objetivo de estimar el valor de una determinada variable.
Referencias
Seleccionar los algoritmos de modelado más apropiados al problema.
Generar un plan de prueba, donde configuramos los valores de los parámetros que se
usarán para los algoritmos de aprendizaje automático.
Determinar las métricas que se calcularán para evaluar los modelos.
Construir los modelos, ejecutando los algoritmos seleccionados sobre los datos
preparados, experimentando con varios modelos y calculando las métricas.
Evaluar los resultados, donde se analizan las métricas de evaluación obtenidas con el
fin de conocer la bondad de los modelos generados y garantizar que cumplan con los
criterios de éxito definidos al inicio del proyecto.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
5. Evaluación
Referencias En la fase de evaluación, los resultados del modelo se evalúan para determinar si satisface o
no el objetivo de negocio establecido originalmente.
Si la precisión de los modelos en los datos de prueba no es adecuada, se vuelve a las
fases anteriores para ajustar aquellas áreas que pueden ser las razones de la baja
precisión.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
5. Evaluación
Referencias En la fase de evaluación, los resultados del modelo se evalúan para determinar si satisface o
no el objetivo de negocio establecido originalmente.
Si la precisión de los modelos en los datos de prueba no es adecuada, se vuelve a las
fases anteriores para ajustar aquellas áreas que pueden ser las razones de la baja
precisión.
Habiendo alcanzado un nivel satisfactorio de precisión, el proceso pasa a la fase de
despliegue.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Generación de informe final.
Fases en CRISP-DM
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
6. Despliegue
Referencias En la fase de implementación o despliegue se explota la utilidad de los modelos de
predicción para ser integrados en el negocio.
La información valiosa derivada de los datos debe presentarse de tal manera que las partes
interesadas puedan usarlas cuando lo deseen.
Planificación de despliegue, monitorización y del mantenimiento.
Generación de informe final.
Revisión del proyecto
Table of Contents
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
1 Introducción
2 Fases en CRISP-DM
3 Referencias
Referencias
DM
j.maidanagonzalez
Introducción
Fases en
CRISP-DM
Referencias
IBM SPSS Modeler CRISP-DM Guide V.18 release 3. https://www.ibm.com/docs/
it/SS3RA7_18.3.0/pdf/ModelerCRISPDM.pdf
John McConnel & Rachel Clinton. ”An Introduction to the CRISP DM methodol-
ogy”.