Coursera 2

Bienvenido
¡Bienvenido a la Introducción a la Metodología de la Ciencia de Datos!

Este es el comienzo de una historia, una que contará a otros durante los
próximos años.
No será en la forma que experimente aquí, sino más bien a través de las historias que
compartirá con otros, mientras explica cómo su comprensión de una pregunta resultó en una
una respuesta que cambió la forma en que se hizo algo.
A pesar del reciente aumento en la potencia informática y el acceso a los datos durante las
últimas dos
décadas, nuestra capacidad para utilizar los datos en el proceso de toma de decisiones se pierde
o no se maximiza, ya que con demasiada frecuencia, no tenemos una comprensión sólida de la
preguntas
que se hacen y cómo aplicar los datos correctamente al problema en cuestión.
Aquí hay una definición de la palabra metodología.
Es importante considerarlo porque con demasiada frecuencia existe la tentación de eludir
la metodología y saltar directamente a las soluciones.
Hacerlo, sin embargo, obstaculiza nuestras mejores intenciones al intentar resolver un
problema.
Este curso tiene un propósito, y es compartir una metodología que se pueda utilizar dentro
de la ciencia de datos, para garantizar que los datos utilizados en la resolución de problemas
sean relevantes y se
manipulen adecuadamente para abordar la pregunta en cuestión.
La metodología de la ciencia de datos discutida en este curso ha sido descrita por John Rollins,
un científico de datos experimentado y senior que actualmente ejerce en IBM. Este curso se basa
en
su experiencia y expresa su posición sobre la importancia de seguir una metodología
para tener éxito.
En pocas palabras, la Metodología de la Ciencia de Datos tiene como objetivo responder 10
preguntas básicas en una secuencia
prescrita. Como puede ver en esta diapositiva, hay dos preguntas diseñadas para definir
el tema y así determinar el enfoque a utilizar; luego, hay cuatro preguntas
que lo ayudarán a organizarse en torno a los datos que necesitará y, finalmente,
hay cuatro preguntas adicionales destinadas a validar tanto los datos como el enfoque que se
diseña.
Tómese un momento para familiarizarse con las diez preguntas, ya que serán fundamentales
para su éxito.
Este curso consta de varios componentes:
Hay cinco módulos, cada uno de los cuales pasa por dos etapas de la metodología, y explica
la razón de ser de cada etapa. Dentro del mismo módulo, se comparte un caso práctico
que respalda lo que acaba de aprender. También hay un laboratorio práctico que ayuda
a aplicar el material.
El caso práctico incluido en el curso destaca cómo se puede aplicar la metodología de la ciencia
de datos
en contexto.
Gira en torno al siguiente escenario: Hay un presupuesto limitado para brindar atención médica
al público. Los reingresos hospitalarios por problemas recurrentes pueden verse como un signo
de falla
en el sistema para abordar adecuadamente la condición del paciente antes del alta inicial del
paciente.
La pregunta central es: ¿Cuál es la mejor manera de asignar estos fondos para maximizar su
uso en la prestación de atención de calidad? Como verá, si el nuevo programa piloto de ciencia
de datos
tiene éxito, brindará una mejor atención al paciente al brindarles a los médicos nuevas
herramientas
para incorporar información oportuna basada en datos en las decisiones de atención del
paciente.
Las secciones de caso práctico muestran estos íconos en la esquina superior derecha de la
pantalla para ayudarlo
a diferenciar la teoría de la práctica dentro de cada módulo.
También se proporciona un glosario de términos de ciencia de datos para ayudar a aclarar los
términos clave utilizados
en el curso.
Mientras participa en este curso, si se encuentra con desafíos o tiene preguntas,
explore las sesiones de discusión y wiki.
Entonces, ahora que está listo, póngase sus auriculares y, ¡comencemos!
}
Introducción a CRISP-DM
Metodologías de la Ciencia de Datos
Este curso se enfoca en la Metodología Fundacional para la Ciencia de Datos de John
Rollins, que fue presentada en el video anterior. Sin embargo, esta no es la única
metodología que encontrarás en la ciencia de datos. Por ejemplo, en la minería de
datos se usa comúnmente la metodología CRISP-DM (del inglés Cross Industry
Standard Process for Data Mining).
¿Qué es CRISP-DM?
La metodología CRISP-DM es un proceso orientado a incrementar el uso de la
minería de datos en una amplia variedad de aplicaciones de negocios e industrias. La
intención es tomar escenarios de casos específicos y comportamientos generales
para volverlos de dominio neutro. La CRISP-DM está compuesta por 6 pasos que
debe implementar una entidad para tener una probabilidad razonable de éxito.
Estos seis pasos se muestran en el siguiente diagrama:
Fig.1 CRISP-DM model, IBM Knowledge Center, CRISP-DM Help Overview
1. Comprensión del negocio:
Esta etapa es la más importante porque es donde se delimita la intención del

proyecto. La Metodología Fundacional y la CRISP-DM coinciden aquí. Se requiere
comunicación y claridad. La parte difícil es que los actores tienen distintos objetivos,
sesgos y modos de compartir información. No todos ven lo mismo, o no lo ven de la
misma manera. Sin una perspectiva clara, concisa y completa de las metas que
tendrá el proyecto, se gastarán recursos innecesariamente.
2. Comprensión de los datos:
La comprensión de los datos se basa en la comprensión del negocio. En esta etapa

del proceso se recolectan los datos. Entender lo que el negocio quiere y necesita,
determinará cuáles datos se recolectan, de qué fuentes y por cuáles métodos. La
CRISP-DM combina las etapas de Requerimientos de Datos, Recolección de Datos y
Comprensión de los Datos del esquema de la Metodología Fundacional.
3. Preparación de datos:
Cuando se hayan recolectado los datos, deberán transformarse en un subconjunto

utilizable, a menos que se determine que se requieren más datos. Una vez que se
elija un conjunto de datos, debe ser revisado para detectar casos cuestionables,
faltantes, o ambiguos. La Preparación de Datos es común a la Metodología
Fundacional y la CRISP-DM.
4. Modelado:
Cuando estén listos para ser usados, los datos deben expresarse a través de los
modelos apropiados, brindando perspectivas significativas y ojalá conocimiento
nuevo. Este es el propósito de la minería de datos: crear información y conocimiento
que tenga sentido y utilidad. El uso de modelos revela patrones y estructuras dentro
de los datos que ofrecen una mirada a las características de interés. Los modelos se
eligen con una porción de los datos y se hacen ajustes de ser necesario. La elección
de modelos es un arte y una ciencia. Tanto la Metodología Fundacional y la CRISP-
DM se necesitan en la etapa subsiguiente.
5. Evaluación
El modelo elegido debe ser probado. Esto suele llevarse a cabo con una prueba
preseleccionada sobre la cual se ejecuta el modelo. Esto te permitirá ver la
efectividad del modelo sobre un conjunto que percibe como nuevo. Los resultados
de esta prueba se usan para determinar la eficacia del modelo y deja entrever su
papel en la siguiente y última etapa.
6. Despliegue:
En la fase de despliegue, el modelo se usa con datos nuevos por fuera del alcance del
conjunto de datos inicial y por parte de nuevos actores. Las interacciones nuevas en
esta fase pueden revelar nuevas variables y necesidades del conjunto de datos y el
modelo. Estos nuevos desafíos podrían dar lugar a la revisión de las necesidades y
acciones del negocio, o del modelo y los datos, o de ambos.
El CRISP-DM es un modelo altamente flexible y cíclico. Se necesita flexibilidad en

cada paso, al igual que comunicación, para conducir el proyecto por buen camino.
En cualquiera de las 6 etapas, puede ser necesario regresar a una etapa más
temprana y realizar cambios. El punto clave de este proceso es su carácter cíclico;
por lo tanto, incluso al final vas a tener nuevos encuentros de comprensión del
negocio para discutir la viabilidad luego del despliegue. El viaje continúa.
Para mayor información sobre CRISP-DM, visita: IBM Knowledge Center – CRISP-DM
Business Understanding
Welcome to Data Science Methodology 101 From Problem to Approach Business Understanding!
Has this ever happened to you?
You've been called into a meeting by your boss, who makes you aware of an important
task one with a very tight deadline that absolutely has to be met.
You both go back and forth to ensure that all aspects of the task have been considered
and the meeting ends with both of you confident that things are on track.
Later that afternoon, however, after you've spent some time examining the various issues
at play, you realize that you need to ask several additional questions in order to truly
accomplish the task.
Unfortunately, the boss won't be available again until tomorrow morning.
Now, with the tight deadline still ringing in your ears, you start feeling a sense of
uneasiness.
So, what do you do?
Do you risk moving forward or do you stop and seek clarification.
Data science methodology begins with spending the time to seek clarification, to attain
what can be referred to as a business understanding.
Having this understanding is placed at the beginning of the methodology because getting
clarity around the problem to be solved, allows you to determine which data will be used to
answer the core question.
Rollins suggests that having a clearly defined question is vital because it ultimately directs
the analytic approach that will be needed to address the question.
All too often, much effort is put into answering what people THINK is the question, and while
the methods used to address that question might be sound, they don't help to solve
the actual problem.
Establishing a clearly defined question starts with understanding the GOAL of the person
who is asking the question.
For example, if a business owner asks: "How can we reduce the costs of performing an activity?"
We need to understand, is the goal to improve the efficiency of the activity?
Or is it to increase the businesses profitability?
Once the goal is clarified, the next piece of the puzzle is to figure out the objectives
that are in support of the goal.
By breaking down the objectives, structured discussions can take place where priorities
can be identified in a way that can lead to organizing and planning on how to tackle the
problem.
Depending on the problem, different stakeholders will need to be engaged in the discussion
to help determine requirements and clarify questions.
So now, let's look at the case study related to applying "Business Understanding"
In the case study, the question being asked is: What is the best way to allocate the limited
healthcare budget to maximize its use in providing quality care?
This question is one that became a hot topic for an American healthcare insurance provider.
As public funding for readmissions was decreasing, this insurance company was at risk of having
to make up for the cost difference,which could potentially increase rates for its customers.
Knowing that raising insurance rates was not going to be a popular move, the insurance
company sat down with the health care authorities in its region and brought in IBM data
scientists
to see how data science could be applied to the question at hand.
Before even starting to collect data, the goals and objectives needed to be defined.
After spending time to determine the goals and objectives, the team prioritized "patient
readmissions" as an effective area for review.
With the goals and objectives in mind, it was found that approximately 30% of individuals
who finish rehab treatment would be readmitted to a rehab center within one year; and that
50% would be readmitted within five years.
After reviewing some records, it was discovered that the patients with congestive heart failure
were at the top of the readmission list.
It was further determined that a decision-tree model could be applied to review this scenario,
to determine why this was occurring.
To gain the business understanding that would guide the analytics team in formulating and
performing their first project, the IBM Data scientists, proposed and delivered an on-site
workshop to kick things off.
The key business sponsors involvement throughout the project was critical, in that the sponsor:
Set overall direction
Remained engaged and provided guidance.
Ensured necessary support, where needed.
Finally, four business requirements were identified for whatever model would be built.
Namely:
Predicting readmission outcomes for those patients with Congestive Heart Failure
Predicting readmission risk.
Understanding the combination of events that led to the predicted outcome
Applying an easy-to-understand process to new patients, regarding their readmission
risk.
This ends the Business Understanding section of this course.
Thanks for watching!
Enfoque analítico
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Problema al Enfoque! Enfoque
Analítico.
Seleccionar el enfoque analítico adecuado dependerá de la pregunta a responder.
El enfoque incluye buscar aclaraciones de la persona que hace la pregunta,
para poder elegir la ruta o enfoque más apropiado.
En este video veremos cómo aplicar la segunda etapa de la metodología de la ciencia de datos.
Una vez definido el problema a resolver, el enfoque analítico apropiado para este
problema se selecciona en el contexto de las necesidades del negocio.
Esta es la segunda etapa de la metodología de la ciencia de datos.
Habiendo logrado una sólida comprensión de la pregunta, se puede seleccionar el
enfoque analítico.
Esto significa identificar el tipo de patrones necesarios para responder la pregunta del modo
más
efectivo.
Si la pregunta es determinar las probabilidades de una acción, podría usarse un modelo
predictivo.
Si la pregunta es mostrar relaciones, podría necesitarse un enfoque descriptivo.
Éste observaría grupos de actividades similares con base en eventos y
preferencias.
El análisis estadístico aplica para los problemas que requieren conteos.
Por ejemplo, si la pregunta requiere una respuesta "sí" o "no", sería adecuado un enfoque
de clasificación para predecir una respuesta.
El Aprendizaje Automático es un campo de estudio que dota a las computadoras de capacidad
para aprender sin
ser explícitamente programadas.
El Aprendizaje Automático puede usarse para identificar relaciones y tendencias en los datos,
que de otro modo no serían
accesibles o identificadas.
En casos donde la pregunta sea aprender sobre el comportamiento humano, una respuesta
apropiada sería usar enfoques de Análisis de Grupos.
Ahora, veamos el estudio de caso en relación con la aplicación del Enfoque Analítico.
Para el estudio de caso, se usó un modelo de clasificación de árbol de decisión para identificar la
combinación
de condiciones que conducen al resultado de cada paciente.
En este enfoque, examinar las variables de cada nodo a lo largo de la ruta de cada
hoja, condujo a un respectivo valor de umbral.
Esto significa que la clasificación de árbol de decisión indica tanto el resultado predicho, como
la
probabilidad de cada desenlace, con base en la proporción de un resultado dominante, "sí" o
"no", en cada
grupo.
Con esta información, los analistas pueden obtener el riesgo de readmisión, o la probabilidad de
un "sí" para cada paciente. Si el resultado dominante es "sí", entonces el riesgo
es simplemente la proporción de pacientes "sí" de la hoja.
Si es "no", entonces el riesgo es 1 menos la proporción de pacientes "no" de la hoja.
Un modelo de clasificación de árbol de decisión es fácil de aplicar y entender para los no
científicos
de datos, para puntuar a nuevos pacientes según su riesgo de readmisión.
Los médicos ven fácilmente las condiciones que hacen que un paciente sea puntuado como de
alto riesgo,
y pueden construirse y aplicarse múltiples modelos en varios puntos de la estadía en el hospital.
Esto brinda una imagen móvil del riesgo del paciente y cómo éste evoluciona con los diversos
tratamientos aplicados. Por ello, se eligió el enfoque de clasificación de árbol
de decisión para construir el modelo de readmisión de Insuficiencia Cardíaca.
Aquí termina la sección de Enfoque Analítico de este curso.
¡Gracias por tu atención!
Requerimientos de datos
Bienvenido a Data Science Metodología 101 De los requisitos a los requisitos de recopilación de
datos!
Si tu objetivo es hacer una cena de espaguetis pero no tienes los ingredientes adecuados
para hacer este plato, entonces tu éxito se verá comprometido.
Piense en esta sección de la metodología de la ciencia de datos como cocinar con datos.
Cada paso es fundamental para hacer la comida.
Por lo tanto, si el problema que debe resolverse es la receta, por así decirlo, y los datos
son un ingrediente, entonces el científico de datos necesita identificar: qué ingredientes se
requieren, cómo obtener o recolectarlos,
cómo entenderlos o trabajar con ellos, y cómo preparar los datos para cumplir con el
resultado deseado.
Basándose en la comprensión del problema en cuestión, y luego utilizando el enfoque analítico
seleccionado, el Data Scientist está listo para comenzar.
Ahora veamos algunos ejemplos de los requisitos de datos dentro de la metodología de la ciencia
de datos.
Antes de emprender las etapas de recopilación y preparación de datos de la metodología,
es vital definir los requisitos de datos para la clasificación del árbol de decisiones.
Esto incluye la identificación del contenido de datos, formatos y fuentes necesarios para la
recopilación inicial de datos.
Así que ahora, veamos el estudio de caso relacionado con la aplicación de «Requisitos de Datos».
En el estudio de caso, la primera tarea fue definir los requisitos de datos para el
enfoque de clasificación del árbol de decisiones seleccionado.
Esto incluyó la selección de una cohorte de pacientes adecuada de la
base de afiliados de proveedores de seguros médicos. Con el
fin de compilar las historias clínicas completas, se identificaron tres criterios
para su inclusión en la cohorte.
Primero, un paciente necesitaba ser ingresado como paciente internado dentro del área de
servicio del proveedor, para
que tuviera acceso a la información necesaria.
En segundo lugar, se centraron en pacientes con diagnóstico primario de insuficiencia cardíaca
congestiva durante
un año completo.
En tercer lugar, el paciente debe haber tenido una matrícula continua durante al menos seis
meses, antes
del ingreso primario por insuficiencia cardíaca congestiva, para
poder compilar la historia clínica completa.
Los pacientes con insuficiencia cardíaca congestiva que también habían sido diagnosticados con
otras
afecciones médicas significativas, fueron excluidos de la cohorte porque estas afecciones
provocarían
tasas de reingreso superiores a la media y, por lo tanto, podrían sesgar los resultados.
Luego se
definió el contenido, el formato y las representaciones de los datos necesarios para la
clasificación del árbol de decisiones.
Esta técnica de modelado requiere un registro por paciente, con columnas que representan
las variables del modelo.
Para modelar el resultado de la readmisión, era necesario contar con datos que cubran todos los
aspectos de la
historia clínica del paciente.
Este contenido incluiría admisiones, diagnósticos primarios, secundarios y terciarios,
procedimientos,
prescripciones y otros servicios prestados durante la hospitalización o durante las
visitas al paciente o al médico.
Por lo tanto, un paciente en particular podría tener miles de registros, representando todos sus
atributos relacionados.
Para llegar al formato de un registro por paciente, los científicos de datos enrollaron los
registros transaccionales al nivel del paciente, creando una serie de nuevas variables para
representar esa información.
Este fue un trabajo para la etapa de preparación de datos, por lo que
es importante pensar en el futuro y anticipar las etapas posteriores.
Esto finaliza la sección Requisitos de datos para este curso.
¡ Gracias por mirar!
Recolección de datos
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 De los Requerimientos a la Recolección!
Recolección de datos.
Luego de hacer la recolección de datos inicial, el científico de datos hace una evaluación
para determinar si tiene o no tiene lo que necesita.
Como ocurre cuando se compran ingredientes para la cena, algunos ingredientes pueden estar
fuera de temporada y ser más difíciles de obtener, o más costosos de pensado.
En esta fase se revisan los requerimientos de datos y se decide si la recolección
requiere más, o menos datos.
Una vez recolectados los ingredientes de datos en la etapa de recolección, el científico de datos
tendrá una buena comprensión de los insumos con los cuales trabajará.
Técnicas como la estadística descriptiva y la visualización pueden aplicarse al conjunto
de datos para evaluar su contenido, calidad y conclusiones iniciales.
Se identificarán vacíos en los datos y se harán planes, ya sea para llenarlos o
hacer sustituciones.
En esencia, los ingredientes están ahora sobre la tabla de corte.
Ahora veamos algunos ejemplos de la etapa de recolección de la metodología de la ciencia de
datos.
Esta etapa se emprende al finalizar la etapa de requerimientos de datos.
Veamos el estudio de caso en relación con la aplicación de la "Recolección de datos".
Para recolectar datos, necesitas saber la fuente o el modo de hallar los elementos de datos
que se requieren.
En el contexto de nuestro estudio de caso, estos pueden incluir:
información demográfica, clínica o de cobertura de los pacientes,
información de proveedor, registros de reclamos, al igual que
información farmacéutica y adicional relacionada con diagnósticos de pacientes de
insuficiencia cardíaca.
En este estudio de caso, se necesitaba cierta información de medicamentos, pero esa fuente de
datos
aún no estaba integrada al resto de las fuentes de datos.
Esto nos lleva a un punto importante: Está bien aplazar decisiones acerca de datos no
disponibles,
e intentar adquirirlos en una etapa posterior.
Por ejemplo, esto puede hacerse aún después de obtener resultados intermedios del modelado
predictivo.
Si esos resultados indican que la información de medicamentos será importante para lograr un
buen modelo,
se invertiría el tiempo para intentar conseguirla.
Sin embargo, resultó que pudieron construir un modelo razonablemente bueno sin esta
información de medicamentos.
Los DBA y programadores a menudo trabajan juntos para extraer datos de diversas fuentes,
y luego la combinan.
Esto permite eliminar datos redundantes, dejándolos a disposición para la próxima etapa de la
metodología,
que es la comprensión de datos.
En esta etapa, si es necesario, científicos de datos y miembros del equipo de análisis pueden
discutir maneras
de manejar mejor sus datos, como automatizar ciertos procesos en la base de datos, para que
la recolección de datos sea más fácil y rápida.
Comprensión de los datos

¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 De la Comprensión a la Preparación!
Comprensión de los Datos.
La comprensión de los datos involucra todas las actividades de construcción de un conjunto de
datos.
En esencia, la sección de comprensión de los datos de la metodología de la ciencia de datos
responde a
esta pregunta: ¿Los datos que recolectaste son representativos del problema a resolver?
Apliquemos la etapa de comprensión de los datos de nuestra metodología, al estudio de caso
que hemos
venido examinando.
Para comprender los datos relacionados con admisiones por insuficiencia cardíaca, se debía
correr
estadísticas descriptivas frente a las columnas de datos que se volverían variables en
el modelo.
Primero, estas estadísticas incluyeron Hearst, univariantes y estadísticas en cada variable tales
como media,
mediana, mínimo, máximo y desviación estándar.
Segundo, se usaron correlaciones por pares, para ver qué tan cerca se relacionaban ciertas
variables,
y cuáles, si las había, estaban muy altamente correlacionadas, de modo que serían
esencialmente redundantes,
haciendo que sólo una fuera relevante para el modelado.
Tercero, se examinaron histogramas de las variables para entender sus distribuciones.
Los histogramas son un buen modo de entender cómo se distribuyen los valores de una variable,
y cuáles tipos de preparación se necesitarían para volver la variable más útil en un modelo.
Por ejemplo, para que una variable categórica con demasiados valores distintos sea informativa
en un modelo, el histograma les ayudaría a decidir cómo consolidar esos valores.
Univariantes, estadísticas e histogramas también se usan para evaluar la calidad de los datos.
Con la información conseguida, ciertos valores pueden recodificarse o incluso descartarse de ser
necesario, como cuando cierta variable tiene demasiados valores faltantes.
La pregunta es, entonces, ¿"faltante" significa algo?
A veces un valor faltante puede significar "no", o "0" (cero), o en ocasiones sólo
significa "no sabemos". O, si una variable contiene valores inválidos o confusos, tales
como una variable numérica llamada "edad" que contiene 0 a 100 y también 999, donde ese
"triple-9" realmente significa "faltante", pero se trataría como un valor válido a menos que
lo corrigiéramos.
Inicialmente, el significado de admisión por insuficiencia cardíaca se decidió sobre la base
de un diagnóstico primario de insuficiencia cardíaca.
Pero al avanzar en la etapa de comprensión de los datos se reveló que la definición inicial
no capturaba todas las admisiones por insuficiencia cardíaca que se esperaban, según la
experiencia clínica.
Esto implicó volver a la etapa de recolección de datos y agregar diagnósticos secundarios y
terciarios,
construyendo una definición más completa de la admisión por insuficiencia cardíaca.
Este sólo es un ejemplo de los procesos interactivos de la metodología.
Entre más se trabaja con el problema y los datos, más se aprende y por lo tanto más
refinamientos pueden hacerse dentro del modelo, llevando en últimas a una mejor solución
del problema.
Aquí termina la sección de Comprensión de los Datos de este curso.
Preparación de datos - Conceptos

Preparación de Datos.
- ¡Conceptos!
En cierta forma, la preparación de datos se parece a lavar los vegetales recién elegidos
pues elimina los elementos indeseados, como la tierra e imperfecciones.
Junto con la recolección de datos y la comprensión de datos, la preparación de datos es la fase
más
dispendiosa de un proyecto de ciencia de datos, ocupando por lo general el setenta por ciento y
aún
el noventa por ciento del tiempo total del proyecto.
Automatizar algunos procesos de recolección y preparación de datos en la base datos puede
reducir este tiempo a tan sólo el 50 por ciento.
Este ahorro se traduce en más tiempo para que los científicos de datos se centren en crear
modelos.
Continuando con la metáfora culinaria, sabemos que el proceso de cortar cebollas
en trozos más pequeños permitirá que su sabor se esparza por la salsa más fácil que
si dejáramos caer la cebolla entera en la olla de la salsa.
Así mismo, transformar los datos en la etapa de preparación es el proceso de llevar los datos a
un estado en que sea más fácil trabajar con ellos.
En particular, la etapa de preparación de datos de la metodología responde a esto: ¿Cuáles
son los modos de preparación de los datos?
Para trabajar efectivamente con datos, deben prepararse de una forma que aborde los datos
faltantes o inválidos y remueva duplicados, para asegurar que todo está debidamente
formateado.
La ingeniería de características también es parte de la preparación de datos.
Es el proceso de usar conocimiento del dominio de los datos para crear características que
hagan
funcionar algoritmos de aprendizaje automático.
Una característica es una propiedad que puede ayudar a resolver un problema.
Las características de los datos son importantes en los modelos predictivos e influyen en los
resultados
que quieras conseguir.
La ingeniería de características es crítica al aplicar herramientas de aprendizaje automático para
analizar los datos.
Al trabajar con texto, se necesitan pasos de análisis textual para codificar los datos y así poder
manipular los datos.
El científico de datos debe saber qué está buscando en su conjunto de datos para abordar
la pregunta.
El análisis textual es crucial para fijar las agrupaciones apropiadas, y asegurar que la
programación no pase por alto lo que se oculta en el interior.
La fase de preparación de datos prepara el terreno para los próximos pasos en torno a la
pregunta.
Si bien esta fase puede ser demorada, si se hace bien los resultados respaldarán el proyecto.
Si se deja de lado, el resultado no estará a la altura y podría obligarte
a comenzar desde cero.
Es vital invertir tiempo en esta etapa, y usar las herramientas disponibles para automatizar los
pasos
comunes y acelerar la preparación de datos.
Asegúrate de prestarle atención a los detalles en esta fase.
Después de todo, un sólo ingrediente malo puede arruinar una buena receta.
Aquí termina la sección de Preparación de Datos de este curso, en la cual repasamos conceptos
claves.
Preparación de datos - Estudio de caso

Preparación de Datos.
- ¡Estudio de caso!
En cierta forma, la preparación de datos se parece a lavar los vegetales recién elegidos
pues elimina los elementos indeseados, como la tierra e imperfecciones.
Ahora, veamos el estudio de caso en relación con la aplicación de conceptos de Preparación de
Datos.
En este estudio de caso, un primer paso importante en la etapa de preparación de datos era
definir la insuficiencia cardíaca.
Esto parecía fácil al inicio, pero definirlo con precisión no fue tan simple.
Primero, el conjunto de códigos grupales de diagnóstico debía ser identificado, pues la
insuficiencia cardíaca trae cierto tipo de retención de fluidos.
También debíamos tener en cuenta que la insuficiencia cardíaca es tan sólo un tipo de afección
cardíaca.
Necesitamos ayuda médica para obtener los códigos correctos de insuficiencia cardíaca.
El próximo paso incluyó definir los criterios de readmisión para esta dolencia.
La secuencia de eventos debía evaluarse para definir si una admisión por insuficiencia cardíaca
en particular era un evento inicial, denominado admisión índice, o una readmisión relacionada
con insuficiencia cardíaca.
Con base en la experiencia médica, se fijó un periodo de 30 días como ventana de readmisión
relevante para pacientes de insuficiencia cardíaca, luego de recibir el alta por la admisión inicial.
Luego se agregaron los registros que estaban en formato transaccional, es decir, que los datos
incluían múltiples registros por cada paciente.
Los registros transaccionales incluían reclamos en instalaciones profesionales del proveedor por
servicios médicos, de laboratorio, hospitalarios y clínicos.
También se incluían registros de todos los diagnósticos, procedimientos, prescripciones,
y más información de pacientes hospitalizados y ambulatorios.
Un paciente dado podía tener cientos o incluso miles de estos registros, dependiendo
de su historia clínica.
Luego se agregaron todos los registros transaccionales a nivel del paciente, obteniendo un sólo
registro
para cada paciente, como exigía el método de clasificación de árbol de decisión que se usaría
para
el modelado.
Como parte del proceso de agregación, se crearon muchas columnas nuevas para la información
de las transacciones.
Por ejemplo, la frecuencia y últimas visitas a doctores, clínicas y hospitales con diagnósticos,
procedimientos, prescripciones, y demás.
También se tuvieron en cuenta las comorbilidades de la insuficiencia cardíaca, como diabetes,
hipertensión,
y muchas otras afecciones y dolencias crónicas que podrían afectar el riesgo de readmisión
por insuficiencia cardíaca.
Como parte del debate sobre la preparación de datos, también se hizo una revisión bibliográfica
sobre la insuficiencia cardíaca para evitar omitir elementos de datos importantes, como
comorbilidades
que no se hubieran tenido en cuenta aún.
La revisión bibliográfica implicó volver a la etapa de recolección de datos para agregar algunos
indicadores adicionales para dolencias y procedimientos.
Agregar los datos transaccionales a nivel del paciente, significó combinarlos con otros
datos del paciente, incluyendo su información demográfica, como edad, género, tipo de
seguro, entre otros.
El resultado fue la creación de una tabla con un sólo registro por paciente, y muchas columnas
que representaban los atributos del paciente en su historia clínica.
Estas columnas se usarían como variables en el modelado predictivo.
Esta es una lista de las variables que se utilizaron para construir el modelo.
La variable dependiente, o resultado, era la readmisión por insuficiencia cardiaca en los 30 días
siguientes
a recibir el alta de una hospitalización por insuficiencia cardíaca, con un resultado de "sí"
o "no".
La etapa de preparación de datos arrojo una cohorte de 2.343 pacientes que cumplían los
criterios
para este estudio de caso.
Esta cohorte luego se dividió en grupos de entrenamiento y prueba para construir y validar el
modelo, respectivamente.
Aquí termina la sección de Preparación de Datos de este curso, en la que aplicamos conceptos
claves
al estudio de caso.
Modelado - Conceptos
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Modelado a la Evaluación! Modelado
- Conceptos.
¡El modelado es la etapa de la metodología de la ciencia de datos donde el científico de datos
tiene la
oportunidad de probar la salsa y decidir si está en el punto o necesita más condimentos!
Esta porción del curso está dirigida a responder dos preguntas claves:
Primero, cuál es el propósito del modelado de datos, y,
segundo, ¿cuáles son algunas características de este proceso?
El Modelado de Datos se enfoca en desarrollar modelos que sean, o descriptivos, o predictivos.
Un modelo descriptivo podría examinar, por ejemplo, cosas como: si una persona hace esto,
entonces es probable que prefiera aquello.
Un modelo predictivo intenta dar resultados de tipo sí/no, o stop/go.
Estos modelos se basan en el enfoque analítico que se haya elegido, ya sea impulsado por la
estadística,
o por el aprendizaje automático.
El científico de datos usará un conjunto de entrenamiento para el modelado predictivo.
Un conjunto de entrenamiento es un conjunto de datos históricos para los cuales ya se conoce el
resultado.
El conjunto de entrenamiento funciona como un medidor para definir si el modelo debe ser
calibrado.
En esta etapa, el científico de datos jugará con distintos algoritmos para asegurar
que las variables en acción realmente se requieran.
El éxito de la compilación, preparación y modelado de datos, dependerá de la comprensión
del problema a mano y de la elección del enfoque analítico apropiado.
Los datos ayudan a la resolución de la pregunta, y como la calidad de los ingredientes al
cocinar, preparan el terreno para el resultado.
Se debe refinar, ajustar y afinar constantemente en cada paso, para asegurar que el
resultado sea uno sólido.
En la descriptiva Metodología de la Ciencia de Datos de John Rollins, el marco de referencia
busca
conseguir 3 cosas: Primero,
comprender la pregunta a mano. Segundo,
elegir un enfoque analítico o método para resolver el problema, y,
tercero,
obtener, comprender, preparar y modelar los datos.
La meta final es llevar al científico de datos a un punto donde pueda construir un modelo de
datos
para responder la pregunta.
Cuando la cena está lista para servir y el huésped hambriento está a la mesa, la pregunta clave
es: ¿He preparado bastante para comer?
Bien, esperemos que así sea.
En esta etapa de la metodología, los bucles de evaluación, despliegue y retroalimentación del
modelo aseguran
que la respuesta sea cercana y relevante.
Esta relevancia es crucial para el campo de la ciencia de datos
en general, por ser un campo de estudio más bien reciente, y nos interesan las posibilidades
que tiene para ofrecer.
Entre más gente se beneficie con los resultados de esta práctica, más lejos avanzará su
desarrollo.
Aquí termina la sección de Modelado a Evaluación de este curso, en la cual repasamos los
conceptos
clave relacionados con el modelado. ¡Gracias por tu atención!
Modelado - Estudio de caso

¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Modelado a la Evaluación! Modelado
- Estudio de caso.
¡El modelado es la etapa de la metodología de la ciencia de datos donde el científico de datos
tiene la
oportunidad de probar la salsa y decidir si está en el punto o necesita más condimentos!
Ahora, apliquemos el estudio de caso a la etapa de modelado de la metodología de la ciencia de
datos.
Aquí, discutiremos los muchos aspectos de la construcción de modelos, en este caso, el ajuste
de parámetros para mejorar el modelo.
Con un conjunto de entrenamiento listo, se puede construir el primer modelo de clasificación de
árbol de decisión
para la readmisión por insuficiencia cardíaca.
Buscamos pacientes con alto riesgo de readmisión, así que el resultado que nos interesa
será readmisión por insuficiencia cardíaca igual a "sí".
En este primer modelo, la precisión general en la clasificación de resultados "sí" y "no" fue del
85%.
Suena bien, pero sólo representa el 45% del "sí". Las readmisiones reales están
clasificadas correctamente, de manera que el modelo no es muy preciso.
La pregunta es, entonces: ¿Cómo se podría mejorar la precisión del modelo para predecir el
resultado "sí"?
En la clasificación de árbol de decisión, el mejor parámetro para ajustar es el costo relativo de
los resultados "sí" y "no" mal clasificados.
Míralo así:
Cuando una no-readmisión verdadera se clasifica mal, y se adoptan acciones para reducir el
riesgo
del paciente, el costo de aquel error es la intervención desperdiciada.
Un estadístico llamaría a esto un error tipo I, o un falso positivo.
Pero cuando una readmisión verdadera se clasifica mal, y no se adoptan acciones para reducir
ese riesgo,
el costo de aquel error es la readmisión y todos sus costos relacionados, además del
traumatismo
para el paciente.
Este es un error tipo II, o un falso negativo.
Como podemos ver, los costos de los dos tipos de errores de mala clasificación pueden ser
bastante
diferentes.
Por esta razón, es razonable ajustar los pesos relativos de la mala clasificación de
resultados "sí" y "no".
Por defecto es de 1 a 1, pero el algoritmo de árbol de decisión permite fijar un valor
más alto para "sí".
En el segundo modelo, el costo relativo se fijó en 9 a 1.
Esta es una relación muy alta, pero permite explorar el comportamiento del modelo.
Esta vez, el modelo clasificó correctamente el 97% de los "sí", pero a costa de una muy baja
precisión para el "no", con una precisión general de sólo 49%.
Claramente, este no era un buen modelo.
El problema con este resultado es el alto número de falsos positivos, que recomendarían
intervenciones costosas e innecesarias, para pacientes que no hubieran sido readmitidos de
ninguna manera.
Por lo tanto, el científico de datos debe volver a tratar de hallar un mejor equilibrio entre
las precisiones del "sí" y el "no".
En el tercer modelo, el costo relativo se fijó en un más razonable 4 a 1.
Esta vez se obtuvo una precisión del 68% sólo en el "sí", denominada sensibilidad por los
estadísticos,
y una precisión del 85% para el "no", llamada especificidad, con una precisión general del 81%.
Este es el mejor balance que se puede conseguir con un conjunto de entrenamiento más bien
pequeño a través del ajuste
del parámetro de costo relativo de mala clasificación de resultados "sí" y "no".
El modelado, por supuesto, requiere mucho más trabajo, incluyendo iterar de vuelta a la etapa
de preparación de datos para redefinir algunas otras variables, para así representar mejor
la información subyacente, y en consecuencia mejorar el modelo.
Aquí termina la sección de Modelado de este curso, en la cual aplicamos el Estudio de Caso
a la etapa de modelado de la metodología de la ciencia de datos.
Evaluación
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Modelado a la Evaluación!
Evaluación.
La evaluación de un modelo va de la mano de su misma construcción. Las etapas de
modelado y evaluación se hacen iterativamente.
La evaluación de un modelo se hace durante su desarrollo y antes de ser desplegado.
La evaluación permite evaluar la calidad del modelo pero también es una oportunidad
para ver si cumple con la solicitud inicial.
La evaluación responde a la pregunta: ¿El modelo usado realmente responde la pregunta inicial,
o necesita ser ajustado?
La evaluación del modelo puede tener dos fases principales.
La primera es la fase de medidas de diagnóstico, que se usa para asegurar que el modelo
funcione
como se pretendía.
Si es modelo es predictivo, se puede usar un árbol de decisión para evaluar si la respuesta
que arroja el modelo está alineada con el diseño inicial.
Se puede usar para ver dónde hay áreas que requieran ajustes.
Si el modelo es descriptivo, uno donde se evalúen relaciones, entonces puede aplicarse
un conjunto de prueba con resultados conocidos, y el modelo puede refinarse como sea
requerido.
La segunda fase de evaluación que puede usarse es la prueba de importancia estadística.
Este tipo de evaluación puede aplicarse al modelo para asegurar que los datos estén siendo
manejados e interpretados adecuadamente dentro del modelo.
Está diseñado para evitar dudas innecesarias cuando la respuesta sea revelada.
Ahora, volvamos a nuestro estudio de caso para aplicar el componente de Evaluación
de la metodología de la ciencia de datos.
Veamos una forma de hallar el modelo óptimo con una medida de diagnóstico con base en
el ajuste de uno de los parámetros de construcción del modelo.
En particular, veremos cómo ajustar el costo relativo de mala clasificación de resultados "sí" y
"no".
Como indica esta tabla, se hicieron cuatro modelos con cuatro costos relativos diferentes de
mala
clasificación.
Como vemos, cada valor de este parámetro de construcción de modelos aumenta la tasa de
verdaderos positivos,
o la sensibilidad, de la precisión para predecir "sí", a expensas de una menor precisión para
predecir
"no". Esto es, una creciente tasa de falsos positivos.
La pregunta es, ¿cuál modelo es mejor con base en el ajuste de este parámetro?
Por razones de presupuesto, la intervención de reducción de riesgo no podía aplicarse a la
mayoría o la totalidad
de los pacientes de insuficiencia cardíaca, muchos de los cuales no habrían sido readmitidos de
cualquier manera.
Por otra parte, la intervención no sería tan efectiva para mejorar la atención al paciente
como debería, si no se enfocaran suficientes pacientes de insuficiencia cardíaca de alto riesgo.
Entonces, ¿cómo definir cuál era el modelo óptimo?
Como puedes ver en esta dispositiva, el modelo óptimo es el que brinda la máxima separación
entre la curva ROC azul con respecto a la línea base roja.
Vemos que el modelo 3, con un costo relativo de mala clasificación de 4 a 1, es el mejor de los 4
modelos.
Y por si acaso tenías curiosidad, el acrónimo ROC se traduce como Característica Operativa del
Receptor,
creada en la Segunda Guerra Mundial para detectar aviones enemigos en el radar.
Desde entonces ha sido usada en muchos otros campos.
Hoy es de uso común en el aprendizaje automático y la minería de datos.
La curva ROC es una útil herramienta de diagnóstico para definir el modelo óptimo de
clasificación.
Esta curva cuantifica el desempeño de un modelo binario de clasificación, desclasificando los
resultados
"sí" y "no" cuando cambia algún criterio de discriminación.
En este caso, el criterio es el costo relativo de mala clasificación.
Al graficar la tasa de verdaderos positivos contra la tasa de falsos positivos para distintos valores
del costo relativo de mala clasificación, la curva ROC ayudó a seleccionar el modelo
óptimo.
Aquí termina la sección de Evaluación de este curso.
Despliegue
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Despliegue a la Retroalimentación!
Despliegue.
Si bien un modelo de ciencia de datos dará una respuesta, la clave para hacerla relevante
y útil para abordar la pregunta inicial, implica familiarizar a los actores
con la herramienta producida.
En un escenario de negocios, los actores tienen distintas especialidades que ayudarán a
este objetivo, como el dueño de la solución, mercadeo, desarrolladores y administración de IT.
Cuando el modelo ha sido evaluado y el científico de datos confía en que funcionará, se
despliega
y se somete a la prueba definitiva.
Dependiendo del propósito del modelo, puede lanzarse entre un grupo limitado de usuarios
o en un entorno de prueba, creando confianza en la aplicación del resultado con miras a un uso
generalizado.
Ahora, veamos el estudio de caso en relación con la aplicación del "Despliegue".
Como preparación para el despliegue de la solución, el próximo paso era asimilar el
conocimiento
al grupo de negocios que diseñaría y administraría el programa de intervención para reducir
el riesgo de readmisión.
En este escenario, la gente de negocios tradujo los resultados del modelo para que el equipo
médico
entendiera cómo identificar pacientes de alto riesgo y diseñara acciones de intervención
adecuadas.
La meta, claro, era reducir la probabilidad de que aquellos pacientes fueran readmitidos dentro
de
30 días después del alta.
En la etapa de requisitos del negocio, la Directora del Programa de Intervención y su equipo
querían una aplicación que brindara evaluaciones de riesgo de insuficiencia cardíaca
automáticas,
casi en tiempo real.
También debía ser de fácil uso para el equipo médico, ojalá mediante una aplicación
de tablet basada en navegador, que cada miembro del equipo pudiera portar.
Los datos del paciente se generarían a lo largo de la hospitalización.
Automáticamente se prepararían en el formato que el modelo requería y cada paciente sería
puntuado cerca de la hora del alta.
Así los médicos tendrían la evaluación de riesgo más actualizada de cada paciente, ayudándoles
a escoger cuáles pacientes recibirían intervenciones después del alta.
Como parte del despliegue de la solución, el equipo de Intervención crearía y brindaría
entrenamiento
al equipo médico.
También, se desarrollarían procesos para seguir y monitorear a los pacientes que recibieran
la intervención, en colaboración con desarrolladores de IT y administradores de bases de datos,
para que los resultados pasaran por la etapa de retroalimentación y el modelo fuera refinado
con
el tiempo.
Este mapa ejemplifica el despliegue de una solución por una aplicación Cognos.
Aquí, el estudio de caso era el riesgo de hospitalización de pacientes con diabetes juvenil.
Como el caso de uso de insuficiencia cardíaca, este usó una clasificación de árbol de decisión
para crear un modelo de riesgo que serviría como base para esta aplicación.
El mapa muestra un resumen del riesgo nacional de hospitalización, con un análisis interactivo
del riesgo previsto según varias afecciones del paciente y otras características.
Esta dispositiva muestra un reporte interactivo del riesgo según la población del paciente dentro
de cada
nodo del modelo, para que los médicos pudieran entender la combinación de condiciones para
este subgrupo de pacientes.
Y este reporte entrega un resumen detallado de un paciente individual, incluyendo el riesgo
previsto
del paciente y detalles de su historia clínica, brindando una síntesis concisa para el
doctor.
Aquí termina la sección de Despliegue de este curso.
Retroalimentación
¡Bienvenido(a) a Metodología de la Ciencia de Datos 101 Del Despliegue a la Retroalimentación!
Retroalimentación.
Sobre la marcha, la retroalimentación de los usuarios ayudará a refinar el modelo y evaluar su
desempeño e impacto.
El valor del modelo dependerá de incorporar exitosamente la retroalimentación y hacer
ajustes durante todo el tiempo que se requiera la solución.
En la Metodología de la Ciencia de Datos, cada fase le da paso a la siguiente.
Volver cíclica la metodología, asegura refinamiento en cada etapa del juego.
El proceso de retroalimentación nace de la noción de que, entre más conozcas, más querrás
conocer.
Así es como lo ve John Rollins y con suerte tú también.
Cuando el modelo ha sido evaluado y el científico de datos confía en que funcionará, se
despliega
y se somete a la prueba definitiva: el verdadero uso de campo en tiempo real.
Entonces, miremos de nuevo nuestro estudio de caso, para ver cómo se aplica la porción de
retroalimentación
de la metodología.
El plan para la etapa de retroalimentación incluyó estos pasos:
Primero, se definiría y prepararía el proceso de revisión, con la responsabilidad general
de medir los resultados de un modelo de "vuelo al riesgo" de la población de riesgo por
insuficiencia cardíaca.
Los ejecutivos de manejo clínico serían los responsables del proceso de revisión.
Segundo, se haría seguimiento a los pacientes de insuficiencia cardíaca que recibieran
intervención
y se registrarían sus resultados de readmisión.
Tercero, la intervención se mediría para determinar qué tan efectiva era para reducir
las readmisiones.
Por razones éticas, los pacientes de insuficiencia cardíaca no se dividirían en grupos de
control y tratamiento.
En cambio, las tasas de readmisión se compararían antes y después de la lamentación del
modelo para medir su impacto.
Luego de las etapas de despliegue y retroalimentación, se revisaría el impacto del programa de
intervención
en las tasas de readmisión después del primer año de su implementación.
Entonces se refinaría el modelo, con base en los datos compilados después de la
implementación del modelo
y el conocimiento obtenido a lo largo de estas etapas.
Otros refinamientos incluían: Incorporar información de participación
en el programa de intervención, y posiblemente refinar el modelo para incorporar
datos farmacéuticos detallados.
Si recuerdas, la recolección de datos se aplazó inicialmente porque los datos farmacéuticos no
estaban disponibles en ese momento.
Pero después de la retroalimentación y de experimentar el modelo en la práctica, podría
decidirse que
agregar esos datos ameritaría la inversión de tiempo y esfuerzo.
También cabe la posibilidad de que otros refinamientos se presentaran por sí mismos
durante la etapa de retroalimentación.
Además, las acciones y procesos de intervención serían revisados y muy seguramente refinados
también, con base en la experiencia y el conocimiento adquiridos en el despliegue y la
retroalimentación iniciales.
Finalmente, el modelo y las acciones de intervención refinadas se desplegarían de nuevo,
manteniendo
el proceso de retroalimentación a lo largo de todo el programa de intervención.
Aquí termina la porción de Retroalimentación de este curso.
Resumen del curso

¡Bienvenido(a) a Metodología de la Ciencia de Datos 101! Resumen del curso.
Hemos llegado al final de una historia que esperamos que compartas.
Has aprendido a pensar cómo un científico de datos, incluyendo los pasos necesarios
para afrontar un problema de ciencia de datos, aplicados en ejemplos interesantes del mundo
real.
Estos pasos incluyeron:
definir un problema concreto de negocios o investigación, recoger y analizar datos,
construir un modelo y entender la retroalimentación después de su despliegue.
En este curso también aprendiste métodos para pasar del problema al enfoque, incluyendo
la importancia de
comprender la pregunta, las metas y objetivos de negocios, y
elegir el enfoque analítico más efectivo para responder la preguntar y resolver el problema.
¡Además aprendiste formas metódicas de trabajar con datos, en particular,
determinar los requisitos de datos, recoger los datos apropiados,
comprender los datos, y luego prepararlos para el modelado!
También aprendiste a modelar los datos usando el enfoque analítico adecuado,
con base en los requisitos de datos y el problema que necesitabas resolver. Una vez
seleccionado
el enfoque, aprendiste los pasos necesarios para
evaluar y desplegar el modelo, conseguir retroalimentación, y
usar esa retroalimentación constructivamente para mejorar el modelo.
¡Recuerda que las etapas de esta metodología son iterativas!
Esto significa que el modelo siempre puede mejorarse mientras que se necesite una solución, sin
importar
si las mejoras vienen de una retroalimentación constructiva, o del examen de nuevas
fuentes de datos.
Con un estudio de caso real, aprendiste a aplicar la metodología de la ciencia de datos en
contexto,
con miras a alcanzar con éxito las metas definidas en la etapa de requisitos del
negocio.
También viste cómo la metodología les aportó valor adicional a las unidades de negocio al
incorporar
prácticas de la ciencia de datos en sus funciones diarias de análisis y reporte.
El éxito de este nuevo programa piloto analizado en el estudio de caso fue evidente
porque les permitió a los médicos brindar mejores cuidados usando nuevas herramientas para
incluir información oportuna impulsada por datos en decisiones clínicas.
¡Y finalmente, aprendiste en síntesis el significado real de una metodología!
Que su propósito es explicar cómo mirar un problema, trabajar con datos con miras a
resolver el problema, y hallar una respuesta que afronte el problema de raíz.
Al responder metódicamente 10 preguntas simples, te enseñamos que una metodología puede
ayudarte a resolver no sólo tus problemas de ciencia de datos, sino cualquier problema.
Tu éxito en el campo de la ciencia de datos dependerá de aplicar las herramientas
correctas, en el momento correcto y en el orden correcto, para abordar el problema correcto.
¡Y así es como lo ve John Rollins!
¡Esperamos que hayas disfrutado este curso de Metodología de la Ciencia de Datos y te haya
parecido una
experiencia valiosa que compartirás con otros!

Coursera 2

Cargado por

Copyright:

Formatos disponibles

Coursera 2

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Coursera 2

Cargado por

Copyright:

Formatos disponibles

Bienvenido

¡Bienvenido a la Introducción a la Metodología de la Ciencia de Datos!

1. Comprensión del negocio:

Esta etapa es la más importante porque es donde se delimita la intención del

2. Comprensión de los datos:

La comprensión de los datos se basa en la comprensión del negocio. En esta etapa

Cuando se hayan recolectado los datos, deberán transformarse en un subconjunto

El CRISP-DM es un modelo altamente flexible y cíclico. Se necesita flexibilidad en

Para mayor información sobre CRISP-DM, visita: IBM Knowledge Center – CRISP-DM

Comprensión de los datos

Preparación de datos - Conceptos

Preparación de datos - Estudio de caso

Modelado - Estudio de caso

Resumen del curso

También podría gustarte