0% encontró este documento útil (0 votos)
15 vistas26 páginas

Analítica en Big Data. Machine Learning

El documento aborda los fundamentos de Big Data y Machine Learning, destacando la importancia del análisis de datos para extraer significado y tomar decisiones informadas. Se describen diferentes tipos de análisis, como descriptivo, diagnóstico, prescriptivo, exploratorio, predictivo, mecánico, causal e inferencial, así como el proceso de análisis de datos que incluye la recolección, limpieza y modelización de datos. Además, se introduce el concepto de Machine Learning como una técnica para resolver problemas a partir de datos, enfatizando su utilidad en entornos cambiantes y complejos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
15 vistas26 páginas

Analítica en Big Data. Machine Learning

El documento aborda los fundamentos de Big Data y Machine Learning, destacando la importancia del análisis de datos para extraer significado y tomar decisiones informadas. Se describen diferentes tipos de análisis, como descriptivo, diagnóstico, prescriptivo, exploratorio, predictivo, mecánico, causal e inferencial, así como el proceso de análisis de datos que incluye la recolección, limpieza y modelización de datos. Además, se introduce el concepto de Machine Learning como una técnica para resolver problemas a partir de datos, enfatizando su utilidad en entornos cambiantes y complejos.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 26

Big Data

Fundamentals

Analítica en Big Data


Machine Learning
Big Data Fundamentals
Machine Learning
Índice

Objetivos de aprendizaje ........................... ¡Error! Marcador no definido.


1. Título apartado primer nivel .................... ¡Error! Marcador no definido.
1.1. Título apartado segundo nivel ...................... ¡Error! Marcador no definido.
2. Modelo y colores de tablas ...................... ¡Error! Marcador no definido.
3. Modelos y colores para esquemas y gráficos .. ¡Error! Marcador no definido.
4. Imágenes (fotos e ilustraciones) ................ ¡Error! Marcador no definido.
5. Destacados en el texto general ................. ¡Error! Marcador no definido.
6. Dudas para autores ............................... ¡Error! Marcador no definido.
Referencias bibliográficas .......................... ¡Error! Marcador no definido.

© Copyright Universidad Europea. Todos los derechos reservados. 2


Big Data Fundamentals
Machine Learning

1. Introducción al análisis de datos


Los datos brutos no son diferentes del petróleo crudo. Hoy en día, cualquier persona o
institución con un presupuesto moderado puede recopilar grandes volúmenes de datos
en bruto. Pero la recopilación en sí misma no debería ser el objetivo final. Las
organizaciones que pueden extraer significado de los datos brutos recogidos son las
que pueden competir en el complejo e imprevisible entorno actual.

En el centro de cualquier proceso de refinamiento de datos se encuentra lo que


comúnmente se denomina "análisis".

1.1. Tipos de análisis

Hay muchos tipos de analítica, dependiendo principalemtne del objetivo que


persigamos:

• Análisis descriptivo

El objetivo principal de la analítica descriptiva es resumir lo que ocurre en una


organización. La analítica descriptiva examina los datos brutos o el contenido para
responder a preguntas como

- ¿Qué ha pasado?

- ¿Qué está ocurriendo?

La analítica descriptiva se caracteriza por la inteligencia empresarial convencional,


estadísticas básicas y las visualizaciones, como los gráficos de barras, los gráficos
circulares, los gráficos de líneas o las narraciones generadas. Un ejemplo sencillo de
análisis descriptivo puede ser la evaluación del riesgo crediticio en un banco. En este
caso, se puede hacer un análisis de los resultados financieros pasados, información
sobre el ciclo de ventas, clasificación de los clientes en función de sus preferencias.

• Análisis de diagnóstico

Como su nombre indica, la analítica de diagnóstico se utiliza para descubrir o


determinar por qué ha ocurrido algo.

• Análisis prescriptivo

Mientras que la mayoría de las analíticas de datos proporcionan una visión general
sobre el tema, las analíticas prescriptivas le proporcionan un enfoque "láser" para
responder a preguntas precisas, centradas en el “qué deberíamos hacer”. Es decir,
mientras que las analíticas exploratorias, descriptivas nos permiten saber qué ha
pasado y las predictivas, qué pasará, este tipo de análisis nos permite identificar
puntos de mejora.

© Copyright Universidad Europea. Todos los derechos reservados. 3


Big Data Fundamentals
Machine Learning
Por ejemplo, qué producto debería recomendarle a un cliente, o qué película le
gustará.

• Análisis exploratorio

La analítica exploratoria es un enfoque analítico que se centra principalmente en la


identificación de patrones generales en los datos brutos para identificar los valores
atípicos y las características que podrían no haberse previsto utilizando otros tipos de
análisis. Para utilizar este enfoque, hay que entender dónde se producen los valores
atípicos y cómo se relacionan otras variables del entorno para tomar decisiones
informadas.

Suelen usarse técnicas y herramientas de visualización que nos permitan “jugar” con
los datos de una manera fácil y rápida.

• Análisis predictivo

El análisis predictivo es el uso de datos, técnicas de aprendizaje automático y


algoritmos estadísticos para determinar la probabilidad de resultados futuros basados
en datos históricos. El objetivo principal del análisis predictivo es ayudar a ir más allá
de lo que ha sucedido y proporcionar la mejor evaluación posible de lo que es probable
que suceda en el futuro.

Los modelos predictivos utilizan resultados reconocibles para crear un modelo que
pueda predecir valores para diferentes tipos de datos o incluso nuevos datos. La
modelización de los resultados es significativa porque proporciona predicciones que
representan la probabilidad de la variable objetivo -como los ingresos- basándose en
la significación estimada de un conjunto de variables de entrada. Los modelos de
clasificación y regresión son los más utilizados en el análisis predictivo.

La analítica predictiva puede utilizarse en los sistemas bancarios para detectar casos
de fraude, medir los niveles de riesgo crediticio y maximizar las oportunidades de
venta cruzada y de venta ascendente en una organización. Esto ayuda a retener
clientes valiosos para su negocio.

• Análisis mecánico

Como su nombre indica, la analítica mecanicista permite a los científicos de big data
comprender alteraciones claras en los procedimientos o incluso en las variables que
pueden dar lugar a cambios en las mismas. Los resultados de la analítica mecanicista
están determinados por ecuaciones de ingeniería y ciencias físicas. Además, permiten
a los científicos de datos determinar los parámetros si conocen la ecuación.

© Copyright Universidad Europea. Todos los derechos reservados. 4


Big Data Fundamentals
Machine Learning
• Análisis causal

La analítica causal permite a los científicos de big data averiguar qué es probable que
ocurra si se cambia un componente de la variable. Cuando se utiliza este enfoque, hay
que basarse en una serie de variables aleatorias para determinar lo que es probable
que ocurra a continuación, aunque se pueden utilizar estudios no aleatorios para inferir
de las causalidades. Este enfoque de la analítica es apropiado si se trata de grandes
volúmenes de datos.

• Análisis inferencial

Este enfoque de la analítica tiene en cuenta diferentes teorías sobre el mundo para
determinar ciertos aspectos de población total. Cuando se utiliza la analítica
inferencial, se requiere tomar una muestra más pequeña de información de la
población y utilizarla como base para inferir parámetros sobre población más grande.

2. El proceso de Análisis de Datos


1. Decidir los objetivos o plantear una pregunta

El primer paso del proceso de análisis de datos es decidir los objetivos. Estos objetivos
suelen requerir una importante recogida y análisis de datos.

2. Qué medir y cómo medir

La medición se refiere generalmente a la asignación de números para indicar los


diferentes valores de las variables. Supongamos que a través de su investigación
intenta averiguar si existe una relación entre la altura y el peso de los humanos, tendría
sentido medir la altura y el peso de los perros utilizando una báscula.

3. Recogida de datos

Una vez que sepa qué tipos de datos necesita para su estudio estadístico, podrá
determinar si los datos pueden obtenerse de las fuentes o bases de datos existentes o
no. Si los datos no son suficientes, tendrá que recoger nuevos datos. Incluso si tiene
datos existentes, es muy importante saber cómo se recogieron los datos. Esto le
ayudará a entender que puede determinar las limitaciones de la generalización de los
resultados y realizar un análisis adecuado.

© Copyright Universidad Europea. Todos los derechos reservados. 5


Big Data Fundamentals
Machine Learning
Cuantos más datos tenga, mejor serán las correlaciones, la construcción de mejores
modelos y la búsqueda de más información procesable. Especialmente los datos
procedentes de fuentes más diversas ayudan a hacer este trabajo de manera más fácil.

4. Limpieza de datos

Este es otro paso crucial en el proceso de análisis de datos para mejorar la calidad de
los datos existentes. A menudo, los científicos de datos corrigen las faltas de
ortografía, tratan los valores que faltan y eliminan la información inútil. Este es el
paso más crítico porque los datos basura pueden generar resultados inapropiados y
engañar al negocio.

5. Paso 5: Resumir y visualizar los datos

El análisis exploratorio de datos ayuda a comprender mejor los datos. Porque una
imagen vale más que mil palabras, ya que mucha gente entiende mejor las imágenes
que una conferencia. Asimismo, las medidas de varianza indican la distribución de los
datos en torno al centro. La correlación se refiere al grado en que dos variables se
mueven en sincronía una con otra.

En este paso entra la estadística básica y las herramientas de Business Intelligence y


visualización de datos.

6. Modelización de los datos

Ahora construya modelos que correlacionen los datos con los resultados de su negocio
y haga recomendaciones. Aquí es donde la experiencia única de los científicos de datos
se vuelve importante para el éxito del negocio. Correlacionar los datos y construir
modelos que predigan los resultados empresariales.

Las técnicas de analítica más avanzada, como Machine Learning y Deep Learning son
las utilizadas aquí.

7. Optimizar y repetir

El análisis de datos es un proceso repetible y a veces conduce a mejoras continuas,


tanto para el negocio como para la propia cadena de valor de los datos.

© Copyright Universidad Europea. Todos los derechos reservados. 6


Big Data Fundamentals
Machine Learning

3. Estadística básica
Hagamos un rápido repaso de los aspectos más básicos del análisis:

Probabilidad

La probabilidad es la medida de la posibilidad de que un evento ocurra en un


experimento aleatorio.

Tendencia central

Media (mean): La media del conjunto de datos.

Mediana (median): El valor medio de un conjunto de datos ordenados.

Moda (mode): El valor más frecuente del conjunto de datos. Si los datos tienen varios
valores que ocurren con mayor frecuencia, tenemos una distribución multimodal.

Asimetría (skewness): Una medida de simetría.

Variabilidad

Rango: La diferencia entre el valor más alto y el más bajo del conjunto de datos.

Percentiles, cuartiles y rango intercuartil (IQR)

© Copyright Universidad Europea. Todos los derechos reservados. 7


Big Data Fundamentals
Machine Learning
- Percentiles: medida que indica el valor por debajo del cual cae un determinado
porcentaje de observaciones en un grupo de observaciones.

- Cuartiles: Valores que dividen el número de puntos de datos en cuatro partes


más o menos iguales, o cuartos.

- Rango intercuartil (IQR): Medida de dispersión y variabilidad estadística basada


en la división de un conjunto de datos en cuartiles. IQR = Q3 - Q1

Varianza: La diferencia media al cuadrado de los valores con respecto a la media para
medir la dispersión de un conjunto de datos con respecto a la media.

Desviación estándar: La diferencia estándar entre cada punto de datos y la media y la


raíz cuadrada de la varianza.

Relación entre variables

Causalidad: Relación entre dos sucesos en la que uno de ellos se ve afectado por el
otro.

Covarianza: Medida cuantitativa de la variabilidad conjunta entre dos o más variables.

Correlación: Mide la relación entre dos variables y va de -1 a 1, es la versión


normalizada de la covarianza.

© Copyright Universidad Europea. Todos los derechos reservados. 8


Big Data Fundamentals
Machine Learning

La relación es muy sencilla de identificar visualizando los datos:

4. Machine Learning
4.1. ¿Qué es el Machine Learning?

“Campo de estudio que da a los ordenadores la capacidad de aprender sin ser


programados de forma específica.”

A. Samuel

“Se dice de un programa que aprende de la experiencia E con respecto a la tarea T y


una medida de rendimiento P si el rendimiento P sobre T aumenta con la experiencia”

E. Tom Mitchell

“Es la ciencia que permite que las computadoras aprendan y actúen como lo hacen
los humanos, mejorando su aprendizaje a lo largo del tiempo de una forma
autónoma”

Dan Fagella

© Copyright Universidad Europea. Todos los derechos reservados. 9


Big Data Fundamentals
Machine Learning
Machine Learning son una serie de técnicas con las que podremos resolver problemas
(en adelante, “predecir”) a partir de datos que modelamos, entendemos y analizamos,
entrenando modelos que se aplicarán después a los mismos u otros datos.

https://www.upwork.com

Es además la suma de varias áreas de conocimiento:

- Inteligencia Artificial:

o Aprendizaje

o Entrenamiento de modelos

o Técnicas no supervisadas

- Estadística:

o Manejo de datos

o Conocimiento del dominio

o Transformación y limpieza

o Algoritmos estadísticos

- Informática

o Algoritmos programados

o Almacenamiento de datos

o Tiempos de computación

- Big Data

o Cuantos más datos mejor!

© Copyright Universidad Europea. Todos los derechos reservados. 10


Big Data Fundamentals
Machine Learning
4.2. ¿Por qué usar ML?

Imaginemos que queremos construir un filtro de spam. Una primera opción sería hacer
un sistema ad hoc que podría consistir en:

- Definición de reglas tipo:

Si contiene en el título "promotion" o "for free" -> spam

- Escribir un algoritmo de detección de los patrones encontrados (expresiones


regulares, ...)

- Evaluar el algoritmo e ir refinándolo.

Pero...

- Los spammers se pueden adaptar…

- …Las reglas cambiar…

- …Obligarnos a iterar sobre los distintos pasos del sistema montado…

- …Con la contra de que, aparte de consumir mucho tiempo, el sistema se vuelve


inmantenible.

Si en vez de intentar definir las reglas a mano cada vez que queramos modificar nuestro
sistema de detección de spam utilizamos un clasificador, podemos redefinir el
problema como:

- Estudiar el problema desde el punto de vista de que variables me afectan a que


sea spam, por ejemplo, patrones de palabras frecuentes en mails normales o
spam (bag of words, tf-idf)

- Entrenar un clasificador sobre las variables seleccionadas: e.g. naive-bayes,


logistic regression...

- Evaluar el rendimiento y poner en producción

© Copyright Universidad Europea. Todos los derechos reservados. 11


Big Data Fundamentals
Machine Learning

Los sistemas de ML son buenos para:

- Problemas que requieren mucho trabajo manual o largas listas de reglas

- Entornos que evolucionan

- Conseguir insights en datos complejos

4.3. Los datos

Vamos a hablar todo el tiempo de datos, y diferenciaremos dos conceptos:


observaciones (la cantidad de datos que tenemos) y variables (las distintas
informaciones que contien cada registro)

variables
observaciones

Población: Conjunto de todo el universo de datos

Muestra: Subconjunto de la población al que tenemos acceso y con el que vamos a


trabajar.

© Copyright Universidad Europea. Todos los derechos reservados. 12


Big Data Fundamentals
Machine Learning
El caso típico consiste en, en base a las variables de nuestro dataset, predecir el
resultado de una variable extra. En nuestro ejemplo, tenemos la información de
estudiantes de una asignatura, con información de su asistencia y número de castigos.
La variable que podemos intentar adivinar es si el estudiante aprobará o no.

Variables
explicativas/independientes

EDAD GÉNERO ASISTENCIA A CLASE CASTIGOS … ¿Aprobará?

ESTUDIANTE 1 15 H 9/10 0 … ¿?

ESTUDIANTE 2 16 M … ¿?

ESTUDIANTE 3 15 M 10/10 2 … ¿?

ESTUDIANTE 4 14 H 9/10 1 … ¿?

ESTUDIANTE 5 15 M 10/10 1 … ¿?

… … … … … … ¿?

Variable respuesta/objetivo/dependiente

Nuestras variables, son de dos tipos:

- Categórica / Cualitativa: Toman un conjunto discreto o finito de valores.

Ejemplo: Género (Hombre o Mujer)

- Numérica / Continua / Cuantitativa: Toman un conjunto continuo o infinito de


valores.

Ejemplo: Edad, Castigos

© Copyright Universidad Europea. Todos los derechos reservados. 13


Big Data Fundamentals
Machine Learning

5. Aprendizaje Supervisado vs No Supervisado


Hay dos tipos principales de técnicas de ML, que utilizaremos según el objetivo que
nos hayamos planteado y los datos con los que contemos:

Aprendizaje Supervisado

Se habla de aprendizaje supervisado cuando se hace referencia a que el modelo


construido está basado en unas observaciones sobre las que ya conocíamos la respuesta
e intentamos averiguar qué responderíamos ante una serie de datos nuevos.

De hecho, los algoritmos de aprendizaje supervisado cambian su estado interno


minimizando el error que comete al predecir qué darían las observaciones sobre lo que
realmente sabemos que ha dado. Esta fase es la que de forma común se llama
entrenamiento.

Mayor número de técnicas y algoritmos


Entornos más controlados y fáciles de validar resultados

Requiere de conocer casos previos resueltos

Aprendizaje No Supervisado

Cuándo: Si no disponemos de experiencia (observaciones previas) en la que sepamos


el resultado.

Para qué: Crear un modelo/función que se encargue encontrar patrones y


relaciones existentes en los datos (y desconocidos), y que ante nuevos datos permita
asociarlos a alguno de estos patrones obtenidos.

Cómo: Estas técnicas se encargan de inferir estructuras y relaciones presentes en las


muestras.

© Copyright Universidad Europea. Todos los derechos reservados. 14


Big Data Fundamentals
Machine Learning

No necesita conocer casos previos resueltos

Menor número de técnicas y algoritmos


Entornos menos controlados sin datos previos con los que contrastar

6. Principales técnicas de Machine Learning


Podemos clasificar los problemas que queremos resolver con Machine Learning en base
a las dos dimensiones que hemos visto:

- Tipo de aprendizaje: Supervisado vs No Supervisado

- Tipo de variable respuesta: Continua o Discreta

Para cada combinación, hay una o varias técnicas que podemos aplicar:

Redes
Neuronales

Clasificación Regresión

Supervisado Supervisado
+ Discreta + Continua

Series
temporales
No No
supervisado supervisado
+ Discreta + Continua

Clustering Reducción de
Recomendación dimensiones

© Copyright Universidad Europea. Todos los derechos reservados. 15


Big Data Fundamentals
Machine Learning
6.1. Clasificación

Una de las tareas más comunes a realizar. Se trata de encontrar el grupo al que
pertenece una observación.

¿Para qué?

Variable respuesta: discreta.

Queremos clasificar muestras en un conjunto finito de posibilidades

Dos alternativas:

Grupo azul

Grupo naranja

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras previamente clasificadas

Ejemplos

Clasificar emails (deseado/no deseado/spam), predecir tasa de abandono de


estudiantes (abandona/no abandona), reconocimiento de escritura manual…

© Copyright Universidad Europea. Todos los derechos reservados. 16


Big Data Fundamentals
Machine Learning
6.2. Regresión

El nombre de fue introducido por Francis Galton cuando estudiaba que los hijos de
gente alta tendían a ser bajos, por lo que había una regresión a la media. Hay muchos
tipos, siendo la regresión lineal el más sencillo.

¿Para qué?

Variable respuesta: continua.

Queremos predecir valores numéricos

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras cuya variable a predecir es conocida.

Ejemplos

Predicción de precios de productos, de edades de personas, estimación de emisiones


de CO2 emitidos por motores…

© Copyright Universidad Europea. Todos los derechos reservados. 17


Big Data Fundamentals
Machine Learning
6.3. Series temporales

¿Para qué?

Variable respuesta: continua.

Queremos predecir un valor numérico que evoluciona a lo largo del tiempo.

¿Cuándo?

Disponemos del valor a predecir en el pasado y queremos predecirlo a futuro. En este


caso no corresponden ni a técnicas supervisadas ni no supervisadas.

Ejemplos

Predicción de evolución de precios de productos a lo largo del tiempo, afluencia de


visitas a museos según día de la semana, etc.

© Copyright Universidad Europea. Todos los derechos reservados. 18


Big Data Fundamentals
Machine Learning
6.4. Clustering

Quizá tenemos un conjunto de datos sin etiquetar pero que nos gustaría agrupar en
aquellos que sean similares, por ejemplo:

- Agrupar genes y proteínas que tienen funciones similares

- Agrupar valores bursátiles con fluctuaciones similares.

El clustering no es clasificación, puesto que no hay una respuesta correcta. Por el


contrario, tenemos un conjunto de algoritmos y métricas que podemos usar para tener
una idea de la bondad del clúster.

¿Para qué?

Variable respuesta: discreta.

Queremos agrupar muestras en grupos en base a su similitud

¿Cuándo?

Técnica no supervisada

Desconocemos clasificaciones previas de las muestras, ni siquiera agrupaciones que


van a formarse.

Ejemplos

Agrupar pacientes con síntomas similares, identificar patrones de clientes…

© Copyright Universidad Europea. Todos los derechos reservados. 19


Big Data Fundamentals
Machine Learning
6.5. Recomendación

¿Para qué?

Variable respuesta: discreta.

Queremos hacer una recomendación a un usuario de un producto determinado.

¿Cuándo?

Técnica no supervisada

Aunque puede tener una versión supervisada si el propio usuario retroalimenta una
respuesta a las recomendaciones que se le realizaron en el pasado (por ejemplo con
una puntuación).

Ejemplos

Recomendación de películas en base a las que has visto, productos en compras online
en base a lo que compraron otros consumidores…

© Copyright Universidad Europea. Todos los derechos reservados. 20


Big Data Fundamentals
Machine Learning
6.6. Reducción de dimensiones

La reducción de dimensiones es una técnica que usaremos a menudo cuando tengamos


conjuntos de datos con muchas dimensiones. Por ejemplo, si tenemos un conjunto de
documentos sin etiquetar, en lugar de utilizar un Bag of Words con todas las palabras
como features potenciales, quizá queramos desarrollar una lista mas corta de palabras
que sean relevantes para el problema que estemos tratando de resolver. De manera
análoga, en el caso de las imágenes, cuando tenemos una imagen de tan solo 100x100,
esto nos deja 10,000 features, estas serán redundantes y necesitamos reducir la
dimensionalidad del problema

¿Para qué?

Variable respuesta: continua.

Queremos reducir la dimensionalidad de nuestros datos.

¿Cuándo?

Técnica no supervisada

Desconocemos como pueden combinarse estos parámetros.

Ejemplos

Cualquier ventaja de reducción de parámetros, como limpieza de datos, eliminar


variables menos relevantes... de forma que nos beneficiemos de las ventajas de
dimeniones bajas, como poder representar los datos gráficamente.

© Copyright Universidad Europea. Todos los derechos reservados. 21


Big Data Fundamentals
Machine Learning
6.7. Redes Neuronales (deep learning)

Deep Learning es una rama del Machine Learning, que intenta simular la estructura
biológica y la funcionalidad de un cerebro humano usando redes de neuronas
artificiales.

¿Para qué?

Variable respuesta: continua o discreta.

Podemos responder problemas parecidos a los que resolvemos con Clasificación o


Regresión. Hay quien entiende las redes neuronales como una evolución del Machine
Learning tradicional.

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras cuya variable a predecir es conocida. De


hecho, el performance escala con la cantidad de datos en los que se entrena. Cuantos
más datos, mejor modelo

Ejemplos

Generar captions, resumir, traducir texto, generar audio, producir arte.

© Copyright Universidad Europea. Todos los derechos reservados. 22


Big Data Fundamentals
Machine Learning

7. Evaluación de Modelos
Una vez elegimos y desarrollamos el modelos, necesitamos evaluar lo bien que
funciona. Dependiendo del tipo de aprendizaje que estemos utilizando:

- Supervisado: Puesto que disponemos de un conjunto de datos cuyo resultado


conocemos, podemos utilizar parte de ellos para poder medir la bondad de los
modelos obtenidos. Dos aproximaciones:

o Entrenar todo el modelo con la totalidad de los datos, y luego utilizar


un porcentaje de ellos para evaluar el modelo

o Dividir el conjunto de datos en dos subconjuntos: el conjunto de


entrenamiento y el conjunto de testeo.

- No supervisado: Aquí no podemos utilizar datos previos puesto que no los


tenemos, pero existen otro tipo de evaluaciones según cada tipo de algoritmo.

7.1. Overfit vs Underfit

Esta evaluación puede indicarnos que nuestro modelo no está bien ajustado:

- Un modelo se dice que está infra-ajustado (underfitted) si no consigue la


precisión suficiente para el conjunto de datos presentado (por intentar hacerlo
demasiado simple o con un menor número de parámetros de entrada).

- Un modelo se dice que está sobre-ajustado (overfitted) si, para el conjunto de


datos de entrada con el que se ha construido, tiene una precisión buena, pero
baja para otros conjuntos de datos de entrada diferentes (como el de
validación).

© Copyright Universidad Europea. Todos los derechos reservados. 23


Big Data Fundamentals
Machine Learning

8. Ejemplo Clustering
Veamos un ejemplo completo de un algoritmo de ML en Python. El algoritmo de
clustering k-means, que genera el número de grupos que le indiquemos.

Generemos primero de forma aleatoria la nube de puntos: con unos puntos centrados
en el (0, 1), otros en el (-0.5, -0.7) y otros en el (0.5, -0.7)

El algoritmo K-means va haciendo iteraciones asignando el número de grupos que le


indiquemos y colocando los centroides, según la distancia de las distintas variables al
centroide.

© Copyright Universidad Europea. Todos los derechos reservados. 24


Big Data Fundamentals
Machine Learning

En la primera iteración, coloca los centroides donde le indiquemos, y después va


“probando” hasta que encuentra los clusters optimos

A la izquierda, la primera iteración, a la derecha, después de 10 iteraciones:

© Copyright Universidad Europea. Todos los derechos reservados. 25


Big Data Fundamentals
Machine Learning

© Todos los derechos de propiedad intelectual de esta


obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.

La utilización no autorizada de esta obra, así como los


perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.

© Copyright Universidad Europea. Todos los derechos reservados. 26

También podría gustarte