0% encontró este documento útil (0 votos)

15 vistas26 páginas

Analítica en Big Data. Machine Learning

El documento aborda los fundamentos de Big Data y Machine Learning, destacando la importancia del análisis de datos para extraer significado y tomar decisiones informadas. Se describen diferentes tipos de análisis, como descriptivo, diagnóstico, prescriptivo, exploratorio, predictivo, mecánico, causal e inferencial, así como el proceso de análisis de datos que incluye la recolección, limpieza y modelización de datos. Además, se introduce el concepto de Machine Learning como una técnica para resolver problemas a partir de datos, enfatizando su utilidad en entornos cambiantes y complejos.

Cargado por

Luis Angel Alfonso Zamora

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

15 vistas26 páginas

Analítica en Big Data. Machine Learning

Cargado por

Luis Angel Alfonso Zamora

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 26

Big Data

Fundamentals

Analítica en Big Data

Machine Learning
Big Data Fundamentals
Machine Learning
Índice

Objetivos de aprendizaje ........................... ¡Error! Marcador no definido.

1. Título apartado primer nivel .................... ¡Error! Marcador no definido.
1.1. Título apartado segundo nivel ...................... ¡Error! Marcador no definido.
2. Modelo y colores de tablas ...................... ¡Error! Marcador no definido.
3. Modelos y colores para esquemas y gráficos .. ¡Error! Marcador no definido.
4. Imágenes (fotos e ilustraciones) ................ ¡Error! Marcador no definido.
5. Destacados en el texto general ................. ¡Error! Marcador no definido.
6. Dudas para autores ............................... ¡Error! Marcador no definido.
Referencias bibliográficas .......................... ¡Error! Marcador no definido.

© Copyright Universidad Europea. Todos los derechos reservados. 2

Big Data Fundamentals
Machine Learning

1. Introducción al análisis de datos

Los datos brutos no son diferentes del petróleo crudo. Hoy en día, cualquier persona o
institución con un presupuesto moderado puede recopilar grandes volúmenes de datos
en bruto. Pero la recopilación en sí misma no debería ser el objetivo final. Las
organizaciones que pueden extraer significado de los datos brutos recogidos son las
que pueden competir en el complejo e imprevisible entorno actual.

En el centro de cualquier proceso de refinamiento de datos se encuentra lo que

comúnmente se denomina "análisis".

1.1. Tipos de análisis

Hay muchos tipos de analítica, dependiendo principalemtne del objetivo que

persigamos:

• Análisis descriptivo

El objetivo principal de la analítica descriptiva es resumir lo que ocurre en una

organización. La analítica descriptiva examina los datos brutos o el contenido para
responder a preguntas como

- ¿Qué ha pasado?

- ¿Qué está ocurriendo?

La analítica descriptiva se caracteriza por la inteligencia empresarial convencional,

estadísticas básicas y las visualizaciones, como los gráficos de barras, los gráficos
circulares, los gráficos de líneas o las narraciones generadas. Un ejemplo sencillo de
análisis descriptivo puede ser la evaluación del riesgo crediticio en un banco. En este
caso, se puede hacer un análisis de los resultados financieros pasados, información
sobre el ciclo de ventas, clasificación de los clientes en función de sus preferencias.

• Análisis de diagnóstico

Como su nombre indica, la analítica de diagnóstico se utiliza para descubrir o

determinar por qué ha ocurrido algo.

• Análisis prescriptivo

Mientras que la mayoría de las analíticas de datos proporcionan una visión general
sobre el tema, las analíticas prescriptivas le proporcionan un enfoque "láser" para
responder a preguntas precisas, centradas en el “qué deberíamos hacer”. Es decir,
mientras que las analíticas exploratorias, descriptivas nos permiten saber qué ha
pasado y las predictivas, qué pasará, este tipo de análisis nos permite identificar
puntos de mejora.

© Copyright Universidad Europea. Todos los derechos reservados. 3

Big Data Fundamentals
Machine Learning
Por ejemplo, qué producto debería recomendarle a un cliente, o qué película le
gustará.

• Análisis exploratorio

La analítica exploratoria es un enfoque analítico que se centra principalmente en la

identificación de patrones generales en los datos brutos para identificar los valores
atípicos y las características que podrían no haberse previsto utilizando otros tipos de
análisis. Para utilizar este enfoque, hay que entender dónde se producen los valores
atípicos y cómo se relacionan otras variables del entorno para tomar decisiones
informadas.

Suelen usarse técnicas y herramientas de visualización que nos permitan “jugar” con
los datos de una manera fácil y rápida.

• Análisis predictivo

El análisis predictivo es el uso de datos, técnicas de aprendizaje automático y

algoritmos estadísticos para determinar la probabilidad de resultados futuros basados
en datos históricos. El objetivo principal del análisis predictivo es ayudar a ir más allá
de lo que ha sucedido y proporcionar la mejor evaluación posible de lo que es probable
que suceda en el futuro.

Los modelos predictivos utilizan resultados reconocibles para crear un modelo que
pueda predecir valores para diferentes tipos de datos o incluso nuevos datos. La
modelización de los resultados es significativa porque proporciona predicciones que
representan la probabilidad de la variable objetivo -como los ingresos- basándose en
la significación estimada de un conjunto de variables de entrada. Los modelos de
clasificación y regresión son los más utilizados en el análisis predictivo.

La analítica predictiva puede utilizarse en los sistemas bancarios para detectar casos
de fraude, medir los niveles de riesgo crediticio y maximizar las oportunidades de
venta cruzada y de venta ascendente en una organización. Esto ayuda a retener
clientes valiosos para su negocio.

• Análisis mecánico

Como su nombre indica, la analítica mecanicista permite a los científicos de big data
comprender alteraciones claras en los procedimientos o incluso en las variables que
pueden dar lugar a cambios en las mismas. Los resultados de la analítica mecanicista
están determinados por ecuaciones de ingeniería y ciencias físicas. Además, permiten
a los científicos de datos determinar los parámetros si conocen la ecuación.

© Copyright Universidad Europea. Todos los derechos reservados. 4

Big Data Fundamentals
Machine Learning
• Análisis causal

La analítica causal permite a los científicos de big data averiguar qué es probable que
ocurra si se cambia un componente de la variable. Cuando se utiliza este enfoque, hay
que basarse en una serie de variables aleatorias para determinar lo que es probable
que ocurra a continuación, aunque se pueden utilizar estudios no aleatorios para inferir
de las causalidades. Este enfoque de la analítica es apropiado si se trata de grandes
volúmenes de datos.

• Análisis inferencial

Este enfoque de la analítica tiene en cuenta diferentes teorías sobre el mundo para
determinar ciertos aspectos de población total. Cuando se utiliza la analítica
inferencial, se requiere tomar una muestra más pequeña de información de la
población y utilizarla como base para inferir parámetros sobre población más grande.

2. El proceso de Análisis de Datos

1. Decidir los objetivos o plantear una pregunta

El primer paso del proceso de análisis de datos es decidir los objetivos. Estos objetivos
suelen requerir una importante recogida y análisis de datos.

2. Qué medir y cómo medir

La medición se refiere generalmente a la asignación de números para indicar los

diferentes valores de las variables. Supongamos que a través de su investigación
intenta averiguar si existe una relación entre la altura y el peso de los humanos, tendría
sentido medir la altura y el peso de los perros utilizando una báscula.

3. Recogida de datos

Una vez que sepa qué tipos de datos necesita para su estudio estadístico, podrá
determinar si los datos pueden obtenerse de las fuentes o bases de datos existentes o
no. Si los datos no son suficientes, tendrá que recoger nuevos datos. Incluso si tiene
datos existentes, es muy importante saber cómo se recogieron los datos. Esto le
ayudará a entender que puede determinar las limitaciones de la generalización de los
resultados y realizar un análisis adecuado.

© Copyright Universidad Europea. Todos los derechos reservados. 5

Big Data Fundamentals
Machine Learning
Cuantos más datos tenga, mejor serán las correlaciones, la construcción de mejores
modelos y la búsqueda de más información procesable. Especialmente los datos
procedentes de fuentes más diversas ayudan a hacer este trabajo de manera más fácil.

4. Limpieza de datos

Este es otro paso crucial en el proceso de análisis de datos para mejorar la calidad de
los datos existentes. A menudo, los científicos de datos corrigen las faltas de
ortografía, tratan los valores que faltan y eliminan la información inútil. Este es el
paso más crítico porque los datos basura pueden generar resultados inapropiados y
engañar al negocio.

5. Paso 5: Resumir y visualizar los datos

El análisis exploratorio de datos ayuda a comprender mejor los datos. Porque una
imagen vale más que mil palabras, ya que mucha gente entiende mejor las imágenes
que una conferencia. Asimismo, las medidas de varianza indican la distribución de los
datos en torno al centro. La correlación se refiere al grado en que dos variables se
mueven en sincronía una con otra.

En este paso entra la estadística básica y las herramientas de Business Intelligence y

visualización de datos.

6. Modelización de los datos

Ahora construya modelos que correlacionen los datos con los resultados de su negocio
y haga recomendaciones. Aquí es donde la experiencia única de los científicos de datos
se vuelve importante para el éxito del negocio. Correlacionar los datos y construir
modelos que predigan los resultados empresariales.

Las técnicas de analítica más avanzada, como Machine Learning y Deep Learning son
las utilizadas aquí.

7. Optimizar y repetir

El análisis de datos es un proceso repetible y a veces conduce a mejoras continuas,

tanto para el negocio como para la propia cadena de valor de los datos.

© Copyright Universidad Europea. Todos los derechos reservados. 6

Big Data Fundamentals
Machine Learning

3. Estadística básica
Hagamos un rápido repaso de los aspectos más básicos del análisis:

Probabilidad

La probabilidad es la medida de la posibilidad de que un evento ocurra en un

experimento aleatorio.

Tendencia central

Media (mean): La media del conjunto de datos.

Mediana (median): El valor medio de un conjunto de datos ordenados.

Moda (mode): El valor más frecuente del conjunto de datos. Si los datos tienen varios
valores que ocurren con mayor frecuencia, tenemos una distribución multimodal.

Asimetría (skewness): Una medida de simetría.

Variabilidad

Rango: La diferencia entre el valor más alto y el más bajo del conjunto de datos.

Percentiles, cuartiles y rango intercuartil (IQR)

© Copyright Universidad Europea. Todos los derechos reservados. 7

Big Data Fundamentals
Machine Learning
- Percentiles: medida que indica el valor por debajo del cual cae un determinado
porcentaje de observaciones en un grupo de observaciones.

- Cuartiles: Valores que dividen el número de puntos de datos en cuatro partes

más o menos iguales, o cuartos.

- Rango intercuartil (IQR): Medida de dispersión y variabilidad estadística basada

en la división de un conjunto de datos en cuartiles. IQR = Q3 - Q1

Varianza: La diferencia media al cuadrado de los valores con respecto a la media para
medir la dispersión de un conjunto de datos con respecto a la media.

Desviación estándar: La diferencia estándar entre cada punto de datos y la media y la

raíz cuadrada de la varianza.

Relación entre variables

Causalidad: Relación entre dos sucesos en la que uno de ellos se ve afectado por el
otro.

Covarianza: Medida cuantitativa de la variabilidad conjunta entre dos o más variables.

Correlación: Mide la relación entre dos variables y va de -1 a 1, es la versión

normalizada de la covarianza.

© Copyright Universidad Europea. Todos los derechos reservados. 8

Big Data Fundamentals
Machine Learning

La relación es muy sencilla de identificar visualizando los datos:

4. Machine Learning
4.1. ¿Qué es el Machine Learning?

“Campo de estudio que da a los ordenadores la capacidad de aprender sin ser

programados de forma específica.”

A. Samuel

“Se dice de un programa que aprende de la experiencia E con respecto a la tarea T y

una medida de rendimiento P si el rendimiento P sobre T aumenta con la experiencia”

E. Tom Mitchell

“Es la ciencia que permite que las computadoras aprendan y actúen como lo hacen
los humanos, mejorando su aprendizaje a lo largo del tiempo de una forma
autónoma”

Dan Fagella

© Copyright Universidad Europea. Todos los derechos reservados. 9

Big Data Fundamentals
Machine Learning
Machine Learning son una serie de técnicas con las que podremos resolver problemas
(en adelante, “predecir”) a partir de datos que modelamos, entendemos y analizamos,
entrenando modelos que se aplicarán después a los mismos u otros datos.

https://www.upwork.com

Es además la suma de varias áreas de conocimiento:

- Inteligencia Artificial:

o Aprendizaje

o Entrenamiento de modelos

o Técnicas no supervisadas

- Estadística:

o Manejo de datos

o Conocimiento del dominio

o Transformación y limpieza

o Algoritmos estadísticos

- Informática

o Algoritmos programados

o Almacenamiento de datos

o Tiempos de computación

- Big Data

o Cuantos más datos mejor!

© Copyright Universidad Europea. Todos los derechos reservados. 10

Big Data Fundamentals
Machine Learning
4.2. ¿Por qué usar ML?

Imaginemos que queremos construir un filtro de spam. Una primera opción sería hacer
un sistema ad hoc que podría consistir en:

- Definición de reglas tipo:

Si contiene en el título "promotion" o "for free" -> spam

- Escribir un algoritmo de detección de los patrones encontrados (expresiones

regulares, ...)

- Evaluar el algoritmo e ir refinándolo.

Pero...

- Los spammers se pueden adaptar…

- …Las reglas cambiar…

- …Obligarnos a iterar sobre los distintos pasos del sistema montado…

- …Con la contra de que, aparte de consumir mucho tiempo, el sistema se vuelve

inmantenible.

Si en vez de intentar definir las reglas a mano cada vez que queramos modificar nuestro
sistema de detección de spam utilizamos un clasificador, podemos redefinir el
problema como:

- Estudiar el problema desde el punto de vista de que variables me afectan a que

sea spam, por ejemplo, patrones de palabras frecuentes en mails normales o
spam (bag of words, tf-idf)

- Entrenar un clasificador sobre las variables seleccionadas: e.g. naive-bayes,

logistic regression...

- Evaluar el rendimiento y poner en producción

© Copyright Universidad Europea. Todos los derechos reservados. 11

Big Data Fundamentals
Machine Learning

Los sistemas de ML son buenos para:

- Problemas que requieren mucho trabajo manual o largas listas de reglas

- Entornos que evolucionan

- Conseguir insights en datos complejos

4.3. Los datos

Vamos a hablar todo el tiempo de datos, y diferenciaremos dos conceptos:

observaciones (la cantidad de datos que tenemos) y variables (las distintas
informaciones que contien cada registro)

variables
observaciones

Población: Conjunto de todo el universo de datos

Muestra: Subconjunto de la población al que tenemos acceso y con el que vamos a

trabajar.

© Copyright Universidad Europea. Todos los derechos reservados. 12

Big Data Fundamentals
Machine Learning
El caso típico consiste en, en base a las variables de nuestro dataset, predecir el
resultado de una variable extra. En nuestro ejemplo, tenemos la información de
estudiantes de una asignatura, con información de su asistencia y número de castigos.
La variable que podemos intentar adivinar es si el estudiante aprobará o no.

Variables
explicativas/independientes

EDAD GÉNERO ASISTENCIA A CLASE CASTIGOS … ¿Aprobará?

ESTUDIANTE 1 15 H 9/10 0 … ¿?

ESTUDIANTE 2 16 M … ¿?

ESTUDIANTE 3 15 M 10/10 2 … ¿?

ESTUDIANTE 4 14 H 9/10 1 … ¿?

ESTUDIANTE 5 15 M 10/10 1 … ¿?

… … … … … … ¿?

Variable respuesta/objetivo/dependiente

Nuestras variables, son de dos tipos:

- Categórica / Cualitativa: Toman un conjunto discreto o finito de valores.

Ejemplo: Género (Hombre o Mujer)

- Numérica / Continua / Cuantitativa: Toman un conjunto continuo o infinito de

valores.

Ejemplo: Edad, Castigos

© Copyright Universidad Europea. Todos los derechos reservados. 13

Big Data Fundamentals
Machine Learning

5. Aprendizaje Supervisado vs No Supervisado

Hay dos tipos principales de técnicas de ML, que utilizaremos según el objetivo que
nos hayamos planteado y los datos con los que contemos:

Aprendizaje Supervisado

Se habla de aprendizaje supervisado cuando se hace referencia a que el modelo

construido está basado en unas observaciones sobre las que ya conocíamos la respuesta
e intentamos averiguar qué responderíamos ante una serie de datos nuevos.

De hecho, los algoritmos de aprendizaje supervisado cambian su estado interno

minimizando el error que comete al predecir qué darían las observaciones sobre lo que
realmente sabemos que ha dado. Esta fase es la que de forma común se llama
entrenamiento.

Mayor número de técnicas y algoritmos

Entornos más controlados y fáciles de validar resultados

Requiere de conocer casos previos resueltos

Aprendizaje No Supervisado

Cuándo: Si no disponemos de experiencia (observaciones previas) en la que sepamos

el resultado.

Para qué: Crear un modelo/función que se encargue encontrar patrones y

relaciones existentes en los datos (y desconocidos), y que ante nuevos datos permita
asociarlos a alguno de estos patrones obtenidos.

Cómo: Estas técnicas se encargan de inferir estructuras y relaciones presentes en las

muestras.

© Copyright Universidad Europea. Todos los derechos reservados. 14

Big Data Fundamentals
Machine Learning

No necesita conocer casos previos resueltos

Menor número de técnicas y algoritmos

Entornos menos controlados sin datos previos con los que contrastar

6. Principales técnicas de Machine Learning

Podemos clasificar los problemas que queremos resolver con Machine Learning en base
a las dos dimensiones que hemos visto:

- Tipo de aprendizaje: Supervisado vs No Supervisado

- Tipo de variable respuesta: Continua o Discreta

Para cada combinación, hay una o varias técnicas que podemos aplicar:

Redes
Neuronales

Clasificación Regresión

Supervisado Supervisado
+ Discreta + Continua

Series
temporales
No No
supervisado supervisado
+ Discreta + Continua

Clustering Reducción de
Recomendación dimensiones

© Copyright Universidad Europea. Todos los derechos reservados. 15

Big Data Fundamentals
Machine Learning
6.1. Clasificación

Una de las tareas más comunes a realizar. Se trata de encontrar el grupo al que
pertenece una observación.

¿Para qué?

Variable respuesta: discreta.

Queremos clasificar muestras en un conjunto finito de posibilidades

Dos alternativas:

Grupo azul

Grupo naranja

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras previamente clasificadas

Ejemplos

Clasificar emails (deseado/no deseado/spam), predecir tasa de abandono de

estudiantes (abandona/no abandona), reconocimiento de escritura manual…

© Copyright Universidad Europea. Todos los derechos reservados. 16

Big Data Fundamentals
Machine Learning
6.2. Regresión

El nombre de fue introducido por Francis Galton cuando estudiaba que los hijos de
gente alta tendían a ser bajos, por lo que había una regresión a la media. Hay muchos
tipos, siendo la regresión lineal el más sencillo.

¿Para qué?

Variable respuesta: continua.

Queremos predecir valores numéricos

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras cuya variable a predecir es conocida.

Ejemplos

Predicción de precios de productos, de edades de personas, estimación de emisiones

de CO2 emitidos por motores…

Big Data Fundamentals
Machine Learning
6.3. Series temporales

¿Para qué?

Variable respuesta: continua.

Queremos predecir un valor numérico que evoluciona a lo largo del tiempo.

¿Cuándo?

Disponemos del valor a predecir en el pasado y queremos predecirlo a futuro. En este

caso no corresponden ni a técnicas supervisadas ni no supervisadas.

Ejemplos

Predicción de evolución de precios de productos a lo largo del tiempo, afluencia de

visitas a museos según día de la semana, etc.

Big Data Fundamentals
Machine Learning
6.4. Clustering

Quizá tenemos un conjunto de datos sin etiquetar pero que nos gustaría agrupar en
aquellos que sean similares, por ejemplo:

- Agrupar genes y proteínas que tienen funciones similares

- Agrupar valores bursátiles con fluctuaciones similares.

El clustering no es clasificación, puesto que no hay una respuesta correcta. Por el

contrario, tenemos un conjunto de algoritmos y métricas que podemos usar para tener
una idea de la bondad del clúster.

¿Para qué?

Variable respuesta: discreta.

Queremos agrupar muestras en grupos en base a su similitud

¿Cuándo?

Técnica no supervisada

Desconocemos clasificaciones previas de las muestras, ni siquiera agrupaciones que

van a formarse.

Ejemplos

Agrupar pacientes con síntomas similares, identificar patrones de clientes…

Big Data Fundamentals
Machine Learning
6.5. Recomendación

¿Para qué?

Variable respuesta: discreta.

Queremos hacer una recomendación a un usuario de un producto determinado.

¿Cuándo?

Técnica no supervisada

Aunque puede tener una versión supervisada si el propio usuario retroalimenta una
respuesta a las recomendaciones que se le realizaron en el pasado (por ejemplo con
una puntuación).

Ejemplos

Recomendación de películas en base a las que has visto, productos en compras online
en base a lo que compraron otros consumidores…

Big Data Fundamentals
Machine Learning
6.6. Reducción de dimensiones

La reducción de dimensiones es una técnica que usaremos a menudo cuando tengamos

conjuntos de datos con muchas dimensiones. Por ejemplo, si tenemos un conjunto de
documentos sin etiquetar, en lugar de utilizar un Bag of Words con todas las palabras
como features potenciales, quizá queramos desarrollar una lista mas corta de palabras
que sean relevantes para el problema que estemos tratando de resolver. De manera
análoga, en el caso de las imágenes, cuando tenemos una imagen de tan solo 100x100,
esto nos deja 10,000 features, estas serán redundantes y necesitamos reducir la
dimensionalidad del problema

¿Para qué?

Variable respuesta: continua.

Queremos reducir la dimensionalidad de nuestros datos.

¿Cuándo?

Técnica no supervisada

Desconocemos como pueden combinarse estos parámetros.

Ejemplos

Cualquier ventaja de reducción de parámetros, como limpieza de datos, eliminar

variables menos relevantes... de forma que nos beneficiemos de las ventajas de
dimeniones bajas, como poder representar los datos gráficamente.

Big Data Fundamentals
Machine Learning
6.7. Redes Neuronales (deep learning)

Deep Learning es una rama del Machine Learning, que intenta simular la estructura
biológica y la funcionalidad de un cerebro humano usando redes de neuronas
artificiales.

¿Para qué?

Variable respuesta: continua o discreta.

Podemos responder problemas parecidos a los que resolvemos con Clasificación o

Regresión. Hay quien entiende las redes neuronales como una evolución del Machine
Learning tradicional.

¿Cuándo?

Técnica supervisada

Si disponemos de un conjunto de muestras cuya variable a predecir es conocida. De

hecho, el performance escala con la cantidad de datos en los que se entrena. Cuantos
más datos, mejor modelo

Ejemplos

Generar captions, resumir, traducir texto, generar audio, producir arte.

Big Data Fundamentals
Machine Learning

7. Evaluación de Modelos
Una vez elegimos y desarrollamos el modelos, necesitamos evaluar lo bien que
funciona. Dependiendo del tipo de aprendizaje que estemos utilizando:

- Supervisado: Puesto que disponemos de un conjunto de datos cuyo resultado

conocemos, podemos utilizar parte de ellos para poder medir la bondad de los
modelos obtenidos. Dos aproximaciones:

o Entrenar todo el modelo con la totalidad de los datos, y luego utilizar

un porcentaje de ellos para evaluar el modelo

o Dividir el conjunto de datos en dos subconjuntos: el conjunto de

entrenamiento y el conjunto de testeo.

- No supervisado: Aquí no podemos utilizar datos previos puesto que no los

tenemos, pero existen otro tipo de evaluaciones según cada tipo de algoritmo.

7.1. Overfit vs Underfit

Esta evaluación puede indicarnos que nuestro modelo no está bien ajustado:

- Un modelo se dice que está infra-ajustado (underfitted) si no consigue la

precisión suficiente para el conjunto de datos presentado (por intentar hacerlo
demasiado simple o con un menor número de parámetros de entrada).

- Un modelo se dice que está sobre-ajustado (overfitted) si, para el conjunto de

datos de entrada con el que se ha construido, tiene una precisión buena, pero
baja para otros conjuntos de datos de entrada diferentes (como el de
validación).

Big Data Fundamentals
Machine Learning

8. Ejemplo Clustering
Veamos un ejemplo completo de un algoritmo de ML en Python. El algoritmo de
clustering k-means, que genera el número de grupos que le indiquemos.

Generemos primero de forma aleatoria la nube de puntos: con unos puntos centrados
en el (0, 1), otros en el (-0.5, -0.7) y otros en el (0.5, -0.7)

El algoritmo K-means va haciendo iteraciones asignando el número de grupos que le

indiquemos y colocando los centroides, según la distancia de las distintas variables al
centroide.

Big Data Fundamentals
Machine Learning

En la primera iteración, coloca los centroides donde le indiquemos, y después va

“probando” hasta que encuentra los clusters optimos

A la izquierda, la primera iteración, a la derecha, después de 10 iteraciones:

Big Data Fundamentals
Machine Learning

obra pertenecen en exclusiva a la Universidad Europea
de Madrid, S.L.U. Queda terminantemente prohibida la
reproducción, puesta a disposición del público y en
general cualquier otra forma de explotación de toda o
parte de la misma.

La utilización no autorizada de esta obra, así como los

perjuicios ocasionados en los derechos de propiedad
intelectual e industrial de la Universidad Europea de
Madrid, S.L.U., darán lugar al ejercicio de las acciones
que legalmente le correspondan y, en su caso, a las
responsabilidades que de dicho ejercicio se deriven.

También podría gustarte

Mapa de Secuencia Como Hacerlo
Aún no hay calificaciones
Mapa de Secuencia Como Hacerlo
1 página
Orientación Vocacional
100% (2)
Orientación Vocacional
46 páginas
Conceptos Básicos de Análisis de Datos (Apuntes)
Aún no hay calificaciones
Conceptos Básicos de Análisis de Datos (Apuntes)
13 páginas
Trabajo Escrito Análisis de Datos y Elaboración de Informe
50% (2)
Trabajo Escrito Análisis de Datos y Elaboración de Informe
10 páginas
5 Interculturalidad
100% (5)
5 Interculturalidad
22 páginas
Analítica de Datos
100% (1)
Analítica de Datos
6 páginas
La Educacinparalapazdesde Johan Galtung
Aún no hay calificaciones
La Educacinparalapazdesde Johan Galtung
28 páginas
Fundamentos de Analitica
Aún no hay calificaciones
Fundamentos de Analitica
18 páginas
Formato Carta Gantt - 2015 Matemáticas
100% (1)
Formato Carta Gantt - 2015 Matemáticas
6 páginas
Análisis de Datos Estadísticos en Excel
Aún no hay calificaciones
Análisis de Datos Estadísticos en Excel
5 páginas
Estudio de Caso Aplicando Las Normas de Contratación de Personal
50% (2)
Estudio de Caso Aplicando Las Normas de Contratación de Personal
2 páginas
Contenido Teórico Análisis de Datos - Nivel Básico (Explorador) Módulo 1
Aún no hay calificaciones
Contenido Teórico Análisis de Datos - Nivel Básico (Explorador) Módulo 1
17 páginas
1 - Introducción A Data Analytics - EdicionProfe
Aún no hay calificaciones
1 - Introducción A Data Analytics - EdicionProfe
49 páginas
Introducción Análisis Datos - Nivel Básico
Aún no hay calificaciones
Introducción Análisis Datos - Nivel Básico
45 páginas
Gerencia Educativa - Tarea 6B1. Realiza Un Análisis Del POA
Aún no hay calificaciones
Gerencia Educativa - Tarea 6B1. Realiza Un Análisis Del POA
14 páginas
TAREA - Introducción Al Análisis de Datos en Finanzas
Aún no hay calificaciones
TAREA - Introducción Al Análisis de Datos en Finanzas
17 páginas
Análisis de Datos
Aún no hay calificaciones
Análisis de Datos
43 páginas
Unidad 1. Semana 3
Aún no hay calificaciones
Unidad 1. Semana 3
52 páginas
6-Análisis de Datos
Aún no hay calificaciones
6-Análisis de Datos
16 páginas
Analitica
Aún no hay calificaciones
Analitica
9 páginas
Semanas 5
Aún no hay calificaciones
Semanas 5
19 páginas
Evaluación Sumativa - Revisión Del Intento - Aula Virtual
Aún no hay calificaciones
Evaluación Sumativa - Revisión Del Intento - Aula Virtual
9 páginas
Análisis de Datos
0% (1)
Análisis de Datos
35 páginas
Regresión Lineal en Estadística Big Data
Aún no hay calificaciones
Regresión Lineal en Estadística Big Data
21 páginas
Sesion 1
Aún no hay calificaciones
Sesion 1
22 páginas
INEFICIENTE COMUNICACIÓN FAMILIARteoria
Aún no hay calificaciones
INEFICIENTE COMUNICACIÓN FAMILIARteoria
3 páginas
Lecture04-Main Motivation and Drivers For Big Data Adoption (2) Spanish
Aún no hay calificaciones
Lecture04-Main Motivation and Drivers For Big Data Adoption (2) Spanish
25 páginas
GRUPO 4 - Exploración de Datos
Aún no hay calificaciones
GRUPO 4 - Exploración de Datos
34 páginas
El Poder Frente A La Fuerza PDF
Aún no hay calificaciones
El Poder Frente A La Fuerza PDF
42 páginas
Modulo 2
Aún no hay calificaciones
Modulo 2
9 páginas
Proyecto Final Analitica
Aún no hay calificaciones
Proyecto Final Analitica
19 páginas
El Análisis Descriptivo Se Utiliza A Menudo Al Examinar Cualquier Dato Pasado o Presente
Aún no hay calificaciones
El Análisis Descriptivo Se Utiliza A Menudo Al Examinar Cualquier Dato Pasado o Presente
2 páginas
Análisis de Datos Vs Analítica de Datos Procesamiento de Datos
100% (1)
Análisis de Datos Vs Analítica de Datos Procesamiento de Datos
4 páginas
Qué Es La Analítica de Datos
Aún no hay calificaciones
Qué Es La Analítica de Datos
6 páginas
1-Introduccion Analisis de Datos
Aún no hay calificaciones
1-Introduccion Analisis de Datos
6 páginas
Entregable 1 Analitica de Datos
Aún no hay calificaciones
Entregable 1 Analitica de Datos
4 páginas
Analisis de Datos
Aún no hay calificaciones
Analisis de Datos
11 páginas
GUIA Analisis de Datos CODIGOFACILITO Comprimido
Aún no hay calificaciones
GUIA Analisis de Datos CODIGOFACILITO Comprimido
18 páginas
1 - Introducción Al Analisis de Datos de Microsoft
Aún no hay calificaciones
1 - Introducción Al Analisis de Datos de Microsoft
6 páginas
Desarrollo Neurológico en El Adolescente
100% (1)
Desarrollo Neurológico en El Adolescente
7 páginas
El Análisis de Datos - La Brújula en La Era de La Información
Aún no hay calificaciones
El Análisis de Datos - La Brújula en La Era de La Información
3 páginas
Analisis de Datos
Aún no hay calificaciones
Analisis de Datos
72 páginas
Analitica de Datos
Aún no hay calificaciones
Analitica de Datos
15 páginas
GUIA - Analisis - de - Datos - CODIGOFACILITO - 12 Pag
Aún no hay calificaciones
GUIA - Analisis - de - Datos - CODIGOFACILITO - 12 Pag
12 páginas
Actividad Eje 2
Aún no hay calificaciones
Actividad Eje 2
13 páginas
Análisis de Datos
Aún no hay calificaciones
Análisis de Datos
6 páginas
BTP Inform - Robótica
Aún no hay calificaciones
BTP Inform - Robótica
154 páginas
Fundamentación Conceptual
Aún no hay calificaciones
Fundamentación Conceptual
9 páginas
Universidad Cristiana Evangélica Nuevo Milenio
Aún no hay calificaciones
Universidad Cristiana Evangélica Nuevo Milenio
8 páginas
Unidad 2 - Investigacion Documental
Aún no hay calificaciones
Unidad 2 - Investigacion Documental
21 páginas
Proyecto de Aplicación
Aún no hay calificaciones
Proyecto de Aplicación
5 páginas
CP Calculo Integral 2022-2
Aún no hay calificaciones
CP Calculo Integral 2022-2
9 páginas
Análisis de Datos
Aún no hay calificaciones
Análisis de Datos
5 páginas
Entregable 1
Aún no hay calificaciones
Entregable 1
9 páginas
Grupo 3 Analisis de Datos y Elaboracion de Reportes
Aún no hay calificaciones
Grupo 3 Analisis de Datos y Elaboracion de Reportes
15 páginas
Bibliografia Prevencion DROGAS Nov 05
100% (2)
Bibliografia Prevencion DROGAS Nov 05
13 páginas
Curso Analisis de Datos - Cisco 2024
Aún no hay calificaciones
Curso Analisis de Datos - Cisco 2024
2 páginas
Terminologia Analisis de Datos
Aún no hay calificaciones
Terminologia Analisis de Datos
16 páginas
Workbook Mario Calderon
Aún no hay calificaciones
Workbook Mario Calderon
18 páginas
Inteligencia de Negocios B1
Aún no hay calificaciones
Inteligencia de Negocios B1
7 páginas
TDA101 Apunte Semana3 2022
Aún no hay calificaciones
TDA101 Apunte Semana3 2022
22 páginas
03 - Narración Oral
Aún no hay calificaciones
03 - Narración Oral
2 páginas
Inr-136 Tema 3
Aún no hay calificaciones
Inr-136 Tema 3
24 páginas
Notas Curso Google Analytics
Aún no hay calificaciones
Notas Curso Google Analytics
9 páginas
C2 FundamentosAnalisisDatos
Aún no hay calificaciones
C2 FundamentosAnalisisDatos
24 páginas
TiposAnalisisDatos AguiarLitzy
Aún no hay calificaciones
TiposAnalisisDatos AguiarLitzy
5 páginas
Notas
Aún no hay calificaciones
Notas
7 páginas
Exposicion
Aún no hay calificaciones
Exposicion
10 páginas
Eficacia de La Terapia Cognitivo-Conductual para Los Trastornos Mentales
Aún no hay calificaciones
Eficacia de La Terapia Cognitivo-Conductual para Los Trastornos Mentales
5 páginas
Análisis de Datos IBM
Aún no hay calificaciones
Análisis de Datos IBM
9 páginas
Analítica de Datos
Aún no hay calificaciones
Analítica de Datos
5 páginas
Power BI Tema 1
Aún no hay calificaciones
Power BI Tema 1
17 páginas
Analisis de Datos Estadisticos
Aún no hay calificaciones
Analisis de Datos Estadisticos
5 páginas
Análisis de Datos
Aún no hay calificaciones
Análisis de Datos
7 páginas
Introducción Al Big Data (Presentación)
Aún no hay calificaciones
Introducción Al Big Data (Presentación)
6 páginas
Ejercicio Del Capítulo 3 El Éxito en El Manejo de Los Problemas
Aún no hay calificaciones
Ejercicio Del Capítulo 3 El Éxito en El Manejo de Los Problemas
15 páginas
Educacion Cooperativa y Mutual PDF
Aún no hay calificaciones
Educacion Cooperativa y Mutual PDF
57 páginas
Mauriciomontes Maribel M08s2ai4
Aún no hay calificaciones
Mauriciomontes Maribel M08s2ai4
4 páginas
Choco Fe
Aún no hay calificaciones
Choco Fe
29 páginas
TAREA U1-CLASE 3-S1-Estudiante
Aún no hay calificaciones
TAREA U1-CLASE 3-S1-Estudiante
6 páginas
TP 2
Aún no hay calificaciones
TP 2
4 páginas
Aprender en El Siglo 21 - NG
Aún no hay calificaciones
Aprender en El Siglo 21 - NG
27 páginas
Pauta de Evaluacion Cuento Grupal
Aún no hay calificaciones
Pauta de Evaluacion Cuento Grupal
2 páginas
Tríptico Orientación
Aún no hay calificaciones
Tríptico Orientación
2 páginas
LIU - 2021 - Core or Edge - Revisiting GIScience From The Geography-Discipline Español
Aún no hay calificaciones
LIU - 2021 - Core or Edge - Revisiting GIScience From The Geography-Discipline Español
4 páginas
Instrucción 12 - Educación Primaria (F)
Aún no hay calificaciones
Instrucción 12 - Educación Primaria (F)
146 páginas
YourShortlist Guía Comparativa de Software ERP
Aún no hay calificaciones
YourShortlist Guía Comparativa de Software ERP
13 páginas
1.estructura de Datos
Aún no hay calificaciones
1.estructura de Datos
38 páginas
3.índices y Vistas
Aún no hay calificaciones
3.índices y Vistas
14 páginas
Cu Ndo Los Datos Son Considerados Big Data 1703037162
Aún no hay calificaciones
Cu Ndo Los Datos Son Considerados Big Data 1703037162
6 páginas
Machine Learning (Presentación)
Aún no hay calificaciones
Machine Learning (Presentación)
19 páginas
Sesión 12 - Proyectos de Innovación Pedagógica en Educación Primaria - Iii Ciclo B
Aún no hay calificaciones
Sesión 12 - Proyectos de Innovación Pedagógica en Educación Primaria - Iii Ciclo B
11 páginas
1.diagramas ER. Avanzadas
Aún no hay calificaciones
1.diagramas ER. Avanzadas
12 páginas
2.sistema de Base de Datos II
Aún no hay calificaciones
2.sistema de Base de Datos II
13 páginas
Catalogo Casas Troncos Madera
Aún no hay calificaciones
Catalogo Casas Troncos Madera
9 páginas
Almacenamiento en La Nube
Aún no hay calificaciones
Almacenamiento en La Nube
8 páginas
3.diccionarios y Tuplas
Aún no hay calificaciones
3.diccionarios y Tuplas
14 páginas
1.creación de Tablas
Aún no hay calificaciones
1.creación de Tablas
14 páginas
2.modificar y Eliminar Tablas
Aún no hay calificaciones
2.modificar y Eliminar Tablas
15 páginas
Que Lindo Es Mi Perú Ii Proyecto Identidad
Aún no hay calificaciones
Que Lindo Es Mi Perú Ii Proyecto Identidad
16 páginas