Descargable Completo - Curso Big Data INAP
Descargable Completo - Curso Big Data INAP
Descargable Completo - Curso Big Data INAP
Haciendo hablar
los datos
! !
!
!
!
!
BIG DATA: HACIENDO HABLAR LOS DATOS
Índice
Introducción Pág. 03
Datos y desafíos Pág. 04
Análisis de datos Pág. 07
Salud Publica Pág. 08
Tipos de datos, diagramas de barras e histogramas Pág. 08
Electricidad Pág. 09
El problema de regresión Pág. 09
El problema de clasificación Pág. 09
1
BIG DATA: HACIENDO HABLAR LOS DATOS
Introducción
Hoy estamos atravesados por los datos y continuamente los estamos generando. La
cantidad de datos que hoy generamos es enorme: no solo vienen de cuentas de correo
electrónico, WhatsApp, Facebook, Twitter, fotos digitales, GPS y videos, sino también de
sensores de climatológicos, datos socioeconómicos, fotos satelitales, etc. Para tener una
somera idea, por minuto se suben a YouTube más de 400 horas de videos.
350.000
tuits enviados 400 horas de video subidas
210.000
snaps subidos
60 1,5 millones canciones
transmitidas
segundos
120 nuevas cuentas 800.000 archivos
subidos
2
BIG DATA: HACIENDO HABLAR LOS DATOS
3
BIG DATA: HACIENDO HABLAR LOS DATOS
Hoy los países tienden a tomar todas sus medidas basadas en datos. Es decir, se busca
que la toma de decisiones sea transparente basada en la información disponible. Y el
desafío es analizar correctamente los datos para poder proponer nuevas políticas que
mejoren y simplifiquen la vida de los ciudadanos.
Ejemplos:
4
BIG DATA: HACIENDO HABLAR LOS DATOS
DATOS Y DESAFÍOS
Se puede considerar que hay cinco aspectos importantes sobre los datos:
• Análisis de los datos: ¿cómo hacer que los datos hablen? Esto se puede
considerar un arte, pero, como veremos, existen técnicas analíticas que nos ayudan a
avanzar sobre esta pregunta.
5
BIG DATA: HACIENDO HABLAR LOS DATOS
ANÁLISIS DE DATOS
Salud pública
6
BIG DATA: HACIENDO HABLAR LOS DATOS
En esta etapa, prestaremos especial atención al tipo de dato que queremos analizar.
1- Nombre
2- Domicilio
3- Centro de atención
4- Entró por guardia
5- día
6- hora de llegada
7- hora en que fue atendido .
7
BIG DATA: HACIENDO HABLAR LOS DATOS
8000
6000
FRECUENCIA
4000
2000
0
POSTRA
ZERARDI
RITORNI
FUCOTE
AUTARI
PLIGUE
SOSEKI
PAGLIA
VERILO
GUEVA
RULEG
DYLAN
TESTA
ALEZE
ÓN
RA
8
BIG DATA: HACIENDO HABLAR LOS DATOS
La variable Centro de Atención es una variable categórica. Cada uno de los valores que
toma esta variable es una categoría (hospitales generales de agudos, hospitales
generales de niños, hospitales especializados, centros de salud, centros médicos
barriales, unidades de pronta atención). Lo mismo le sucede a la variable Guardia, que
puede tomar solamente las categorías Sí o No. Si queremos representar gráficamente a
este tipo de variables, hacemos un diagrama de barra o de torta. Y, si queremos resumir
la información en una tabla, hacemos lo de arriba.
En cambio, la hora en que llegó el paciente y la hora en que fue atendido son dos
variables numéricas (no son categorías). Podemos calcular a qué hora llegan en
promedio los pacientes y a qué hora son atendidos (en promedio, llegan a las 9:45 y son
atendidos a las 10:32), pero como veremos estamos resumiendo mucho la información y
probablemente nos estemos perdiendo información relevante.
Si un paciente llegó a las 8:32, decimos que llegó entre las 8:30 y las 8:35 (categoría
8:30-8:35); si llegó a las 7:24, decimos que llegó entre las 7:20 y las 7:25 (categoría 7:20-
7:25), etc. Y ahora, al igual que antes, tenemos la frecuencia (cuántos datos hay) en cada
una de las categorías. Por lo tanto, podemos hacer un diagrama de barras. En este caso,
el gráfico se llama histograma. Su forma varía con el ancho de las clases o categorías.
9
BIG DATA: HACIENDO HABLAR LOS DATOS
3
FRECUENCIA
10
BIG DATA: HACIENDO HABLAR LOS DATOS
El histograma es la mejor técnica gráfica para entender cómo están distribuidos (forma
del histograma) los datos. En este gráfico, perdemos muy poca información que, en
general, no es muy importante: el nombre del paciente y la hora exacta en la que llegó
(para 8:32, decimos entre 8:30 y 8:35). La forma es muy relevante y nos ayuda a
entender los fenómenos subyacentes.
1500 1000
FRECUENCIA
FRECUENCIA
1000 600
500 200
0 0
4 6 8 10 12 4 6 8 10 12
250 250
FRECUENCIA
FRECUENCIA
150 150
50 50
0 0
4 6 8 10 12 4 6 8 10 12
12
BIG DATA: HACIENDO HABLAR LOS DATOS
Pero más interesante es pararse en los zapatos del paciente y estudiar cuánto tardó en
Supongamos que un paciente llega a las 9:05 h y lo atienden a las 9:55 h. En ese caso,
nuestra variable T sería 9:50 h menos 9:05 h, que da un total de 50 minutos de espera.
4000
3000
FRECUENCIA
2000
1000
12
BIG DATA: HACIENDO HABLAR LOS DATOS
Separemos los que entran por guardia y los que van con turno:
800
600 300
FRECUEN
FRECUENCIA
CIA
400 200
200 100
0 0
En la guardia, hay gente a la que atienden muy rápido y otra que espera mucho. Esto se
puede deber a que llegó un paciente muy grave y el resto tiene que esperar, o a que se
llenó de gente la guardia y entonces los últimos tienen que esperar mucho. En cambio,
cuando los pacientes llegan con turno más o menos se respeta el horario.
• Centro de atención
• Infraestructura [m2 construidos]
• Número de médicos en guardia
13
BIG DATA: HACIENDO HABLAR LOS DATOS
Aleze 350 9
Autari 550 15
Guevara 460 8
entender cuáles son los hospitales que tienen un gran tiempo de espera.
Construimos la base:
Autari 3,6 92
Guevara 1,4 39
14
BIG DATA: HACIENDO HABLAR LOS DATOS
250
ALEZE
200
TIEMPO DE ESPERA PROMEDIO
150
DYLAN
100 PAGLIA
AUTARI
50 TESTA
RULEGÓN
0
0 2 4 6 8
250 ALEZE
200
TIEMPO DE ESPERA PROMEDIO
150 DYLAN
50 TESTA
RULEGÓN
0
0 2 4 6 8
15
BIG DATA: HACIENDO HABLAR LOS DATOS
250 ALEZE
200
TIEMPO DE ESPERA PROMEDIO
150 DYLAN
50 TESTA
RULEGÓN
0
0 2 4 6 8
!
.
16
BIG DATA: HACIENDO HABLAR LOS DATOS
Hay que tener cuidado con la interpretación de estos dos hospitales atípicos porque
podrían existir otras variables que no estamos teniendo en cuenta que expliquen esta
diferencia. Por ejemplo, el hospital puede contar con menos o más camillas destinadas a
la atención de guardia... Lo que es seguro es que vale la pena indagar cuál es el motivo
que explica este alejamiento del patrón de comportamiento.
En el hospital Aleze, los pacientes tienen que esperar muchísimo para ser atendidos: en
Opciones:
Supongamos que decidimos ir por la opción 2. La pregunta que naturalmente surge es:
¿dónde es recomendable construir el nuevo centro de emergencias?
17
BIG DATA: HACIENDO HABLAR LOS DATOS
HOSPITAL ALEZE
18
BIG DATA: HACIENDO HABLAR LOS DATOS
A partir de este mapa, podemos fijar el centroide del grupo de domicilios lejanos, e
intentar construir el nuevo centro médico cerca de este lugar.
Los domicilios también nos pueden servir para mostrar el radio real de cobertura
geográfica real de cada centro de salud. Podemos hacer lo mismo que hicimos en el
histograma, pero ahora en una grilla de un mapa. Por ejemplo, definimos regiones de 10
manzanas en el mapa y nos fijamos la frecuencia de cada región (número de pacientes
que fueron al hospital A en el año cuyo domicilio pertenece a cada uno de las regiones
de 10 manzanas).
19
BIG DATA: HACIENDO HABLAR LOS DATOS
FRECUENCIA
Por ejemplo, el SAME atiende un gran porcentaje de las emergencias médicas de GBA y
CABA. Llegar a tiempo es fundamental para salvar vidas. ¿ Dónde debería estar la base
operativa de cada ambulancia de manera de llegar lo antes posible a cada domicilio?
Para responder esta pregunta, hay que tener en cuenta: el tráfico, la geolocalización de
las emergencias, el número de ambulancias disponibles, etc. También hay que establecer
qué significa llegar lo antes posible a cada domicilio. Ahondemos sobre este último punto.
Para ejemplificar la idea, supongamos que el SAME cuenta solamente con una única
ambulancia completamente equipada para cierto tipo de lesión (como ser quemaduras
graves). Supongamos además que contamos con la dirección donde ocurrieron los
últimos 200 accidentes. Si nuevamente los representamos en el mapa vemos que el 90 %
de estos ocurren cerca de la cruz verde y el 10 % restante, cerca de la cruz azul.
20
BIG DATA: HACIENDO HABLAR LOS DATOS
21
BIG DATA: HACIENDO HABLAR LOS DATOS
ELECTRICIDAD
Uno de los grandes desafíos que tiene la Argentina hoy de cara al futuro es, sin duda, el
desarrollo del sector energético. Sabemos que cada día se necesita más energía para
que nuestras ciudades funcionen. Con el correr de los años, el aumento demográfico
focalizado en grandes urbes, el aumento de la producción industrial, entre otros factores,
hacen que la demanda energética aumente sostenidamente. Por otra parte, la relación
entre producción y consumo de energía en muchos casos acarrea problemas
ambientales vinculados a la ecología y al calentamiento global.
22
BIG DATA: HACIENDO HABLAR LOS DATOS
Si bien los avances tecnológicos en el mediano y largo plazo van a jugar un rol
fundamental en la creación de energías verdes, aparatos eléctricos, iluminación,
vehículos y demás dispositivos que consuman menos energía, hoy en día es necesario
proponer políticas públicas que creen incentivos eficientes (para los consumidores y para
los productores de energía) para satisfacer la demanda. El Estado cuenta con mucha
información relativa a estos problemas que puede ayudar a describirlos, visualizarlos y
resolverlos.
23
BIG DATA: HACIENDO HABLAR LOS DATOS
EL PROBLEMA DE REGRESIÓN
La curva promedio de consumo de energía eléctrica tiene cierto patrón que depende de
muchos factores, como el tipo de cliente, la temperatura del día y si es un día laboral o fin
de semana. Lo que más interesa de esta curva es justamente el valor del pico de
consumo y en qué horario del día se da.
Si bien es claro que todas las variables mencionadas parecen ser relevantes para
determinar cuál será la demanda energética en cada momento —y con especial énfasis
en el pico de consumo—, también es claro que no todas serán igualmente
24
BIG DATA: HACIENDO HABLAR LOS DATOS
6000
5000
4000
3000
15 20 25 30 35
TEMPERATURA [C]
Del gráfico se desprende que los máximos registros de consumo se dan se dan los días
de mucho calor. Por sobre todas las cosas, vemos que hay una relación entre la
temperatura y el máximo consumo. Y nosotros queremos aprender de los datos, construir
un modelo estadístico que nos permita predecir un resultado o output (en nuestro caso,
sería el consumo) sobre la base de datos (más) fácilmente observables de la realidad o
input (en nuestro caso simplificado, la
25
BIG DATA: HACIENDO HABLAR LOS DATOS
temperatura máxima, pero en el caso original también podríamos haber tenido en cuenta
las demás características de los usuarios, climáticas, geográficas, etc.).
Observando nuevamente el gráfico podemos ver que los datos que tenemos se pueden
modelar razonablemente bien mediante una recta. A este modelo se lo denomina modelo
de regresión lineal simple.
26
BIG DATA: HACIENDO HABLAR LOS DATOS
Hay muchas maneras de medir proximidad, pero por lejos la más difundida se conoce
como mínimos cuadrados. Supongamos que tenemos la mejor aproximación a los datos
que se puede tener mediante una recta Entonces, a partir de cada valor queWRPDOD
temperatura, podemos predecir la máxima demanda de energía, FRPRVHPXHVWUD
HQHOVLJXLHQWHJUiILFR:
PICO DE CONSUMI ELÉCTRICO [KWH]
6000
5000
4000
3000
15 20 25 30 35
TEMPERATURA [C]
El parámetro se llama ordenada al origen, que en este caso está estimado por el número
5 (kW) y representa la demanda promedio de energía máxima cuando la temperatura es
de 0 °C (una aclaración importante es que, en nuestro caso, únicamente podemos
interpretar el modelo para temperaturas entre 15 °C y 35
27
BIG DATA: HACIENDO HABLAR LOS DATOS
El coeficiente es la pendiente, que está estimado por el número 180, y mide cuánto
aumentará la máxima demanda de energía si la temperatura aumenta en un grado. Es
decir, por cada grado que suba la temperatura, la máxima demanda energética
aumentará en 180 kWh.
Por tanto, podemos predecir que, si hace 30 °C, la demanda de energía será de 5400
kW.
Hasta aquí no hay nada que nos impida hacer esto con cualquier conjunto de datos, pero
¿cómo sabemos que el modelo que estamos ajustando predice bien la realidad?
¿Qué engloba ese error? El error mide justamente la diferencia que hay entre la realidad
y el modelo que propusimos, donde hicimos algunos supuestos:
• El primero fue considerar que las variables utilizadas en el modelo eran las
adecuadas para predecir la máxima demanda energética.
• El segundo fue asumir que el modelo lineal (es decir, ajustar una recta) era
adecuado.
28
BIG DATA: HACIENDO HABLAR LOS DATOS
observar que, cuanto más cercano a 1, mejor es explicada la variable Y por la variable X.
29
BIG DATA: HACIENDO HABLAR LOS DATOS
170
110 110 50
5 10 15 20 25 30 35 5 10 15 20 25 30 35 5 10 15 20 25 30 35
X X X
80
70 100
6 8
0 0 250
Y 100
50 60
50
40 40
0
30 20
5 10 15 20 25 30 35 5 10 15 20 25 30 35 5 10 15 20 25 30 35
X X
el tipo de usuario (está claro que un cliente residencial y uno comercial tienen diferente
consumo),
30
BIG DATA: HACIENDO HABLAR LOS DATOS
En general, tenemos una variable que queremos predecir: en nuestro caso, es la máxima
demanda de energía. Para ello, contamos con información:
T = máxima temperatura
P = precio del kWh
F = categoría de facturación (residencial, comercial, industrial)
Lat = ubicación geográfica, coordenada de latitud (GPS)
Long = ubicación geográfica, coordenada de longitud (GPS)
Es importante destacar que no tienen todas la misma naturaleza: T, P, Lat, y Long son
variables continuas, mientras que F es categórica. Las variables categóricas requieren de
un tratamiento especial; por lo tanto, comenzaremos considerando únicamente las
variables continuas.
Este modelo es mejor que el anterior en el sentido de que nos permitirá estimar la
máxima demanda energética de un cliente en determinado momento.
El error , por un lado, engloba todas aquellas variables que inciden en la máxima
demanda energética que no utilizamos en nuestro modelo: por ejemplo, aquellas que por
simplicidad decidimos omitir u otras variables que no nos imaginamos
31
BIG DATA: HACIENDO HABLAR LOS DATOS
que estén incidiendo en la demanda energética, pero que efectivamente lo hagan. Por
otro lado, si considerásemos otro tipo de relaciones, el error proveniente de haber
impuesto una relación lineal entre las variables se vería modificado.
Si bien en este caso no podemos hacer un gráfico que nos guíe sobre el problema en
cuestión, sigue vigente la idea de encontrar los valores de los coeficientes
que minimicen el error de predicción.
Sobre la base de nuestros datos, podemos ver que el modelo ajustado es el que sigue:
Luego sabemos que, por cada grado que aumente la temperatura, la demanda aumentará
en 170 kW si el resto de las variables permanecen iguales. Por cada
32
BIG DATA: HACIENDO HABLAR LOS DATOS
unidad que aumente la latitud, la demanda energética disminuirá en 4 kW. Es decir que,
cuanto más al sur estemos, menor demanda habrá (esto podría deberse a características
constructivas que hagan que haya una mejor aislación térmica, ventanas más pequeñas,
etc. por encontrarse más al sur). Por el contrario, por cada punto que aumente la longitud
la demanda aumenta en 2 kW la máxima demanda energética, al oeste la demanda
energética es mayor.
Por último, la demanda energética disminuye en 3kW por cada peso que el precio
aumenta.
No hace falta tener una variable que indique cuándo es comercial porque será en los
33
BIG DATA: HACIENDO HABLAR LOS DATOS
Este nuevo modelo probablemente tenga un mejor poder de predicción y, por lo tanto,
podemos dar por concluido el análisis.
También se podrían eliminar las variables Long y Lat y agregar una variable categórica
que sea provincia y modelarla con variables dummies.
34
BIG DATA: HACIENDO HABLAR LOS DATOS
¿Qué tipo de relación tiene cada una de las variables de entrada con la variable que se
busca predecir?
En general, buscamos utilizar de la mejor manera posible las variables regresoras para
predecir la variable de respuesta: en nuestro caso, la máxima demanda energética. Es
decir, que podemos pensar que la demanda es una función de las variables regresoras
más un error.
35
BIG DATA: HACIENDO HABLAR LOS DATOS
donde f es una función fija, que generalmente va a ser no lineal de los datos y ε es el
error del promedio, que tiene media cero y que es independiente de las variables de
entrada del modelo (T, Lat, Long, P, FR,FI). La función f representa un modo de utilizar la
información que proveen las variables regresoras, que hasta ahora nosotros asumimos
que fue lineal.
Luego, la pregunta central del aprendizaje estadístico es: ¿cómo estimar la función f?
Estos modelos tienen como ventaja que son sencillos de estimar y de interpretar. Sin
embargo, como desventaja, vale mencionar que en ocasiones la rigidez en la forma de la
relación entre las variables regresoras y la de respuesta que plantean puede llevar a una
mala estimación de esta.
36
BIG DATA: HACIENDO HABLAR LOS DATOS
Típicamente, para mejorar el ajuste, se pueden proponer modelos más complejos, que
asuman otras formas funcionales. Tales modelos dependerán de más parámetros y, en
esos casos, conviene pasar a modelos que den mayor flexibilidad a la forma de relación
funcional entre las variables. Estos modelos suelen ser más difíciles de interpretar.
37
BIG DATA: HACIENDO HABLAR LOS DATOS
En general, el criterio imperante debe ser mantener el modelo lo más simple posible e
introducir complejidad solo en caso de extrema necesidad: por ejemplo, si un modelo más
sofisticado (y probablemente más difícil de interpretar) brinda resultados muy superiores,
en el sentido de que las predicciones y el modelado general del modelo son mucho más
precisos.
El modelo que dominó la literatura en los últimos 200 años fue el modelo de regresión
lineal. Esto se debe a varios motivos. El primero es su utilidad: en muchos casos resultó
ser muy adecuado para el modelado de diversas situaciones. El segundo es su bajo costo
computacional: los cálculos que requiere pueden ser rápidamente hechos a mano o con
herramientas muy primitivas de cálculo, eso no lo hace menos atractivo.
Aquí nos encontramos en un punto de inflexión: aprendimos que los métodos más
sencillos podrían ajustar peor el modelo (es decir, parecerse menos a la realidad), pero
serían sencillos de interpretar, mientras que aquellos más flexibles tendrían mayores
dificultades a la hora de la interpretación.
38
BIG DATA: HACIENDO HABLAR LOS DATOS
En un mundo ideal, existiría un modelo óptimo capaz de hacer las predicciones más
precisas para toda circunstancia. Sin embargo, en la vida real esto no ocurre. En
estadística nada es gratis y no existen modelos óptimos. Dependiendo de las
características de cada conjunto de datos y problemas, habrá modelos que sean más
precisos que otros. Hay modelos que tienen resultados excepcionales para determinados
conjuntos de datos y terribles para otros.
Por lo tanto, dado un conjunto de datos y un problema específico, una piedra angular en
la resolución de un problema es la elección del modelo óptimo.
Veamos el siguiente ejemplo. Una persona podría observar que los días en los cuales se
venden más paraguas suele llover; más aún, que la cantidad de paraguas que se venden
aumenta cuantos más milímetros de lluvia caen. Sin embargo, es claro que, si dejáramos
de vender paraguas, no dejaría de llover. De aquí se desprende que puede ocurrir que la
venta de paraguas sea un buen predictor de la lluvia, pero claro está que no es una
causa de esta.
39
BIG DATA: HACIENDO HABLAR LOS DATOS
!
En resumen, hemos avanzado sobre las siguientes
preguntas:
• ¿Cuáles son las características de los clientes que en mayor medida contribuyen
a predecir la demanda estimada? No solo es importante medir el efecto conjunto de
todas las características consideradas, sino que además es importante poder
establecer cuáles son los efectos individuales de cada una de ellas sobre la variable
que se ha de estudiar.
40
BIG DATA: HACIENDO HABLAR LOS DATOS
EL PROBLEMA DE CLASIFICACIÓN
Supongamos que una empresa quiere modificar las categorías actuales de facturación
teniendo en cuenta el uso racional de la energía. Con ese objetivo se contrata a expertos
en el área y se les pide que clasifiquen a 200 clientes elegidos al azar en k nuevas
categorías. Estos expertos toman su decisión teniendo en cuenta características de la
curva de consumo, la localización geográfica y variables socioeconómicas del cliente.
Los expertos realizaron un procedimiento muy complejo para caracterizar a estos 200
clientes, pero no presentaron en una fórmula (o procedimiento) la manera en que los
clasificaron. Para entender el impacto de esta nueva caracterización de facturación, se
quiere determinar a qué categoría pertenecería cada uno de los clientes de una dada
distribuidora eléctrica.
A partir de esta información (200 clientes con nuevas categorías), el objetivo será
entonces automatizar la clasificación de absolutamente todos los clientes, es decir,
asignarles automáticamente su nuevo estatus de facturación. Si esta tarea se hiciera en
forma manual, demandaría mucho tiempo y sería más difícil de lo que parece. Por lo
tanto, lo que buscamos es tener procedimientos automáticos para asignar el estatus de
facturación a los clientes en base.
41
BIG DATA: HACIENDO HABLAR LOS DATOS
CATEGORÍA 1
42
BIG DATA: HACIENDO HABLAR LOS DATOS
El problema que buscamos resolver es el siguiente: tenemos a todos los clientes del
sistema eléctrico y buscamos clasificarlos en las tres categorías de facturación que
conformaron los expertos: C1, C2 y C3. La técnica más intuitiva para resolverlo y que en
la práctica muestra muy buenos resultados se conoce como asignación por vecinos más
cercanos.
Las curvas más cercanas a la curva negra son las curvas A, B y C, que son todas
categoría C1. Por lo tanto, a este nuevo usuario (curva negra) se le asignaría la categoría
C1 ya que todos sus vecinos son de esa categoría.
43
BIG DATA: HACIENDO HABLAR LOS DATOS
SI PICO ENTRE NO
C2
20:00 HS Y 22:00 HS
SI PICO ENTRE NO
12:00 HS Y 14:00 HS C3
C1 SI PICO ALCANZA UN NO
CONSUMO DE 300 KW/H
C3 C1
Este método es muy popular por su sencillez y su fácil interpretabilidad. Se piensa que la
estructura de los árboles de decisión imita el modo en que los seres humanos tomamos
decisiones. Su representación gráfica hace que para su aplicación no se requiera ninguna
preparación previa. Los árboles pueden lidiar fácilmente tanto con variables cuantitativas
como cualitativas. Pero su capacidad predictiva en general no es buena.
44
BIG DATA: HACIENDO HABLAR LOS DATOS
45