Descargable Completo - Curso Big Data INAP

Big Data:
Haciendo hablar
los datos
! !
!
!
!
!
BIG DATA: HACIENDO HABLAR LOS DATOS
Índice
Introducción Pág. 03
Datos y desafíos Pág. 04
Análisis de datos Pág. 07
Salud Publica Pág. 08
Tipos de datos, diagramas de barras e histogramas Pág. 08
Electricidad Pág. 09
El problema de regresión Pág. 09
El problema de clasificación Pág. 09
1
Introducción
Hoy estamos atravesados por los datos y continuamente los estamos generando. La
cantidad de datos que hoy generamos es enorme: no solo vienen de cuentas de correo
electrónico, WhatsApp, Facebook, Twitter, fotos digitales, GPS y videos, sino también de
sensores de climatológicos, datos socioeconómicos, fotos satelitales, etc. Para tener una
somera idea, por minuto se suben a YouTube más de 400 horas de videos.
Pasaron tantas cosas en 2017 en nuestro mundo digitalizado y tenemos las

cifras que hay detrás
350.000
tuits enviados 400 horas de video subidas
29 millones de mensajes 16.559 visualizaciones

procesados de videos
210.000
snaps subidos
60 1,5 millones canciones
transmitidas
segundos
120 nuevas cuentas 800.000 archivos
subidos
18.000 coincidencias 3,8 millones pedidos de búsqueda
87.000 horas de video vistas 65.000 fotos subidas
156 millones de correos

243.000 fotos subidas electrónicos enviados
2
Hoy se toman y analizan datos de deportes, salud, casas inteligentes, venta de

supermercados y el posicionamiento en góndola, consumo de productos y servicios,
publicidad efectiva, etc. Por ejemplo, en el caso de los deportes, hay equipos de fútbol
que hacen seguimiento de la pelota y de los 22 jugadores para mejorar el rendimiento.
También, en el caso del automovilismo de alta competencia, los autos tienen sensores
que reportan en tiempo real el desempeño del auto y del piloto. Aun en el ciclismo se
usan sensores que describen características fisiológicas de los ciclistas. En lo relacionado
con el consumo de productos y servicios, se analizan los gustos para presentarle al
cliente nuevos productos que puedan ser de su interés. En el campo de la salud, hoy
existen dispositivos que miden el ritmo cardíaco, el movimiento de los ojos y la actividad
cerebral para poder corregir disfunciones, como también para diagnosticar enfermedades.
Pero ¿de qué hablamos cuando hablamos de big data?
Big data (‘macrodatos’ o ‘inteligencia de datos’ en español) es un concepto que se ha

puesto de moda y tiene que ver con poder analizar de una manera útil los datos
disponibles; con la habilidad para modelar y analizar datos, independientemente de cuán
grandes sean.
Cuando uno tiene grandes volúmenes de datos, existen desafíos teóricos y

computacionales. Por ejemplo, ante los datos que produce el acelerador de partículas de
la Organización Europea para la Investigación Nuclear (conocida por la sigla en francés
CERN), uno está interesado en analizarlos en tiempo real. Sin embargo, en general, en
los casos de big data con que nos topamos, el tamaño de los datos no es monstruoso
para las capacidades computacionales con las que solemos contar. El desafío, por lo
tanto, pasa por ser capaces de «hacer hablar a los datos» y, a partir de ahí, por proponer
nuevos caminos y cambios estratégicos.
3
¿Cómo nos afectan los macrodatos en las políticas públicas?
Hoy los países tienden a tomar todas sus medidas basadas en datos. Es decir, se busca
que la toma de decisiones sea transparente basada en la información disponible. Y el
desafío es analizar correctamente los datos para poder proponer nuevas políticas que
mejoren y simplifiquen la vida de los ciudadanos.
Ejemplos:
• Ciudades inteligentes: crecimiento del parque automotor, transporte, calidad del

aire, distribución geográfica de escuelas, hospitales, servicios públicos de atención,
etc.
• Tarjeta sube: hoy se cuenta con la información de en qué momento un pasajero
subió a determinado medio de transporte público y el posicionamiento del mismo. ¿Es
posible diseñar mejoras en los medios de transporte a partir de esta información?
• Fotografías satelitales para dar mayor previsibilidad a ciertos sectores de la

economía
• Enfermedades: control de brote de epidemias.
• Mapa del delito y políticas de seguridad.
• Nuevos mecanismos de otorgamiento de préstamos sociales desde el sector
público.
• Modelar el impacto de cierta política impositiva (antes de ser aplicada).
• Nuevas maneras de tipificar/clasificar a las empresas.
4
HACIENDO HABLAR A LOS DATOS: BIG DATA
DATOS Y DESAFÍOS
Se puede considerar que hay cinco aspectos importantes sobre los datos:
• Generación y captura: ¿qué queremos medir?, ¿cuál es la tecnología adecuada

para medirlo?
• Protección de datos: Los datos tienen que estar protegidos contra pérdidas y
amenazas de corrupción.
• Apertura de datos (open data): está claro que, si se logra que los datos estén
disponibles para cualquier persona, esto es extremadamente favorable. Por un lado,
muchísima más gente puede pensar en nuevos modelos y formas de analizar estos
datos llegando antes a mejores soluciones, disminuyendo así el error de un posible
mal análisis realizado por unas pocas personas. Y, por otro lado, otro de los grandes
beneficios es que permite mostrar transparencia en la toma de decisiones: todas las
decisiones están debidamente justificadas. Además permite medir públicamente
indicadores de buena gestión a partir del cumplimiento o metas basada en datos
reales.
• Limpieza de los datos: muchas veces los datos crudos (raw data) cuentan con
datos espurios, datos faltantes o simplemente no tenemos una nomenclatura en
común en la información obtenida. Por eso, muchas veces se debe realizar un arduo
trabajo para llevarlos a un formato adecuado para poder luego analizarlos.
• Análisis de los datos: ¿cómo hacer que los datos hablen? Esto se puede
considerar un arte, pero, como veremos, existen técnicas analíticas que nos ayudan a
avanzar sobre esta pregunta.
5
ANÁLISIS DE DATOS
A continuación, presentaremos las metodologías de exploración y análisis de datos

basándonos en ejemplos concretos de la administración pública:
• Salud pública: distribución geográfica de hospitales/centro de atención primaria,

tiempos de espera.
• Electricidad: patrones de consumo; políticas de consumo que incentiven a

consumir menos en horarios de máxima demanda (nuevas tarifas).
Salud pública
En salud pública, contamos con mucha información que continuamente es anali-zada,

pero hay mucho por hacer. Entre los desafíos que se plantean analizando datos de
pacientes se encuentran: avanzar hacia una medicina personalizada, mejorar los
métodos diagnósticos tempranos, y mejorar la capacidad de respues-ta del sistema de
salud pública frente a los diferentes cambios en la sociedad.
La epidemiología es la disciplina que se ocupa del control y el seguimiento de los factores

relacionados con la salud y las enfermedades existentes en nuestra población. Son
muchas las aristas que hay que analizar al momento de determi-nar si las políticas en
término de salud pública son apropiadas. El Ministerio de Salud y Desarrollo Social de la
Nación no solo cuenta con información de defun-ciones, nacimientos y casuística de
enfermedades por provincia, sino también con información que nos permite entender qué
centros de salud necesitan una mayor asistencia económica del Estado.
Tipos de datos, diagrama de barra e histograma (distribuciones)
6
En esta etapa, prestaremos especial atención al tipo de dato que queremos analizar.
La Argentina cuenta con hospitales generales de agudos, hospitales generales de niños,

hospitales especializados, centros de salud, centros médicos barriales, unidades de
pronta atención.
Supongamos que tenemos la siguiente información de cada paciente atendido en el país:
1- Nombre
2- Domicilio
3- Centro de atención
4- Entró por guardia
5- día
6- hora de llegada
7- hora en que fue atendido .
Centro de Nombre Domicilio Día Consulta Hora de Hora de ser

atención llegada atendido
H. Fucote Juan Pérez Arenales 843 07/09/18 Médica 07:32 08:04
H. Fucote Romina Paz Malabia 1820 07/09/18 Emergencia 09:35 09:46
H. Autari Pedro Ast Zapiola 2232 07/09/18 Emergencia 07:32 08:34
H. Autari graciela Fort Castillo 156 07/09/18 Médica 09:45 10:26
H. Aleze Lía Sope Bogotá 1566 07/09/18 Emergencia 05:56 06:02
H. Aleze Carlos Seguí Caracas 578 07/09/18 Emergencia 10:35 11:12
7
Estudiamos la variable Centro de atención, ¿cómo representar esta información

gráficamente?
8000
6000
FRECUENCIA
4000
2000
0
POSTRA
ZERARDI
RITORNI
FUCOTE
AUTARI
PLIGUE
SOSEKI
PAGLIA
VERILO
GUEVA
RULEG
DYLAN
TESTA
ALEZE
ÓN
RA
¿Cómo resumir Hospital Frecuencia

la información en una tabla? Aleze 8000
Autari 5600
AutGuevaraari 3200
Dylan 2500
Fucote 4300
Paglia 6500
Pligue 1200
Postra 2400
Postra 1900
Rulegón 2400
Soseki 5200
Testa 5300
Verilo 4300
Zerardi 7230
8
La variable Centro de Atención es una variable categórica. Cada uno de los valores que
toma esta variable es una categoría (hospitales generales de agudos, hospitales
generales de niños, hospitales especializados, centros de salud, centros médicos
barriales, unidades de pronta atención). Lo mismo le sucede a la variable Guardia, que
puede tomar solamente las categorías Sí o No. Si queremos representar gráficamente a
este tipo de variables, hacemos un diagrama de barra o de torta. Y, si queremos resumir
la información en una tabla, hacemos lo de arriba.
En cambio, la hora en que llegó el paciente y la hora en que fue atendido son dos
variables numéricas (no son categorías). Podemos calcular a qué hora llegan en
promedio los pacientes y a qué hora son atendidos (en promedio, llegan a las 9:45 y son
atendidos a las 10:32), pero como veremos estamos resumiendo mucho la información y
probablemente nos estemos perdiendo información relevante.
¿Cómo representar gráficamente la información de la hora en que llegan los pacientes?
¿Qué pasa si convertimos nuestra variable numérica en una categórica?
Si un paciente llegó a las 8:32, decimos que llegó entre las 8:30 y las 8:35 (categoría
8:30-8:35); si llegó a las 7:24, decimos que llegó entre las 7:20 y las 7:25 (categoría 7:20-
7:25), etc. Y ahora, al igual que antes, tenemos la frecuencia (cuántos datos hay) en cada
una de las categorías. Por lo tanto, podemos hacer un diagrama de barras. En este caso,
el gráfico se llama histograma. Su forma varía con el ancho de las clases o categorías.
9
3
FRECUENCIA
7 7:25 7:32 7:39 7:42 7:53 8 8:12 8:35 9 9:35 9:45 10
10
El histograma es la mejor técnica gráfica para entender cómo están distribuidos (forma
del histograma) los datos. En este gráfico, perdemos muy poca información que, en
general, no es muy importante: el nombre del paciente y la hora exacta en la que llegó
(para 8:32, decimos entre 8:30 y 8:35). La forma es muy relevante y nos ayuda a
entender los fenómenos subyacentes.
HOSPITAL ALEZE HOSPITAL AUTARI
1500 1000
FRECUENCIA
FRECUENCIA
1000 600
500 200
0 0
4 6 8 10 12 4 6 8 10 12
HORA DE LLEGADA HORA DE LLEGADA
HOSPITAL GUEVARA HOSPITAL DYLAN
250 250
FRECUENCIA
FRECUENCIA
150 150
50 50
0 0
4 6 8 10 12 4 6 8 10 12
HORA DE LLEGADA HORA DE LLEGADA
12
Pero más interesante es pararse en los zapatos del paciente y estudiar cuánto tardó en
ser atendido. ¿Cómo es la distribución de tiempos de espera a ser atendido?
Definimos una variable T.

T = hora atendido − hora de llegada
Supongamos que un paciente llega a las 9:05 h y lo atienden a las 9:55 h. En ese caso,
nuestra variable T sería 9:50 h menos 9:05 h, que da un total de 50 minutos de espera.
4000
3000
FRECUENCIA
2000
1000
0 50 100 150 200 250
TIEMPO DE ESPERA (M)
12
Separemos los que entran por guardia y los que van con turno:
EMERGENCIAS HOSPITAL ALEZE
CON TURNO POR GUARDIA
800
600 300
FRECUEN
FRECUENCIA
CIA
400 200
200 100
0 0
10 15 20 25 30 35 40 0 50 100 150 200 250

TIEMPO DE ESPERA (M) TIEMPO DE ESPERA (M)
En la guardia, hay gente a la que atienden muy rápido y otra que espera mucho. Esto se
puede deber a que llegó un paciente muy grave y el resto tiene que esperar, o a que se
llenó de gente la guardia y entonces los últimos tienen que esperar mucho. En cambio,
cuando los pacientes llegan con turno más o menos se respeta el horario.
Supongamos que además contamos con la siguiente información de cada centro de

asistencia médica:
• Centro de atención
• Infraestructura [m2 construidos]
• Número de médicos en guardia
13
Hospital Infraestructura guardia (m2) Números de médicos en guardia
Aleze 350 9
Autari 550 15
Guevara 460 8
Ahora sí estudiaremos los promedios para comparar hospitales. En particular, queremos
entender cuáles son los hospitales que tienen un gran tiempo de espera.
Definimos la variable W = número promedio de pacientes que se presentan por

día/número de doctores.
Construimos la base:
Hospital W Tiempo de espera promedio (min)
Aleze 8,1 253
Autari 3,6 92
Guevara 1,4 39
Y estudiamos la relación entre W y el tiempo promedio de espera definido como T.
14
250
ALEZE
200
TIEMPO DE ESPERA PROMEDIO
150
DYLAN
100 PAGLIA
AUTARI
50 TESTA
RULEGÓN
0
0 2 4 6 8
250 ALEZE
200
150 DYLAN
100 PAGLIA AUTARI
50 TESTA
RULEGÓN
0
0 2 4 6 8
15
250 ALEZE
200
150 DYLAN
100 PAGLIA AUTARI
50 TESTA
RULEGÓN
0
0 2 4 6 8
!
.
16
Hay que tener cuidado con la interpretación de estos dos hospitales atípicos porque
podrían existir otras variables que no estamos teniendo en cuenta que expliquen esta
diferencia. Por ejemplo, el hospital puede contar con menos o más camillas destinadas a
la atención de guardia... Lo que es seguro es que vale la pena indagar cuál es el motivo
que explica este alejamiento del patrón de comportamiento.
En el hospital Aleze, los pacientes tienen que esperar muchísimo para ser atendidos: en
promedio 250 minutos. Supongamos que queremos mejorar esta situación.
Opciones:
• Aumentamos el denominador de W: aumentamos el número de doctores y

probablemente la infraestructura (más salas de guardia).
• Disminuimos el numerador de W: agregamos una centro de emergencias en una

zona aledaña.
Supongamos que decidimos ir por la opción 2. La pregunta que naturalmente surge es:
¿dónde es recomendable construir el nuevo centro de emergencias?
Si revisamos la información disponible, nos damos cuenta de que tenemos el domicilio de

todas las personas atendidas en el hospital Aleze. Por lo tanto, podemos representar cada
uno de estos domicilios en un mapa mediante puntos.
17
HOSPITAL ALEZE
Hora de Hora de ser

Nombre Domicilio Día Consulta
llegada Atendido
Lara Menzi Larralde 382 07/09/2018 Emergencia 05:56 06:02
Mario Parra Cabildo 54 07/09/2018 Emergencia 06:46 07:24
18
A partir de este mapa, podemos fijar el centroide del grupo de domicilios lejanos, e
intentar construir el nuevo centro médico cerca de este lugar.
Los domicilios también nos pueden servir para mostrar el radio real de cobertura
geográfica real de cada centro de salud. Podemos hacer lo mismo que hicimos en el
histograma, pero ahora en una grilla de un mapa. Por ejemplo, definimos regiones de 10
manzanas en el mapa y nos fijamos la frecuencia de cada región (número de pacientes
que fueron al hospital A en el año cuyo domicilio pertenece a cada uno de las regiones
de 10 manzanas).
19
FRECUENCIA
Pero también nos podemos cruzar con datos más complejos.
Por ejemplo, el SAME atiende un gran porcentaje de las emergencias médicas de GBA y
CABA. Llegar a tiempo es fundamental para salvar vidas. ¿ Dónde debería estar la base
operativa de cada ambulancia de manera de llegar lo antes posible a cada domicilio?
Para responder esta pregunta, hay que tener en cuenta: el tráfico, la geolocalización de
las emergencias, el número de ambulancias disponibles, etc. También hay que establecer
qué significa llegar lo antes posible a cada domicilio. Ahondemos sobre este último punto.
Para ejemplificar la idea, supongamos que el SAME cuenta solamente con una única
ambulancia completamente equipada para cierto tipo de lesión (como ser quemaduras
graves). Supongamos además que contamos con la dirección donde ocurrieron los
últimos 200 accidentes. Si nuevamente los representamos en el mapa vemos que el 90 %
de estos ocurren cerca de la cruz verde y el 10 % restante, cerca de la cruz azul.
20
Ahora, ¿dónde debería estar la base operativa de la ambulancia? ¿Cerca de la cruz

verde, cerca del centro indicado por la cruz amarilla o cerca de la cruz azul? ¿Queremos
llegar muy rápido a muchos y muy lento a pocos, o queremos ser justos y no discriminar
por domicilio dando las mismas oportunidades a todos? ¿Qué políticas desincentivan el
crecimiento de las grandes urbes?
21
ELECTRICIDAD
Uno de los grandes desafíos que tiene la Argentina hoy de cara al futuro es, sin duda, el
desarrollo del sector energético. Sabemos que cada día se necesita más energía para
que nuestras ciudades funcionen. Con el correr de los años, el aumento demográfico
focalizado en grandes urbes, el aumento de la producción industrial, entre otros factores,
hacen que la demanda energética aumente sostenidamente. Por otra parte, la relación
entre producción y consumo de energía en muchos casos acarrea problemas
ambientales vinculados a la ecología y al calentamiento global.
De aquí surgen muchas preguntas que nos podemos hacer:
•¿Cómo se hace para satisfacer la demanda de energía, especialmente en los picos de

consumo?
22
Si bien los avances tecnológicos en el mediano y largo plazo van a jugar un rol
fundamental en la creación de energías verdes, aparatos eléctricos, iluminación,
vehículos y demás dispositivos que consuman menos energía, hoy en día es necesario
proponer políticas públicas que creen incentivos eficientes (para los consumidores y para
los productores de energía) para satisfacer la demanda. El Estado cuenta con mucha
información relativa a estos problemas que puede ayudar a describirlos, visualizarlos y
resolverlos.
Por el momento, concentrémonos en el problema de demanda de energía. Consideremos
algunas variables relevantes para entender el consumo de energía.
• Variables generales: la temperatura, el día (hábil, feriado o domingo, sábado), el

momento del día, la estación del año.
•Variables particulares: la localización geográfica de cada cliente, zona (residencia,

rural, industrial), densidad poblacional, la tarifa de facturación, el consumo en períodos
anteriores, demandas máximas de potencia, curvas de demanda de potencia por
cliente.
El objetivo es poder satisfacer la demanda de energía en todo momento. Para ello, la

cantidad de energía generada tiene que ser suficiente. Entender las características del
consumo permitirá saber cuánta energía es necesaria para cada región.
A continuación, explicaremos cómo dos familias de procedimientos para analizar datos

nos pueden ser de utilidad a la hora de entender estos problemas.
23
EL PROBLEMA DE REGRESIÓN
El problema que consideramos a continuación es poder estimar y/o predecir la demanda

energética de un cliente en un determinado momento, teniendo en cuenta las
características anteriormente descriptas. Esto puede ser útil para poder predecir si va a
haber apagones, dónde es posible que ocurran, si es necesario recurrir a fuentes
secundarias de energía, si conviene tener una política que favorezca el uso de la energía
en determinados momentos o penalizar su uso excesivo en otros momentos.
Todos sabemos que una plancha, un lavarropas y un aire acondicionado consumen

mucho en relación con el consumo de una lámpara led. El horario de uso de alguno de
estos artefactos es flexible (por ejemplo, podemos planchar en cualquier horario del día),
mientras que otros no, como las luces que se prenden cuando baja la iluminación natural.
A lo largo del día, cada usuario va consumiendo una diferente cantidad de energía
eléctrica, y las distribuidoras eléctricas van monitoreando esto e intentan despachar la
energía adecuada. El problema surge cuando, en un determinado momento y en forma
simultánea, la mayoría de los usuarios quieren consumir mucha energía eléctrica. En ese
instante, el pico de demanda en la llamada curva de carga es tan alto que no se puede
cubrir y genera así un apagón.
La curva promedio de consumo de energía eléctrica tiene cierto patrón que depende de
muchos factores, como el tipo de cliente, la temperatura del día y si es un día laboral o fin
de semana. Lo que más interesa de esta curva es justamente el valor del pico de
consumo y en qué horario del día se da.
Si bien es claro que todas las variables mencionadas parecen ser relevantes para
determinar cuál será la demanda energética en cada momento —y con especial énfasis
en el pico de consumo—, también es claro que no todas serán igualmente
24
importantes. La temperatura es una variable que tiene fuerte incidencia en el consumo

eléctrico, principalmente por el uso del aire acondicionado y suele haber más cortes de
luz durante el verano en los días de mucho calor que en el resto del año.
Supongamos que contamos con registros de las temperaturas máximas y la máxima

demanda energética para cada día del último verano para un usuario.
PICO DE CONSUMI ELÉCTRICO [KWH]
6000
5000
4000
3000
15 20 25 30 35
TEMPERATURA [C]
Del gráfico se desprende que los máximos registros de consumo se dan se dan los días
de mucho calor. Por sobre todas las cosas, vemos que hay una relación entre la
temperatura y el máximo consumo. Y nosotros queremos aprender de los datos, construir
un modelo estadístico que nos permita predecir un resultado o output (en nuestro caso,
sería el consumo) sobre la base de datos (más) fácilmente observables de la realidad o
input (en nuestro caso simplificado, la
25
temperatura máxima, pero en el caso original también podríamos haber tenido en cuenta
las demás características de los usuarios, climáticas, geográficas, etc.).
Observando nuevamente el gráfico podemos ver que los datos que tenemos se pueden
modelar razonablemente bien mediante una recta. A este modelo se lo denomina modelo
de regresión lineal simple.
Pensemos que queremos predecir la máxima demanda energética (llamémosla

D) a partir de la máxima temperatura diaria (llamémosla T):
donde el símbolo se lee como aproximadamente. Es decir, la máxima demanda

energética es aproximadamente una función lineal, una recta que depende de la máxima
temperatura.
El modelo depende de dos parámetros o coeficientes, y , que debemos estimar a partir de

los datos. Luego, si tenemos estas estimaciones y sabemos que mañana la temperatura
máxima será de 27 °C, entonces tendríamos una estimación de la máxima demanda
energética dada por
Sobre la base de los datos que tenemos graficados, buscamos losPHMRUHVYDORUHVTXH

puedan tomar los coeficientes delPRGHORSDUDTXH que la maxima demanda energetica
sea lo más cercana posible a la maxima demanda energética estimada.

Es decir, buscamos los valores de y que hagan que la UHFWDGHUHJUHVLyQHVWpJOREDOPHQWH
lo más cerca posible de los valores observados: enQXHVWURFDVRODUHFWDTXHSUHGLJDGH
manera más próxima posible globalmente la Pi[LPDGHPDQGDHQHUJpWLFD
26
Hay muchas maneras de medir proximidad, pero por lejos la más difundida se conoce
como mínimos cuadrados. Supongamos que tenemos la mejor aproximación a los datos
que se puede tener mediante una recta Entonces, a partir de cada valor queWRPDOD
temperatura, podemos predecir la máxima demanda de energía, FRPRVHPXHVWUD
HQHOVLJXLHQWHJUiILFR:
PICO DE CONSUMI ELÉCTRICO [KWH]
6000
5000
4000
3000
15 20 25 30 35
TEMPERATURA [C]
El parámetro se llama ordenada al origen, que en este caso está estimado por el número
5 (kW) y representa la demanda promedio de energía máxima cuando la temperatura es
de 0 °C (una aclaración importante es que, en nuestro caso, únicamente podemos
interpretar el modelo para temperaturas entre 15 °C y 35
27
°C). Es decir, sabemos que hay un piso de 5 kW de demanda de energía.
El coeficiente es la pendiente, que está estimado por el número 180, y mide cuánto
aumentará la máxima demanda de energía si la temperatura aumenta en un grado. Es
decir, por cada grado que suba la temperatura, la máxima demanda energética
aumentará en 180 kWh.
Por tanto, podemos predecir que, si hace 30 °C, la demanda de energía será de 5400
kW.
Alcances de este modelo y márgenes de error
Hasta aquí no hay nada que nos impida hacer esto con cualquier conjunto de datos, pero
¿cómo sabemos que el modelo que estamos ajustando predice bien la realidad?
Es claro que, si tomamos datos de otros veranos y calculamos sus correspondientes

rectas de regresión, estas serían ligeramente distintas (aún suponiendo que no hay
cambios tecnológicos que hacen que consumamos más o menos energía). Esto se debe
a que la estadística busca representar la realidad mediante algún modelo, pero que
lógicamente este siempre tiene un error.
¿Qué engloba ese error? El error mide justamente la diferencia que hay entre la realidad
y el modelo que propusimos, donde hicimos algunos supuestos:
• El primero fue considerar que las variables utilizadas en el modelo eran las
adecuadas para predecir la máxima demanda energética.
• El segundo fue asumir que el modelo lineal (es decir, ajustar una recta) era
adecuado.
28
El error contiene toda aquella información que es relevante a la hora de determinar la

máxima demanda energética y toda aquella información que podría haber sido extraída
de las variables utilizando una función que no sea lineal, es decir, una recta. Si ese error
es pequeño, entonces podemos estar tranquilos: la información que utilizamos fue
adecuada y el modo empleo de la información (es decir, la función lineal) también lo fue.
Algo importante es poder cuantificar el ajuste de un modelo. Típicamente lo que haremos

es medir la correlación entre la variable regresora T y la variable de respuesta D. Este
coeficiente se conoce con el nombre de R2 y mide la relación lineal entre ambas
variables tomando valores entre cero y uno. Si el coeficiente R2 es uno, el ajuste es
perfecto; si vale cero, el modelo propuesto no es el adecuado.
En nuestro modelo, el coeficiente R2 es de 0,7. Eso quiere decir que un 70 % de la

variabilidad en la máxima demanda energética se puede explicar a partir de la
temperatura máxima.
La siguiente figura muestra el valor R2 para distintos ejemplos de datos. Se puede
observar que, cuanto más cercano a 1, mejor es explicada la variable Y por la variable X.
29
170
160 180 250

1 2
6 0
150 0 0
140 140 150
130 120 100
110 110 50
5 10 15 20 25 30 35 5 10 15 20 25 30 35 5 10 15 20 25 30 35
X X X
80
70 100
6 8
0 0 250
Y 100
50 60
50
40 40
0
30 20
5 10 15 20 25 30 35 5 10 15 20 25 30 35 5 10 15 20 25 30 35
X X
Claramente la temperatura máxima es un dato central y relevante a la hora de predecir la

máxima demanda energética. Sin embargo, también es deseable poder mejorar esta
estimación y esto lo podemos conseguir agregando otras variables, como, por ejemplo:
el tipo de usuario (está claro que un cliente residencial y uno comercial tienen diferente
consumo),
el precio al cliente del kWh (a mayor precio menor consumo),

la localización geográfica (el tipo de calefacción y refrigeración depende mucho de la
región: en el sur, se utiliza en mayor medida la calefacción central).
30
De esta manera, nuestra estimación será más precisa.
En general, tenemos una variable que queremos predecir: en nuestro caso, es la máxima
demanda de energía. Para ello, contamos con información:
T = máxima temperatura
P = precio del kWh
F = categoría de facturación (residencial, comercial, industrial)
Lat = ubicación geográfica, coordenada de latitud (GPS)
Long = ubicación geográfica, coordenada de longitud (GPS)
A estas variables las denominamos regresoras. Ahora buscaremos predecir la máxima

demanda energética, pero utilizando como variables regresoras todas la variables
consideradas. Conceptualmente, visualizar este problema es más complicado por tener
más de una variable regresora. Sin embargo, las ideas se pueden extender a un contexto
general.
Es importante destacar que no tienen todas la misma naturaleza: T, P, Lat, y Long son
variables continuas, mientras que F es categórica. Las variables categóricas requieren de
un tratamiento especial; por lo tanto, comenzaremos considerando únicamente las
variables continuas.
D=+ T+ Lat+ Long+ P+e
Este modelo es mejor que el anterior en el sentido de que nos permitirá estimar la
máxima demanda energética de un cliente en determinado momento.
El error , por un lado, engloba todas aquellas variables que inciden en la máxima
demanda energética que no utilizamos en nuestro modelo: por ejemplo, aquellas que por
simplicidad decidimos omitir u otras variables que no nos imaginamos
31
que estén incidiendo en la demanda energética, pero que efectivamente lo hagan. Por
otro lado, si considerásemos otro tipo de relaciones, el error proveniente de haber
impuesto una relación lineal entre las variables se vería modificado.
Si bien en este caso no podemos hacer un gráfico que nos guíe sobre el problema en
cuestión, sigue vigente la idea de encontrar los valores de los coeficientes
que minimicen el error de predicción.
Teniendo en cuenta nuestros datos, si tuviéramos los valores de los coeficientes,

podríamos en cada caso tener una estimación de D, que llamamos . Luego la diferencia
entre la demanda real y su correspondiente estimacióndeben ser próximas, es decir, que
nuevamente podemos estimar el error:
Como en el caso anterior, los coeficientes se estiman minimizando la suma de los

cuadrados de los errores. Si las estimaciones son buenas, todos los errores serán
pequeños, mientras que, si el ajuste es malo, entonces tendremos algunas observaciones
con errores grandes.
Sobre la base de nuestros datos, podemos ver que el modelo ajustado es el que sigue:
D+170 T - 4 Lat + 2 Long+3 P
En este modelo, la interpretación de los coeficientes es análoga al caso anterior. Es decir,

que la ordenada al origen (intercept) representa el piso de demanda energética, cuando
todas las variables son cero; en este caso, es 6 kW.
Luego sabemos que, por cada grado que aumente la temperatura, la demanda aumentará
en 170 kW si el resto de las variables permanecen iguales. Por cada
32
unidad que aumente la latitud, la demanda energética disminuirá en 4 kW. Es decir que,
cuanto más al sur estemos, menor demanda habrá (esto podría deberse a características
constructivas que hagan que haya una mejor aislación térmica, ventanas más pequeñas,
etc. por encontrarse más al sur). Por el contrario, por cada punto que aumente la longitud
la demanda aumenta en 2 kW la máxima demanda energética, al oeste la demanda
energética es mayor.
Por último, la demanda energética disminuye en 3kW por cada peso que el precio
aumenta.
A veces, la interpretación de los coeficientes no es tan simple como hemos expuesto ya

que puede haber dependencias entre las variables que hagan que no sea posible una fácil
interpretación.
Finalmente, veamos cómo incorporar la variable categórica F (categoría de facturación),

que tiene tres niveles: residencial, comercial e industrial. Crearemos variables, que
llamaremos dummies: son variables que toman el valor cero en todos los casos, salvo
cuando la observación pertenezca a determinada categoría. En este caso, creamos dos
variables: FR y FI. La variable FR toma el valor 1 cuando la observación es residencial. La
variable FI toma el valor 1 cuando la observación es industrial.
No hace falta tener una variable que indique cuándo es comercial porque será en los
casos complementarios. Entonces, el modelo que proponemos es el siguiente:
D=+ T+ Lat+ Long + P+ FR+ FI+e
33
Nuevamente, los coeficientes se estiman por mínimos cuadrados y tenemos el siguiente

modelo:
D5,5+ T+3 Lat-1,5 Long + 4 P+ 5 FR+300 FI
La interpretación de los primeros 5 coeficientes es análoga a la realizada anteriormente.

En cuanto a las variables dummies:
Si tenemos una observación cuyo tipo de facturación es residencial, entonces la FR = 1 y
FI = 0. En ese caso, sabemos que el máximo consumo base se incrementa en 5 kW.
Si el consumo es industrial, FR = 0 y FI = 1, el consumo base se incrementa en 300 kW.
Por último, si es comercial, FR = 0 y FI = 0, el consumo base no tiene modificaciones.
Este nuevo modelo probablemente tenga un mejor poder de predicción y, por lo tanto,
podemos dar por concluido el análisis.
También se podrían eliminar las variables Long y Lat y agregar una variable categórica
que sea provincia y modelarla con variables dummies.
A continuación, comentaremos algunas cuestiones sobre las que es bueno reflexionar.
¿Qué variables de entrada son importantes a la hora de predecir la variable de respuesta
D? Es decir, ¿qué variables son relevantes a la hora de predecir la demanda de energía?
34
A menudo, contamos con muchísima variables, que en apariencia pueden estar o no

vinculadas al problema. Sin embargo, es probable que únicamente una pequeña fracción
de estas sea de utilidad. Luego, es muy importante contar con mecanismos que nos
permitan detectar automáticamente cuáles son las variables más informativas en cada
problema.
¿Qué tipo de relación tiene cada una de las variables de entrada con la variable que se
busca predecir?
Habrá casos en los cuales, cuando la variable de entrada aumenta, la de respuesta

también: por ejemplo, a partir de un umbral, la demanda energética aumenta al aumentar
la temperatura. Es decir, que tienen una relación positiva. Y habrá otros casos donde la
variable de respuesta disminuye cuando la variable de entrada aumenta. Es decir, la
relación es opuesta. Por ejemplo, el consumo de gas disminuye al aumentar la
temperatura. Esto se debe a que en verano nadie tiene prendida una estufa; los calefones
y termotanques requieren menos gas para calentar el agua porque su temperatura inicial
es mayor, y la gente es más reticente a hacer comidas que requieran largo tiempo de
cocción, entre otras razones. De todos modos, estas relaciones dependen en general de
la forma que tenga la relación entre las variables y de la interacción con las otras
variables involucradas en el modelo.
En general, buscamos utilizar de la mejor manera posible las variables regresoras para
predecir la variable de respuesta: en nuestro caso, la máxima demanda energética. Es
decir, que podemos pensar que la demanda es una función de las variables regresoras
más un error.
Esto matemáticamente se escribe:

D = f(T, Lat, Long, P, FR,FI) + ε,
35
HACIENDO HABLAR A LOS DATOS: BIG DATA
donde f es una función fija, que generalmente va a ser no lineal de los datos y ε es el
error del promedio, que tiene media cero y que es independiente de las variables de
entrada del modelo (T, Lat, Long, P, FR,FI). La función f representa un modo de utilizar la
información que proveen las variables regresoras, que hasta ahora nosotros asumimos
que fue lineal.
Para poder tener buenas predicciones y hacer inferencia de la máxima demanda

energética, necesitamos estimar la relación funcional f que existe entre las variables
regresoras y que es desconocida. Es decir, necesitamos encontrar el mejor modo posible
de utilizar la información provista por las variables regresoras.
Luego, la pregunta central del aprendizaje estadístico es: ¿cómo estimar la función f?
El enfoque más tradicional es hacerlo mediante un modelo lineal, donde restringimos

todas las posibles formas de la relación entre las variables regresoras y le dejamos
únicamente tener la forma de un plano. Luego, para resolver el problema, únicamente
tenemos que estimar los parámetros que acompañan a las variables regresoras β. Este
enfoque, donde se reduce estimar los infinitos puntos que puede tener otra función f a
una cantidad finita de parámetros (y poquitos en relación con el tamaño muestral) se
conoce como paramétrico.
Estos modelos tienen como ventaja que son sencillos de estimar y de interpretar. Sin
embargo, como desventaja, vale mencionar que en ocasiones la rigidez en la forma de la
relación entre las variables regresoras y la de respuesta que plantean puede llevar a una
mala estimación de esta.
36
Típicamente, para mejorar el ajuste, se pueden proponer modelos más complejos, que
asuman otras formas funcionales. Tales modelos dependerán de más parámetros y, en
esos casos, conviene pasar a modelos que den mayor flexibilidad a la forma de relación
funcional entre las variables. Estos modelos suelen ser más difíciles de interpretar.
Por otra parte, si se le da mucha flexibilidad al modelo, es decir, se le permite que se

adapte demasiado a la forma de los datos, los modelos terminarán teniendo sobreajuste:
seguirán los patrones de los errores del modelo de manera muy precisa, perdiendo de
este modo el patrón dado por el fenómeno que se está estudiando.
37
En general, el criterio imperante debe ser mantener el modelo lo más simple posible e
introducir complejidad solo en caso de extrema necesidad: por ejemplo, si un modelo más
sofisticado (y probablemente más difícil de interpretar) brinda resultados muy superiores,
en el sentido de que las predicciones y el modelado general del modelo son mucho más
precisos.
El modelo que dominó la literatura en los últimos 200 años fue el modelo de regresión
lineal. Esto se debe a varios motivos. El primero es su utilidad: en muchos casos resultó
ser muy adecuado para el modelado de diversas situaciones. El segundo es su bajo costo
computacional: los cálculos que requiere pueden ser rápidamente hechos a mano o con
herramientas muy primitivas de cálculo, eso no lo hace menos atractivo.
Aquí nos encontramos en un punto de inflexión: aprendimos que los métodos más
sencillos podrían ajustar peor el modelo (es decir, parecerse menos a la realidad), pero
serían sencillos de interpretar, mientras que aquellos más flexibles tendrían mayores
dificultades a la hora de la interpretación.
En la práctica, estos balances se resuelven llegando a un compromiso entre ambos. Se

buscará tener el método que mejor ajuste tenga, es decir, que nos permita estimar de un
modo más preciso la demanda energética, se hace utilizando la menor cantidad de
variables posibles para que nos permita entender cuáles son las variables que tienen
mayor incidencia en esa demanda energética y nos permitan operar, dentro de los
alcances posibles, de modo tal de incidir sobre la demanda. Es decir, no podemos
cambiar la temperatura máxima, pero tal vez podamos diseñar estrategias que permitan
modificar los hábitos de consumo de los clientes, que nos permitan impulsar medidas para
que se beneficie la fabricación o venta de determinados electrodomésticos, automóviles,
etc.
38
Ahora la pregunta natural que sigue es «¿cómo se mide la precisión de un modelo?».
En un mundo ideal, existiría un modelo óptimo capaz de hacer las predicciones más
precisas para toda circunstancia. Sin embargo, en la vida real esto no ocurre. En
estadística nada es gratis y no existen modelos óptimos. Dependiendo de las
características de cada conjunto de datos y problemas, habrá modelos que sean más
precisos que otros. Hay modelos que tienen resultados excepcionales para determinados
conjuntos de datos y terribles para otros.
Por lo tanto, dado un conjunto de datos y un problema específico, una piedra angular en
la resolución de un problema es la elección del modelo óptimo.
Planteamos modelos para representar de modo preciso y sencillo la realidad. Por lo

tanto, los errores que cometa el modelo deben ser moderados.
Una aclaración importante: el análisis de regresión no se usa para interpretar las

relaciones de causa y efecto entre variables. Sin embargo, este puede indicar cómo se
relacionan las variables o en qué medida las variables se asocian entre sí. Al hacerlo, el
análisis de regresión tiende a establecer relaciones destacadas que justifican que un
investigador con conocimiento lo mire más de cerca.
Veamos el siguiente ejemplo. Una persona podría observar que los días en los cuales se
venden más paraguas suele llover; más aún, que la cantidad de paraguas que se venden
aumenta cuantos más milímetros de lluvia caen. Sin embargo, es claro que, si dejáramos
de vender paraguas, no dejaría de llover. De aquí se desprende que puede ocurrir que la
venta de paraguas sea un buen predictor de la lluvia, pero claro está que no es una
causa de esta.
39
!
En resumen, hemos avanzado sobre las siguientes
preguntas:
• ¿Hay alguna relación entre la temperatura máxima, el tipo de facturación, su

localización, etc. y los picos de consumo? Nuestro objetivo es ver si los datos que
tenemos muestran evidencia de asociación entre estas variables. Si la evidencia
fuera débil, entonces no deberíamos tenerlas en cuenta para modelar el consumo.
• ¿Cuáles son las características de los clientes que en mayor medida contribuyen
a predecir la demanda estimada? No solo es importante medir el efecto conjunto de
todas las características consideradas, sino que además es importante poder
establecer cuáles son los efectos individuales de cada una de ellas sobre la variable
que se ha de estudiar.
• ¿Con cuánta precisión podemos predecir la máxima demanda energética? Si

conocemos cuál será la temperatura máxima para un día en determinado
barrio/ciudad y su respectiva conformación de facturación en determinado momento
del año, queremos poder predecir un valor puntual para la demanda energética y,
además, cotas máximas y mínimas de esta que sean precisas.
• ¿Las relaciones que estamos estudiando tienen una estructura lineal? Si la

relación entre la temperatura máxima y la máxima demanda energética es
aproximadamente una recta, entonces podremos modelar en forma sencilla la
máxima demanda energética. Si no, necesitaremos recurrir a técnicas más
complejas para modelar lo que ocurre en diferentes escenarios.
40
EL PROBLEMA DE CLASIFICACIÓN
Supongamos que una empresa quiere modificar las categorías actuales de facturación
teniendo en cuenta el uso racional de la energía. Con ese objetivo se contrata a expertos
en el área y se les pide que clasifiquen a 200 clientes elegidos al azar en k nuevas
categorías. Estos expertos toman su decisión teniendo en cuenta características de la
curva de consumo, la localización geográfica y variables socioeconómicas del cliente.
Los expertos realizaron un procedimiento muy complejo para caracterizar a estos 200
clientes, pero no presentaron en una fórmula (o procedimiento) la manera en que los
clasificaron. Para entender el impacto de esta nueva caracterización de facturación, se
quiere determinar a qué categoría pertenecería cada uno de los clientes de una dada
distribuidora eléctrica.
A partir de esta información (200 clientes con nuevas categorías), el objetivo será
entonces automatizar la clasificación de absolutamente todos los clientes, es decir,
asignarles automáticamente su nuevo estatus de facturación. Si esta tarea se hiciera en
forma manual, demandaría mucho tiempo y sería más difícil de lo que parece. Por lo
tanto, lo que buscamos es tener procedimientos automáticos para asignar el estatus de
facturación a los clientes en base.
Para comenzar, supongamos que los expertos clasificaron a 200 consumidores en 3

tres categorías: C1, C2 y C3. Contaban con las curvas de consumo medio en días
hábiles, que brindan información sobre los hábitos de consumo: los picos indican
mayores consumos en contraposición a los valles que muestran menores consumos. A
partir de estas curvas, se puede también cuantificar la cantidad de energía consumida,
es decir, que las curvas medias de consumo son una información muy rica.
Esta muestra sobre la cual se hace la asignación inicial se denomina muestra de

entrenamiento.
41
CATEGORÍA 1
42
El problema que buscamos resolver es el siguiente: tenemos a todos los clientes del
sistema eléctrico y buscamos clasificarlos en las tres categorías de facturación que
conformaron los expertos: C1, C2 y C3. La técnica más intuitiva para resolverlo y que en
la práctica muestra muy buenos resultados se conoce como asignación por vecinos más
cercanos.
En este caso, supongamos que tenemos un nuevo consumidor. Conocemos su curva

media de consumo en días de hábiles, pero no su categoría de facturación, que es lo que
queremos averiguar.
Para ello buscamos en nuestra base de entrenamiento de 200 clientes a los 11

consumidores que sean lo más parecidos posible a él en todas las dimensiones
estudiadas. De esos 11 consumidores conoceremos el estatus de facturación.
Supongamos que siete de ellos son C1 y cuatro son C2. Entonces, el nuevo usuario
recibe siete votos como cliente C1 y cuatro como cliente C2. La asignación se hace por
simple mayoría y el nuevo cliente es categorizado como usuario C1. Se lleva a cabo este
mismo procedimiento para cada nuevo cliente que se quiera categorizar.
A modo de ejemplo, en la siguiente figura mostramos un caso donde la muestra de

entrenamiento es de 11 curvas (4 verdes categoría C1, 3 rojas categoría C2 y 4 azules
categoría C3) y queremos clasificar la nueva curva negra utilizando el método de
asignación por vecinos más cercanos, pero utilizando solo los 3 vecinos más cercanos.
Las curvas más cercanas a la curva negra son las curvas A, B y C, que son todas
categoría C1. Por lo tanto, a este nuevo usuario (curva negra) se le asignaría la categoría
C1 ya que todos sus vecinos son de esa categoría.
43
PICO DE CONSUMO ENTRE

SI LAS 8:00 HS Y 20:00 HS. NO
CON DESCANSO POR
LAS NOCHES
SI PICO ENTRE NO
C2
20:00 HS Y 22:00 HS
SI PICO ENTRE NO
12:00 HS Y 14:00 HS C3
C1 SI PICO ALCANZA UN NO
CONSUMO DE 300 KW/H
C3 C1
Luego tenemos caracterizados diferentes tipos de consumidores y además una

caracterización sencilla de sus características principales. Sin duda, este es un modelo
sobresimplificado, que es muy sencillo de explicar y da rasgos muy generales que
describen a los usuarios. Sin embargo, como en cualquier problema de clasificación,
podemos clasificar mal a algunos clientes (cometer errores en su clasificación).
Este método es muy popular por su sencillez y su fácil interpretabilidad. Se piensa que la
estructura de los árboles de decisión imita el modo en que los seres humanos tomamos
decisiones. Su representación gráfica hace que para su aplicación no se requiera ninguna
preparación previa. Los árboles pueden lidiar fácilmente tanto con variables cuantitativas
como cualitativas. Pero su capacidad predictiva en general no es buena.
Existen técnicas de clasificación basadas en la combinación de árboles binarios que son

más precisas: entre ellas, boosting, bagging o random forest, pero están fuera del alcance
de este curso.
44
Como ya aprendimos hasta acá, en estadística nada es gratis y aquello que se

gana en mejorar la predicción se pierde en capacidad para interpretar el resultado.
Dependiendo del problema en cuestión, la elección tiene que estar basada en el
compromiso que asumamos entre habilidad predictiva y la capacidad que
tengamos para interpretar los resultados obtenidos.
45

Descargable Completo - Curso Big Data INAP

Cargado por

Copyright:

Formatos disponibles

Descargable Completo - Curso Big Data INAP

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Descargable Completo - Curso Big Data INAP

Cargado por

Copyright:

Formatos disponibles

Big Data:

Pasaron tantas cosas en 2017 en nuestro mundo digitalizado y tenemos las

29 millones de mensajes 16.559 visualizaciones

18.000 coincidencias 3,8 millones pedidos de búsqueda

87.000 horas de video vistas 65.000 fotos subidas

156 millones de correos

Hoy se toman y analizan datos de deportes, salud, casas inteligentes, venta de

Pero ¿de qué hablamos cuando hablamos de big data?

Big data (‘macrodatos’ o ‘inteligencia de datos’ en español) es un concepto que se ha

Cuando uno tiene grandes volúmenes de datos, existen desafíos teóricos y

¿Cómo nos afectan los macrodatos en las políticas públicas?

• Ciudades inteligentes: crecimiento del parque automotor, transporte, calidad del

• Fotografías satelitales para dar mayor previsibilidad a ciertos sectores de la

HACIENDO HABLAR A LOS DATOS: BIG DATA

• Generación y captura: ¿qué queremos medir?, ¿cuál es la tecnología adecuada

A continuación, presentaremos las metodologías de exploración y análisis de datos

• Salud pública: distribución geográfica de hospitales/centro de atención primaria,

• Electricidad: patrones de consumo; políticas de consumo que incentiven a

En salud pública, contamos con mucha información que continuamente es anali-zada,

La epidemiología es la disciplina que se ocupa del control y el seguimiento de los factores

Tipos de datos, diagrama de barra e histograma (distribuciones)

La Argentina cuenta con hospitales generales de agudos, hospitales generales de niños,

Supongamos que tenemos la siguiente información de cada paciente atendido en el país:

Centro de Nombre Domicilio Día Consulta Hora de Hora de ser

H. Fucote Juan Pérez Arenales 843 07/09/18 Médica 07:32 08:04

H. Fucote Romina Paz Malabia 1820 07/09/18 Emergencia 09:35 09:46

H. Autari Pedro Ast Zapiola 2232 07/09/18 Emergencia 07:32 08:34

H. Autari graciela Fort Castillo 156 07/09/18 Médica 09:45 10:26

H. Aleze Lía Sope Bogotá 1566 07/09/18 Emergencia 05:56 06:02

H. Aleze Carlos Seguí Caracas 578 07/09/18 Emergencia 10:35 11:12

Estudiamos la variable Centro de atención, ¿cómo representar esta información

¿Cómo resumir Hospital Frecuencia

¿Cómo representar gráficamente la información de la hora en que llegan los pacientes?

¿Qué pasa si convertimos nuestra variable numérica en una categórica?

7 7:25 7:32 7:39 7:42 7:53 8 8:12 8:35 9 9:35 9:45 10

HOSPITAL ALEZE HOSPITAL AUTARI

HORA DE LLEGADA HORA DE LLEGADA

HOSPITAL GUEVARA HOSPITAL DYLAN

HORA DE LLEGADA HORA DE LLEGADA

ser atendido. ¿Cómo es la distribución de tiempos de espera a ser atendido?

Definimos una variable T.

0 50 100 150 200 250

TIEMPO DE ESPERA (M)

EMERGENCIAS HOSPITAL ALEZE

CON TURNO POR GUARDIA

10 15 20 25 30 35 40 0 50 100 150 200 250

Supongamos que además contamos con la siguiente información de cada centro de

Hospital Infraestructura guardia (m2) Números de médicos en guardia

Ahora sí estudiaremos los promedios para comparar hospitales. En particular, queremos

Definimos la variable W = número promedio de pacientes que se presentan por

Hospital W Tiempo de espera promedio (min)

Aleze 8,1 253

Y estudiamos la relación entre W y el tiempo promedio de espera definido como T.

100 PAGLIA AUTARI

100 PAGLIA AUTARI

promedio 250 minutos. Supongamos que queremos mejorar esta situación.

• Aumentamos el denominador de W: aumentamos el número de doctores y

• Disminuimos el numerador de W: agregamos una centro de emergencias en una