Guia Permitido Innovar - Ciencia de Datos
Guia Permitido Innovar - Ciencia de Datos
Guia Permitido Innovar - Ciencia de Datos
podemos
desarrollar
proyectos de
ciencia de datos
para innovar
en el sector
público?
Esta obra está disponible bajo licencia Creative Commons
Atribución-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)
Coordinación CARLOS CARRILLO, IGNACIO PAIVA https://creativecommons.org/licenses/by-nc-sa/4.0
Textos CARLOS CARRILLO, IGNACIO PAIVA, ERNA GÓMEZ, CATALINA
GUTIÉRREZ, LAURA GONZÁLEZ, EDUARDO NAVARRO, MARÍA PAZ ¿Cómo citar este libro?
HERMOSILLA, GABRIELA DENIS, MARIANA GERMÁN Edición DANIELA Permitido Innovar: Guías para transformar el Estado chileno ¿Cómo podemos
HERRERA Diseño gráfico y sistematización visual MYRIAM MEYER desarrollar proyectos de ciencia de datos para innovar en el sector público?.
Fotografías EQUIPO LABORATORIO DE GOBIERNO. Laboratorio de Gobierno, Gobierno de Chile y Universidad Adolfo Ibáñez (2022).
Equipo GobLab UAI Esta guía surge del trabajo colaborativo entre el
MARÍA PAZ HERMOSILLA, GABRIELA DENIS, MARIANA GERMÁN, JESÚS Laboratorio de Gobierno del Ministerio de Hacienda y el GobLab UAI.
SANTORCUATO, VITA SALDÍAS, CLAUDIO ARACENA.
45
PROPUESTAS DE » Transformar los datos
SOLUCIÓN » Realizar análisis exploratorio de datos
» Desarrollar y ajustar el modelo
» Validar el modelo
» Generar conclusiones
77
FASE 3 » Diseñar evaluación de impacto
DESARROLLO DEL » Implementar el piloto de la solución
PILOTO » Evaluar resultados del piloto
91
FASE 4 » Planificar el despliegue
IMPLEMENTACIÓN » Monitorear el desempeño
DE LA SOLUCIÓN » Robustecer el modelo
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
3
Índice
de herramientas
FASE 1
INVESTIGACIÓN DEL
PROBLEMA
Herramienta I
Formulación del Problema 28
Herramienta II
Análisis PESTL 32
Herramienta III
Mapa de Actores Clave 35
Herramienta IV
Ficha de Actividades Clave 36
Herramienta V
Matriz de Madurez de Datos 40
Herramienta VI
Definición de Objetivos SMART 42
FASE 2
DISEÑO DE
PROPUESTAS DE
Herramienta VII
Pertinencia de los Tipos de Análisis 48
SOLUCIÓN Herramienta VIII
Ficha de Consolidado de la Solución 74
FASE 3
DESARROLLO DEL
Herramienta IX
Diseño de Evaluación 82
PILOTO
Herramienta X
Ficha de Implementación del Piloto 84
88
Herramienta XI
Ficha de Evaluación de la Solución en
un Contexto Real
FASE 4
IMPLEMENTACIÓN
Herramienta XII
Ficha de Implementación 98
DE LA SOLUCIÓN
4
Prólogo
El diseño e implementación de políticas públicas requiere no solo tener en el centro a
las personas, sino además, tomar decisiones basadas en evidencia.
Muchas veces nos vemos enfrentados a buscar soluciones sin tener la información
específica disponible para adoptar una definición. Es por ello que explorar la conexión
entre los datos y la toma de decisiones es un deber para los países y los Estados.
La evidencia que nos deja el análisis de grandes volúmenes de registros, como los que
se manejan en el Estado, es una responsabilidad enorme y requiere una gestión eficaz
que asegure la generación de políticas públicas que permitan construir un Estado
cada vez más presente y que responda ágilmente a las demandas ciudadanas.
El Estado chileno ha comenzado a dar los pasos necesarios para que la ciencia
de datos se convierta en un proyecto concreto, instalándolo con un enfoque de
innovación dentro del sector público. Así, puede generar sinergias con el diseño de
soluciones, centrarse en las personas usuarias y en la eficiencia en el uso de los recursos
públicos, además de implementar la Ley de Transformación Digital y las iniciativas de la
Agenda de Modernización del Estado.
Esta quinta Guía Permitido Innovar, elaborada por el Laboratorio de Gobierno del
Ministerio de Hacienda, en colaboración con la Universidad Adolfo Ibáñez, es una
invitación para aquellas funcionarias y funcionarios del Estado que deseen explorar esta
conexión entre el conocimiento invaluable que nos brindan los datos y nuestro
mandato por crear más y mejores políticas públicas centradas en las personas.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
5
6
¡Hola!
Les presentamos una nueva Guía Permitido Innovar: ¿Cómo podemos desarrollar
proyectos de ciencia de datos para innovar en el sector público? En esta oportunidad,
la quinta versión de las guías del Laboratorio de Gobierno para transformar el Estado
chileno, contó con la colaboración de la Escuela de Gobierno de la Universidad
Adolfo Ibáñez, específicamente el GobLab UAI, la cual fue creada a partir del modelo
metodológico de innovación pública del Laboratorio de Gobierno del Ministerio de
Hacienda, dándole una interpretación desde la ciencia de datos.
Esta es una disciplina nueva y amplia, que puede ir desde análisis sencillos hasta
interpretaciones como el machine learning. En algunos casos, puede volverse complejo
avanzar en proyectos que requieran esta mirada; es por esto que el documento está
compuesto por pasos y herramientas, abordables para quien la utilice en el desarrollo
de proyectos, con el objetivo de convertirse en una guía para funcionarias y funcionarios
que deseen explorar la ciencia de datos dentro de sus instituciones.
Esta Guía está dirigida a funcionarias y funcionarios públicos que puedan ser
gestores de un proyecto de innovación dentro de sus instituciones. Para ponerla en
práctica se deben tener conocimientos básicos de estadística y/o análisis de datos,
conocer las limitaciones en su uso, y contar con un genuino interés en resolver los
problemas que afectan a las personas usuarias.
Como cada Guía Permitido Innovar, esta edición fue testeada por distintos perfiles, como
personas expertas de la academia y funcionarias y funcionarios, así como también desde
diferentes perspectivas; en lenguaje claro, en su estructura y visualización, además de
las áreas de ética e implementación de proyectos. Agradecemos su disposición en la
construcción de esta Guía.
Queremos invitarles a que pongan en práctica esta Guía y comenzar a utilizar la ciencia
de datos como una herramienta más para mejorar y complementar la labor que día a
día ejercemos como funcionarias y funcionarios para construir un mejor Estado desde la
innovación.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
7
Introducción
Por otro lado, en los proyectos de innovación pública ocurre algo similar, dado que
también buscan generar una mejora sustantiva, ya sea en términos de los procesos de
trabajo, como en su relación con personas u otras instituciones usuarias o beneficiarias.
Una innovación puede tratarse de ideas nuevas que hayan sido generadas tanto
por la propia como por otra institución (pública, privada o del tercer sector), pero >> TERCER SECTOR
Conjunto de instituciones
que en cualquier caso deben haber pasado por un proceso demostrable de ajuste a privadas, ubicadas fuera del
Estado y del Mercado, que se
las características específicas de la entidad (Laboratorio de Gobierno, 2022). ocupan de entregar servicios y
prestaciones predominantemente de
carácter social.
Cabe destacar que la relación entre ciencia de datos e innovación pública ha sido
ampliamente aprovechada en proyectos del Estado chileno:
1. Disponible en
sistemadeadmisionescolar.cl
2. Disponible en portalgeominbeta.
sernageomin.cl
8
• El Sistema Agromet3 del Ministerio de Agricultura que integra en un portal la
información proveniente de varias redes previamente existentes, para entregarla de
manera uniforme, consistente y con cobertura a lo largo de todo el país.
• El Registro Social de Hogares (RSH)4, del Ministerio de Desarrollo Social y Familia,
sistema de información construido con datos aportados por el hogar y bases
administrativas que posee el Estado, cuyo fin es apoyar los procesos de selección de
beneficiarios de un conjunto amplio de subsidios y programas sociales.
En otros países también existen iniciativas que tienen proyectos documentados. Por
ejemplo, la fundación Data Science for Social Good, que tiene como misión fomentar el
uso de la ciencia de datos para obtener impactos sociales positivos, ha documentado
múltiples iniciativas de este estilo en su página web7. Además, esta fundación creó la
plataforma Solve for Good8, donde cualquier persona o institución puede registrarse
y publicar su proyecto de ciencia de datos, ya sea para compartirlo con otros, recibir
comentarios, o para trabajar colaborativamente con voluntarios de todo el mundo.
3. Disponible en agromet.cl
4. Disponible en registrosocial.
gob.cl
5. Disponible en
algoritmospublicos.cl
6. Disponible en lab.gob.cl/casos/
list
7. Disponible en dssgfellowship.
org/projects
8. Disponible en solveforgood.org
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
9
10
¿Qué
elementos
de ética y
seguridad
debemos
considerar?
Privacidad de los datos
Sesgos y justicia en ciencia de datos
Transparencia con la ciudadanía
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 11
Antes de empezar, corresponde recalcar que cada paso descrito en esta Guía para la
gestión y desarrollo de un proyecto de ciencia de datos, debe considerar y validar
el cumplimiento de aspectos éticos, por lo que instamos a cuestionar y revisar
constantemente. En ciertos casos, esto será crítico para respetar aspectos normativos
que involucran al proyecto en distintas etapas o para evitar la afectación de derechos
fundamentales de las personas, incluyendo el de la protección de datos personales.
Particularmente, debemos proteger la privacidad de los datos, velar por la justicia del >> JUSTICIA DEL ALGORITMO
Para efectos de esta Guía
algoritmo y ser lo más transparentes y claros con la información generada, dentro de los entendemos este concepto desde
la definición de discriminación
márgenes permitidos. Con respecto al último punto, el Laboratorio de Gobierno dispone arbitraria de la Ley N° 20.609,
que establece medidas contra
de una Guía de Lenguaje Claro9 que busca generar una comunicación simple, clara y ella. Por lo demás, la justicia
se puede definir estadísticamente
Privacidad
Rubin, 2018).
>> ALGORITMO
Conjunto ordenado y finito de
de los datos
operaciones (o instrucciones) que
permite hallar la solución de un
problema (realizar un cómputo,
procesar datos y llevar a cabo
otras tareas o actividades).
Cabe destacar la existencia de un subconjunto de los datos personales conocidos como descubrió que el 87% (216 millones
de 248 millones) de la población
de Estados Unidos había declarado
datos sensibles o especialmente protegidos “que se refieren a las características físicas o características que probablemente
les hacían únicos basándose
morales de las personas o a hechos o circunstancias de su vida privada o intimidad”. Su únicamente en el ZIP de 5 dígitos,
el sexo y la fecha de nacimiento
tratamiento está restringido, y solo se permite cuando: (i) Otras leyes autoricen su uso, (Sweeney, 2000).
12
Para impedir la reidentificación, sugerimos anonimizar los datos, es decir, “transformar
los datos individuales de las unidades de observación, de tal modo que no sea posible
identificar sujetos o características individuales de la fuente de información, preservando
las propiedades estadísticas en los resultados” (INE, 2022). Es posible emplear técnicas
adicionales para reducir la probabilidad de revelar información sobre individuos, empresas
u otras organizaciones. Los métodos de control de divulgación estadística (en inglés
Statistical Disclosure Control, o SDC) minimizan el riesgo de divulgación a un nivel
aceptable mientras liberan tanta información como sea posible.
Para definir hasta qué punto se deben intervenir los datos, primero es necesario medir el
riesgo de divulgación de datos. Un indicador que se utiliza bastante es el k-anonimato
(k-anonymity en inglés), que indica cuántas observaciones comparten los mismos valores
en un conjunto de variables que permiten la identificación de las personas (INE, 2021,
p.16). Si se decide que es necesario intervenir, se pueden emplear métodos perturbativos
y/o no perturbativos. Los primeros falsifican los datos antes de la publicación, al
introducir un elemento de error a propósito por razones de confidencialidad. En
cambio, los métodos no perturbativos reducen la cantidad de información liberada
por supresión o agregación de datos.
Para mayor detalle sobre control de la divulgación estadística se sugiere revisar Guía para
el Control de Divulgación Estadística en Microdatos12 del Instituto Nacional de Estadística
(2021), la que contiene procedimientos y actividades para controlar la divulgación de
conformidad a lo establecido en la referida Ley N° 19.628; en la Ley N° 17.37413, de secreto
estadístico; y en la demás normativa aplicable. Dos documentos recomendables para
conocer experiencias extranjeras en la materia, son la Guía para la Anonimización de
bases de datos en el Sistema Estadístico Nacional14 del Departamento Administrativo
Nacional de Estadística de Colombia (2018), y el Manual de Control de Divulgación
Estadística15 de la Unión Europea (2010).
Sesgos y justicia
en ciencia de
datos
En la ciencia en general es fundamental saber que pueden existir sesgos, es decir,
que pueden haber errores sistemáticos que condicionan cierta información en alguna
dirección. Esto podría implicar que los resultados sean injustos y, en algunos casos, la
situación de grupos vulnerados se replique y se agrave. Identificar estos sesgos y saber
>> MODELO cómo abordarlos para que el modelo se implemente sin consecuencias negativas en
Esquema teórico, generalmente en
forma matemática, de un sistema o
de una realidad compleja, como la
la ciudadanía es una tarea especialmente compleja en política pública.
evolución económica de un país,
que se elabora para facilitar su
comprensión y el estudio de su
comportamiento.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
13
Aquí se muestran distintos tipos de sesgos que pueden afectar un proyecto de datos y
cómo pueden ser abordados para evitar sacar conclusiones erróneas:
EL SESGO MUESTRAL
Ocurre cuando la muestra seleccionada excluye sistemáticamente a un grupo de interés.
Por ejemplo, el uso de una base de datos que considera mayoritariamente personas que
declararon su renta voluntariamente para un proyecto que busca predecir la probabilidad
de declarar en la siguiente Operación Renta. Este sesgo se puede corregir (i)ajustando
el peso de los grupos menos representados de acuerdo al peso que le corresponde en la
población, (ii)consiguiendo los datos de los grupos subrepresentados y no representados
o (iii)cambiando los objetivos del proyecto limitándolo a quienes declaran su renta
voluntariamente.
EL SESGO DE MEDICIÓN
Ocurre cuando el instrumento de medición induce a un sub o sobre reporte sistemático.
Por ejemplo, un sensor para medir el oleaje de un sector marítimo que no esté calibrado
y, por lo tanto, entrega un subreporte del nivel de las mareas. Este sesgo se puede
corregir ajustando el instrumento de levantamiento –ya sea un sensor o las preguntas de
una encuesta– o el modo de levantamiento de información.
14
Transparencia
con la
ciudadanía
Para que el modelo sea efectivamente utilizado debe poseer licencia social, es decir, que
la ciudadanía “acepte la implementación de la herramienta” (Data Futures Partnership,
2017). Uno de los puntos claves para lograrlo es la transparencia tanto del
impacto, esperado y alcanzado, como de las variables que lo explican. Un modelo
fácil de interpretar es un buen punto de partida para crear una narrativa y confianza
en la población, pero cuando los datos y el objetivo tienen demasiada complejidad, las
autoridades de las instituciones públicas generalmente deben encontrar maneras de
explicarlo a la ciudadanía. Solo en algunas ocasiones no se recomienda comunicar ciertos
aspectos del proyecto, por ejemplo si puede afectar la seguridad nacional o la efectividad
de un modelo de fiscalización.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
15
16
¿Qué
metodología
utilizamos?
Investigación del problema
Diseño de propuestas de solución
Desarollo del piloto
Implementación de la solución
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 17
Esta Guía propone una interpretación de la metodología de innovación pública >> CRISP-DM: CROSS-INDUSTRY
STANDARD PROCESS FOR DATA MINING
desarrollada por el Laboratorio de Gobierno desde la perspectiva de la ciencia de datos. El ciclo vital del modelo contiene
seis fases con flechas que indican
Para enriquecer esta metodología, se han tomado aprendizajes de otras relacionadas a las dependencias más importantes
y frecuentes entre fases: (i)
Comprensión del negocio; (ii)
la ciencia de datos. Por ejemplo, de CRISP-DM utilizamos la importancia de un proceso Comprensión de los datos; (iii)
Preparación de los datos; (iv)
iterativo en proyectos de ciencia de datos, de KDD el efecto final de generación de Fase de Modelado; (v) Evaluación;
(vi) Implementación. El modelo de
conocimiento y de IBM la importancia de comenzar con una pregunta que debe ser CRISP-DM es flexible y se puede
personalizar fácilmente, lo que
respondida, lo que en este caso se entiende como la importancia de la definición del permite crear un modelo de minería
de datos que se adapte a las
problema. A modo general, todas las metodologías aportan también con los nombres y necesidades concretas.
algunos de los pasos que utilizamos en esta Guía. >> KDD: KNOWLEDGE DISCOVERY IN
DATABASES
Apunta a procesar automáticamente
grandes cantidades de datos para
encontrar conocimiento útil en
ellos, de esta manera permitirá
a la persona usuaria el uso de
Figura 1: Fases de un proyecto de ciencia de datos. esta información valiosa para
su conveniencia. Es el proceso
de identificar patrones válidos,
novedosos, potencialmente
útiles y, en última instancia,
comprensibles a partir de los
datos.
FASE 1 FASE 2
INVESTIGACIÓN DISEÑO DE PROPUESTAS
DEL PROBLEMA DE SOLUCIÓN
DESCUBRIR IDEAR
Paso 1: Conformar el equipo del proyecto Paso 7: Seleccionar y alinear tipos de análisis
Paso 2: Describir el problema de datos
Paso 3: Analizar la prefactibilidad del proyecto
Paso 4: Identificar actores y sus actividades PROTOTIPAR Y TESTEAR
Paso 5: Mapear datos Paso 8: Obtener y cargar los datos
Paso 9: Transformar los datos
DEFINIR Paso 10: Realizar análisis exploratorio de datos
Paso 6: Definir los objetivos del proyecto Paso 11: Desarrollar y ajustar el modelo
VALIDAR
Paso 12: Validar modelo
Paso 13: Generar conclusiones
18
>> IBM: INTERNATIONAL BUSINESS
MACHINES
Así, definimos la siguiente metodología que establece una orientación de cómo trabajar
La Metodología Fundamental para
la Ciencia de Datos consta
durante todas las fases de un proyecto de ciencia de datos (ver figura 1), con el objetivo
de 10 etapas que forman un
proceso iterativo para el uso de lograr la mayor eficiencia posible en resolver las problemáticas e implementar las
de datos para descubrir nuevos
conocimientos. Esta metodología mejores soluciones para las instituciones y sus personas usuarias.
tiene algunas similitudes con las
metodologías reconocidas para la
minería de datos, pero pone el
énfasis en varias de las nuevas La metodología asume la recopilación previa de algunos antecedentes que conforman
prácticas en la ciencia de datos,
como el uso de grandes volúmenes
de datos, la incorporación de la
un problema inicial, el cual se define como prioritario para las instituciones públicas y que
analítica de texto en el modelado
predictivo y la automatización de
tentativamente podría resolverse mediante la ciencia de datos. Estos antecedentes se
algunos procesos.
consideran algo dado, por lo que no constituyen un paso propiamente tal en esta Guía.
>> SOLUCIÓN(ES)
“Acción y efecto de resolver una
duda, dificultad o problema.” Es
diferente de un modelo puesto
que abarca más aspectos, tales
como la gestión del cambio y
la sistematización de procesos
involucrados.
FASE 3 FASE 4
DESARROLLO IMPLEMENTACIÓN
DEL PILOTO DE LA SOLUCIÓN
DISEÑAR PLANIFICAR
Paso 14: Diseñar evaluación de impacto Paso 17: Planificar el desplieque
IMPLEMENTAR PROYECTAR
Paso 15: Implementar el piloto de la solución Paso 18: Monitorear el desempeño
Paso 19: Robustecer el modelo
EVALUAR
Paso 16: Evaluar resultados del piloto
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
19
Este proceso en particular sirve para llevar a cabo proyectos de ciencia de datos
en el sector público mediante 19 pasos organizados en cuatro fases. La primera
fase se enfoca en comprender en profundidad el problema para identificar riesgos,
aumentar las probabilidades de éxito y evaluar si la ciencia de datos es la disciplina más
adecuada para resolverlo. La segunda fase se enfoca en el diseño del modelo de ciencia
de datos, la que termina con un modelo de ciencia de datos validado. En tercer lugar se
incorpora una fase centrada en desarrollar un piloto del modelo basado en metodologías
experimentales que permita obtener evidencia de sus resultados en un contexto real.
Finalmente, el proyecto se cierra con una fase de implementación y escalamiento de la
iniciativa.
Dentro de cada una de las fases existe un trabajo iterativo permanente e intensivo
entre pasos, con múltiples avances y retrocesos. Así mismo, cada paso puede
realizarse más de una vez si fuese necesario, como podría ocurrir al desarrollar un modelo
inicial que se va ajustando y validando hasta obtener el resultado deseado. Esta iteración
acaba cuando se logran acuerdos significativos en el equipo de proyecto y se avanza a la
siguiente fase.
Entre fases hay una relación secuencial, cuyo propósito es que el proyecto avance hacia
su implementación. En este sentido, el retorno a una fase anterior debe estar acotado
a casos extremadamente excepcionales, como podrían ser efectos no deseados de la
implementación del modelo, promulgación de leyes que obliguen a modificar decisiones
clave del proyecto, recortes presupuestarios no previstos, entre otras.
Si bien los tiempos de extensión de los proyectos son variables, esta metodología propone
un enfoque ágil, que contemple fases de desarrollo rápidos, iterativos y que permitan el
avance a partir de productos concretos. En este sentido, se propone que la duración de
la Fase 1 sea de aproximadamente cuatro semanas. La Fase 2 pudiera considerar una
extensión promedio de seis semanas, y la Fase 3 de cuatro semanas de trabajo, con un
margen de flexibilidad asociado a la cantidad de iteraciones, información disponible en la
institución, y las condiciones de trabajo en general. La fase de implementación no tiene
un límite definido ya que depende del alcance de cada proyecto.
A partir de este modelo, se desprenden 12 tipos de innovación que son útiles como
estructura de trabajo a considerar para el diseño e implementación de innovaciones.
No obstante, las temáticas que puede abordar un proyecto de ciencia de datos son
diversas, por lo que pudiera estar enfocado a mejorar el modelo de atención, el diseño
organizacional, el comportamiento de personas usuarias, entre otras, según lo defina
la institución. Para conocer más detalles de esta tipología, se sugiere consultar la
publicación Otro Ángulo21 y las videoclases22 elaboradas por el Laboratorio de Gobierno.
21. Disponible en lab.gob.cl/otro-
angulo
22. Disponibles en lab.gob.cl/
videoclases
20
Figura 2: Tipos de Innovación y Ámbitos de Cambio.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 21
22
Fase 1
Investiga-
ción del
problema
Productos
Objetivos para desarrollar un
proyecto de innovación que utilice
ciencia de datos, considerando
equipo, actores relacionados e
identificación de datos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 23
Esta fase comienza con un problema
inicial que, aparentemente, requiere ser
abordado mediante la ciencia de datos
y que moviliza los pasos que vienen a
continuación.
ESTA FASE CONTIENE 6 PASOS:
El objetivo de esta fase es obtener un
conocimiento profundo del problema
DESCUBRIR
que afecta a las personas usuarias,
y poner a prueba la idea de que Paso 1
la ciencia de datos es la forma de Conformar el equipo
encarar las soluciones. de proyecto
Paso 4
Identificar actores
y sus actividades
Paso 5
Mapear datos
DEFINIR
Paso 6
Definir los
objetivos del
proyecto
24
Paso 1
Conformar el
equipo de proyecto
Es común pensar que los proyectos de ciencia de datos son de exclusiva responsabilidad
del equipo técnico de la institución, es decir de un conjunto de analistas y responsables
de los datos. Esto es un error. Estos proyectos son llevados a cabo por equipos
multidisciplinarios con competencias que se complementan. Más aún, la ciencia
de datos no es posible sin un acabado conocimiento del dominio y entorno en el que se
implementará el modelo. Los roles más importantes a considerar son:
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
25
RESPONSABLE Es la persona con el conocimiento más acabado sobre la calidad
DE LOS DATOS de los datos, sus procesos de recolección y almacenamiento
porque estará a cargo de su constante vigilancia. Ya sea que los
datos se alojen dentro o fuera de la institución, es recomendable
incorporar a esta persona al equipo del proyecto. Además, tendrá la
responsabilidad del anonimato de los datos.
Una buena práctica es favorecer una gobernanza horizontal, ya que facilita que todos >> GOBERNANZA HORIZONTAL
Una estructura funcional
los miembros del equipo puedan entregar su opinión respecto de las decisiones que horizontal es aquella que
otorga la misma capacidad de
se tomen, al mismo tiempo que facilita el trabajo colaborativo y la co-creación de la tomar decisiones a distintos
integrantes del equipo, sin tener
necesariamente la autorización de
solución en la próxima fase. una persona con un cargo superior
(Ulloa, Masacon y Rodríguez 2019).
Por último, en una institución pública puede ser difícil sumar gente para un proyecto de
estas características por lo que sugerimos contemplar este capítulo desde la perspectiva
de las funciones. Es decir, independiente del número de personas que integren el equipo,
todas las funciones deben estar cubiertas, incluso subcontratando servicios. En este
sentido, este paso es altamente iterativo, ya que las personas que integren el equipo
podrían cambiar dependiendo de la definición del problema y los objetivos del proyecto.
Paso 2
Describir el
problema
En innovación pública, los proyectos de ciencia de datos tienen su origen y son
motivados por los problemas que enfrentan las personas usuarias en uno o más
servicios entregados por el Estado. Su propósito debe estar orientado a generar
valor público de cara a la ciudadanía, por lo que entender y describir detalladamente el
problema que enfrentan las personas usuarias es central para definir cómo un proyecto
de ciencia de datos podría ofrecer una solución. Una tentación es definir el problema
26
como la ausencia de un modelo de ciencia de datos, o creer que la mera existencia de
datos en una institución exige la existencia de este modelo, pero no se debe olvidar que
su valor yace en los problemas que resuelve y el impacto final para las personas usuarias.
La descripción será un paso necesario pero no suficiente para que quienes toman
las decisiones consideren necesario abordar la problemática. La relevancia de la
problemática será crucial para generar interés en las personas y que el proyecto se
desarrolle.
Para favorecer la comprensión del problema, delimitar su alcance, y ver cómo afecta
al usuario o usuaria final se sugiere usar la herramienta Formulación del Problema
(Herramienta I). Para ejemplificar, se presenta una formulación correcta e incorrecta del
proyecto WhatsApp Mujer, que consistió en la generación de un canal silencioso para
orientar a mujeres que viven violencia de género en situación de confinamiento por la
pandemia y que requieren apoyo especialista.
1. Convocar a todo el equipo del proyecto en torno a un 5. Elaborar una hipótesis que permita entender las causas del
documento compartido. Invitar a personas que estén problema.
involucradas en el problema, para que aporten con su
experiencia. 6. Identificar cuáles son las medidas actuales que abordan
esta problemática, con o sin éxito.
2. Definir quiénes son las personas usuarias (ciudadanía,
organizaciones de la sociedad civil u otras instituciones
públicas) que sufren el problema.
PRODUCTO DE LA HERRAMIENTA
3. Contextualizar el problema en el espacio y el tiempo Formulación del problema considerando todos los elementos
identificando puntos de contacto con el servicio. identificados en las preguntas anteriores.
PERSONAS ¿Quiénes se ven Mujeres que viven violencia de género en situación de Mujeres
USUARIAS afectados/as por confinamiento.
este problema?
INDICADOR ¿Cuánto les Se observó un aumento del 70% en la cantidad de llamadas Existe un aumento en
afecta? al canal telefónico 1455 del Servicio Nacional de la Mujer y los casos de violencia
la Equidad de Género (SernamEG) con respecto al mismo de género en la
período del año 2019. Asimismo, se conocieron casos de pandemia.
llamadas simulando otro tipo de situaciones, pero con el
objetivo de solicitar apoyo, ante el miedo de ser escuchadas
por agresores. Esto coincide con las tendencias internacionales.
HIPÓTESIS ¿Por qué existe Las mujeres se contactan de manera más creciente con Las mujeres que
este problema? el canal telefónico, sin embargo se desconoce quienes no viven violencia no se
¿Cuáles son sus lo hacen puesto que conviven con su agresor y carecen de contactan con los
causas? canales silenciosos, flexibles, anónimos, y disponibles las 24h. canales de apoyo.
MEDIDAS ¿Existe alguna Los canales tradicionales de atención son telefónicos (fonos Sí, pueden llamar por
ACTUALES medida que 149, 134, 1455, 600 400 0101). Su limitación es que las mujeres teléfono.
aborde este deben hablar en voz alta, pudiendo alertar a sus agresores y
problema generando consecuencias que ponen en riesgo su integridad.
actualmente?
FORMULACIÓN DEL PROBLEMA Las mujeres que viven violencia de género en Chile durante la Las mujeres chilenas
[Los/as usuarios/as] + “de” + [contexto] pandemia del COVID-19 evidencian un incremento del 70% no denuncian cuando
“evidencian” + [indicadores] + “porque” en contactos al canal telefónico de apoyo y contención y no viven violencia de
+ [hipótesis] + “y” + [medidas actuales existe referencia sobre las que no lo hacen porque requieren género en el hogar.
insuficientes] + “son insuficientes”. canales más discretos, porque la situación de confinamiento
ha incrementado los niveles de violencia y los canales de
contacto actuales son insuficientes para abordarlo.
28
Paso 3
Analizar la
prefactibilidad del
proyecto
Una vez formulado el problema, es importante responder algunas preguntas iniciales
que entregarán una primera aproximación a los potenciales riesgos del proyecto y los
correspondientes mecanismos de atenuación. Esto permite adelantarse a inconvenientes
que pueden surgir a lo largo del ciclo de vida de un proyecto. En esta línea, es
recomendable sumar a quienes conforman el equipo indicado en el paso anterior, y
también a otras personas de distintas áreas de la institución que puedan abordar el
problema desde dimensiones diversas, de modo de lograr un análisis como el que se
propone a continuación.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
29
ÁMBITO Anticipar proyecciones financieras de un proyecto servirá para
ECONÓMICO considerar los riesgos económicos asociados. La aprobación
del proyecto puede estar sujeta al balance entre los costos
y los potenciales beneficios esperados. Por lo mismo, se
recomienda considerar desde un inicio con los recursos
necesarios (financieros y de personas) para desarrollar el
proyecto de ciencia de datos, no solamente para su creación,
sino también para la operación y mantención del algoritmo
que resulte como solución al problema.
Por otro lado, los datos externos son los producidos por otras
entidades. Si se trata de datos abiertos, son de fácil acceso.
Si son de carácter exclusivo, se deben considerar otras
interferencias que podrían impedir el desarrollo fluido y ágil
de proyecto, especialmente en lo relacionado a restricciones
legales.
30
Cualquiera sea el caso, se debe revisar la arquitectura
tecnológica disponible para consultar los datos, y las
>> WEBSERVICES factibilidades de conectarse por medio de webservices o
Es un término genérico para una
función de software interoperable API, según esté establecido previamente. Considerando que
de máquina a máquina que se aloja
en una ubicación direccionable en materia de innovación pública es relevante mantener la
de red.
Suele proporcionar una interfaz
orientada a objetos y basada en
agilidad, es recomendable estar muy seguro de que podamos
la web a un servidor de bases
de datos, utilizado por ejemplo
acceder de manera oportuna a los datos actualizados de otra
por otro servidor web, o por una
aplicación móvil, que proporciona institución.
una interfaz al usuario o usuaria
final.
Es recomendable sumar
a quienes conforman el
equipo indicado en el paso
anterior y también a otras
personas de distintas áreas
de la institución que puedan
abordar el problema desde
dimensiones diversas.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
31
HERRAMIENTA II
Análisis PESTL
Para utilizar esta herramienta sugerimos seguir los siguientes pasos:
1. Convocar al menos a dos personas expertas en cada 6. Luego, cada mesa completa la columna Proyección con
ámbito a un taller presencial o digital, y mejor si son de la(s) las posibles oportunidades y/o amenazas externas que se
institución(es) relacionadas directamente con el problema. puedan presentar en su ámbito. Las respuestas deben estar
basadas en la situación futura de cada ámbito. Estas pueden
2. Explicar el problema formulado en la Herramienta I estar asociadas a las preguntas que se acaban de responder,
(Formulación del problema) a quienes asisten, con todas sus o a otras que el equipo pueda identificar.
características y justificaciones asociadas.
7. Finalmente se dejará tiempo para un plenario en el que el
3. Agrupar a quienes participan en mesas de trabajo (o sala resto de los asistentes puedan escuchar lo que definieron los
virtual si la sesión es digital) por ámbito. Por ejemplo, en expertos de cada ámbito y complementar con su experiencia.
la mesa del ámbito político solo deben estar las personas
relacionadas a este mismo.
4. Asignar una persona con rol de moderación por mesa o PRODUCTO DE LA HERRAMIENTA
sala virtual, quién estará a cargo de formular las preguntas
asociadas al ámbito, registrar las respuestas y velar por el Focos de riesgos y oportunidades del proyecto en 5 ámbitos
cumplimiento de los tiempos que se definan. Quien ejerza relevantes.
este rol no debe ser parte de los “expertos”, sino que alguien
del equipo de proyecto.
¿Estas autoridades están alineadas con los En dos meses más llegará
objetivos del proyecto? una nueva jefa de servicio,
por lo que no existe la
POLÍTICO certeza de que su convenio
Si tenemos que asociarnos con otros de Alta Dirección Pública
organismos públicos, ¿existe claridad sobre esté alineado a este
quiénes son las autoridades? proyecto.
32
ÁMBITO PREGUNTA ACTUALIDAD PROYECCIÓN
(Para designar
mesas de trabajo)
(Para responder colaborativamente) SÍ PARCIALMENTE NO OPORTUNIDADES Y AMENAZAS
SUGERENCIA
Incluir en esta misma instancia una segunda actividad basada en
la Herramienta III: Mapa de Actores Clave. (pág. 39)
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
33
Paso 4
Identificar actores
y sus actividades
clave
En la primera fase de un proyecto de ciencia de datos también es importante identificar
a los actores que se relacionan con el problema descrito en el Paso 2, cómo lo hacen y
de qué manera se involucran. De esta forma, podremos entender la situación actual,
identificar en qué medida esta se verá afectada por el modelo y, por lo tanto, considerar
desde un inicio lo necesario para el cambio del quehacer institucional de acuerdo al
nuevo escenario.
a. Actores clave
En primer lugar, corresponde identificar a todos los actores asociados al problema en tres
niveles:
En cada nivel, los actores pueden ser personas, instituciones, agrupaciones o entidades.
Para eso se puede emplear un Mapa de Actores Clave (Herramienta III).
34
HERRAMIENTA III
1. Convocar a personas de la(s) institución(es) involucrada(s) 4. Cada mesa tendrá tiempo para levantar los actores
en el problema con formación y experiencia variada. relevantes a nivel micro, meso y macro en el sector privado,
el sector público y la sociedad civil.
2. Explicar a los asistentes el problema que enfrentan las
personas usuarias, con todas sus características levantadas 5. Finalmente, desplegar un plenario en el que cada mesa
en la Herramienta I. exponga el trabajo realizado al resto del grupo.
SUGERENCIA
Usar la misma instancia para aplicar
esta herramienta junto con el Análisis
PESTL (pág. 36). Considerar que
no es requisito que el análisis de la
Herramienta II esté finalizado.
b. Actividades clave
Las actividades son un conjunto de acciones o tareas específicas dentro de un proceso
que ejecuta una persona responsable de un cargo. La importancia de detallar las
actividades clave yace en que es necesario contar con un entendimiento acabado
de cómo se realizan actualmente y cómo el modelo de ciencia de datos las podría
modificar, enriquecer, facilitar o reemplazar. En esta etapa corresponde determinar
cómo se conforma el proceso detrás del problema descrito, cuáles son sus etapas y qué
actividades las componen. Un aspecto importante es entender cómo esas actividades
se encadenan para entregar el servicio a personas o instituciones usuarias. Para
una introducción al mapeo de procesos sugerimos revisar las videoclases 1 y 2 de la serie
Procesos para Innovar24 del Laboratorio de Gobierno.
Para trabajar con todas las actividades relacionadas al problema o desafío, se propone
usar una Ficha de Actividades Clave (Herramienta IV). Esta permite identificar y
describir la o las actividades clave, identificar sus insumos y conocer su propósito.
Además, esta ficha permite evidenciar si las actividades seleccionadas se encuentran
relacionadas con otras (reciben insumos desde algún actor y envían su resultado a otro
actor) y si estas están relacionadas al problema al ser valoradas por las personas usuarias
del servicio o se trata de una acción secundaria dentro de los procesos de la institución.
Finalmente, permite entender cómo una solución basada en ciencia de datos modificaría
estas actividades. El ejemplo que se presenta en la ficha muestra solo dos actividades
de un mismo proceso, pero es posible modificar la tabla libremente para incluir más
24. Disponible en lab.gob.cl/
actividades del proceso de interés. videoclases
HERRAMIENTA IV
1. Una vez formulado el problema y definidos los actores 5. Con esas interrogantes resueltas, se debe describir cómo
relacionados, serán quienes conformen el equipo y tengan se quiere cambiar la actividad. La respuesta debe ser
conocimiento especialista en procesos de la institución una declaración de intenciones suficientemente general
afectada, las personas que tengan la responsabilidad de para permitir múltiples soluciones (ver ejemplos en la
levantar actividades clave. Herramienta), no solo una basada en ciencia de datos.
2. Convocar a una reunión bilateral a una o más personas de 6. Repetir los puntos 4 y 5 de esta herramienta para cada
cada área de cada institución relacionada directamente con actividad identificada hasta completarlas todas.
la problemática definida.
36
MOMENTO PREGUNTA ACTIVIDADES
Actividad 1:
Actividad 2:
(De la actividad) (Para responder colaborativamente) Verificación de documentos de Actividad N
Completar matrícula a Junji
postulación a Junji
ANTES
Las familias postulantes
¿Quién entrega el
que fueron seleccionadas Cada directora de la unidad
insumo para realizar -
para ingresar a una unidad educativa.
esta actividad?
educativa.
Verificar la autenticidad de
Solicitar a las familias
¿En qué consiste la los documentos presentados
postulantes que confirmen la -
actividad? por las familias, siguiendo un
matrícula que se les ofrece.
instructivo.
DURANTE
Múltiples veces al día. Cada vez Múltiples veces al día. Cada
¿Con qué frecuencia se
que hay una familia que podría vez que se va a matricular a -
realiza esta actividad?
ser matriculada. una familia.
¿Cuál es el resultado de la
Familias verificadas. Familias matriculadas. -
actividad?
DESPUÉS
Confirman la matrícula de
¿Qué hacen con el Registran a niños o niñas en la
las familias a Junji (columna -
resultado de la actividad? unidad educativa.
siguiente).
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
37
Paso 5
Mapear datos
Los datos han existido siempre, pero la transformación digital y adopción de nuevas
tecnologías dio espacio al Big Data. El volumen de datos disponibles para analizar, su
variedad y la velocidad a la cuál estos se obtienen, implicaron el desarrollo de nuevos
y distintos mecanismos de análisis para transformar los datos en conocimiento y
retroalimentar las decisiones de las organizaciones públicas. Por lo mismo, el objetivo de
este paso es mapear, de forma preliminar, la existencia de datos adecuados para resolver
la problemática definida.
La materia prima de un proyecto de ciencia de datos son, precisamente, los datos. Sin
ellos no existe proyecto ni hay posibilidad de ofrecer una solución de estas características
a las personas usuarias del servicio. Por un lado tenemos los datos que son diseñados,
los que son generados para responder a una inquietud en particular. Ejemplos de estos
datos son los obtenidos en encuestas de calidad de servicio, evaluaciones de impacto,
censos, etc.
Por otro lado, están los datos que se denominan orgánicos, que se caracterizan por
generarse a partir del quehacer institucional, ya sea de sus procesos o transacciones. Por
ejemplo el registro de consultas en un motor de búsqueda, el conteo de personas en una
sucursal de atención al cliente mediante un sensor, el registro de los préstamos en una
biblioteca digital, la ubicación satelital de las personas usuarias al interactuar con una
plataforma, etc. Para un proyecto de ciencia de datos se pueden usar ambos tipos. Más
aún, es común que un proyecto utilice múltiples bases de datos.
Más importante que el tipo de datos, es lo que se puede hacer con ellos. Por un lado,
tienen que servir para construir el modelo de ciencia de datos. Para esto se deben
identificar todas las fuentes de datos disponibles para modelar, y evaluar si contienen
lo necesario para construir un modelo. En este punto no es necesario seleccionar las
variables que se emplearán en el modelamiento, ya que para aquello existe un proceso
iterativo que se explicará en el Paso 11.
Por otro lado, deben permitir medir los indicadores definidos para estimar el impacto
de la iniciativa, referida a los objetivos del proyecto que se establecen en el Paso 6. Por
ejemplo, si el proyecto busca aumentar la satisfacción usuaria en atención presencial,
entonces se debe poder medir dicha satisfacción para estimar el logro del objetivo del
proyecto.
38
Si se trabaja con datos ya existentes se debe asegurar que el equipo ejecutor del proyecto
tenga acceso a ellos. En los casos en que el equipo no sea el responsable de los
datos, se recomienda que los datos sean solicitados formalmente para asegurar el
acceso, comprometer un protocolo de seguridad de datos y darle sostenibilidad al
proyecto. Si se tratase de datos obtenidos por otras instituciones, y que no sean abiertos,
un paso necesario más adelante es firmar un convenio de colaboración que regule el
uso de los datos o, en su defecto, algún acuerdo escrito que regule el traspaso, uso y
tratamiento de los mismos.
>> MADUREZ DE LOS DATOS En cualquiera de los casos anteriores es importante que la madurez de los datos sea
Es una medida de la capacidad
de una organización para
utilizar los datos, junto con
suficiente, es decir, que su almacenaje, contenido, calidad, privacidad y documentación
lo bien que la organización
aprovecha esas capacidades.
permitan realizar el proyecto. En este punto del proyecto no es necesario que los datos
Cuando una organización tiene
madurez de datos, significa que sean perfectos, sino que sean adecuados para construir posibles soluciones al problema
puede desplegar sus recursos de
datos para lograr una serie de anteriormente descrito. Por ejemplo, si el problema guarda relación con la entrega de
objetivos. En muchos casos, esto
no sólo significa tomar decisiones beneficios sociales a nivel personal, pero solo se cuenta con información de hogares,
basadas en los datos, sino también
hacer que los recursos de datos entonces los datos no son suficientes. En casos como estos, se deberán modificar ciertas
sean más accesibles en toda la
organización. definiciones del proyecto, o bien cambiar la forma en la que se recopilan los datos.
>> CALIDAD DE LOS DATOS
Se puede considerar que los
datos son de alta calidad si
Para evaluar esa madurez, se sugiere utilizar la Matriz de Madurez de Datos
son aptos para su uso previsto,
o si representan correctamente
(Herramienta V), elaborada por la iniciativa Data Science for Social Good25 que aquí
el constructo al que se refieren
en la realidad. Por otro lado, se ofrece con algunos ajustes. Con esto, se tendrá una mirada amplia de los datos
mientras más bases de datos se
disponen, la coherencia interna disponibles para que el equipo pueda definir si estos permiten abordar la problemática
de estos suma relevancia. Dada
la variedad de definiciones y definida, mejorar los datos disponibles y/o privilegiar otras iniciativas. En el ejemplo de la
situaciones, los puntos de vista
de las personas sobre la calidad matriz se presentan respuestas “tipo” para todos los niveles de madurez, sin embargo,
de los datos pueden fácilmente
estar en desacuerdo, incluso
cuando se habla del mismo conjunto
estos son puramente referenciales y cada equipo podrá tener sus propias definiciones.
de datos utilizados para el mismo
propósito. La ISO 8000 describe
las características y atributos a
tener en cuenta con respecto a la
calidad de los datos en distintos
Es importante que la
contextos que se les presentan a
las organizaciones. Para tener una
mejor idea vean el ejemplo de la
herramienta.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
39
HERRAMIENTA V
Madurez de Datos
tenga el rol de analista de datos y/o responsable de los
datos.
¿CÓMO SE
ALMACENA LA ¿Cómo es el almacenamiento de
INFORMACIÓN? ALMACENAMIENTO
los datos?
¿QUÉ
INFORMACIÓN
FRECUENCIA DE ¿Con qué frecuencia se recolectan
SE RECOLECTA?
RECOLECCIÓN los datos?
40
4. Marcar una casilla que determine el nivel PRODUCTO DE LA HERRAMIENTA >> GRANULARIDAD
La granularidad es el detalle, o el
deficiente, básico, intermedio o avanzado nivel más reducido en el que pueden
Un acuerdo entre el equipo de proyecto presentarse los datos para la realización
con respecto a la pregunta formulada en la sobre los niveles suficientes en cada área de un análisis. Un buen ejemplo de la
granularidad de los datos es cómo se
tercera columna. para abordar la problemática formulada subdivide un campo de nombre, si está
contenido en un solo campo o subdividido
y acordar los objetivos en el Paso 6. en sus componentes, como el primer
5. Luego deben justificar su marca nombre, el segundo nombre, el apellido
paterno y el apellido materno. La ventaja
respondiendo en el espacio de la casilla. de los datos granulares es que se pueden
moldear de la manera en que el/la
científica de datos requiera. Si los datos
no están granulados entonces se hace más
difícil manipularlos y analizarlos.
PDF o imágenes
HERRAMIENTA VI
1. Convocar a un taller presencial o digital a la totalidad del 5. Luego iniciará la actividad para definir y acotar los objetivos
equipo del proyecto. del proyecto basado en el lienzo de la herramienta impreso
en grande. Para eso se deben responder colaborativamente
2. La jefatura del proyecto tendrá la responsabilidad de todas las preguntas de la herramienta.
exponer a quienes sean parte del taller la formulación del
problema abordado en la Herramienta I. 6. Al terminar de abordar cada aspecto, deben usar el formato
sugerido y acordar una redacción para el o los objetivos. El
3. Quién conozca mejor los procesos de la institución, tendrá la equipo puede acordar tantos objetivos como desee, siempre y
responsabilidad de exponer el levantamiento de acciones y cuando cada uno mantenga la formulación SMART.
actores abordado en la Herramienta IV.
42
ASPECTO PREGUNTA RESPUESTA
DEL OBJETIVO VERIFICADORA Ejemplo de la Tesorería General de la República, TGR.
Hoy existe aglomeración y mala experiencia de servicio en oficinas TGR, altos costos
ESPECÍFICO ¿Por qué quiero conseguirlo? de tiempos asociados a trámites y la sub-utilización de incentivos económicos
disponibles para las personas usuarias.
TGR con la contraparte definida para este proyecto y las funcionarias y funcionarios
¿Quiénes están involucrados?
asociados a sus oficinas de atención.
¿Cómo?
Además, las personas usuarias de los canales presenciales de TGR.
¿Es posible definir cuánto » Aumentar en 20% el uso de canales digitales en un año (trámites; atención
quiero mejorar y saber cuando remota).
lo he logrado? » Aumentar en 20% el conocimiento de canales digitales (encuesta).
MEDIBLE
» 10% del total de las personas usuarias utilizan los canales digitales.
¿Cuál es la línea base?
» No tenemos línea base sobre el conocimiento de nuestros canales digitales.
Sí, con la ciencia de datos será posible personalizar la atención derivando a canales
¿La ciencia de datos serviría
remotos a ciertos tipos de usuarias y usuarios, determinados por sus necesidades y
para alcanzar la meta?
características.
ALCANZABLE
¿Cuáles son las fortalezas de
la institución y oportunidades TGR tiene un sólido equipo de programación que pueden ayudar a dar forma a la
del entorno para alcanzar el solución.
objetivo?
¿Cuáles son los obstáculos y las TGR tiene múltiples oficinas de atención, las que presentan importantes diferencias
limitaciones para alcanzar el entre sí que pueden resultar desafiantes. Es pertinente trabajar directamente con
objetivo? ellas.
REALISTA
¿Es aplicable en el entorno Migrar hacia canales de atención remota implica una reducción de costos
socioeconómico y político transaccionales permitiendo a las personas usuarias un ahorro relevante en dinero y
actual? tiempo.
¿Existe la infraestructura Las herramientas tecnológicas de hoy permiten sostener procesos digitales y los
tecnológica para abordarlo? servicios del mundo están migrando hacia canales de atención remotos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
43
44
Fase 2
Diseño de
propuestas
de solución
Productos
Modelo de ciencia de datos
validado por el equipo de proyecto,
considerando identificación de tipos
de análisis, obtención y exploración
de datos y registro de la elaboración y
validación del modelo.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 45
Esta fase involucra la definición de el o
los tipos de análisis que se deben realizar ESTA FASE CONTIENE SIETE
PASOS:
para lograr los objetivos pactados en la
fase anterior, la realización de actividades
de prototipado y testeo, para cerrar con IDEAR
un modelo de ciencia de datos validado
y listo para ser piloteado en un contexto Paso 7
Seleccionar y
real. alinear tipos de
análisis de datos
Dentro de esta fase es esperable que
existan múltiples momentos iterativos,
con sucesivos avances y retrocesos entre PROTOTIPAR Y TESTEAR
pasos, ya que se trata de un momento
de experimentación, donde se pueden Paso 8
probar varias ideas diferentes. Obtener y cargar
los datos
Además, se introducirán técnicas más
avanzadas para el correcto análisis de
datos en grandes volúmenes, con alta Paso 9
variabilidad y veloces en su actualización. Transformar los
datos
Paso 11
Desarrollar y
ajustar el modelo
VALIDAR
Paso 12
Validar modelo
Paso 13
Generar
conclusiones
46
Paso 7
Seleccionar y
alinear tipos de
análisis de datos
El inicio de esta nueva fase está centrado en la ideación, es decir, en generar ideas de
solución que puedan ser prototipadas y testeadas. Se pueden consultar múltiples técnicas
de ideación en la Guía Permitido Innovar: ¿Cómo podemos resolver problemas públicos a
través de Proyectos de Innovación?27, las que son apropiadas para usar en este contexto.
a. DESCRIPTIVO
Resumir mediciones en un único conjunto de datos que se presentan de manera
ordenada, sin hacer interpretaciones.
b. EXPLORATORIO
Analizar y descubrir tendencias, correlaciones o relaciones entre las mediciones
para generar ideas o hipótesis.
c. INFERENCIAL
Cuantificar la probabilidad de que un patrón observado se mantenga más allá
del conjunto de datos disponibles. Este es el análisis estadístico más común en la
literatura científica formal.
d. PREDICTIVO
Predecir un resultado a partir de un subconjunto de características. Los problemas
de clasificación entran en esta categoría.
e. CAUSAL
Averiguar qué ocurre con la media de una variable si se realiza un cambio en la
media de otra. Dicho análisis identifica tanto la magnitud como la dirección de las
relaciones entre las medias de las variables.
f. MECÁNICO
Demostrar que el cambio de una variable determina siempre y exclusivamente a un
27. Disponible en bit.ly/3N6AGpl comportamiento específico en otra.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
47
En un proyecto de
ciencia de datos,
parte importante de
la ideación consiste en
seleccionar el o los tipos
de análisis de datos que
se llevarán a cabo.
Cabe destacar que en este paso basta con acordar el o los tipos análisis pertinentes
para el proyecto ya que el modelado mismo viene en el Paso 11 que será realizado
principalmente por quienes tengan el rol de analistas. Por lo tanto, para alinear la
problemática con los objetivos propuestos y los tipos de análisis se sugiere revisar la
Pertinencia de los Tipos de Análisis (Herramienta VII).
HERRAMIENTA VII
1. La jefatura del proyecto debe convocar a una reunión al 5. Repetir este proceso para cada objetivo.
equipo del conformado.
48
Fuente: Adaptado de Leek & Peng (2015).
Paso 8
Obtener y cargar
los datos
El primer aspecto a considerar en este paso es la gestión para conseguir los datos
necesarios para construir el modelo y cumplir con los objetivos del proyecto. Si en la
etapa de planificación se consideró la utilización de datos internos, puede ser necesario
establecer procedimientos claros para el traspaso veloz y eficiente de información. Por
otro lado, si se consideró utilizar datos externos a la institución, será necesario desplegar
otras actividades que pueden aumentar los costos del proyecto, desde la generación y
acuerdo de un convenio de colaboración para el traspaso de datos hasta la definición
de espacios y compra de materiales para el almacenaje de estos. En cualquier caso, el
estándar es establecer protocolos de transferencia de datos para acordar el volumen de
datos y la temporalidad del traspaso.
Recapitulando lo aprendido en el Paso 5 (Mapear datos), los datos pueden existir previo
al proyecto o recolectarse debido a este, pueden ser diseñados acorde a sus objetivos
o existir de manera orgánica. Los datos pueden extraerse con encuestas, mediante
observación humana, o con inteligencia artificial. Es posible recoger bases de datos
archivadas en formato SQL o NoSQL, alojadas en sistemas CRM y ERP, o incluso pueden
provenir de archivos planos, de correos electrónicos, páginas web, y más.
En ese sentido, las herramientas para extraer los datos necesarios también pueden ser
diversas y su elección dependerá de las características del proyecto. Dependiendo de
los tipos de análisis o los tipos de datos que se presenten se definirán el o los lenguajes
óptimos que contengan las funciones y librerías adecuadas para su obtención.
Típicamente se utiliza el lenguaje SQL, Python, R, entre otros, los cuales son de código
abierto y tienen librerías útiles para el tratamiento de datos tales como Spark, o >> IAAS, PAAS, SAAS Y/O CAAS
Infraestructura como Servicio es
Panda. En el caso de SQL, las operaciones se realizan en distintos softwares (o query un servicio que ofrece las capas
de virtualización, servidores,
engine), tales como Postgres, MySQL o PrestoDB, que normalmente son parte de la almacenamiento y redes para ser
utilizadas de forma inmediata.
infraestructura que ofrece Amazon Web Services, Google Cloud, y Azure. En esta línea, En otras palabras, un tercero se
encarga de la infraestructura
instamos a priorizar el uso de software de uso gratuito, ya que facilitarán transparentar hardware en la nube.
Plataforma como Servicio es un
la información del proyecto con la ciudadanía, ayudarán a reducir los costos del mismo y servicio que ofrece hardware y
una plataforma de software para
los aplicativos. Este servicio
favorecerán su sostenibilidad en el tiempo. es ideal para Desarrolladores y
Programadores.
Software como Servicio es un
servicio que ofrece todas
La extracción culmina con la carga o traslado de los datos a un espacio de las capas de componentes del
software para utilizarlo de
almacenamiento donde se guardan para su tratamiento. A menudo, los datos se asignan manera inmediata y no requiere
implementar infraestructura,
a objetos, que son bloques de construcción útiles para estructurar, manipular y utilizar redes, software o cualquier otro
componente adicional. Se utiliza
los datos. Luego, los objetos pueden ser almacenados en algún formato idéntico al de mediante navegador.
Contenedores como Servicio es un
servicio que ofrece la posibilidad
origen o uno distinto. Una opción eficiente es el almacenamiento y tratamiento de datos de gestionar e implementar
aplicaciones en contenedores
en la nube con su oferta de distintos modelos de servicios de cloud computing que puede para facilitar el transporte, la
instalación, el despliegue, entre
gestionar un tercero, tales como IaaS, PaaS, SaaS y/o CaaS. otros.
50
Figura 3: Proceso de extracción y carga de datos.
EXTRACCIÓN
BASES DE DATOS
Descargar y guardar Almacenar los datos
archivos sin procesar desde en una base de datos, un
distintas fuentes. almacén de datos u otro
formato útil.
CARGA
Paso 9
Transformar
los datos
Este paso consiste en ejecutar distintos procedimientos que permitan convertir los
datos en un formato listo para el análisis, es decir, que permiten el desarrollo del
modelo propiamente tal. Para ello, es necesario considerar conjuntos de técnicas y
transformaciones cuyo uso depende de los objetivos de cada proyecto.
Este paso puede ocurrir entre la obtención y carga de datos, o posterior a la carga de
datos, sin embargo, se separa para esclarecer la importancia de contar con datos en un
formato adecuado. Además, porque esta etapa habitualmente toma tiempo.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
51
Dependiendo del lenguaje y softwares que se eligieron en el paso previo, distintos códigos
serán necesarios para estructurar, modelar, extraer, unir y/o reordenar información
de texto, de datos numéricos, de fechas, de imágenes, entre otros. En esta etapa, la
programación debe garantizar las operaciones de limpieza y transformaciones necesarias
para proceder con los cálculos y operaciones del análisis exploratorio y posteriormente,
del modelo.
MANIPULACIÓN
Datos Análisis
almacenados de datos
Procesar y
limpiar datos
Limpiar registros, extraer valores,
convertir tipos de datos, remodelar,
unir tablas y agregar registros.
52
Un aspecto a considerar
en cualquier proyecto de
ciencia de datos es que
el código computacional
que se utilice debe incluir
todas las actividades de
tratamiento de los datos,
inclusive lo relacionado
con su obtención.
Independiente de las elecciones que se hagan y códigos que se utilicen en esta etapa, es
imperativo que la programación cumpla con tres principios básicos:
1. EFICIENCIA
El código debe ser eficiente y no generar funciones innecesarias. Por ejemplo,
utilizando funciones y comandos que ejecuten operaciones de forma automática
en reiteradas ocasiones.
2.
REPLICABILIDAD
El código debe permitir su reutilización y el aprendizaje del ecosistema. Para
esto, una buena práctica es dejar anotaciones que permitan entender el código y
publicar el procedimiento final.
3.
ANONIMATO
Es fundamental verificar la anonimización de las observaciones de la base
de datos para impedir la identificación de sujetos, incluso puede llegar a ser
necesario eliminar información personal y sensible (ver capítulo II referido a ética
y seguridad).
Una vez finalizada la limpieza de los datos, es necesario generar el análisis exploratorio
que permita conocer los datos, visualizar patrones y asociar variables.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
53
Paso 10
Realizar análisis
exploratorio de
datos
Limpiados y organizados los datos, éstos se encuentran listos para comenzar con el
análisis exploratorio, que no solo entregará información acerca de la calidad de los datos,
sino que también permitirá dar los primeros pasos hacia la construcción de la solución.
54
Se sugiere organizar el análisis según tres propósitos: conocer a la población, visualizar
patrones e identificar asociaciones entre variables. A continuación, se presenta la
descripción de cada uno de estos y las técnicas de análisis que se pueden usar en cada
caso.
a. Conocer a la población
Consiste en el primer análisis de datos propiamente tal, por lo que se deben resumir los
datos y brindar una breve interpretación. Para esto, las técnicas de análisis descriptivo
son muy útiles.
>> VARIABLES CUANTITATIVAS Si se trata de variables cuantitativas (intervalo o razón) las medidas de tendencia
Son aquellas variables
estadísticas que otorgan, como central (media, mediana y moda) son útiles para conocer dónde se encuentran los
resultado, un valor numérico. Por
ejemplo: Edad. valores centrales. En tanto, las medidas de dispersión (rango, desviación estándar y
varianza) sirven para saber cuán agrupados o dispersos están los datos en torno a dicho
centro. Por su parte, las medidas de posición (cuartiles, deciles y percentiles) permiten
obtener una primera aproximación a la distribución de estas variables.
b. Visualizar patrones
Consiste en graficar los datos disponibles para identificar patrones y detectar valores
atípicos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
55
Por su parte, los gráficos de línea son muy útiles cuando se trata de identificar patrones
en series de tiempo o datos longitudinales. Estos pueden tratarse de precios diarios,
asistencia semanal de personas usuarias a oficinas, visitas por hora a la web institucional,
entre otros. Se sugiere considerar al menos tres componentes para su análisis:
TENDENCIA
Indica si los datos crecen o decrecen en el tiempo.
ESTACIONALIDAD
Indica si existen patrones o ciclos que se repiten cada cierto intervalo de tiempo.
Si se quiere complementar ese conocimiento con una primera aproximación a los datos >> DATOS ATÍPICOS
Que por sus caracteres se aparta
atípicos se puede emplear un gráfico de caja y bigotes (box plot en inglés) como el de los modelos representativos o
de los tipos conocidos. En el caso
que se muestra en la figura 5. Este gráfico contiene una caja cuyo centro está indica la de los datos, es una observación
que es numéricamente distante del
mediana de los datos, y sus extremos son el cuartil inferior (25% inferior de los datos) resto.
y el cuartil superior (25% superior de los datos). Los “bigotes” o “patillas” de la caja
corresponden a 1,5 veces el rango entre el cuartil inferior y el superior, también llamado
rango intercuartílico (IQR). Todos los datos que se encuentren por sobre o bajo esos
bigotes se consideran atípicos. Incluso, hay quienes agregan una clasificación de casos
extremos para los datos que excedan en tres veces el rango intercuartílico.
RANGO INTERCUARTIL
(IQR)
Valores Valores
atípicos atípicos
Mínimo Máximo
(Q1 - 1.5 * IQR) (Q1 + 1.5 * IQR)
Mediana
Q1 Q3
Cuartil inferior | P25 Cuartil superior | P75
-4 -3 -2 -1 0 1 2 3 4
56
Es importante mencionar que esta definición de datos atípicos y extremos no es la única,
y se pueden emplear otros indicadores para detectarlos como la desviación estándar o
la desviación absoluta mediana. En cualquier caso, su detección es relevante para poder
analizarlos y tomar una decisión respecto de ellos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
57
Cuando se quiere revisar la asociación entre variables cuantitativas y cualitativas, lo
más común es revisar la distribución de las variables cuantitativas para cada categoría
de las variables cualitativas. Esto se puede realizar fácilmente con un gráfico de caja
que muestre la distribución de la variable cuantitativa en cada categoría de la variable
cualitativa (ver figura 6).
N: puntos de atención
1400
(Cantidad de atenciones presenciales diarias)
1200
1000
Variable cuantitiva
800
600
400
200
0
I II III IV
(N=203) (N=152) (N=351) (N=276)
58
En cambio, si se desea examinar la asociación entre dos variables cuantitativas, se
puede emplear un gráfico de dispersión, con una variable en cada eje. En los casos
que se quiera revisar múltiples asociaciones bivariadas se puede lograr rápidamente
mediante el cálculo del coeficiente de correlación. Uno de los más utilizados es el
coeficiente de Pearson que permite entender la intensidad y sentido de una correlación.
Dicho coeficiente puede fluctuar de -1 a 1, en donde -1 demuestra la existencia de una
correlación perfectamente negativa, 0 una correlación inexistente, y 1 una correlación
perfectamente positiva. Una forma de graficar esta información es mediante una matriz
de correlaciones, la cual resume y permite visualizar las correlaciones para cada par de
variables (ver figura 7).
0.8
0.7
0.47
0.42 0.39
0.6
0.4
0.54 0.52 0.31 0.57 0.62
0.3
0.29 0.50 0.04 0.49 0.37 0.75
0.0
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
59
Conociendo la correlación entre variables se puede realizar un Análisis de
Componentes Principales (PCA por sus siglas en inglés). Esta técnica permite reducir la
dimensionalidad, es decir las variables o coordenadas que están a la base del fenómeno
de interés, al mismo tiempo que se minimiza la pérdida de información. Si se trabaja
con variables que emplean distintas escalas, es necesario estandarizar o normalizar >> ESTANDARIZAR
Es llevar un conjunto de datos
las variables antes de llevar a cabo un análisis de componentes principales. La principal con a tener media nula (=0) y
desviación estándar unitaria
(=1). Este método de escalado es
desventaja de esta transformación es que la interpretación de las variables se vuelve útil cuando los datos siguen una
distribución normal. La fórmula
menos intuitiva para quienes están menos familiarizados con el análisis de datos, ya que teórica para estandarizar una
variable es la siguiente (Ali y
las variables transformadas pasan a medirse en desviaciones estándar. Faraj, 2014):
(x - µ)
x"=
ρ
Una forma de graficar esta información es con un plano que da cuenta de los dos
x": variable estandarizada
componentes o dimensiones principales que surgen del análisis, y que son las que µ: media
ρ:desviación estándar
permiten explicar de manera más adecuada la distribución de las variables.
>> NORMALIZAR
Es llevar los valores de un
conjunto de variables a una escala
comparable entre ellas entre 0 y
1, sin modificar su distribución.
Figura 8: Plano de análisis de los dos componentes principales para los tipos de Este método de escalado es útil
cuando los datos no presentan
trámites realizados en el Estado. valores atípicos. Por ejemplo
esto permitiría comparar tasas
de interés, desempleo y valores
bursátiles. La fórmula teórica
para estandarizar una variable es
la siguiente (Ali y Faraj, 2014):
l
ipa x’=
x - min
nc max - min
Característica 2
ri
co
p
mp
co
pr
Se ci
in
gu pa
nd l
o
Característica 1
60
1
Siete principios
Visualizar de la
los datos presentación
correctos efectiva de
2
datos.
4
Elegir
la visualización Eliminar
más adecuada el ruido
innecesario
3
Ajustar
la visualización
a tu mensaje
5 6
Centrar la
atención Hacer los datos
en lo importante accesibles y
atractivos
Infundir
confianza en
las cifras
Fuente: Dykes, 2019.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
61
Paso 11
Desarrollar y
ajustar el modelo
Finalizando el análisis exploratorio, es momento de llevar a cabo análisis de mayor
complejidad. Éstos dependerán del problema que afecta a las personas usuarias (Paso
2), los objetivos del proyecto (Paso 6), el tipo de análisis acordado (Paso 7) y los datos
disponibles (Pasos 8 y 9). Puede ocurrir que los hallazgos del análisis exploratorio sean
suficientes para solucionar el problema identificado y no sea necesario recurrir a análisis
más complejos. Por ejemplo, para el manejo de los datos de COVID-19, se utilizaron
técnicas de análisis descriptivo para entregar regularmente resúmenes estadísticos, como
la proporción de personas hospitalizadas por la cantidad de casos de contagiados, y en
base a esto se tomaron decisiones sobre las medidas sanitarias a implementar.
Para entender este paso, partiremos recordando la definición sobre qué es un modelo.
Este corresponde a una representación de la realidad que se crea a partir de
los datos y que sirve para realizar distintos tipos de análisis que apoyen la
toma de una decisión o que sirven para crear procesos de tomas de decisiones
automatizadas. El tipo de modelo a desarrollar dependerá de los datos disponibles, de
los objetivos que se hayan establecido y de los recursos que existan para solucionar el
problema o desafío.
Para la creación del modelo, se pueden escoger una o varias técnicas. Lo importante en
este punto es que el equipo técnico que esté a cargo del desarrollo del modelo justifique,
basado en la literatura y experiencia comparada, cuál técnica es la más apropiada para
el tipo de análisis y el problema que se quiere solucionar. Adicionalmente, se sugiere
registrar los supuestos subyacentes para que luego el modelo y sus conclusiones sean
válidos y sostenibles en el tiempo. A continuación, se mencionan las técnicas más
utilizadas dentro del área de la ciencia de datos.
62
INFERENCIA Es el conjunto de técnicas que permite inferir, desde los datos de
ESTADÍSTICA una muestra, el comportamiento de la población por medio de la
estimación de la distribución de probabilidad poblacional. A partir
de esto, se pueden realizar estimaciones de los parámetros de
la distribución, como la media y varianza, y los consecuentes
test de hipótesis sobre ellos. Se utiliza especialmente cuando
solamente se tiene datos muestrales, por ejemplo de las personas
que ya han sido seleccionadas para un beneficio, o cuando los datos
provienen de encuestas, pero se requieren tomar acciones en toda la
población.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
63
Figura 9: Técnicas de aprendizaje automático.
APRENDIZAJE AUTOMÁTICO
(MACHINE LEARNING)
APRENDIZAJE APRENDIZAJE
SUPERVISADO NO SUPERVISADO
AGRUPAMIENTO
CLASIFICACIÓN REGRESIÓN (clustering)
Modelo Oculto de
Redes Neuronales Redes Neuronales Márkov
Redes Neuronales
Fuente: MathWorks (2022).
64
Dentro de las técnicas no supervisadas, una de utilidad para problemas públicos es el
clustering, o formación de grupos según grados de similitud entre los datos. Esta técnica
se utiliza cuando es necesario entender tipologías. Los algoritmos de clustering forman
grupos de manera automatizada, y luego es tarea de las personas expertas en el tema
interpretarlos para darles sentido. Por ejemplo, un servicio público que otorga beneficios
sociales podría tener el problema de que las personas usuarias objetivo no están
accediendo a tiempo a dichos beneficios. Para diseñar una estrategia de contactabilidad
y difusión de los beneficios, conocer los tipos de personas que no acceden a ellos podría
ser de utilidad.
Las técnicas mencionadas tienen distintos grados de complejidad para ser comunicadas.
Por ejemplo, en una regresión lineal es más fácil observar la relación y efecto de las
>> RED NEURONAL variables, en comparación con una red neuronal. De esta forma, tal y como se mencionó
Una red neuronal es un método
de la inteligencia artificial en el capítulo II sobre Ética y Seguridad, la técnica debe ser lo más comprensible posible
que enseña a las computadoras a
procesar datos de una manera que para eventuales rendiciones de cuenta, en la medida que las características del proyecto
está inspirada en la forma en que
lo hace el cerebro humano. Se
trata de un tipo de proceso de
lo permitan.
aprendizaje automático llamado
aprendizaje profundo, que
utiliza los nodos o las neuronas
interconectados en una estructura Después de escoger las técnicas que se van a utilizar, comienza la etapa de
entrenamiento y prueba del modelo. Un modelo de ciencia de datos aprende de los
de capas que se parece al cerebro
humano. Crea un sistema adaptable
que las computadoras utilizan para
aprender de sus errores y mejorar datos y extrae información de ellos para entregar la predicción, clasificación o solución
continuamente. De esta forma,
las redes neuronales artificiales que se busca. La fase en la que el modelo está aprendiendo se llama Entrenamiento y la
intentan resolver problemas
complicados, como la realización
de resúmenes de documentos o el
fase en la que se ven los resultados de lo que el modelo aprendió se llama Prueba.
reconocimiento de rostros, con
mayor precisión.
Para realizar estas dos fases se deben dividir los datos disponibles en dos grupos: Datos
de Entrenamiento y Datos de Prueba. Una práctica recomendable, especialmente
en modelos que utilizan redes neuronales, es realizar una tercera división: datos de
validación. La partición de los datos se explica a continuación:
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
65
DATOS DE ENTRENAMIENTO
Son la parte más grande de la partición. Con ellos, el modelo identifica patrones, calcula
probabilidades y extrae la información útil.
DATOS DE VALIDACIÓN
Son una pequeña parte de los datos que se utilizan después del entrenamiento para ver
cómo el modelo va aprendiendo y realizar ajustes si es necesario. La idea es utilizar datos
que el modelo no ha visto antes para ver cómo se comporta frente a ellos. Con estos
datos, se hace una primera evaluación del desempeño del modelo utilizando algunas de
las métricas que se explican en el siguiente paso.
DATOS DE PRUEBA
Esta es la partición final de los datos, que no se utilizó ni en el entrenamiento ni en la
etapa de validación, permite ver cómo se comporta el modelo entrenado con nuevos
datos que no han sido procesados. Con estos datos es posible observar cómo se
comportaría el algoritmo en un escenario real, en el que siempre habrá nuevos datos que
procesar.
Paso 12
Validar modelo
Una vez que se tiene un modelo es importante validarlo de acuerdo a indicadores
específicos antes de pilotearlo en condiciones controladas. Los modelos son
simplificaciones de la realidad, por lo que no es posible tener un rendimiento perfecto en
todas las métricas y por eso es importante que el equipo del proyecto entienda cuáles
son las más pertinentes de acuerdo a las particularidades del modelo y los objetivos
formulados en el Paso 6. Existen distintos instrumentos para validar modelos que se
adecuan a las exigencias y características de cada uno.
66
A continuación se describen algunas de las herramientas que nos servirán para validar el
modelo, sin embargo insistimos en que las métricas adecuadas siempre dependen del
contexto de cada proyecto.
La matriz permite cruzar las variables que resultan de la predicción del modelo, en
contraste con aquellas que son observables del conjunto de datos de prueba que se
utilizaron para construirlo.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
67
Con la matriz de confusión se obtiene el desempeño del modelo. En algunos escenarios,
es más importante que el modelo prediga lo mejor posible la categoría positiva, aunque
no detecte tan bien la negativa; en otros casos, es necesario lo contrario.
PRECISIÓN
Se refiere a qué tan confiable es el modelo al detectar
VP
la categoría positiva. Entrega el número de casos que Precisión=
realmente son positivos entre la cantidad de positivos que VP + FP
detectó. En el ejemplo anterior, esta medida diría cuántas
personas que fueron identificadas por el algoritmo cómo
que tienen una enfermedad, realmente la tenían.
SENSIBILIDAD
Es para saber qué tan bueno es el modelo detectando
VP
la categoría positiva. Entrega el número de verdaderos Sensibilidad=
positivos entre todos los positivos reales. En el ejemplo, VP + FN
esta medida diría cuántas personas que tienen la
enfermedad realmente fueron detectadas como tal.
ESPECIFICIDAD
Mide qué tan bueno es el modelo detectando la categoría
negativa. Entrega el número de verdaderos negativos VN
Especificidad=
entre todos los negativos reales. En el ejemplo, esta VN + FP
medida diría cuántas personas a las cuales no se les
detectó la enfermedad, realmente estaban sanas.
EXACTITUD
Muestra la cantidad de predicciones positivas y negativas
VP + VN
que realizó el modelo. En el ejemplo, esta medida diría Exactitud=
cuántas personas fueron clasificadas en la categoría a la
VP + FP + FN + VP
que realmente pertenecían.
68
Por lo demás, los costos en términos económicos y sociales de un falso positivo y un
falso negativo pueden ser muy distintos dependiendo del proyecto. Se sugiere hacer
un análisis de costo-beneficio en el que se evalúen las implicancias de cada uno en el
contexto en el que se quiere implementar el modelo.
Por último, además de considerar que el algoritmo haga un buen trabajo desde el punto
de vista técnico para toda la población, también se debe resguardar la ética asociada
a su despliegue. Por ejemplo, se puede requerir medir el desempeño del modelo para
subgrupos que hayan sido identificados como prioritarios según la problemática, tales
como habitantes de sectores rurales o personas mayores, entre otros, de manera de
asegurar que su desempeño sea equitativo.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
69
El R2 representa qué tan cerca están los datos reales de la línea de predicción que
generó el modelo de regresión. Un R2 igual a 0% significa que el modelo no captura
el comportamiento de los datos y, por otro lado, uno de 100% significa que lo hace
a la perfección. Cabe destacar que los valores bajos no siempre implican que un
modelo sea malo ni viceversa. Dadas las características de los datos, normalmente
los modelos de regresión que buscan predecir el comportamiento humano suelen
tener un R2 menor al 50% aunque el modelo sea correcto. Por otro lado, un modelo
con un R2 muy cercano a 100% podría significar que el modelo está sesgado o que
se está haciendo un sobreajuste de los datos. En ese sentido, se sugiere verificar con
el R2 ajustado, el cual corrige su valor por la cantidad de variables explicativas del
modelo, por lo que lo castiga si se utilizan muchas.
Los AIC y BIC sirven para comparar dos o más modelos que tienen la misma
variable de interés pero distintas variables explicativas, penalizando por el número de
variables incluidas. Como regla general, se preferirán modelos con menores valores
AIC y BIC.
70
Paso 13
Generar
conclusiones
Con un modelo prototipado y testeado, llega el momento de interpretar los
resultados y obtener un modelo de ciencia de datos validado por todo el equipo,
desde un punto de vista técnico y sustantivo, lo que permitirá avanzar a la fase
siguiente con seguridad.
Desde el punto de vista del análisis, los objetivos entregan un marco interpretativo de los
resultados del modelo, mantienen la solución anclada en los comportamientos humanos
de interés, y contienen los resultados esperados que servirán para la toma de decisiones.
Solo si no se ha realizado aún, este es un excelente momento para revisitar los riesgos
identificados en el análisis de prefactibilidad (Paso 3 de esta Guía), para evaluar si son
apropiadamente abordados en esta iniciativa.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
71
b. Evaluar el resultado
del modelo
Consiste en evaluar, desde un punto de vista estadístico, el funcionamiento del modelo
y de los resultados que entrega. La forma de realizar esto depende del tipo de análisis
que se haya realizado. Dado que esta Guía no busca ser exhaustiva en estos términos
específicos, a continuación se presentan indicaciones generales que buscan orientar la
reflexión del equipo del proyecto.
72
c. Considerar la evidencia externa al
modelo
Este principio busca desafiar el modelo con una mirada amplia que considere lo que ya
se sabe de otros proyectos en el área, así como traer aprendizajes de otras áreas para
enriquecer el análisis. Esta evidencia puede venir del conocimiento del equipo sobre el
tema en cuestión, otros proyectos similares, resultados de análisis afines, o información
sobre la población objetivo que no ha sido incluida al modelo.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
73
Tras el análisis de toda la evidencia, el equipo del proyecto podría decidir que la solución
aún se podría ajustar, ya que no está orientada al logro de los objetivos del proyecto
o que su desempeño es insuficiente. En este caso, se puede volver a recorrer los pasos
de esta fase para hacer los ajustes necesarios que permitan cumplir los objetivos
satisfactoriamente. En caso de que se concluya que no es posible cumplir los objetivos
del proyecto, se podría plantear un nuevo proyecto con objetivos distintos, lo que implica
recorrer nuevamente la Fase 1 de “Investigación del problema”.
En cambio, si el equipo concluye que la solución permite cumplir los objetivos del proyecto,
muestra resultados satisfactorios, y ha sido puesta a prueba exitosamente, se llega al fin de
esta fase de “Diseño de propuestas de solución” y se da inicio a la siguiente fase.
HERRAMIENTA VIII
1. La jefatura del proyecto debe convocar al equipo del 4. En conjunto, se deben responder las preguntas que
proyecto a un taller presencial o remoto. Es indispensable que permiten evaluar al modelo en torno a su parsimonia
en este taller participen quienes fueron parte del desarrollo justicia, sensibilidad y validación.
del modelo de ciencia de datos y quienes han conformado el
equipo del proyecto desde el comienzo. 5. Las respuestas deben ser acordadas por la mayoría de las
personas participantes. En caso de que no exista acuerdo
2. La jefatura del proyecto hará una recapitulación de para responder una pregunta o se entregue una pregunta
los objetivos del proyecto, las fuentes de datos, los tipos no satisfactoria, se deben identificar acciones para
de análisis y las técnicas de análisis empleadas. Luego, resolverla. En ese caso será necesario volver a pasos previos
se registran en los espacios asignados para ello en la de esta fase, siguiendo un trabajo iterativo de ensayo, error
herramienta. y ajuste.
74
OBJETIVO(S) CRITERIOS DE
ACCIONES
EVALUACIÓN PREGUNTA RESPUESTA
Escribir los objetivos levantados en la REPARATORIAS
DEL MODELO
Herramienta VI
TÉCNICA(S) DE ANÁLISIS
Realizar un análisis
Escribir las técnicas de análisis establecidas ¿Los resultados se sostienen si se No se sabe. No se ha realizado diferenciado para los
en el Paso 11 excluyen los valores atípicos? este ejercicio. principales subgrupos de
la población.
SENSIBILIDAD
EVIDENCIA EXTERNA
¿Los resultados se sostienen si se
Sí. El modelo incluye numerosas
¿Qué aprendizaje de otras áreas, modelos introducen otras variables que
variables que permiten predecir -
o soluciones podríamos necesitar en este puedan operar como factores de
con precisión el resultado.
proyecto? confusión?
Se deberá realizar
nuevamente este análisis
¿El modelo fue validado con las
Sí, y mostraron un buen una vez que se lleven
VALIDACIÓN métricas correspondientes a su
desempeño. a cabo las acciones
tipo de análisis (Paso 12)?
comprometidas en esta
herramienta.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
75
76
Fase 3
Desarrollo
del piloto
Productos
Solución de ciencia de datos
comprobada, considerando el
impacto, adopción y funcionamiento
de la solución en un contexto real.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 77
La Fase 3 consiste en poner a prueba la
solución diseñada en condiciones reales
controladas.
IMPLEMENTAR
Paso 15
Implementar el
piloto de la
solución
EVALUAR
Paso 16
Evaluar resultados
del piloto
78
Paso 14
Diseñar
evaluación de
impacto
En esta Guía, el desarrollo del piloto está centrado en evaluar el impacto de la
solución en un contexto real. Esto permitirá conocer con certeza si la solución
permite lograr los objetivos del proyecto. Dado que las decisiones de este paso
requieren conocimiento técnico en estimación de impacto, medición y muestreo, se
sugiere que el analista de datos tome mayores responsabilidades.
a. Estimación de impacto
El primer elemento a considerar es el diseño de la evaluación de impacto. Para
esto se recomienda emplear diseños experimentales, es decir, donde se conformen
aleatoriamente dos grupos, uno que reciba la solución (grupo de tratamiento) y otro que
>> GRUPO DE CONTROL no (grupo de control). Estos diseños facilitan la identificación de la relación causal entre
Grupo conformado aleatoriamente
que no recibe la solución. En una la solución y los resultados de interés, ya que eliminan los posibles factores de confusión
evaluación de impacto funciona
como comparación del grupo de y generan grupos cuya única diferencia estadística es haber recibido la solución. Al
tratamiento que si recibe la
solución. comparar los resultados de ambos grupos, se podrá estimar el impacto de la solución.
Por ejemplo, Dame esos 535 fue un proyecto conjunto entre la Subsecretaría de Educación
Parvularia y el Laboratorio de Gobierno, cuyo objetivo fue favorecer el desarrollo de niñas
y niños en casa durante la pandemia. Para lograrlo, se implementó el envío de mensajes
automatizados vía WhatsApp a personas cuidadoras de niñas y niños de 0 a 3 años,
con contenido que buscaba fomentar cinco principios que los adultos pueden poner en
práctica para mejorar el desarrollo integral de quienes tienen a su cuidado.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
79
Estos diseños, sin embargo, suelen enfrentar múltiples limitaciones para su
implementación. Por ejemplo, desde un punto de vista práctico, podría resultar muy difícil
tener dos formas de asignación de beneficios funcionando paralelamente, una basada
en un modelo de ciencia de datos y otra más tradicional, ya que no se puede detener la
entrega del servicio. Desde un punto de vista ético, tampoco sería aceptable entregar
una solución de manera diferenciada (o excluir a un grupo de ella) con el único propósito
de estimar su impacto, sobre todo cuando se cuenta con sólida evidencia previa de que
será una intervención beneficiosa. En estas ocasiones, se puede optar por hacer uso de
diseños cuasi experimentales para estimar el impacto. Los más conocidos son:
80
b. Medición
Un segundo elemento a considerar en el desarrollo del piloto es la medición. Esto
incluye los indicadores clave y de funcionamiento de la solución. Los primeros permiten
evaluar el impacto de la solución y los segundos permiten conocer si las personas usuarias
usaron la solución y si se implementó tal como fue diseñada.
En ambos casos, es necesario velar por obtener mediciones válidas y confiables. Desde
un punto de vista metodológico, esto significa que las mediciones midan aquello que se
proponen medir, y que sus resultados no varíen entre aplicaciones (o lo hagan lo menos
posible). Si se trata de una encuesta, una buena práctica consiste en emplear preguntas
que se hayan aplicado previamente en contextos similares o usar datos levantados por
un tercero, lo que reduce los riesgos de introducir sesgos o errores. Si se trata de sensores,
deben estar bien ubicados, calibrados, resguardados del ruido de medición, mantenidos
regularmente, etc.
c. Muestra
Finalmente, se debe definir el tamaño muestral. En una evaluación de impacto, es
clave que ésta permita detectar el efecto que se espera de la solución, lo que se conoce
como el efecto mínimo detectable. No basta con estimar el resultado final con precisión
en el grupo de tratamiento, sino que también se pueda comparar con el resultado del
grupo de control. La diferencia entre estos grupos es lo que se busca estimar. A mayor
diferencia entre los grupos, es necesario un menor tamaño muestral, pero si se espera
que el efecto sea pequeño, se necesitará una muestra más grande. Este cálculo implica
contar con los siguientes elementos:
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
81
Para identificar qué medir, cómo medir, cuáles son los resultados de hoy (si es que los
hay), y cuál es el resultado esperado, se puede emplear la herramienta de Diseño de
Evaluación (Herramienta IX).
HERRAMIENTA IX
Diseño de Evaluación
Para utilizar esta herramienta sugerimos seguir los siguientes pasos:
1. La jefatura debe convocar al equipo del proyecto a una 5. El equipo debe acordar y registrar cuál es el resultado
sesión de trabajo. esperado del piloto en la cuarta columna, cuál es el efecto
mínimo detectable. Para esto se debe basar en los objetivos
2. Redactar en la primera columna los objetivos que fueron del proyecto.
formulados en la herramienta VI.
6. Definir cómo se va a capturar la evidencia para calcular
3. Registrar los indicadores de interés en la segunda los indicadores descritos previamente.
columna, alineados con cada objetivo.
% de personas cuidadoras Indicadores del grupo de A partir de un aumento Encuesta vía WhatsApp.
que implementan las control. del 10% en el uso de las
herramientas dispuestas. herramientas entregadas.
82
Paso 15
Implementar
el piloto de la
solución
La implementación del piloto involucra una gran variedad de aspectos operativos.
Aquí los hemos agrupado en recursos, responsables, lugares de aplicación y
comunicaciones. Vale mencionar que se han dejado fuera otros aspectos que podrían
ser necesarios, con el objetivo de mantener esta Guía centrada en los más relevantes
para un proyecto de ciencia de datos.
a. Recursos
Los recursos necesarios para implementar una solución de ciencia de datos pueden ser de
dos tipos, principalmente.
• Por un lado, son necesarios recursos tecnológicos físicos en el caso que fuera
necesario disponibilizar dispositivos para que las personas usuarias puedan acceder
a la solución en oficinas de atención, o para que sea operada por funcionarias y
funcionarios en oficinas o fuera de ellas.
• Por otro lado, es necesario identificar si son necesarios recursos financieros
para acceder a almacenamiento en línea o escalar la capacidad de cómputo en
máquinas virtuales.
b. Responsables
Junto con los recursos, se deben designar a los responsables de mantener el modelo y
de ejecutar las actividades clave. La mantención es una actividad crítica, y la persona
responsable debe contar con alta disponibilidad para solucionar rápidamente los problemas
que puedan surgir durante el piloto, tales como intermitencias en su funcionamiento,
entrega de información confusa, clasificaciones/predicciones erróneas, etc.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
83
c. Lugar de aplicación
El lugar de aplicación es un elemento opcional que puede ser necesario considerar si
la solución que se ofrece está asociada a un espacio físico, como es es el caso de
recintos de salud, establecimientos educacionales, oficinas de atención a la ciudadanía,
entre otros. En estos casos, una acción necesaria es conseguir la autorización y el
respaldo de las autoridades locales o jefes de sucursales para la ejecución del piloto en
su territorio. La selección de esos lugares viene dada por la muestra definida en el paso
anterior, aunque es importante mantener una escala reducida durante el piloto (pocas
sucursales) para que sea fácilmente administrable. Ahora bien, si la solución se ofrece
únicamente de manera online y no está asociada a un territorio particular, como en el
caso de Dame esos 5, no es necesario considerar este elemento y la muestra para la
realización del piloto puede ser mucho más extendida.
d. Comunicación
Una vez que se tiene claridad de los aspectos operativos anteriores, es necesario
definir cómo comunicar la existencia y funcionamiento de la solución. Siguiendo
las recomendaciones de la Guía de Lenguaje Claro: ¿Cómo podemos generar una
comunicación simple, clara y efectiva entre el Estado y la ciudadanía?37, el proceso de
co-creación y testeo de productos comunicacionales debe considerar su contenido,
estructura y visualización. Para los proyectos de innovación en ciencia de datos, que
pueden considerar la existencia de modelos complejos, también es necesario considerar
la elaboración de manuales o instructivos para el uso de la solución. La gestión de estos
aspectos debe estar a cargo de la jefatura del proyecto.
HERRAMIENTA X
1. La jefatura debe convocar a una mesa de trabajo al equipo 3. Marcar las casillas “Sí” o “No” para responder a cada
del proyecto junto con las personas responsables de los pasos pregunta de la segunda columna. En caso de responder
“Diseñar evaluación de impacto” e “Implementar el piloto”. una pregunta con un No, completar la columna de tareas
faltantes.
2. Exponer los pasos “Diseñar evaluación de impacto” e
“Implementar el piloto” al equipo del proyecto para que lo
validen. PRODUCTO DE LA HERRAMIENTA
Se identifican cuál son las tareas faltantes para desplegar el
piloto de la solución.
84
DIMENSIÓN PREGUNTA SÍ NO TAREAS FALTANTES
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
85
Paso 16
Evaluar resultados
del piloto
El fin de la fase de piloto ocurre cuando hay una solución comprobada en términos
de impacto y adopción. Es crucial que todo el equipo de trabajo acuerde que la solución
cumple con los objetivos propuestos, ya que ese es el principal indicador de logro del
proyecto. De lograrlo, se deben diseñar mecanismos de difusión de la solución exitosa. Por
otro lado, resultados adversos pueden implicar ajustes para intentarlo de nuevo.
a. Impacto
Al referirnos al impacto de la solución, lo primero que se debe hacer es
cuantificarlo. Si se empleó un diseño experimental, el impacto se obtiene con una
simple diferencia de medias de la variable de interés entre los grupos de tratamiento y
control. Una formulación típica de impacto es “Para las personas usuarias en el grupo
de tratamiento, en promedio, el uso de la solución se asocia a un aumento de 8% en la
variable X, una reducción de 300 unidades en la variable Y, además de un aumento de
23% en la probabilidad de Z, en comparación al grupo de control”. La suficiencia de estos
resultados se pone en perspectiva comparándolos con los objetivos del proyecto.
86
b. Adopción
En cuanto a la adopción de la solución, se sugiere prestar atención a tres elementos.
Si el equipo acuerda que los resultados del piloto son suficientes para la inversión,
pueden ser escalables y no existen mayores inconvenientes en el uso de la solución,
entonces se considerará una solución comprobada que puede avanzar hacia la fase de
implementación.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
87
HERRAMIENTA XI
1. La jefatura debe convocar al equipo del proyecto, incluyendo 3. Responder las preguntas del criterio de Adopción para
al área de comunicaciones. articular la estrategia comunicacional que permita difundir,
interna y externamente, la existencia de la solución y los
2. Responder las preguntas del criterio de Impacto para resultados que ofrece.
analizar los resultados del piloto, y evaluar si se alcanzaron los
objetivos del proyecto definidos en la Herramienta VI.
PRODUCTO DE LA HERRAMIENTA
Resumen del diseño de la evaluación.
EJEMPLO:
CRITERIO PREGUNTAS VALIDADORAS
Reducción de inasistencia a citas médicas.
De acuerdo a la validez externa del piloto, ¿es Sí, ya que las y los pacientes agendados podrían
esperable que los resultados se mantengan o asistir. No hay competencia por un mismo servicio
mejoren al implementar la solución? en este punto.
88
Taller de testeo de las
herramientas de la Guía con
personas expertas y mienbros de
la Red de Innovadores Públicos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
89
90
Fase 4
Implemen-
tación de
la solución
Productos
Solución de ciencia de datos
implementada, considerando su
monitoreo y robustecimiento.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 91
Ahora corresponde pasar a una fase de
despliegue de la solución en la que se
implementará en el mundo real.
Paso 18
Monitorear el
desempeño
Paso 19
Robustecer el
modelo
92
Paso 17
Planificar el
despliegue
El primer paso para la implementación de la solución a gran escala consiste en su
planificación, la que hemos dividido en la determinación de una gobernanza con sus
responsabilidades, la gestión presupuestaria y por último, la estrategia para lidiar con
la resistencia al cambio.
Gobernanza
Por último, para que una gobernanza esté completa y sea eficaz en el logro de
sus propósitos debe poseer las facultades para resolver conflictos, imprevistos y
eventualmente poder arbitrar controversias. Asimismo, es clave que realice una nueva
revisión de los aspectos jurídicos vinculados a la solución a implementar.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
93
Gestión
presupuestaria
Enfoque en
las personas
94
Para las personas usuarias afectadas se debe diseñar una estrategia comunicacional
para entregar la información pertinente y oportunamente a la población. En primer lugar,
se debe garantizar la protección de datos para dar seguridad a las personas de que su
información personal y sensible está siendo resguardada y que sus datos están siendo
utilizados de manera responsable. En segundo lugar, explicar el funcionamiento de la
herramienta y sus implicancias en la ciudadanía. En la etapa de comunicación se debe
evaluar cómo presentar los resultados más relevantes del proyecto, desde la forma en
que se tomaron las decisiones, hasta los resultados encontrados.
Cada tipo de opacidad requiere de una estrategia distinta y hay que considerar que
un grupo de individuos puede no adaptarse a la solución pese a la capacitación,
para lo cual deben prepararse vías de salida para estos.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
95
Paso 18
Monitorear el
desempeño
El monitoreo de la iniciativa parte por ser una responsabilidad clave de sus propietarios
para implementar un marco sólido que detecte a tiempo los errores en el funcionamiento
del modelo y, simultáneamente, vigile la entrega de un servicio responsable y justo para
las personas usuarias.
El propósito de esta etapa es ver cómo funciona la solución en un escenario real, detectar
errores y posibles sesgos que no fueron visibles en la etapa de entrenamiento y durante el
desarrollo del piloto.
96
Los modelos de ciencia de datos pueden degradarse y perder vigencia con el paso del
tiempo. Esto ocurre por distintas razones como que el modelo supone que existe una
relación estática entre los datos, pero en realidad estos interactúan y las relaciones
cambian con el tiempo. También se puede producir un cambio en la calidad de los
datos de entrada debido a que la manera en la que son recopilados cambia, sea un
cambio en preguntas, sensores, automatización de algún proceso o modificación del
preprocesamiento. Esto podría resultar en que las variables que se tomen en cuenta para
generar un resultado ya no aporten la misma información y pierdan o ganen relevancia
de una manera que no se había considerado.
Estos cambios pueden afectar la forma en la que el modelo de ciencia de datos toma
decisiones, lo que se puede traducir en que sus resultados sean menos precisos o
comiencen a presentar resultados erróneos con el tiempo. El monitoreo es la herramienta
que permite detectar estos errores de degradación del modelo.
Se debe tener siempre presente cuáles son los supuestos del modelo y actualizarlos
en caso de ser necesario. Además, es necesario observar y controlar en el tiempo las
métricas utilizadas en la fase de validación del modelo, como la tasa de verdaderos
positivos y negativos, la tasa de falsos positivos y negativos, la precisión, la sensibilidad, la
especificidad, la exactitud, la curva ROC y AUC, el MSE y el R2. Hay que recordar que las
métricas que se escojan para monitorear el modelo dependerán del algoritmo utilizado,
de la naturaleza del problema y de las prioridades que se hayan definido en los objetivos
del proyecto.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
97
HERRAMIENTA XII
Ficha de Implementación
Para utilizar esta herramienta sugerimos seguir los siguientes pasos:
1. La jefatura debe convocar al equipo del proyecto para 3. Registrar las medidas reparatorias y su responsable en la
responder colaborativamente a las preguntas de la cuarta columna cada vez que no se pueda dar una respuesta
herramienta. satisfactoria a la pregunta planteada.
MEDIDAS
DIMENSIÓN PREGUNTAS VERIFICADORAS RESPUESTA REPARATORIAS Y
RESPONSABLES
MEDIDA
¿Quién está a cargo de realizar el Quien haya cumplido el rol de jefatura de
monitoreo de la solución? proyecto deberá monitorear la solución.
RESPONSABLE
GOBERNANZA E
INDICADORES
Los respectivos indicadores se recolectan con
MEDIDA
¿Con qué herramienta se recolectan las mismas herramientas que se desplegaron
dichos indicadores? durante el piloto, en lugares representativos de
RESPONSABLE
la población objetivo.
98
MEDIDAS
DIMENSIÓN PREGUNTAS VERIFICADORAS RESPUESTA REPARATORIAS Y
RESPONSABLES
MEDIDA
Planificar la aprobación
anual del presupuesto
para la sostenibilidad
Por un lado, se necesita un presupuesto anual de la iniciativa año a
¿Qué recursos financieros, humanos de 20.000.000 CLP. año. Considerar otras
y/o tecnológicos se necesitan Por otro lado, se necesita mantener en figuras jurídicas para la
para que la iniciativa continúe funcionamiento el servicio de nube contratado estabilidad financiera del
funcionando? por la organización para el funcionamiento del proyecto en el futuro.
modelo
SOSTENIBILIDAD
DE LA INICIATIVA RESPONSABLE
Unidad de Análisis
Jurídico Financiero.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
99
Paso 19
Robustecer
el modelo
En el desarrollo del proyecto podrían quedar objetivos pendientes, que hayan sido
definidos inicialmente como relevantes, pero que quedaron relegados a un segundo
plano puesto que dejan de alinearse con las prioridades que se tienen o no eran factibles
en el momento. Es natural que los objetivos cambien o se reformulen en el transcurso
del proyecto, para acoplar perspectivas o problemas no previstos y entregar una mejor
solución al problema que se está enfrentando.
Por otro lado, al recibir comentarios de parte de las funcionarias y funcionarios y de las
personas usuarias sobre el funcionamiento de la solución pueden surgir nuevos objetivos
para el proyecto. Estos pueden estar ligados a la interacción con las persona usuarias,
la forma en cómo se presenta la herramienta o la forma en la que el modelo de ciencia
de datos está diseñado y entrenado. Dependiendo de los objetivos asociados, podría ser
necesario volver a hacer o reiterar etapas del proyecto, para mejorar la herramienta de
acuerdo a la experiencia y expectativas de las personas usuarias.
Una de las vías para recibir estos comentarios sería realizar reuniones periódicas con las
personas implicadas para escuchar problemas y sugerencias y generar soluciones viables.
Los desafíos de implementación que se superen y las mejoras que se implementen en el
camino deberían ser incorporadas al manual de personas usuarias, para mantener una
comunicación clara sobre la evolución de la solución.
100
¿Cómo
elaboramos
esta Guía de
ciencia de
datos?
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO? 101
La elaboración de la Guía Permitido Innovar: ¿Cómo podemos desarrollar proyectos
de ciencia de datos para innovar en el sector público? comenzó con una instancia de
co-creación para definir los contenidos que la compondrían. El equipo del Laboratorio
de Gobierno y el GobLab UAI, se reunieron para proponer y sistematizar experiencias de
diversos proyectos realizados junto a con otras instituciones públicas, generando una
primera propuesta de metodología para el desarrollo de un proyecto de ciencia
de datos en el sector público. Este insumo sirvió para poner a prueba el contenido,
su estructura y visualización en tres oportunidades distintas y fundamentales para la
elaboración de esta Guía, cada una con objetivos específicos.
Con estos ajustes incorporados, pusimos nuevamente a prueba los contenidos, esta vez
con un grupo de expertas y expertos en el desarrollo de proyectos de ciencia de datos,
quiénes nos propusieron, entre otras cosas, profundizar en ciertos conceptos críticos para
la coherencia del documento y dar mayor énfasis a algunos pasos de la metodología.
Por último, realizamos talleres con miembros de la Red de Innovadores Públicos en los
que evaluamos la capacidad de esta Guía para sintetizar y visualizar su contenido en
distintas herramientas que sea útiles para un proyecto de estas características. En estas
instancias pudimos determinar cuán efectivas resultaban las indicaciones para el uso y
aplicación de dichas herramientas, identificando cuáles facilitaban el proceso y desarrollo
del proyecto y qué teníamos que mejorar en aquellas que fueron más difíciles de utilizar.
102
Agradecemos a las más de 40 personas
que formaron parte de este proceso,
a miembros de la Red de Innovadores
Públicos, a funcionarias y funcionarios
de instituciones públicas e investigadores
de la academia que retroalimentaron
valiosamente esta Guía desde su
experiencia y visión experta. Algunas de
las personas que colaboraron son:
» Adriana Herrera del Instituto Nacional de » Jorge Avendaño del Ministerio de Educación
Estadísticas » Juan Pablo Gajardo del Ministerio de Bienes
» Alejandra Neira de de la Municipalidad de Nacionales
Providencia » Klaus Lehmann del Instituto Nacional de
» Alejandra Soto del Fondo Nacional de Salud Estadísticas
» Alfredo Muñoz del Servicio Nacional de Mejor Niñez » Laura Salazar del Servicio Nacional de Turismo
» Armando García de la Superintendencia de » Marcela Garzón del Fondo de Solidaridad de
Pensiones Inversión Social
» Braulio Neira de la División de Gobierno Digital » María José González de la Corporación de Fomento
» Carla González de la Superintendencia de de la Producción
Educación » Michael Cortés de la Tesorería General de la
» Claudio Reyes de División de Gobierno Digital República
» Eliana Scheihing de la Universidad Austral » Miguel Carrasco de la Universidad Adolfo Ibáñez
» Enrique Simpson del Fondo Nacional de Salud » Nicolás Soto del Ministerio de Salud
» Felipe Welch del Instituto Nacional de Propiedad » Ninoska Kroff de la División de Gobierno Digital
Industrial » Octavio Espinoza del Servicio Nacional del
» Felipe Yavar del Ministerio de Vivienda y Urbanismo Patrimonio Cultural
» Francisca Vidal de la Secretaría de Modernización » Pablo Aguirre de Universidad Adolfo Ibáñez y
del Ministerio de Hacienda Superintendencia de Medio Ambiente
» Hugo Gutiérrez de la Corporación de Asistencia » Reinel Tabares de la Universidad Adolfo Ibáñez
Judicial » Rodolfo Bravo del Servicio de Impuestos Internos
» Javier Carrasco de la Municipalidad de Vitacura » Sebastián Moreno de la Universidad Adolfo Ibáñez
» Jennifer Álvarez de la Tesorería General de la » Sergio Brito de la Central de Abastecimiento del
República Sistema Nacional de Servicios de Salud
» Jessica Carvajal del Fondo de Solidaridad de
Inversión Social
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
103
Referencias
104
» Burrell, J. (2016). How the machine ‘thinks’: Understanding opacity in
machine learning algorithms. Big data & society, 3(1), 2053951715622512.
» Chen, J. C., Rubin, E. A., & Cornwall, G. J. (2021). Data Science for Public
Policy. Springer International Publishing.
» Data Futures Partnership (2017). A Path to Social License: Guidelines for
Trusted Data Use.
» Davenport, T. & Prusak, L.,(1998). Working knowledge: how organizations
manage what they know.
» Departamento Administrativo Nacional de Estadística de Colombia (2018). Guía
para la anonimización de bases de datos en el Sistema Estadístico Nacional.
» Doran, G. T. (1981). There’s a SMART way to write management’s goals and
objectives. Management review, 70(11), 35-36.
» Dykes, B. (2019). Effective data storytelling: how to drive change with
data, narrative and visuals. John Wiley & Sons.
» Friedman, B., & Nissenbaum, H. (1996). Bias in computer systems. ACM
Transactions on Information Systems (TOIS), 14(3), 330-347.
» Gertler, P. J., Martínez, S., Premand, P., & Rawlings, L. B. (2017). La
evaluación de impacto en la práctica. World Bank Publications.
» Igual & Seguí (2017). Introduction to Data Science. A Python Approach to
Concepts, Techniques and Applications
» INE (2021). Guía para el control de divulgación estadística en microdatos.
» INE (2022). Glosario de conceptos estadísticos.
» Laboratorio de Gobierno (2021). Otro Ángulo: Perspectivas de innovación
pública.
» Laboratorio de Gobierno (2022). Glosario de conceptos para responder el
Índice de Innovación Pública. Levantamiento 2022.
» Leek, J. T., & Peng, R. D. (2015). What is the question?. Science,
347(6228), 1314-1315.
» Peng, R. D., & Matsui, E. (2015). The art of data science. A Guide for
Anyone Who Works with Data. Skybrude Consulting, LLC.
» Peshawa J. Muhammad Ali, Rezhna H. Faraj (2014). Data Normalization and
Standardization: A Technical Report. Machine Learning Technical Reports,
1(1), pp 1-6.
» Provost, F., & Fawcett, T. (2013). Data science and its relationship to big
data and data-driven decision making. Big data, 1(1), 51-59.
» Shmueli, G. (2010). To explain or to predict?. Statistical science, 25(3),
289-310.
» Sweeney, L. (2000). Simple demographics often identify people uniquely.
Health (San Francisco), 671(2000), 1-34.
» Ulloa, W. L. O., Masacon, N. H. H., & Rodríguez, A. F. C. (2019). La
estructura organizacional en función del comportamiento del capital humano
en las organizaciones. RECIMUNDO, 3(4), 114-137.
» Unión Europea (2010). Handbook on Statistical Disclosure Control.
» Van Der Aalst, W. (2016). Process mining: data science in action (Vol. 2).
Heidelberg: Springer.
» Verma, S., & Rubin, J. (2018, May). Fairness definitions explained. In 2018
ieee/acm international workshop on software fairness (fairware) (pp. 1-7).
IEEE.
¿CÓMO PODEMOS DESARROLLAR PROYECTOS DE CIENCIA DE DATOS PARA INNOVAR EN EL SECTOR PÚBLICO?
105
Equipo
Laboratorio de Gobierno
106
Recuerda que con las Guías Permitido Innovar del
Laboratorio de Gobierno, podrás contribuir a transformar el
Estado chileno a tráves de:
1. Proyectos de Innovación Pública
2. Concursos de Innovación Abierta
3. Facilitación de espacios de Innovación
4. Lenguaje claro
¡Descárgalas!
lab.gob.cl/permitido-innovar
En colaboración con: