Data Science
Data Science
Y
DATATHON INTERBANK
1. Formación
La formación de un DATA SCIENTIST o Científico de Datos hoy en día es más sencilla
que en los últimos 10 años. Ya que es una profesión que se ha puesto de moda y seguirá
vigente hasta los próximos 25 años.
Cualquier estudiante de Pregrado o profesional de Postgrado tiene la posibilidad de ser
un Científico de Datpos, ya que esta profesión no se límita solo a carreras con habilidades
informáticas, estadísticas y comerciales, por el contrario; muchos de los mejores Científicos
de Datos son provenientes de carreras como Física , Medicina, Psicología y muchas otras.
Una buena manera de aprender Data Science, es mediante la especialización en la pla-
taforma de MOOC (cursos online) como Coursera, Udemy, Platzi, Youtube desde donde se
ofrecen los cursos que componen esta especialización de manera gratuita.
1
1.1. Perfil
El perfil del Data Scientist, es en cierto modo, como una poción mágica, requiere co-
mo ingredientes principales habilidades avanzadas en informática, matemáticas/estadística,
aprendizaje automático, pasión por los datos, saber manejar grandes volúmenes de datos,
curiosidad, capacidad de comunicar el conocimiento que hemos extraído de los datos, visión
de negocio, etc.
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean
se pueden resumir en estos 5 pasos:
Extraer los datos, independientemente de su fuente (webs, csv, logs, apios, etc.) y de
su volumen (Big Data o Small Data).
Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, mo-
delos de regresión, pruebas de hipótesis, etc.).
Figura 2: Contenido del Programa Formativo en Data Science dictado en la UNMSM el año
2018 en la Facultad de Ciencias Matemáticas
2
1.2. Lo que se espera del Data Scientist
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de
explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes
necesarias para cubrir la etapa de gestión de datos.
Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis
de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos
requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las
tres V’s de la definición estándar del término Big Data), se ha vuelto imprescindible llevar
a cabo esta explotación a través de un perfil combinado, y que además, también entienda
el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la
compañía.
2. Oportunidades
Las mayores oportunidades en esta área las encontramos en los bancos, pero también hay
entidades privadas como empresas encargadas de publicidad que usan a científicos de datos
para hacer agrupaciones de sus mejores clientes y venderles mejores ofertas.
3
Los sueldos, como en general en el mundo del desarrollo de software, cambian mucho
dependiendo de el lugar, las funciones y el empleador. No obstante, ahora mismo es una
expertise bien pagada.
No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. Mientras el
salario medio en Estados Unidos está entre 103.000 y 131.000 dólares, en Europa Occidental
está entre 54.000 y 82.000 dólares.
Lo que diferencia a la ciencia de datos del resto del mundo del desarrollo tal vez sea la
escasez de profesionales.
Este fenómeno hace que los sueldos estén relativamente inflados y que, conforme vayan
apareciendo más perfiles dateros, se vayan ajustando.
Por eso, se puede decir que es el momento para subirse a la ola de la ciencia de los datos.
Dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro
lugar.
4
3. Mitos y Errores
3.1. Actualmente la información se consigue de inmediato y solo
debemos aplicar Machine Learning
No siempre se tiene la información inmediatamente disponible en una base de datos (u
hoja de cálculo) y su obtención es parte del proceso.
Hay muchas técnicas y métodos diferentes que pueden aplicarse en esta fase. Algunos de
ellos son:
Reducción de la dimensionalidad.
Discreción de variables.
Normalización.
Cuantificación.
Saneamiento.
El preprocesado es una fase crítica, ya que condiciona al resto del proceso y puede causar
la diferencia entre el éxito y el fracaso del modelo. Por ello, esta fase y las que le proceden son
tan dependientes entre sí que lo habitual es iterar sobre ellas hasta encontrar la combinación
que mejor se ajuste.
5
Los árboles de decisión.
algoritmos de clusterización.
6
Cálculo de rutas óptimas de unos camiones de reparto.
Para proyectos de small data, con utilizar un excel o una base de datos pequeña en un
ordenador portátil es suficiente. Además, es muy fácil de manejar, porque toda la informa-
ción cabe en la memoria RAM del ordenador y se puede “ver” toda a la vez.
El medium data trabaja con cantidades más grandes de datos, donde un excel no sería
suficiente para albergarlos a todos y, aunque sí podríamos almacenarlos en una base de datos
de un ordenador, habría que utilizar ciertas técnicas para procesar y analizar la información
sin pedirla toda de golpe, ya que sería demasiado grande para cargarlo en memoria.
Los proyectos de big data son los que necesitan incluso varios ordenadores compartiendo
información para que el procesamiento y el almacenamiento sea posible. Esto supone utilizar
técnicas de sincronización y cooperación entre máquinas.
7
4. Datathon
4.3. ¿Cuándo
El evento para los equipos clasificados será desde las 6 p.m. del viernes 7 de junio hasta
la 1 p.m. del sábado 8.
4.4. ¿Dónde?
En la Torre Interbank. Carlos Villarán 140, La Victoria
4.5. Premio
10 mil soles.