0% encontró este documento útil (0 votos)
87 vistas8 páginas

Data Science

Este documento describe la formación, perfil y oportunidades de un científico de datos. Explica que la formación en ciencia de datos es más accesible ahora a través de cursos en línea. Un científico de datos necesita habilidades en computación, matemáticas, aprendizaje automático y comunicación. Las mejores oportunidades están en bancos y empresas de publicidad, y los salarios son altos, especialmente en Estados Unidos.

Cargado por

Jeremy Holguin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
87 vistas8 páginas

Data Science

Este documento describe la formación, perfil y oportunidades de un científico de datos. Explica que la formación en ciencia de datos es más accesible ahora a través de cursos en línea. Un científico de datos necesita habilidades en computación, matemáticas, aprendizaje automático y comunicación. Las mejores oportunidades están en bancos y empresas de publicidad, y los salarios son altos, especialmente en Estados Unidos.

Cargado por

Jeremy Holguin
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 8

DATA SCIENCE

Y
DATATHON INTERBANK

1. Formación
La formación de un DATA SCIENTIST o Científico de Datos hoy en día es más sencilla
que en los últimos 10 años. Ya que es una profesión que se ha puesto de moda y seguirá
vigente hasta los próximos 25 años.
Cualquier estudiante de Pregrado o profesional de Postgrado tiene la posibilidad de ser
un Científico de Datpos, ya que esta profesión no se límita solo a carreras con habilidades
informáticas, estadísticas y comerciales, por el contrario; muchos de los mejores Científicos
de Datos son provenientes de carreras como Física , Medicina, Psicología y muchas otras.
Una buena manera de aprender Data Science, es mediante la especialización en la pla-
taforma de MOOC (cursos online) como Coursera, Udemy, Platzi, Youtube desde donde se
ofrecen los cursos que componen esta especialización de manera gratuita.

Figura 1: Perfil de un Científico de Datos

1
1.1. Perfil
El perfil del Data Scientist, es en cierto modo, como una poción mágica, requiere co-
mo ingredientes principales habilidades avanzadas en informática, matemáticas/estadística,
aprendizaje automático, pasión por los datos, saber manejar grandes volúmenes de datos,
curiosidad, capacidad de comunicar el conocimiento que hemos extraído de los datos, visión
de negocio, etc.
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean
se pueden resumir en estos 5 pasos:

Extraer los datos, independientemente de su fuente (webs, csv, logs, apios, etc.) y de
su volumen (Big Data o Small Data).

Limpiar los datos, para eliminar lo que distorsiona las mismas.

Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, mo-
delos de regresión, pruebas de hipótesis, etc.).

Diseñar nuevos tests o experimentos en caso necesario.

Visualizar y presentar gráficamente los datos.

Figura 2: Contenido del Programa Formativo en Data Science dictado en la UNMSM el año
2018 en la Facultad de Ciencias Matemáticas

2
1.2. Lo que se espera del Data Scientist
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de
explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes
necesarias para cubrir la etapa de gestión de datos.

Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis
de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos
requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las
tres V’s de la definición estándar del término Big Data), se ha vuelto imprescindible llevar
a cabo esta explotación a través de un perfil combinado, y que además, también entienda
el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la
compañía.

2. Oportunidades
Las mayores oportunidades en esta área las encontramos en los bancos, pero también hay
entidades privadas como empresas encargadas de publicidad que usan a científicos de datos
para hacer agrupaciones de sus mejores clientes y venderles mejores ofertas.

Figura 3: Opotunidades para laborar como Data Scientist en bancos.

3
Los sueldos, como en general en el mundo del desarrollo de software, cambian mucho
dependiendo de el lugar, las funciones y el empleador. No obstante, ahora mismo es una
expertise bien pagada.

A nivel general y según la encuesta anual de KdNuggets los sueldos/ingresos están en


una media de 141.000 dólares para freelance, 107.000 para asalariados, 90.000 para traba-
jadores gubernamentales o en el sector sin ánimo de lucro; 70.000 dólares para trabajo en
universidades.

No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. Mientras el
salario medio en Estados Unidos está entre 103.000 y 131.000 dólares, en Europa Occidental
está entre 54.000 y 82.000 dólares.

Lo que diferencia a la ciencia de datos del resto del mundo del desarrollo tal vez sea la
escasez de profesionales.

Este fenómeno hace que los sueldos estén relativamente inflados y que, conforme vayan
apareciendo más perfiles dateros, se vayan ajustando.

Por eso, se puede decir que es el momento para subirse a la ola de la ciencia de los datos.
Dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro
lugar.

Figura 4: Data Science la carrera del futuro

4
3. Mitos y Errores
3.1. Actualmente la información se consigue de inmediato y solo
debemos aplicar Machine Learning
No siempre se tiene la información inmediatamente disponible en una base de datos (u
hoja de cálculo) y su obtención es parte del proceso.

La recogida de la información puede realizarse mediante colocación de sensores, scrapeo


de la web, peticiones a APIs, formularios. . . o de cualquier forma que la creatividad nos
permita.

3.2. No siempre se realiza el Preprocesado de la Información


Una vez se tiene la información que se considera necesaria para resolver nuestro modelo,
se le debe aplicar un preprocesado. Es decir, sin perder información de valor, dar vueltas a
la información que ya tenemos para prepararla para la siguiente fase.

El objetivo es representar la información en un formato que consiga reducir el coste de


cómputo y optimizar los resultados de los algoritmos.

Hay muchas técnicas y métodos diferentes que pueden aplicarse en esta fase. Algunos de
ellos son:

Reducción de la dimensionalidad.
Discreción de variables.
Normalización.
Cuantificación.
Saneamiento.

El preprocesado es una fase crítica, ya que condiciona al resto del proceso y puede causar
la diferencia entre el éxito y el fracaso del modelo. Por ello, esta fase y las que le proceden son
tan dependientes entre sí que lo habitual es iterar sobre ellas hasta encontrar la combinación
que mejor se ajuste.

3.3. El término ENTRENAMIENTO y MACHINE LEARNING


son lo mismo
Entrenar el modelo significa alimentar algoritmos de machine learning con nuestros da-
tos. Los algoritmos de machine learning (o aprendizaje automático) son capaces de predecir
y clasificar información nueva, a raíz de haber sido entrenados con información pasada.

Igual te suenan algunos ejemplos de algoritmos de machine learning. Por ejemplo:

5
Los árboles de decisión.

Las redes neuronales.

algoritmos de clusterización.

Los algoritmos de machine learning se pueden clasificar como de aprendizaje supervisado


o como de aprendizaje no supervisado. La diferencia es que los de aprendizaje supervisado
aprenden a hallar respuestas basándose en casos pasados con sus respuestas ya conocidas,
mientras que los de aprendizaje no supervisado tratan de aprender sin tener las respuestas.

3.4. ¿Cuál es el mejor algoritmo de Machine Learning?


Por lo general, no existe un algoritmo mejor que otro, algunos rinden mejor en unos
casos y otros, en otros casos. Y la manera de hallar la mejor solución es probándolos uno
a uno, con diferentes configuraciones, hasta encontrar el mejor para nuestro caso. Se sigue
una metodología experimental prueba-error porque, a priori, es muy difícil adivinar qué tipo
de algoritmo y configuración va a tener mejores resultados. Solo los mejores profesionales en
machine learning pueden tener una vaga idea de qué tipo de algoritmos pueden funcionar
mejor con un set de datos determinado. Pero aún así tendrían que probar varias opciones y
testearlas.
Existen diferentes técnicas para validar los resultados de un algoritmo de machine lear-
ning, es decir, para medir la bondad del clasificador. Para los de aprendizaje supervisado,
entre otras técnicas, se reserva una parte de los datos para realizar el entrenamiento y el
resto se utiliza para validar o testear el modelo. Para los de aprendizaje no supervisado es
más complicado, pero también existen métodos que dan una estimación de la bondad del
algoritmo.
A veces incluso lo que más conviene es elegir aplicar varios algoritmos a la vez y dar por
buena la respuesta más votada entre los algoritmos elegidos.

3.5. ¿La minería de datos es inteligencia artificial?


Bueno, la minería de datos puede utilizar inteligencia artificial en sus fases de aprendizaje,
ya que algunos de los algoritmos de machine learning sí que forman parte de la inteligencia
artificial. Pero la inteligencia artificial es más que eso.

La inteligencia artificial busca simular y reproducir el razonamiento lógico tal y como


lo hacemos los humanos. No solo para encontrar patrones, clasificar y predecir eventos en
base a una información, sino también para generar datos en concordancia y lógica a una
experiencia pasada. Algunos ejemplos de aplicación son:

Generación de títulos óptimos para llamar la atención de una audiencia específica.

Creación de un asistente virtual inteligente de atención al cliente.

Generación de logos (o ideas de logos) de forma automática.

6
Cálculo de rutas óptimas de unos camiones de reparto.

Atención al cliente automático basado en reconocimiento de voz.

Sistemas de recomendación (de películas, de canciones, de hoteles. . . ).

Desarrollo de jugadores de juegos de mesa virtuales.

Extracción automática de las ideas más importantes de un texto.

3.6. ¿Big Data es un algoritmo de Machine Learning?


Big data es la disciplina que trabaja con grandes cantidades de datos. Es decir, el big
data está presente en los proyectos potentes de data science. Y sí, al igual que se tiene big
data, también se tiene small data y medium data, aunque al no sonar tan potente, no se
utilizan tanto.

Para proyectos de small data, con utilizar un excel o una base de datos pequeña en un
ordenador portátil es suficiente. Además, es muy fácil de manejar, porque toda la informa-
ción cabe en la memoria RAM del ordenador y se puede “ver” toda a la vez.

El medium data trabaja con cantidades más grandes de datos, donde un excel no sería
suficiente para albergarlos a todos y, aunque sí podríamos almacenarlos en una base de datos
de un ordenador, habría que utilizar ciertas técnicas para procesar y analizar la información
sin pedirla toda de golpe, ya que sería demasiado grande para cargarlo en memoria.

Los proyectos de big data son los que necesitan incluso varios ordenadores compartiendo
información para que el procesamiento y el almacenamiento sea posible. Esto supone utilizar
técnicas de sincronización y cooperación entre máquinas.

7
4. Datathon

4.1. ¿Qué es la Datathon?


Son 18 horas de competencia entre estudiantes universitarios, con la finalidad de desafiar
sus conocimientos. El reto es crear modelos de aprendizaje automático y estadísticos para
resolver casos de negocio utilizando data real.

4.2. ¿A quién va dirigido?


Estudiantes de las principales universidades del Peru que cursan los ultimos ciclos.
En grupos de 3 a 4 participantes.

4.3. ¿Cuándo
El evento para los equipos clasificados será desde las 6 p.m. del viernes 7 de junio hasta
la 1 p.m. del sábado 8.

4.4. ¿Dónde?
En la Torre Interbank. Carlos Villarán 140, La Victoria

4.5. Premio
10 mil soles.

4.6. PAGINA WEB


https://www.datathoninterbank.pe/

También podría gustarte