Empezar_Carrera_DataScience
Empezar_Carrera_DataScience
Empezar_Carrera_DataScience
Data Science es un proceso en el cual se utilizan los datos para obtener información
valiosa.
Conoce a mayor detalle qué hacen las personas dedicadas a la Data Science.
Tomar decisiones
Matemáticas y estadística
Ciencias computacionales
Inteligencia artificial (A.I. por sus siglas en inglés) se trata de enseñarles a las
máquinas a emular o imitar la inteligencia natural de los seres humanos.
Esto lo hacen por medio de algoritmos que modelan cómo aprendemos, tomamos
decisiones e identificamos patrones. Algunos ejemplos son: identificar gatitos o jugar
videojuegos.
Una de las grandes hazañas que ha podido lograr la inteligencia artificial fue
ganarles a campeones mundiales en Go, Ajedrez y League of Legends por nombrar
algunos. Por supuesto, no fue la misma máquina.
Machine Learning
Es una rama de la inteligencia artificial, que tiene como objetivo hacer que las
computadoras aprendan determinada habilidad.
Datos de entrenamiento
Son los datos utilizados para entrenar un algoritmo y obtener un modelo que pueda
hacer predicciones para resolver problemas e implementarse en un software para
un mejor rendimiento en el negocio.
Datos de entrada
Son los datos que se le dan al modelo obtenido luego de ser entrenado, que son del
mismo contexto que los de entrenamiento, pero con diferentes detalles. Para los
cuales va a generar predicciones que serán evaluadas para garantizar la eficacia del
modelo.
Por ejemplo, si queremos saber cuándo tendremos una perdida masiva de clientes,
podríamos hacer un modelo que haga dicha predicción. Además, saber cuándo y
qué producto ofrecerles para no perder un cliente.
1. Ingesta de datos
3. Preparación de datos
4. Entrenamiento de modelo
5. Evaluación de modelo
6. Validación de modelo
7. Despliegue de modelo
8. Interfaz de usuario
Data Science es el proceso para analizar datos y generar predicciones valiosas para
la toma de decisiones y creación de productos.
La inteligencia artificial se refiere a los algoritmos que sirven para predecir eventos
en el futuro, imitando la inteligencia humana.
Relación entre Data Science e inteligencia artificial
En Data Science se utiliza como herramienta la inteligencia artificial para predecir el
futuro, por medio de modelos evaluados que hacen pronósticos, emulando cierta
habilidad del ser humano, al analizar grandes cantidades de datos.
Con el tiempo se fueron creando nuevos términos para referirse a las personas
que se encargaban de ciertos procesos dentro del flujo o proceso de la Data.
1. Recolección de datos
o Instrumentación
o Logging (creación de cuentas de los usuarios)
o Sensores
o Datos externos
2. Movimiento y Almacenamiento
o Datos confiables
o Flujo
o Infraestructura
Pipelines
o ETL (Extract, Transform, Load)
o Datos no estructurados (quiere decir que los datos están sueltos por
ahí)
3. Exploración y transformación
1. Limpieza.
2. Detección de anomalías
3. Preparación
4. Agregaciones y etiquetado
o Estadísticas
o Segmentación
o Agregaciones
o Características
o Entrenamiento de datos
5. Aprendizaje y optimización
o Pruebas A/B
o Experimentación
o Algoritmos simples ML
o Inteligencia artificial
o Deep Learning
A las etapas anteriores se les añaden los roles que se van a encargar de hacer
las tareas y actividades correspondientes para que los datos sigan su curso.
Algunos de estos roles suelen tener un enfoque, ya sea con el negocio o con la
ingeniería.
Data Engineer
Data Scientist
Este rol se encarga de ejecutar los métodos necesarios e indicados para analizar la
etapa actual, como también hacer predicciones del futuro por medio de modelos
de Machine Learning, con el fin de encontrar información valiosa para crear
estrategias y productos que beneficien al consumidor.
Data Analyst
Research Scientist
Developer
De esta manera, queda clara que los roles más importantes en la industria de la
Data son:
Data Engineer
Data Scientist
Data Analyst
Research Scientist
Eso no quita que existan otros aún más especializados, que demanden las
empresas con alto desarrollo de la cultura Data-Driven.
¿Qué hace un Data Analyst?
El objetivo del Data Analyst es analizar información de valor para ayudar a resolver
las necesidades de cada una de las áreas de una organización. La diferencia con la
Data Scientist es que nada más se ocupa de analizar el presente.
¿Cómo lo hace?
Para trabajar con los datos primero es necesario saber dónde están y obtenerlos.
Estos por lo general se encontrarán en bases de datos, internet, redes sociales, etc.
Los datos no van a venir organizados y listos para analizar. Antes se deben corregir,
eliminar o editar los errores, espacios en blanco, columnas repetidas, cambiar de
formato y demás características que ponga en peligro el buen análisis de los datos.
Una vez encontrados los hallazgos, gracias a las exploraciones y análisis de datos,
es indispensable comunicarlos de forma sencilla y con la menor carga cognitiva
posible, para la inmediata toma de decisiones y creación de productos si es posible.
Muy de la mano con las actividades del día a día de una Data Analyst, existe una
estructura que se debe mantener e iterar, es decir, repetir varias veces hasta
obtener el resultado esperado. Las cuales son:
1. Pregunta o problema
2. Exploración y contraste de hipótesis
Ejemplo
1. Pregunta o problema -> Pregunta: ¿Por qué se cayeron las ventas el mes
pasado? Hipótesis: Probablemente, porque el tiempo de espera de la página
web fue demasiado y los usuarios se cansaron de esperar y se fueron.
2. Exploración y queries -> Queries: Extraer los datos del tiempo de espera de
la página web. Analizar: Cómo fue la tendencia en el tiempo.
3. Recopilar información de valor -> Insight: Resulta que encontramos que sí
hubo una subida en el tiempo de espera.
5. Comunicar los hallazgos -> Reunirse con las personas que hicieron la
consulta, para mostrarles y explicarles el gráfico que evidencia la posible
razón de la caída de las ventas el mes pasado.
Roles relacionados
Además de los roles más conocidos dentro de la industria de la Data, existen
algunos que se especializan aún más, siendo indispensables en estructuras mucho
más grandes y desarrolladas de compañías Data-Driven.
Business Analyst
Es una persona que tiene un conocimiento más profundo del negocio y está para
ayudar a la Data Analyst a identificar las preguntas o casos de negocio.
Conclusión
Al retomando las ideas anteriores, nos damos cuenta de que los procesos de una
Data Analyst van enfocados a resolver las preguntas del negocio de las distintas
áreas de mismo. Por medio del ciclo de trabajo anteriormente visto y actividades del
rol como:
Identificar necesidades de información
el Data Engineer es el encargado de tomar los datos crudos, pero de valor, para
transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la
producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o
datos a los demás roles, para que ejecuten su trabajo.
Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:
Proceso ETL
Extract o extracción
Importar datos de diversas fuentes, ya sea internas como externas, mientras sean
de valor para la organización. Estos pueden venir con distintas estructuras y
formatos.
Transform o transformación
Todos los datos ya recopilados deben de situarse en una estructura común y limpia
que facilite su análisis.
Load o carga
Luego de que los datos se encuentren limpios, estos deben almacenarse en bases
de datos OLAP que faciliten la consulta y análisis de los mismos.
Roles relacionados
Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que
se enfocan o especializan en ciertas actividades clave para el flujo de datos como,
por ejemplo:
Data Architect
Conclusión
A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está
la información valiosa para el negocio, entender las herramientas con las cuales se
debe hacer el transporte de los datos y hacer las conexiones para abastecer de
información al resto del equipo de Data.
Para triunfar como Data Engineer, debes conocer y saber utilizar las siguientes
herramientas:
Python y R
Linux
Bases de ingeniería de software
Bases de datos NoSQL y SQL.
Jupyter Notebooks y editores de código
Automatización y scripting
Librerías: Pandas, Dask y Apache Spark
Airflow
Tecnologías *cloud.
Docker.
Orquestadores Kubernetes
Matemática: estadística descriptiva
Si quieres empezar con pie derecho tu camino hacia Data Engineer, no dudes en
seguir los siguientes pasos:
Para aprender acerca de las actividades de un Data Engineer, qué mejor idea que
preguntarle a uno. En este caso nuestro invitado es Alexis Araujo, integrante del
equipo de Data De Platzi.
¿Cómo conociste el mundo de la Data y como supiste que este rol era para
ti?
Lo conocí en mi primer trabajo, cuando me encargaron extraer datos y conectar
diferentes fuentes con las bases de datos. Supe que este rol era para mí, por qué
me gustan las bases de datos y todo lo relacionado con ellas.
¿Cuándo sabe una empresa que necesita un Data Engineer?
Cuando la empresa tiene métricas y sabe para qué las va a utilizar es cuando se va
a requerir el rol de Data Engineer., ya que son los que crean los puentes para poder
traer los datos de distintas fuentes a la empresa.
¿Cuáles son las actividades del día a día de un Data Engineer?
Las actividades más habituales para este rol son:
Saber a qué fuentes se van a conectar
Hacer conexiones con las fuentes de datos
Conocer las aplicaciones desde las que se conectan
Modelos de datos dentro de cada aplicación
Documentación de la API
Conoce más acerca de qué hace un Data Engineer.
¿Cómo influye el tamaño del proyecto en el flujo de trabajo?
Independientemente del tamaño, lo importante es dar informes constantes de la
información de valor sobre los datos, lo más rápido posible. Por lo que la extracción
de datos y ponerla al alcance del equipo de Data lo más rápido que se pueda es
prioritario.
¿Cómo se relaciona un Data Engineer con los demás roles del equipo?
Este rol se debe relacionar mucho con los demás miembros del equipo para saber
qué información es necesaria, de dónde se va a conseguir y cómo se va a realizar la
conexión.
¿Qué es lo que más te gusta y el mayor reto en tu carrera como Data
Engineer?
Lo que más me gusta de ser Date Engineer es que puedo aprender acerca de varias
tecnologías y bases de datos. El mayor reto dentro de mi carrera ha sido manejar
Big Data y API’s a las que no sabía cómo conectarme.
Conclusión
Además de tener una comunicación excelente con el equipo, un Data Engineer debe
estar abierto al aprendizaje de todo tipo de herramientas que permita hacer las
conexiones adecuadas. Las herramientas pueden cambiar de sector en sector o de
donde se quiera extraer la información.
Aunque muchas veces pasan desapercibidas, las habilidades blandas son muy
importantes para un correcto desempeño en el mundo de la Data. Algunas de estas
son:
Storytelling
Inglés
Pensamiento crítico
Creatividad
Hacer que las cosas pasen
Asumir responsabilidad de los proyectos que se te encarguen
Trabajo en equipo tanto con los miembros de Data, como con los demás
miembros de las áreas del negocio
Curiosidad