0% encontró este documento útil (0 votos)

87 vistas8 páginas

Data Science

Este documento describe la formación, perfil y oportunidades de un científico de datos. Explica que la formación en ciencia de datos es más accesible ahora a través de cursos en línea. Un científico de datos necesita habilidades en computación, matemáticas, aprendizaje automático y comunicación. Las mejores oportunidades están en bancos y empresas de publicidad, y los salarios son altos, especialmente en Estados Unidos.

Cargado por

Jeremy Holguin

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

0% encontró este documento útil (0 votos)

87 vistas8 páginas

Data Science

Cargado por

Jeremy Holguin

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 8

DATA SCIENCE

Y
DATATHON INTERBANK

1. Formación
La formación de un DATA SCIENTIST o Científico de Datos hoy en día es más sencilla
que en los últimos 10 años. Ya que es una profesión que se ha puesto de moda y seguirá
vigente hasta los próximos 25 años.
Cualquier estudiante de Pregrado o profesional de Postgrado tiene la posibilidad de ser
un Científico de Datpos, ya que esta profesión no se límita solo a carreras con habilidades
informáticas, estadísticas y comerciales, por el contrario; muchos de los mejores Científicos
de Datos son provenientes de carreras como Física , Medicina, Psicología y muchas otras.
Una buena manera de aprender Data Science, es mediante la especialización en la pla-
taforma de MOOC (cursos online) como Coursera, Udemy, Platzi, Youtube desde donde se
ofrecen los cursos que componen esta especialización de manera gratuita.

Figura 1: Perfil de un Científico de Datos

1
1.1. Perfil
El perfil del Data Scientist, es en cierto modo, como una poción mágica, requiere co-
mo ingredientes principales habilidades avanzadas en informática, matemáticas/estadística,
aprendizaje automático, pasión por los datos, saber manejar grandes volúmenes de datos,
curiosidad, capacidad de comunicar el conocimiento que hemos extraído de los datos, visión
de negocio, etc.
El proceso que sigue un Data Scientist para responder a las cuestiones que se le plantean
se pueden resumir en estos 5 pasos:

Extraer los datos, independientemente de su fuente (webs, csv, logs, apios, etc.) y de
su volumen (Big Data o Small Data).

Limpiar los datos, para eliminar lo que distorsiona las mismas.

Procesar los datos usando diferentes métodos estadísticos (inferencia estadística, mo-
delos de regresión, pruebas de hipótesis, etc.).

Diseñar nuevos tests o experimentos en caso necesario.

Visualizar y presentar gráficamente los datos.

Figura 2: Contenido del Programa Formativo en Data Science dictado en la UNMSM el año
2018 en la Facultad de Ciencias Matemáticas

2
1.2. Lo que se espera del Data Scientist
Lo que se espera de un Data Scientist es que no sólo sea capaz de abordar un problema de
explotación de datos desde el punto de vista de análisis, sino que también tenga las aptitudes
necesarias para cubrir la etapa de gestión de datos.

Así, el objetivo de un perfil de este tipo es acercar dos mundos (el de gestión y análisis
de datos), que hasta ahora habían podido existir separados, pero que debido a los nuevos
requisitos de volumen, de variedad de datos y de velocidad en la explotación de estas (ie, las
tres V’s de la definición estándar del término Big Data), se ha vuelto imprescindible llevar
a cabo esta explotación a través de un perfil combinado, y que además, también entienda
el negocio para dirigir esta explotación hacia resultados que puedan ser de interés para la
compañía.

2. Oportunidades
Las mayores oportunidades en esta área las encontramos en los bancos, pero también hay
entidades privadas como empresas encargadas de publicidad que usan a científicos de datos
para hacer agrupaciones de sus mejores clientes y venderles mejores ofertas.

Figura 3: Opotunidades para laborar como Data Scientist en bancos.

3
Los sueldos, como en general en el mundo del desarrollo de software, cambian mucho
dependiendo de el lugar, las funciones y el empleador. No obstante, ahora mismo es una
expertise bien pagada.

A nivel general y según la encuesta anual de KdNuggets los sueldos/ingresos están en

una media de 141.000 dólares para freelance, 107.000 para asalariados, 90.000 para traba-
jadores gubernamentales o en el sector sin ánimo de lucro; 70.000 dólares para trabajo en
universidades.

No obstante, estos sueldos medios hay que tomarlas con mucha prudencia. Mientras el
salario medio en Estados Unidos está entre 103.000 y 131.000 dólares, en Europa Occidental
está entre 54.000 y 82.000 dólares.

Lo que diferencia a la ciencia de datos del resto del mundo del desarrollo tal vez sea la
escasez de profesionales.

Este fenómeno hace que los sueldos estén relativamente inflados y que, conforme vayan
apareciendo más perfiles dateros, se vayan ajustando.

Por eso, se puede decir que es el momento para subirse a la ola de la ciencia de los datos.
Dentro de un par de años el mercado habrá madurado y las oportunidades estarán en otro
lugar.

Figura 4: Data Science la carrera del futuro

4
3. Mitos y Errores
3.1. Actualmente la información se consigue de inmediato y solo
debemos aplicar Machine Learning
No siempre se tiene la información inmediatamente disponible en una base de datos (u
hoja de cálculo) y su obtención es parte del proceso.

La recogida de la información puede realizarse mediante colocación de sensores, scrapeo

de la web, peticiones a APIs, formularios. . . o de cualquier forma que la creatividad nos
permita.

3.2. No siempre se realiza el Preprocesado de la Información

Una vez se tiene la información que se considera necesaria para resolver nuestro modelo,
se le debe aplicar un preprocesado. Es decir, sin perder información de valor, dar vueltas a
la información que ya tenemos para prepararla para la siguiente fase.

El objetivo es representar la información en un formato que consiga reducir el coste de

cómputo y optimizar los resultados de los algoritmos.

Hay muchas técnicas y métodos diferentes que pueden aplicarse en esta fase. Algunos de
ellos son:

Reducción de la dimensionalidad.
Discreción de variables.
Normalización.
Cuantificación.
Saneamiento.

El preprocesado es una fase crítica, ya que condiciona al resto del proceso y puede causar
la diferencia entre el éxito y el fracaso del modelo. Por ello, esta fase y las que le proceden son
tan dependientes entre sí que lo habitual es iterar sobre ellas hasta encontrar la combinación
que mejor se ajuste.

3.3. El término ENTRENAMIENTO y MACHINE LEARNING

son lo mismo
Entrenar el modelo significa alimentar algoritmos de machine learning con nuestros da-
tos. Los algoritmos de machine learning (o aprendizaje automático) son capaces de predecir
y clasificar información nueva, a raíz de haber sido entrenados con información pasada.

Igual te suenan algunos ejemplos de algoritmos de machine learning. Por ejemplo:

5
Los árboles de decisión.

Las redes neuronales.

algoritmos de clusterización.

Los algoritmos de machine learning se pueden clasificar como de aprendizaje supervisado

o como de aprendizaje no supervisado. La diferencia es que los de aprendizaje supervisado
aprenden a hallar respuestas basándose en casos pasados con sus respuestas ya conocidas,
mientras que los de aprendizaje no supervisado tratan de aprender sin tener las respuestas.

3.4. ¿Cuál es el mejor algoritmo de Machine Learning?

Por lo general, no existe un algoritmo mejor que otro, algunos rinden mejor en unos
casos y otros, en otros casos. Y la manera de hallar la mejor solución es probándolos uno
a uno, con diferentes configuraciones, hasta encontrar el mejor para nuestro caso. Se sigue
una metodología experimental prueba-error porque, a priori, es muy difícil adivinar qué tipo
de algoritmo y configuración va a tener mejores resultados. Solo los mejores profesionales en
machine learning pueden tener una vaga idea de qué tipo de algoritmos pueden funcionar
mejor con un set de datos determinado. Pero aún así tendrían que probar varias opciones y
testearlas.
Existen diferentes técnicas para validar los resultados de un algoritmo de machine lear-
ning, es decir, para medir la bondad del clasificador. Para los de aprendizaje supervisado,
entre otras técnicas, se reserva una parte de los datos para realizar el entrenamiento y el
resto se utiliza para validar o testear el modelo. Para los de aprendizaje no supervisado es
más complicado, pero también existen métodos que dan una estimación de la bondad del
algoritmo.
A veces incluso lo que más conviene es elegir aplicar varios algoritmos a la vez y dar por
buena la respuesta más votada entre los algoritmos elegidos.

3.5. ¿La minería de datos es inteligencia artificial?

Bueno, la minería de datos puede utilizar inteligencia artificial en sus fases de aprendizaje,
ya que algunos de los algoritmos de machine learning sí que forman parte de la inteligencia
artificial. Pero la inteligencia artificial es más que eso.

La inteligencia artificial busca simular y reproducir el razonamiento lógico tal y como

lo hacemos los humanos. No solo para encontrar patrones, clasificar y predecir eventos en
base a una información, sino también para generar datos en concordancia y lógica a una
experiencia pasada. Algunos ejemplos de aplicación son:

Generación de títulos óptimos para llamar la atención de una audiencia específica.

Creación de un asistente virtual inteligente de atención al cliente.

Generación de logos (o ideas de logos) de forma automática.

6
Cálculo de rutas óptimas de unos camiones de reparto.

Atención al cliente automático basado en reconocimiento de voz.

Sistemas de recomendación (de películas, de canciones, de hoteles. . . ).

Desarrollo de jugadores de juegos de mesa virtuales.

Extracción automática de las ideas más importantes de un texto.

3.6. ¿Big Data es un algoritmo de Machine Learning?

Big data es la disciplina que trabaja con grandes cantidades de datos. Es decir, el big
data está presente en los proyectos potentes de data science. Y sí, al igual que se tiene big
data, también se tiene small data y medium data, aunque al no sonar tan potente, no se
utilizan tanto.

Para proyectos de small data, con utilizar un excel o una base de datos pequeña en un
ordenador portátil es suficiente. Además, es muy fácil de manejar, porque toda la informa-
ción cabe en la memoria RAM del ordenador y se puede “ver” toda a la vez.

El medium data trabaja con cantidades más grandes de datos, donde un excel no sería
suficiente para albergarlos a todos y, aunque sí podríamos almacenarlos en una base de datos
de un ordenador, habría que utilizar ciertas técnicas para procesar y analizar la información
sin pedirla toda de golpe, ya que sería demasiado grande para cargarlo en memoria.

Los proyectos de big data son los que necesitan incluso varios ordenadores compartiendo
información para que el procesamiento y el almacenamiento sea posible. Esto supone utilizar
técnicas de sincronización y cooperación entre máquinas.

7
4. Datathon

4.1. ¿Qué es la Datathon?

Son 18 horas de competencia entre estudiantes universitarios, con la finalidad de desafiar
sus conocimientos. El reto es crear modelos de aprendizaje automático y estadísticos para
resolver casos de negocio utilizando data real.

4.2. ¿A quién va dirigido?

Estudiantes de las principales universidades del Peru que cursan los ultimos ciclos.
En grupos de 3 a 4 participantes.

4.3. ¿Cuándo
El evento para los equipos clasificados será desde las 6 p.m. del viernes 7 de junio hasta
la 1 p.m. del sábado 8.

4.4. ¿Dónde?
En la Torre Interbank. Carlos Villarán 140, La Victoria

4.5. Premio
10 mil soles.

4.6. PAGINA WEB

https://www.datathoninterbank.pe/

También podría gustarte

Método Integral Minjares Con Cuentos
100% (2)
Método Integral Minjares Con Cuentos
20 páginas
001 Tesis LEAN 2
50% (2)
001 Tesis LEAN 2
163 páginas
Clase Demostativa Surgimiento de La Agricultura
100% (3)
Clase Demostativa Surgimiento de La Agricultura
6 páginas
Optica Geometrica CEPREUNI
Aún no hay calificaciones
Optica Geometrica CEPREUNI
39 páginas
Logica Difusa Presentacion
Aún no hay calificaciones
Logica Difusa Presentacion
71 páginas
Metodos Segmentación Python
100% (1)
Metodos Segmentación Python
37 páginas
Contrato de Regularizacion de Expediente Tecnico 995
100% (1)
Contrato de Regularizacion de Expediente Tecnico 995
5 páginas
Mis Primeros 100 Algoritmos v5.0
Aún no hay calificaciones
Mis Primeros 100 Algoritmos v5.0
6 páginas
Aprendizaje y Razonamiento Automatico y Laboratorio 8 Michels Lopez
Aún no hay calificaciones
Aprendizaje y Razonamiento Automatico y Laboratorio 8 Michels Lopez
10 páginas
QGIS 3.16 TrainingManual Es
Aún no hay calificaciones
QGIS 3.16 TrainingManual Es
722 páginas
Modelo Predictivo
Aún no hay calificaciones
Modelo Predictivo
10 páginas
Cómo Instalar Python Anaconda
Aún no hay calificaciones
Cómo Instalar Python Anaconda
9 páginas
Problemas Resueltos - Tema 6.ecuaciones de Newton - Euler - 1
Aún no hay calificaciones
Problemas Resueltos - Tema 6.ecuaciones de Newton - Euler - 1
28 páginas
Grupo05 - Trabajo Final
100% (1)
Grupo05 - Trabajo Final
28 páginas
Inteligencia Artificial Unab2
Aún no hay calificaciones
Inteligencia Artificial Unab2
256 páginas
Econometria Vs Ciencia de Datos
Aún no hay calificaciones
Econometria Vs Ciencia de Datos
5 páginas
Diseño y Validación de Modelos para Sistemas de Recomendación PDF
Aún no hay calificaciones
Diseño y Validación de Modelos para Sistemas de Recomendación PDF
258 páginas
Deep Learning Una Introducción Práctica
50% (2)
Deep Learning Una Introducción Práctica
4 páginas
Quiron en Casa 7
100% (1)
Quiron en Casa 7
2 páginas
Machine Learning
Aún no hay calificaciones
Machine Learning
10 páginas
Series Graficas y Numericas para Primero de Primaria
Aún no hay calificaciones
Series Graficas y Numericas para Primero de Primaria
13 páginas
Vázquez, Gabriel Clasificador Con Redes Neuronales para El Pronostico de La Enfermedad Renal Cronica
Aún no hay calificaciones
Vázquez, Gabriel Clasificador Con Redes Neuronales para El Pronostico de La Enfermedad Renal Cronica
105 páginas
Separata01 ML Uni Fim
Aún no hay calificaciones
Separata01 ML Uni Fim
58 páginas
Taller Big Data
100% (1)
Taller Big Data
6 páginas
26-05 Sesion CyA Ambiente
Aún no hay calificaciones
26-05 Sesion CyA Ambiente
10 páginas
Algoritmos de Regresión
0% (1)
Algoritmos de Regresión
16 páginas
Algoritmos de Clasificación (Mineria de Datos)
100% (1)
Algoritmos de Clasificación (Mineria de Datos)
11 páginas
Algoritmos de Machine Learning
Aún no hay calificaciones
Algoritmos de Machine Learning
10 páginas
Redes Neuronales Multicapa
Aún no hay calificaciones
Redes Neuronales Multicapa
66 páginas
Rivarola, Teresa-Panorama de Las Artes en Paraguay-2012
Aún no hay calificaciones
Rivarola, Teresa-Panorama de Las Artes en Paraguay-2012
92 páginas
URBANISMO Huànuco
Aún no hay calificaciones
URBANISMO Huànuco
28 páginas
Unidad 4 Uso Libreria NumPY
Aún no hay calificaciones
Unidad 4 Uso Libreria NumPY
31 páginas
Aprendizaje Automático 8
Aún no hay calificaciones
Aprendizaje Automático 8
30 páginas
Presentación - K-Means.13775252 PDF
Aún no hay calificaciones
Presentación - K-Means.13775252 PDF
67 páginas
Deep Learning
100% (1)
Deep Learning
2 páginas
Bootcamp MLOps Codigo Facilito 2024
Aún no hay calificaciones
Bootcamp MLOps Codigo Facilito 2024
27 páginas
Exploratory Data Analysis en Python
Aún no hay calificaciones
Exploratory Data Analysis en Python
21 páginas
Sesión 2 - Aprendizaje de Máquina
Aún no hay calificaciones
Sesión 2 - Aprendizaje de Máquina
48 páginas
Guía de Instalación y Uso de QGIS y Gephi
Aún no hay calificaciones
Guía de Instalación y Uso de QGIS y Gephi
57 páginas
Introducción Al Machine Learning
Aún no hay calificaciones
Introducción Al Machine Learning
26 páginas
Machine Learning Con Python
100% (1)
Machine Learning Con Python
6 páginas
Unidad6 Solution1
Aún no hay calificaciones
Unidad6 Solution1
30 páginas
Informe de Memoria de Calculo Ap Las Vertientes
Aún no hay calificaciones
Informe de Memoria de Calculo Ap Las Vertientes
28 páginas
Introducción Weka
Aún no hay calificaciones
Introducción Weka
31 páginas
23 - Python, Listas y Arreglos
Aún no hay calificaciones
23 - Python, Listas y Arreglos
25 páginas
Componentes Del Desarrollo Humano
Aún no hay calificaciones
Componentes Del Desarrollo Humano
6 páginas
Semana 09-Transbordo
Aún no hay calificaciones
Semana 09-Transbordo
29 páginas
Ejemplos Processing PDF
Aún no hay calificaciones
Ejemplos Processing PDF
26 páginas
1.3 Localizacion de Unidades de Emergencia
Aún no hay calificaciones
1.3 Localizacion de Unidades de Emergencia
23 páginas
Ejemplo de Un Algoritmo Genético
Aún no hay calificaciones
Ejemplo de Un Algoritmo Genético
22 páginas
Clustering Basado en Densidad
Aún no hay calificaciones
Clustering Basado en Densidad
16 páginas
Trabajo de Investigación - QuickSort
Aún no hay calificaciones
Trabajo de Investigación - QuickSort
20 páginas
06 Matriz de Confusión Modelos Multiclase
Aún no hay calificaciones
06 Matriz de Confusión Modelos Multiclase
14 páginas
Ceremonias
Aún no hay calificaciones
Ceremonias
16 páginas
Informe Datamining
Aún no hay calificaciones
Informe Datamining
15 páginas
Aprendizaje Supervisado
Aún no hay calificaciones
Aprendizaje Supervisado
11 páginas
Captura de Pantalla 2022-03-05 A La(s) 16.07.15
Aún no hay calificaciones
Captura de Pantalla 2022-03-05 A La(s) 16.07.15
19 páginas
DEDICATORIA
Aún no hay calificaciones
DEDICATORIA
14 páginas
Encuesta Inteligencia
Aún no hay calificaciones
Encuesta Inteligencia
2 páginas
Ejercicios de Redes Neuronales
Aún no hay calificaciones
Ejercicios de Redes Neuronales
10 páginas
Machine Learning Python
Aún no hay calificaciones
Machine Learning Python
3 páginas
Diseños Contemporaneos
Aún no hay calificaciones
Diseños Contemporaneos
7 páginas
Generalización y Reconocimiento de Patrones
Aún no hay calificaciones
Generalización y Reconocimiento de Patrones
11 páginas
Proyectos Capitulo V de Ecuaciones Diferenciales, 4ta Edición - R. Kent Nagle
Aún no hay calificaciones
Proyectos Capitulo V de Ecuaciones Diferenciales, 4ta Edición - R. Kent Nagle
12 páginas
Practica 1 Analisis de Datos
Aún no hay calificaciones
Practica 1 Analisis de Datos
7 páginas
Las Matemáticas de Backpropagation
Aún no hay calificaciones
Las Matemáticas de Backpropagation
5 páginas
Arboles de Decision
Aún no hay calificaciones
Arboles de Decision
16 páginas
Guía Pedagógica 2do Año 2023
Aún no hay calificaciones
Guía Pedagógica 2do Año 2023
7 páginas
Guia Gratis Introduccion A Data Science
Aún no hay calificaciones
Guia Gratis Introduccion A Data Science
12 páginas
INVESTIGACION
Aún no hay calificaciones
INVESTIGACION
6 páginas
Ejercicio Con Lenguaje R
Aún no hay calificaciones
Ejercicio Con Lenguaje R
10 páginas
Arboles de Decisión
Aún no hay calificaciones
Arboles de Decisión
6 páginas
Circular #22 - Pruebas Saber Tipo ICFES Tercer Periodo 2024
Aún no hay calificaciones
Circular #22 - Pruebas Saber Tipo ICFES Tercer Periodo 2024
6 páginas
CD - M5 Examen
Aún no hay calificaciones
CD - M5 Examen
4 páginas
Métodos de Ordenamiento en Java
Aún no hay calificaciones
Métodos de Ordenamiento en Java
7 páginas
Teoría Del Error Informe
Aún no hay calificaciones
Teoría Del Error Informe
7 páginas
PLANIF ANUAL MATE 2021 6to
Aún no hay calificaciones
PLANIF ANUAL MATE 2021 6to
4 páginas
Fases de Un Proyecto de Mineria de Datos
Aún no hay calificaciones
Fases de Un Proyecto de Mineria de Datos
10 páginas
Algoritmo Genético
Aún no hay calificaciones
Algoritmo Genético
5 páginas
Colonias de Hormigas
Aún no hay calificaciones
Colonias de Hormigas
36 páginas
La Vanidad y La Economia
Aún no hay calificaciones
La Vanidad y La Economia
3 páginas
Practica de Opencv 01.
Aún no hay calificaciones
Practica de Opencv 01.
2 páginas
Introduccion Al Analisis de Datos
Aún no hay calificaciones
Introduccion Al Analisis de Datos
6 páginas
La Lengua y Sus Hablantes. Act. 9
Aún no hay calificaciones
La Lengua y Sus Hablantes. Act. 9
2 páginas
Econometria 3
Aún no hay calificaciones
Econometria 3
2 páginas
Disertación
Aún no hay calificaciones
Disertación
3 páginas
Temas Criminalistica
Aún no hay calificaciones
Temas Criminalistica
1 página
FS0311 Laboratorio de Física General II-Carta Al Estudiante
Aún no hay calificaciones
FS0311 Laboratorio de Física General II-Carta Al Estudiante
2 páginas
Aprendizaje Automático
Aún no hay calificaciones
Aprendizaje Automático
2 páginas
Ciencia de datos: La serie de conocimientos esenciales de MIT Press
De Everand
Ciencia de datos: La serie de conocimientos esenciales de MIT Press
John D. Kelleher
5/5 (2)