Presentacion

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 41

DATA SCIENCE

UNIDAD 1
MÓDULO 1

Presentación del
programa

www.digitalhouse.com
OBJETIVOS DE LA CLASE

Revisar el concepto de Data Science


1

2 Desarrollar lineamientos de clase

Discutir nuestra propuesta abordar el aprendizaje


3

Lograr que los participantes del programa se presenten y se


4
conozcan usando el flujo de trabajo de Data Science

www.digitalhouse.com 2
¿QUÉ ES DATA SCIENCE?

www.digitalhouse.com
¿QUÉ ES DATA SCIENCE?

Traditional Data Science Venn Diagram ● Un set de herramientas y técnicas para


extraer información útil de los datos

● Una práctica interdisciplinaria


orientada a resolver problemas

● La aplicación de técnicas científicas a


problemas prácticos

● ¿Quién usa Data Science?


○ Recomendaciones de películas Netflix
○ Algoritmo Amazon: “si te gustó X,
quizás te guste Y”
○ Five Thirty Eight: cobertura electoral
y de deportes

www.digitalhouse.com 4
¿QUÉ ES DATA SCIENCE?

Revised Data Science Venn Diagram


● Visualización y presentación
● Inteligencia de Negocios (BI)
Extract-Transform-Load (ETL) y
bases de datos
● Machine Learning, Inteligencia
Artificial y Estadística.
● CS / Programming
(Implementacion)
● Computación científica
(Bibliotecas) y de alta
performance.
● Big Data

www.digitalhouse.com 5
¿QUÉ ES DATA SCIENCE?

Segun Nisarg Dave:


Este complejo diagrama de
Venn representa Data Science
y el rol de Data Scientist...

www.digitalhouse.com 6
ROLES EN UN EQUIPO DE DATA SCIENCE

Analista / Investigador / Desarrollador /


Estadistica Computación Ingeniería

www.digitalhouse.com 7
WORKFLOW DE DATA SCIENCE

www.digitalhouse.com
WORKFLOW DE DATA SCIENCE

● El “Flujo de trabajo de Data Science” nos sirve


para generar resultados confiables y
reproducibles.
○ “confiables” = precisos
○ “reproducibles” = otros pueden replicar lo
realizado y obtener resultados similares

● En cualquier punto del proceso, puede ser


necesario repetir pasos previos para iterar a lo
largo del flujo.
Esto dependerá de:
○ la aparición de nuevos datos,
○ la necesidad de corregir errores,
○ el cambio acerca de las preguntas y
objetivos, etc.
www.digitalhouse.com 9
WORKFLOW DE DATA SCIENCE

● El “Flujo de trabajo de Data Science” constituye,


en última instancia, un set de standards
sumamente útil y una referencia para tener en
cuenta en los desafíos del curso.

● Repasemos las diferentes etapas, que están


explicadas en detalle en el documento “Flujo de
Trabajo en Data Science.pdf”

www.digitalhouse.com 10
WORKFLOW DE DATA SCIENCE

IDENTIFICAR EL PROBLEMA
R ● Identificar los objetivos del producto/negocio/problema.
A
IC ● Identificar y generar hipótesis sobre metas y criterios para el
T IF
EN éxito del análisis.
ID ● Generar un set de preguntas para identificar el dataset
“correcto”.

ADQUIRIR LOS DATOS


R IR ● Identificar el dataset “correcto”.
UI
Q ● Importar los datos y generar las estructuras de datos
AD
adecuadas.
● Determinar las herramientas más apropiadas para trabajar con
los datos.
A R PARSEAR LOS DATOS
RSE ● Explorar toda la documentación relacionada con los datos.
PA ● Realizar Análisis Exploratorio de los Datos (AED).
● Verificar la calidad de los datos.

www.digitalhouse.com 11
WORKFLOW DE DATA SCIENCE

MINAR LOS DATOS


● Dar formato, limpiar, homogeneizar y filtrar los datos
● Crear nuevas columnas derivadas de los datos originales
AR
IN (recodificaciones, cálculos, etc.)
M

REFINAR LOS DATOS


● Identificar tendencias y outliers
R ● Aplicar y calcular estadísticos descriptivos e inferenciales
A
FIN ● Documentar y transformar los datos
RE

ESTIMAR UN MODELO
● Seleccionar un modelo apropiado (forma funcional,
estimación, etc.)
M AR ● Estimar el modelo
TI
ES ● Evaluar y refinar el modelo

www.digitalhouse.com 12
WORKFLOW DE DATA SCIENCE

PRESENTAR LOS RESULTADOS


● Resumir los resultados del análisis con alguna narrativa o
R
N TA historia
E SE ● Presentar las limitaciones, los supuestos y las fortalezas
PR del/los modelo/s estimados
● Identificar preguntas derivadas y nuevos problemas para
seguir profundizando el análisis

www.digitalhouse.com 13
FILOSOFÍA DEL PROGRAMA
LINEAMIENTOS DE LA CLASE

www.digitalhouse.com
¿Cómo aprendemos? Nuestro pilares

1. Aprender las bases

2. Aprender a pensar

3. Aprender haciendo

4. Aprender a aprender

www.digitalhouse.com 15
FILOSOFIA

— Fomentar y trabajar en un entorno diverso

— Encontrar el ritmo de aprendizaje óptimo para cada uno

— Comunicar pronto y frecuentemente

— El éxito en este curso no se obtiene por comparación. “There is nothing


noble in being superior to your fellow man; true nobility is being superior
to your former self.” Ernest Hemingway.

www.digitalhouse.com 16
FILOSOFIA

— La dedicación, más importante que el conocimiento previo

— Hacé preguntas, todas las veces que consideres necesarias

— Ayudá a tus compañeros

— Sé paciente con vos mismo

www.digitalhouse.com 17
Lineamientos de la Clase

APRENDIZAJE BASADO EN PROBLEMAS

1) Se expone lo que 1) Se
se debe saber presenta el
problema
(diseñado o
seleccionado)
2) Se incorpora la 4) Se resuelve 2) Se
información el problema o identifican las
se identifican necesidades
problemas de
nuevos aprendizaje
3) Se presenta un 3) Se
problema para incorpora la
evaluar lo aprendido nueva
información
www.digitalhouse.com 18
MÓDULOS

www.digitalhouse.com
OBJETIVOS DEL CURSO

— Los módulos del curso están organizados de manera tal que los asistentes sean
capaces de

○ Extraer, consultar, limpiar y agregar datos para su análisis.


○ Construir, implementar y evaluar problemas de Data Science usando los
algoritmos apropiados de machine learning.
○ Usar las herramientas de visualización adecuadas para comunicar sus
conclusiones.
○ Investigar, modelar y validar procesos de resolución de problemas aplicados
a datasets provenientes de diversas industrias para proveer experiencias en
distintos tipos de problemas y soluciones del mundo real.

www.digitalhouse.com 20
PROGRAMA - MÓDULOS

Fundamentos: Clustering, sistemas


POO, Numpy,
Pandas,
01 de recomendación,
procesamiento
05
estadística distribuido, grafos

EDA, Limpieza de Árboles,


datos, Inferencia
Estadística, PCA
02 Métodos de
Ensamble y
06
boosting

Intro a ML:
Regresión Lineal,
Regularización, 03 PROYECTO
INTEGRADOR 07
Validación de
Modelos , Web
Scraping, Pickle y
Flask

Problemas de
Clasificación,
04
GridSearch,
series de tiempo
y text mining

www.digitalhouse.com 21
PROGRAMA - MÓDULOS

Fundamentos:
POO, Numpy,
Pandas,
01
estadística

● Introducción al programa y a la disciplina


● Repaso de Python / POO
● Estadística Descriptiva con Numpy
● Pandas

www.digitalhouse.com 22
PROGRAMA - MÓDULOS

EDA, Limpieza de
datos, Inferencia
Estadística, PCA
02

● Limpieza de datos Desafío del Módulo


● Estadística inferencial
Usando un dataset crudo de
● Visualización Properati usarán Pandas para
● Variables Dummies limpiar los datos, plantearán
formalmente un problema y
● Datos Faltantes realizarán análisis exploratorio.
● Joins y SQL con Pandas
● GeoPandas
● PCA y T-SNE

www.digitalhouse.com 23
PROGRAMA - MÓDULOS

Intro a ML: Regresión


Lineal, Regularización,
Validación de Modelos , 03
Web Scraping, Pickle y
Flask Evaluación Individual

Multiple Choice para evaluar


● Introducción a Machine Learning la comprensión de los temas
tratados hasta el momento.
● Intro a Stats Models & Sklearn
● Regresión Lineal
Desafío del Módulo
● Separación Entrenamiento/Test
● Regularización & Sobreajuste (Overfitting) Los participantes construirán
un modelo para valuar
● Web Scraping propiedades en base al
● APIs, Pickle y Flask dataset de Properati.

www.digitalhouse.com 24
PROGRAMA - MÓDULOS

Problemas de
Clasificación,
GridSearch, 04
series de tiempo
y text mining

Desafío del Módulo


● Intro a Clasificación y KNN
Los participantes construirán
● Regresión Logística
un modelo de clasificación
● Naive Bayes Classifiers utilizando un dataset de su
elección
● Evaluación de modelos
● Series de tiempo
● Feature selection
● Text mining

www.digitalhouse.com 25
PROGRAMA - MÓDULOS

Clustering, sistemas Evaluación Individual


de recomendación,
procesamiento
05
distribuido, grafos
Multiple Choice para evaluar la
comprensión de los temas tratados
hasta el momento

● Clustering Proyecto Integrador

● Sistemas de recomendación El Proyecto Integrador (PI) debería


representar un aporte original y
● Feature Hashing
significativo, aplicando técnicas de data
● Procesamiento Distribuido science a un problema interesante.
● Grafos Charla relámpago:

● Planteo del problema


● Selección de datasets

www.digitalhouse.com 26
PROGRAMA - MÓDULOS

Árboles y
Métodos de
Ensamble
06

Proyecto Integrador
● Intro a CARTS Informe de avance:
● Árboles de Decisión y Bagging ● Análisis Exploratorio
● Random Forests y Boosting ● Primeros intentos con el/los
algoritmo(s) seleccionado(s)
● XGBoost
● Resultados preliminares
● Evaluación de Modelos y Feature
Importance

www.digitalhouse.com 27
PROGRAMA - MÓDULOS

PROYECTO Proyecto Integrador


INTEGRADOR 07
Entrega Final

● Reporte técnico detallado con


todos los análisis desarrollados
(en formato notebook)
● Presentación de 10-15 minutos
con los insights más relevantes
del proyecto
○ Objetivos
○ Datasets
○ Métodos
○ Visualizaciones
○ Storytelling
www.digitalhouse.com 28
DESAFÍOS Y
PROYECTO INTEGRADOR

www.digitalhouse.com
Desafíos y Proyecto Integrador

PROYECTO
INTEGRADOR

— Desafíos y proyectos - objetivos generales:


○ Resolver un problema práctico
○ Generar un reporte técnico (con código y análisis)
○ Generar un reporte para una audiencia no técnica

— Desafíos Final: Proyecto Integrador (recorrer todo el Flujo de Trabajo


de Data Science)

○ Planteo y fundamentación de un problema


○ Generación/adquisición de un dataset apropiado para el problema
○ Análisis, modelado y visualización de resultados
○ Presentación técnica y no técnica de hallazgos y conclusiones

www.digitalhouse.com 30
Galería de Proyectos Integradores del Programa

ESCUCHA DE REDES SOCIALES PARA LA GESTIÓN PÚBLICA


Francisco PENSA

www.digitalhouse.com 31
Galería de Proyectos Integradores del Programa

KICK-ASS MACHINE LEARNING: ¿QUÉ DETERMINA EL ÉXITO DE


PROYECTOS EN LA PLATAFORMA KICKSTARTER?
José SANCHEZ, Jonathan COHEN

www.digitalhouse.com 32
Galería de Proyectos Integradores del Programa

Sentiment Analysis y Topic Modeling en Twitter

Juan ARANGUREN
Jose Luis FINOCCHIARO

www.digitalhouse.com 33
Galería de Proyectos Integradores del Programa

Promesas del Fútbol Mundial


Roberto DI LISIO
Guido BOZZANO
Benjamin BELLOT, Natalia MORAN

www.digitalhouse.com 34
Conociendo a los
participantes del
programa
usando Data Science
(40 minutos)

www.digitalhouse.com
Te proponemos

● Que todos los participantes del programa se conozcan mutuamente


usando algunos pasos del Flujo de Trabajo de Data Science.

● Que formen grupos de 4 a 6 personas

● Que cada grupo defina una pregunta sobre algún aspecto que le interese
conocer acerca de los compañeros (motivación, formación, etc.)

● Que a partir de la Encuesta Introductoria al curso puedan abordar las


preguntas planteadas.

www.digitalhouse.com
La idea es que...
● Cada grupo defina los siguientes roles:
○ 1 Project Manager (PM) - Data Business Person: responsable del
cumplimiento de los tiempos, de facilitar la comunicación y hacer
seguimiento del flujo de trabajo.
○ 1 a 3 Researchers: encargados de adecuar la pregunta a los datos
disponibles y de resumir la información para obtener la respuesta.
Arman visualizaciones lo más claras y sintéticas posibles de la
pregunta en cuestión.
○ 1 a 2 Comunicadores-Creativos: encargados de resumir y presentar
los hallazgos y conclusiones a los participantes.

www.digitalhouse.com
Por Ejemplo
● ¿Cuál es el perfil educativo del curso de Data Science-2017?
○ Primario incompleto
○ Primario completo
○ Secundario incompleto
○ Secundario completo
○ Universitario/Terciario incompleto
○ Universitario/Terciario completo
○ Posgrado o superior
○ Sin Estudios

www.digitalhouse.com
Cronograma

Actividad Tiempo Responsable

Formación de grupos y distribución de 5 minutos Equipo


roles

Diseño de la pregunta 5 minutos Equipo

Resumen y visualizaciones de la 15 minutos Analistas,


información Presentadores

Presentación de resultados 10 minutos Presentadores

www.digitalhouse.com
Al final del curso, ustedes serán capaces de:

● Extraer, consultar, limpiar y agregar datos para su análisis.


● Realizar análisis visuales y estadísticos de datos, usando
Python y sus bibliotecas asociadas.
● Construir, implementar y evaluar problemas de Data
Science usando los algoritmos apropiados de machine
learning.
● Usar las herramientas de visualización adecuadas para
comunicar sus conclusiones.

www.digitalhouse.com
Al final del curso, ustedes serán capaces de:

● Crear reportes claros y reproducibles para los


stakeholders.

● Investigar, modelar y validar procesos de resolución de


problemas aplicados a datasets provenientes de diversas
industrias para proveer experiencias en distintos tipos de
problemas y soluciones del mundo real.

www.digitalhouse.com

También podría gustarte