100% encontró este documento útil (1 voto)

463 vistas

Python

Este documento proporciona una introducción a Data Science con Python. Explica brevemente qué es Data Science y Machine Learning, y destaca que Python es un lenguaje de programación adecuado para Data Science debido a su rico ecosistema de librerías como NumPy, Pandas, Scikit-learn y Matplotlib. También presenta algunas herramientas populares como Jupyter Notebooks e introduce conceptos clave como el procesamiento y análisis de datos.

Cargado por

kamusgeminis

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

100% encontró este documento útil (1 voto)

463 vistas

Python

Cargado por

kamusgeminis

Derechos de autor

Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.

Formatos disponibles

Descarga como PDF, TXT o lee en línea desde Scribd

Está en la página 1/ 31

Introducción

Data Science con Python

Nestor Castro
Industria 4.0
¿Qué es Data Science?
Data Science es un campo interdisciplinario que aplica técnicas matemáticas, estadísticas y
computacionales a diversas a áreas: biología, física, economía,sociología entre otras.
¿Qué es Data Science?
Data Science tiene la misión de modelar, analizar, entender, visualizar y extraer conocimiento a
partir de datos.

Descubrimiento
de los datos

Preparación de
Monitoreo
los datos

Desarrollo del
Publicación
Modelo

Evaluación
¿Qué es Machine Learning?
Machine Learning es una área cuyo objetivo es desarrollar algoritmos que permitan a las
ordenadores aprender.
¿Qué lenguaje de programación usar?
Data Science necesita el uso de un lenguaje de programación, el problema es como es cual
escoger.
Claves para elegir un lenguaje apropiado
- Documentación y librerías acelera los de tiempos de desarrollo
- Robusto
- Eficiente, veloz y escalable
- Contar con librerías diseñadas para Big Data
Python - Historia
- Monty Python (1969) - Grupo Humorista Britanico
- Guido Van Rossum (1991)
- Python Software Foundation (2001)
- Python 2.7.13 / 3.6.1
Ecosistema Python
Python reúne las características necesarias para Data Science, además de ser un buen lenguaje de
programación de uso general.

Python dispone de un rico ecosistema compuesto de librerías opensource para matemáticas, estadisticas,
machine learning y ciencia en general.
Distribución Python

- Hay muchas distribuciones Python que incluyen todas las librerías.

- Mi preferida es Anaconda de Continuum.

Principales características.
- Gestión de paquetes via Conda o PIP
- Varias GUI. Spyder,Jupiter,etc.
- Versiones Linux,Mac y Windows. 32 y 64 bits.
PyData

- Comunidad muy activa, buena gente.

- Pueden ver videos en Youtube
- Conferencias en todo el mundo
- Las libreria fundamentales del ambiente pydata son:
- Numpy
- SciPy
- Pandas
- MatPlotlib
- Jupyter/ipython (GUI)
Interfaz Jupyter (iPython NoteBook)
Interfaz Web (IDE), de usuario.

Widgets (para diferentes librerias)

Muy buena para para documentar.

Nos da ayuda poniendo la sentencia seguida de ?. Por ejemplo: pd.read_csv?.

Poniendo !, delante del comando nos permite ejecutar comando de la shell. Ejemplo: !dir, !ls
Librerías - Numpy
NumPy es el paquete fundamental para la computación científica con Python. Contiene.

● un poderoso objeto de matriz N-dimensional

● sofisticadas funciones

● herramientas para la integración de C / C ++ y Fortran. Usando las librerias Cython y F2py.

● álgebra lineal útil, transformada de Fourier, y capacidades de números aleatorios

● Funcionalidad semejante a Matlab

● Ejemplo

>>> import numpy as np

>>> x = np.linspace(0, 1, 10)

>>> x

array([ 0. , 0.11111111, 0.22222222, 0.33333333, 0.44444444,

0.55555556, 0.66666667, 0.77777778, 0.88888889, 1. ]

Librerías - Scipy
Libreria fundamental se basa en Numpy y es muy amplia.

● Utilidades de muchas disciplinas

● Funciones estadísticas

● Algebral lineal

● Integración numerica

● Interpolación

● Algoritmos espaciales

● Análisis de imágenes
Librerías - Sympy
Librería para manejo simbólico de expresiones.

● Plotea la salida en Latex cuando si usamos Jupyter

● Ideal para resolver sistemas de ecuaciones

Ejemplo:

>>> from sympy import symbols

>>> x, y = symbols('x y')

>>> expr = x + 2*y

>>> expr

x + 2*y
Librerías - Pandas
Pandas es una libreria de analisis de datos con Python.

Contiene…

● Herramienta para la lectura y escritura de datos: CSV y archivos de texto,Microsoft Excel, bases de
datos SQL, etc.

● Estructuras tabulares de datos, llamadas DataFrame. N-Dimensiones.

● Hace más amigable el uso de Numpy

● Facilita el manejo de series temporales

● Alineación inteligente de datos y el manejo integrado de los datos faltantes

● Altamente optimizado para un rendimiento, con rutas de código críticos escritos en C.

● Pandas está en uso en una amplia variedad de ámbitos académicos y comerciales, incluyendo
Finanzas, Neurociencia, Economía, Estadística,Publicidad, Web Analytics, y más
Ejemplo – Pandas – Leer fichero

Ejemplo fichero webdaq planta 6

Time,tempSalaEVA(C),tempSalaTECO(C),tempSalaCimel(C),tempSalaBrewer(C),tempEscalera(C),humSala
EVA(%RH)
2017/04/02 12:40:58.316154,18.43,16.31,15.75,18.66,15.31,-31.98
2017/04/02 12:41:58.315968,18.68,16.31,15.87,18.54,15.44,-32.04
2017/04/02 12:42:58.315782,18.55,16.44,15.87,18.54,15.31,-31.98
2017/04/02 12:43:58.315596,18.68,16.31,15.50,18.42,15.44,-31.91
2017/04/02 12:44:58.315410,18.68,16.44,15.87,18.66,15.31,-32.04
2017/04/02 12:45:58.315224,18.55,16.44,15.75,18.42,15.31,-31.98
2017/04/02 12:46:58.315038,18.55,16.31,15.62,18.30,15.44,-31.98
2017/04/02 12:47:58.314852,18.43,16.31,15.87,18.66,15.31,-32.04
2017/04/02 12:48:58.314666,18.68,16.44,15.87,18.54,15.31,-31.98
2017/04/02 12:49:58.314480,18.68,16.31,15.75,18.42,15.31,-31.98
2017/04/02 12:50:58.314294,18.55,16.31,15.75,18.42,15.44,-31.98
2017/04/02 12:51:58.314108,18.55,16.31,15.62,18.42,15.44,-32.04
Ejemplo – Pandas – Leer fichero
# Importamos libreria
Import pandas as pd

# Le ponemos nombre a las columnas

cols=['timestamp', 'tempSalaeva', 'tempSalateco', 'tempSalaCimel', 'tempSalabrewer', 'tempescalera',
'humsalaeVa']

#Leemos el fichero
df = pd.read_csv('/home/webdaq/wd6/_20170403121823.txt',header=0,names=cols)

>>> df
timestamp tempSalaeva tempSalateco tempSalaCimel \
0 2017/04/02 12:40:58.316154 18.43 16.31 15.75
1 2017/04/02 12:41:58.315968 18.68 16.31 15.87
2 2017/04/02 12:42:58.315782 18.55 16.44 15.87
3 2017/04/02 12:43:58.315596 18.68 16.31 15.50
4 2017/04/02 12:44:58.315410 18.68 16.44 15.87
5 2017/04/02 12:45:58.315224 18.55 16.44 15.75
6 2017/04/02 12:46:58.315038 18.55 16.31 15.62
Ejemplo – Pandas – Leer de BBDD
# Importamos libreria
Import pandas as pd
from sqlalchemy import create_engine

#Conexión a la BBDD – PostGreSQL

conn = create_engine('postgresql://user:password@servidor:5432/webdaq'

# Consulta de la BBDD
sqlquery="SELECT * FROM public.wdqpla2 where wdqpla2.timestampx between '13/04/2017 00:00:00' AND
'13/04/2017 23:59:00'"

#Lanzamos consulta
df = pd.read_sql_query(sqlquery, conn)

>>> df
id timestampx humsalapica humsalaopt tempsalapica \
0 1004 2017-04-13 00:00:00 29.27 36.85 17.21
1 1005 2017-04-13 00:01:00 29.08 36.79 17.09
2 1006 2017-04-13 00:02:00 29.02 36.41 17.09
Ejemplo – Pandas – Calculo media 10 min
# Create un dataframe pivotable, estableciendo como índice la columna timestampx
df1 = df.set_index(['timestampx'])

#Resampleamos y calculamos la media cada 10min

media10m = df1.resample('10min',how='mean')

>>> df
id timestampx humsalapica humsalaopt tempsalapica \
0 1004 2017-04-13 00:00:00 29.27 36.85 17.21
1 1005 2017-04-13 00:01:00 29.08 36.79 17.09
2 1006 2017-04-13 00:02:00 29.02 36.41 17.09

>>> media10m
id humsalapica humsalaopt tempsalapica \
timestampx
2017-04-13 00:00:00 1008.700000 29.176000 36.738000 17.016000
2017-04-13 00:10:00 1019.500000 30.543000 36.687000 16.296000
2017-04-13 00:20:00 1030.500000 29.319000 36.576000 16.860000
2017-04-13 00:30:00 1041.300000 28.979000 36.771000 17.066000
Librerías - MatplotLib
Librería para generación de gráficos con Python
Interfaz funcional estilo Matlab.
Interfaz orientada a objetos para un control más preciso del resultado
Salida de fichero de imagen o INLINE
Ejemplo MatPlotLib
#import matplotlib libary
import matplotlib.pyplot as plt

#define some data

x = [1,2,3,4]
y = [20, 21, 20.5, 20.8]

#plot data
plt.plot(x, y)

#show plot
plt.show()
Librería SeaBorn
Es una evolución de MatPlotLib
Ideal para temas estadísticos.
Librería Bokeh
Librería para visualizar gráficos. Permite interactividad.
Compila en CCS+JS+HTML
Genial para analizar datos y buscar errores.
Puede generar ficheros HTML de salida o levantar un mini server web (tornado).
Ejemplo Bokeh
from bokeh.charts import Line, show, output_file
Import pandas as pd
sqlquery="SELECT * FROM public.wdqpla3 where wdqpla3.timestamp between '"03/05/2017 00:00:00' AND '08/05/2017 23:59:00'"
conn = create_engine('postgresql://user:password@servidorip:5432/webdaq')
BBDD = pd.read_sql_query(sqlquery, conn)

p = figure(plot_width=1200, plot_height=400,x_axis_type="datetime")
p.title= "Presión Varian"
p.xaxis.axis_label = 'Time'
p.yaxis.axis_label = 'Presion'
p.line(BBDD['timestamp'], BBDD['pressdani'], )line_width=1,legend="Presion",line_color=“red")
p.legend.orientation = "top_right“
output_file("pressdani.html", title="Ejemplo")
show (p)
HTC
Tenemos diferentes librerías para escalar nuestro código a nivel computacional.
Librería Dask.
- Se integra con objetos de Numpy y Pandas
- Permite la integración con otro proyectos Python
- Muy rápido, muy escalable desde un portátil hasta un cluster de 1000 cores
- Conceptos: clientes,scheduler y workers
Ejemplo Pandas DataFrame:
import pandas as pd import dask.dataframe as dd
df = pd.read_csv('2015-01-01.csv') df = dd.read_csv('2015-*-*.csv')
df.groupby(df.user_id).value.mean() df.groupby(df.user_id).value.mean().compute()

-
HTC
Intel en 2017 desarrolla una distribución Python para sacar rendimiento a microprocesadores
multicore. Soporte Intel KNL y microprocesadores Xeon Phi.
Acuerdo con Continuum, con la integración de Anaconda.
Standalone es Free.
Proyectos usando PyData en CIAI
- Proceso ETL (extraer, transformar y cargar). Los equipos de aerosoles insitu. La
BBDD está en PostgreSQL
- MAAP50 y MAAP100 - NEPH
- APS - AETHAL
- TEOM - BETA
- Datos Meteo-Toma
- Tras acuerdo se envía datos del PM10 del TEOM (media horarias) al IAC
- Envío automático de datos al Nilu del NEPH y el MAAP50. <- Javi y Nestor
- Creación web de monitorización y explotación de los datos. <- Rocío,Néstor y Javi
PyAOS - Python for the Atmospheric and Oceanic
Sciences
Web donde podréis encontrar mucho recursos para temas atmosférico.
http://pyaos.johnny-lin.com

http://pyaos.johnny-lin.com
Enlaces de interes
Formación.
https://www.codecademy.com/
https://www.udemy.com
http://www.edx.com

Librerías
https://pydata.org/downloads.html

HPC
http://dask.pydata.org
https://software.intel.com/en-us/intel-distribution-for-python
¿¿¿PREGUNTAS???

Los científicos se esfuerzan por hacer

posible lo imposible.
Los políticos, por hacer imposible lo posible.
Bertrand Russell

También podría gustarte

Python, Aprendiendo a Utilizar Python
De Everand
Python, Aprendiendo a Utilizar Python
Luis Brito
Aún no hay calificaciones
Tkinter Manual
Aún no hay calificaciones
Tkinter Manual
87 páginas
Manual de Kivy Basico 1
Aún no hay calificaciones
Manual de Kivy Basico 1
4 páginas
Clase 3 Numpy Pandas
Aún no hay calificaciones
Clase 3 Numpy Pandas
16 páginas
Big data, machine learning y data science en python
De Everand
Big data, machine learning y data science en python
José Manuel Ortega
Aún no hay calificaciones
Introduccion Python
Aún no hay calificaciones
Introduccion Python
44 páginas
Aprende a Programar a Python
De Everand
Aprende a Programar a Python
Ángel Arias
Aún no hay calificaciones
Análisis de datos con Power Bi, R-Rstudio y Knime
De Everand
Análisis de datos con Power Bi, R-Rstudio y Knime
Jorge Fernando Betancourt
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
Aún no hay calificaciones
Introducción A Pandas para Análisis de Series Temporales
46 páginas
If o Condicional en Python - Año 2023
100% (1)
If o Condicional en Python - Año 2023
57 páginas
Python Numpy
Aún no hay calificaciones
Python Numpy
14 páginas
Introduccion Spyder
Aún no hay calificaciones
Introduccion Spyder
13 páginas
Consulta Scraping Python
Aún no hay calificaciones
Consulta Scraping Python
1 página
Programa Curso Python
Aún no hay calificaciones
Programa Curso Python
3 páginas
Pyqt Es
Aún no hay calificaciones
Pyqt Es
12 páginas
Analítica de Datos
Aún no hay calificaciones
Analítica de Datos
50 páginas
Big Data Con Python 2 18
Aún no hay calificaciones
Big Data Con Python 2 18
1 página
Algoritmos y Estructuras PDF
0% (3)
Algoritmos y Estructuras PDF
55 páginas
Kivy
100% (1)
Kivy
26 páginas
Curso Practico Python
Aún no hay calificaciones
Curso Practico Python
9 páginas
02 - Ejercicios de Clases Con Python
Aún no hay calificaciones
02 - Ejercicios de Clases Con Python
1 página
Matplotlib, Introducción a la Visualización 2D, Parte I
De Everand
Matplotlib, Introducción a la Visualización 2D, Parte I
Luis Brito
Aún no hay calificaciones
Ejercicios de Programación en Python
Aún no hay calificaciones
Ejercicios de Programación en Python
1 página
Curso Maestro de Python 3 Aprende Desde Cero Udemy
Aún no hay calificaciones
Curso Maestro de Python 3 Aprende Desde Cero Udemy
16 páginas
Sílabo Especialización Analítica en Ciencia de Datos Con Python - N
Aún no hay calificaciones
Sílabo Especialización Analítica en Ciencia de Datos Con Python - N
26 páginas
10 TKinter
Aún no hay calificaciones
10 TKinter
25 páginas
Python - de Hola Mundo A Conexiones DB
Aún no hay calificaciones
Python - de Hola Mundo A Conexiones DB
204 páginas
Tutorial Python 3.5.1 Completo
Aún no hay calificaciones
Tutorial Python 3.5.1 Completo
112 páginas
Practica 3 Simulink
Aún no hay calificaciones
Practica 3 Simulink
51 páginas
Flask Usando Docker
Aún no hay calificaciones
Flask Usando Docker
3 páginas
14 Data Mart
100% (1)
14 Data Mart
6 páginas
Taller POO en Python
Aún no hay calificaciones
Taller POO en Python
1 página
Estadistica Con Python I PDF
100% (1)
Estadistica Con Python I PDF
30 páginas
Guía de Instalación y Uso PyCLIPS
50% (2)
Guía de Instalación y Uso PyCLIPS
3 páginas
Programación Orientado A Objetos Semana4
Aún no hay calificaciones
Programación Orientado A Objetos Semana4
42 páginas
Guia de Mysql Workbench 5.2
Aún no hay calificaciones
Guia de Mysql Workbench 5.2
16 páginas
Programación Estructurada en Lenguajes de Alto Nivel PDF
100% (1)
Programación Estructurada en Lenguajes de Alto Nivel PDF
29 páginas
Librería Pandas Python
100% (1)
Librería Pandas Python
86 páginas
Funciones en Python
Aún no hay calificaciones
Funciones en Python
8 páginas
Tema 2 Licenciamiento Del Software
Aún no hay calificaciones
Tema 2 Licenciamiento Del Software
4 páginas
Base de Datos 1 2023
Aún no hay calificaciones
Base de Datos 1 2023
44 páginas
Spark para Dummies
Aún no hay calificaciones
Spark para Dummies
6 páginas
PYTHON
Aún no hay calificaciones
PYTHON
9 páginas
Teoria de Los Lenguajes de Programacion 1
Aún no hay calificaciones
Teoria de Los Lenguajes de Programacion 1
10 páginas
Python Funciones
Aún no hay calificaciones
Python Funciones
16 páginas
Numpy
Aún no hay calificaciones
Numpy
137 páginas
Fundamentos de Python
Aún no hay calificaciones
Fundamentos de Python
32 páginas
Creación de Una Interfaz Gráfica Con Python en Digsilent PowerFactory
100% (1)
Creación de Una Interfaz Gráfica Con Python en Digsilent PowerFactory
18 páginas
Clase #2, Semana 2. Introduccion A Python
Aún no hay calificaciones
Clase #2, Semana 2. Introduccion A Python
9 páginas
Introducción A La Visión Artificial
Aún no hay calificaciones
Introducción A La Visión Artificial
45 páginas
Clase - Librería Numpy
Aún no hay calificaciones
Clase - Librería Numpy
41 páginas
Web Scraping Con Python Ejemplo
100% (2)
Web Scraping Con Python Ejemplo
4 páginas
25 PYTHON Parte 3
100% (1)
25 PYTHON Parte 3
33 páginas
Módulo 6: Copia de Seguridad de Bases de Datos: Contenido
Aún no hay calificaciones
Módulo 6: Copia de Seguridad de Bases de Datos: Contenido
76 páginas
11 Matrices
Aún no hay calificaciones
11 Matrices
30 páginas
Django
Aún no hay calificaciones
Django
12 páginas
Guia Rapida de ARIS
50% (4)
Guia Rapida de ARIS
47 páginas
Python Computacion en Ingenieria
Aún no hay calificaciones
Python Computacion en Ingenieria
30 páginas
Apuntes de Algoritmos
Aún no hay calificaciones
Apuntes de Algoritmos
81 páginas
Matplotlib, Introducción a la Visualización 2D, Parte II
De Everand
Matplotlib, Introducción a la Visualización 2D, Parte II
Luis Brito
Aún no hay calificaciones
Esquema y Cálculo de Fuente de Poderdef
Aún no hay calificaciones
Esquema y Cálculo de Fuente de Poderdef
2 páginas
Protocolos de Red
Aún no hay calificaciones
Protocolos de Red
3 páginas
PCYM Leona Vicario SF6 Bco1+Mvar+STATCOM 1 de 3
Aún no hay calificaciones
PCYM Leona Vicario SF6 Bco1+Mvar+STATCOM 1 de 3
17 páginas
Ejercicios 1
Aún no hay calificaciones
Ejercicios 1
41 páginas
Unidad 3
Aún no hay calificaciones
Unidad 3
12 páginas
Imo SMT Ed R20
Aún no hay calificaciones
Imo SMT Ed R20
9 páginas
GÓMEZ MARTÍNEZ_ZAIRA_R5_U3
Aún no hay calificaciones
GÓMEZ MARTÍNEZ_ZAIRA_R5_U3
3 páginas
Amp Op 1000w
Aún no hay calificaciones
Amp Op 1000w
10 páginas
Autoalimentado
Aún no hay calificaciones
Autoalimentado
9 páginas
4.3.8 Packet Tracer - Configure Layer 3 Switching and Inter-VLAN Routing
Aún no hay calificaciones
4.3.8 Packet Tracer - Configure Layer 3 Switching and Inter-VLAN Routing
9 páginas
Giswater34 Usersmanual Es
Aún no hay calificaciones
Giswater34 Usersmanual Es
195 páginas
Captura de Tramas Ethernet Con Wireshark
Aún no hay calificaciones
Captura de Tramas Ethernet Con Wireshark
6 páginas
MOTOROLA Moto G20 128gb 4gb Ram
Aún no hay calificaciones
MOTOROLA Moto G20 128gb 4gb Ram
1 página
Para Uso de MATLAB en AM - Coseno TEMA 2
Aún no hay calificaciones
Para Uso de MATLAB en AM - Coseno TEMA 2
3 páginas
Módulo 2. Cómo Nos Ayudan Los Algoritmos
Aún no hay calificaciones
Módulo 2. Cómo Nos Ayudan Los Algoritmos
32 páginas
Manual Control Remoto Anycon: Mayo de 2021
Aún no hay calificaciones
Manual Control Remoto Anycon: Mayo de 2021
25 páginas
Examen Introduccion
Aún no hay calificaciones
Examen Introduccion
5 páginas
Test de Sistemas PDF
Aún no hay calificaciones
Test de Sistemas PDF
2 páginas
Untitled
Aún no hay calificaciones
Untitled
18 páginas
Informe Logicos
Aún no hay calificaciones
Informe Logicos
34 páginas
Manual de Configuracion de Los Navegadores
Aún no hay calificaciones
Manual de Configuracion de Los Navegadores
36 páginas
Evaluacion Continua 1 - Word12052023
Aún no hay calificaciones
Evaluacion Continua 1 - Word12052023
7 páginas
Grupo 9 Fase6
Aún no hay calificaciones
Grupo 9 Fase6
18 páginas
TP 6 - Parte 1 y 2
Aún no hay calificaciones
TP 6 - Parte 1 y 2
4 páginas
Sensor de Presion en Arduino
Aún no hay calificaciones
Sensor de Presion en Arduino
4 páginas
Programacion Switch Cisco
Aún no hay calificaciones
Programacion Switch Cisco
2 páginas
Ficha tecnica Enersafe rack 1-2-3 KVA
Aún no hay calificaciones
Ficha tecnica Enersafe rack 1-2-3 KVA
2 páginas
Guia Práctica 2e2 - 2022-Ii
Aún no hay calificaciones
Guia Práctica 2e2 - 2022-Ii
6 páginas
Cakewalk Reference Guide-101-200.en - Es
Aún no hay calificaciones
Cakewalk Reference Guide-101-200.en - Es
100 páginas
Estructura Lógica de Un Disco Duro
100% (1)
Estructura Lógica de Un Disco Duro
4 páginas