0% encontró este documento útil (0 votos)
161 vistas8 páginas

Data Analysis With Python

Este documento presenta un tutorial sobre análisis de datos con Python. Introduce el proceso de análisis de datos, incluyendo la extracción, limpieza, transformación y modelado de datos para descubrir información útil. Explica por qué Python es una buena herramienta para el análisis de datos debido a su simplicidad, bibliotecas como Pandas y comunidad de código abierto. Finalmente, describe las principales herramientas del ecosistema PyData como Pandas, Matplotlib, NumPy y Scikit-learn que se utilizarán en el anális
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
161 vistas8 páginas

Data Analysis With Python

Este documento presenta un tutorial sobre análisis de datos con Python. Introduce el proceso de análisis de datos, incluyendo la extracción, limpieza, transformación y modelado de datos para descubrir información útil. Explica por qué Python es una buena herramienta para el análisis de datos debido a su simplicidad, bibliotecas como Pandas y comunidad de código abierto. Finalmente, describe las principales herramientas del ecosistema PyData como Pandas, Matplotlib, NumPy y Scikit-learn que se utilizarán en el anális
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
Está en la página 1/ 8

Data Analysis with Python

Muy bien, ¡comencemos!


Bienvenido a nuestro tutorial Análisis de datos con Python.
Mi nombre es Santiago y soy instructor en RMOTR.com, una academia de ciencia de datos en
línea. Este tutorial es el resultado de un esfuerzo conjunto de RMOTR y freecodecamp y es
totalmente gratuito. Incluye diapositivas, cuadernos de Jupyter y ejercicios de codificación.

Como les dije antes, soy instructor en RMOTR. Si desea obtener más información sobre Python
y la ciencia de datos, ¡visítenos!
Déjame contarte un poco más sobre RMOTR: somos una academia de ciencia de datos práctica
en línea. Nos especializamos en ciencia de datos, incluido el análisis de datos, la programación
y el aprendizaje automático. Tenemos un catálogo de cursos completo y agregamos más
contenido cada mes.
Si está interesado en aprender ciencia de datos o análisis de datos, ¡visítenos!

Como parte de este esfuerzo conjunto entre freecodecamp y RMOTR, puede obtener un 10%
de descuento en su primer mes utilizando el siguiente cupón de descuento.

Repasemos rápidamente el contenido de este tutorial. En la descripción de este video, hemos


incluido enlaces directos a cada sección, para que pueda pasar de una a otra.
Esta es la primera sección y vamos a discutir qué es el análisis de datos. También hablaremos
sobre el análisis de datos * con Python * y por qué las herramientas de programación como
Python, SQL y Pandas son importantes.

En la siguiente sección, le mostraremos un ejemplo real de análisis de datos usando Python,


para que pueda ver su poder. No "explicaremos" las herramientas en detalle, es solo una
demostración rápida para que comprenda de qué se trata este tutorial. Las siguientes
secciones serán las que expliquen cada herramienta en detalle.

Hay dos secciones más que quiero señalar especialmente. La primera es la Sección nº 3,
“Tutorial de Jupyter”. Esto no es obligatorio, puede omitirlo si ya sabe cómo usar Jupyter
Notebooks.

Y también la última sección, Python en menos de 10 minutos. Esto es solo un resumen de


Python si vienes de otros lenguajes. Es posible que desee tomar esto PRIMERO si ese es el
caso. Nuevamente, puede usar los enlaces en la descripción del video para ir directamente a
él.

What is Data Analysis

Un proceso de inspección, limpieza, transformación y modelado de datos con el objetivo de


descubrir información útil, informar conclusiones y respaldar la toma de decisiones.

La primera parte del proceso de análisis de datos suele ser tediosa, comienza recopilando los
datos, limpiándolos y transformándolos para su posterior análisis.
Aquí es donde sobresalen Python y las herramientas PyData. Usaremos Pandas para leer,
limpiar y transformar nuestros datos.
Modelar datos significa adaptar escenarios de la vida real a los sistemas de información. Usar
estadísticas inferenciales para ver si surgen patrones o modelos. Para ello, utilizaremos las
funciones de análisis estadístico de Pandas y visualizaciones de Matplotlib y Seaborn.

Una vez que hayamos procesado los datos y los modelemos, intentaremos sacar conclusiones
a partir de ellos. Encuentre patrones o anomalías interesantes que puedan surgir. La palabra
"información" es clave. Estamos transformando datos en información. Nuestros datos pueden
ser una lista enorme de todas las compras realizadas en Walmart en el último año. La
información será algo como: "pop-tarts se venden mejor los martes"

Este es el objetivo final del análisis de datos. Necesitamos proporcionar evidencia de nuestros
hallazgos, crear informes y paneles legibles y ayudar a otros departamentos con la información
que hemos recopilado. Varios actores utilizarán su análisis: marketing, ventas, contabilidad,
ejecutivos, etc. Es posible que necesiten ver diferentes "vistas" de la misma información. Es
posible que todos necesiten informes o niveles de detalle diferentes.

Data Analysis Tools


¿Qué herramientas están disponibles hoy para el análisis de datos?
Hemos dividido esto en 2 categorías principales: "herramientas administradas
automáticamente" son productos cerrados.
Herramientas que puede comprar y comenzar a usar de inmediato. Excel es un buen ejemplo.
Tableau y Looker son probablemente los más populares para el análisis de datos.

En el otro extremo, tenemos lo que llamamos “lenguajes de programación”, o podríamos


llamarlos “herramientas abiertas”. Estos no los vende ningún proveedor individual, pero son
una combinación de idiomas, bibliotecas de código abierto y productos. Python, R y Julia son
los más populares en esta categoría.

Exploremos las ventajas y desventajas de ellos.

La principal ventaja de las herramientas cerradas como Tableau o Excel es que, en general, son
fáciles de aprender. Existe una empresa que redacta la documentación, brinda apoyo e
impulsa la creación del producto. La mayor desventaja es que el alcance de la herramienta es
limitado, no puede cruzar sus límites.

Por el contrario, el uso de Python y el universo de herramientas de PyData le brinda una


flexibilidad asombrosa. ¿Necesita leer datos de una API cerrada utilizando autenticación de
clave secreta? Puedes hacerlo. ¿Necesita consumir datos directamente desde AWS Kinesis?
Puedes hacerlo. Un lenguaje de programación es la herramienta más poderosa que puede
aprender. Otra ventaja importante es el alcance general de un lenguaje de programación.
¿Qué sucede si Tableau, por ejemplo, deja de funcionar? ¿O si simplemente te aburres y
sientes que tu carrera está estancada? Aprender a procesar datos utilizando un lenguaje de
programación le da libertad.

La principal desventaja de un lenguaje de programación es que no es tan fácil de aprender


como con una herramienta. Primero debe aprender los conceptos básicos de la codificación, y
lleva tiempo.
Why Python for Data Analysis?
¿Por qué elegimos Python para realizar análisis de datos?

Python es el mejor lenguaje de programación para aprender a codificar. Es simple, intuitivo y


legible. Incluye miles de bibliotecas para hacer prácticamente cualquier cosa, desde
criptografía hasta IoT.
Python es gratuito y de código abierto. Eso significa que hay miles de ojos, personas muy
inteligentes que ven los aspectos internos del lenguaje y las bibliotecas. Desde Google hasta
Bank of America, las principales instituciones confían en Python todos los días, lo que significa
que es muy difícil que desaparezca.

Finalmente, Python tiene un gran espíritu de código abierto. La comunidad es asombrosa. La


documentación es exhaustiva y hay muchos tutoriales gratuitos. Busque conferencias en su
área, es muy probable que haya un grupo local de desarrolladores de Python en su ciudad.

When to choose R?
No podríamos estar hablando de análisis de datos sin mencionar R. R también es un gran
lenguaje de programación. Preferimos Python porque es más fácil comenzar y más "general"
en las bibliotecas y herramientas que incluye. R tiene una enorme biblioteca de funciones
estadísticas, y si estás en una disciplina altamente técnica, deberías revisarla.

The Data Analysis Process


Repasemos rápidamente el proceso de análisis de datos.

Data Extraction
El proceso comienza con la obtención de los datos. ¿De dónde provienen sus datos? Por lo
general, está en su propia base de datos. Pero también podría provenir de archivos
almacenados en diferentes formatos o API web.
Data Cleaning
Una vez que hayamos recopilado los datos, tendremos que limpiarlos. Si la fuente de los datos
es su propia base de datos, probablemente ya esté en forma. Si utiliza fuentes más extremas,
como web scraping, el proceso será más tedioso.
Data Wrangling

Con nuestros datos limpios, ahora tendremos que reorganizar y remodelar los datos para un
mejor análisis. Transformar campos, fusionar tablas, combinar datos de múltiples fuentes, etc.
El objetivo de este proceso es preparar los datos para el siguiente paso.

Analysis
El proceso de análisis implica extraer patrones de los datos que ahora están limpios y en
forma. Captura de tendencias o anomalías. El análisis estadístico será fundamental en este
proceso.
Action
Finalmente, es hora de hacer algo con ese análisis. Si este fuera un proyecto de ciencia de
datos, podríamos estar listos para implementar modelos de aprendizaje automático. Si nos
centramos estrictamente en el análisis de datos, probablemente necesitemos crear informes,
comunicar nuestros resultados y respaldar la toma de decisiones.
Permítanme terminar diciendo que, en la vida real, este proceso no es tan lineal. Por lo
general, saltamos hacia adelante y hacia atrás entre los pasos y parece más un ciclo que una
línea recta.

Data Analysis Vs Data Science


¿Cuál es la diferencia entre el análisis de datos y la ciencia de datos?

Los límites entre el análisis de datos y la ciencia de datos no están muy claros. Las principales
diferencias son que los científicos de datos suelen tener más habilidades de programación y
matemáticas. Luego, pueden aplicar estas habilidades en procesos de aprendizaje automático
y ETL.
Los analistas de datos, por otro lado, tienen mejores habilidades de comunicación, creando
mejores informes, con habilidades de narración más fuertes.

Fuente:
https://notebooks.ai/santiagobasulto/radar-chart-data-science-vs-data-analysis-ad638c75
Python & PyData Ecosystem
Exploremos el ecosistema de Python y PyData. Todas las herramientas y bibliotecas que
usaremos.
pandas: la piedra angular de nuestro trabajo de análisis de datos con Python
matplotlib: la biblioteca fundamental para visualizaciones. Otras bibliotecas que usaremos se
crearán sobre matplotlib.
numpy: la biblioteca numérica que sirve como base de todos los cálculos en Python.
seaborn: una herramienta de visualización estadística construida sobre matplotlib.
statsmodels: una biblioteca con muchas funciones estadísticas avanzadas.
scipy: Computación científica avanzada, que incluye funciones de optimización, álgebra lineal,
procesamiento de imágenes y mucho más.
scikit-learn: la biblioteca de aprendizaje automático más popular para Python (no aprendizaje
profundo)

Las bibliotecas más importantes que usaremos son Pandas para análisis de datos y Matplotlib
y Seaborn para visualizaciones. Pero el ecosistema es grande y hay muchas bibliotecas útiles
para casos de uso específicos.

How Python Data Analysts Think

¿Cómo piensan los analistas de datos de Python?


Si viene de un lugar tradicional de análisis de datos que utiliza herramientas como Excel y
tableau, probablemente esté acostumbrado a tener una referencia visual constante de sus
datos. Todas las herramientas son "apuntar y hacer clic". Esto funciona muy bien para una
pequeña cantidad de datos, pero es menos útil cuando aumenta la cantidad de registros. Es
simplemente imposible para los humanos hacer referencia visual a demasiados datos y el
procesamiento se vuelve increíblemente lento.

Por el contrario, cuando trabajamos con Python, no tenemos una referencia visual constante
de los datos con los que estamos trabajando. Sabemos que está ahí, sabemos cómo se ve,
conocemos sus principales propiedades estadísticas, pero no lo miramos constantemente. Esto
nos permite trabajar con millones de registros increíblemente rápido. Esto también significa
que puede mover sus procesos de análisis de datos a otras computadoras, por ejemplo, en la
nube, sin muchos gastos generales.

Y finalmente, ¿por qué le gustaría agregar Python a sus habilidades de análisis de datos?
Aparte de las ventajas de la libertad y el poder, existe una razón importante:

Según PayScale, los analistas de datos que conocen Python y SQL están mejor pagados que los
que no saben cómo utilizar las herramientas de programación.
¡Eso es todo! ¡Empecemos! En la siguiente sección, le mostraremos un ejemplo del mundo real
de análisis de datos con Python. Queremos que vea, de inmediato, lo que podrá hacer
DESPUÉS de este tutorial.

Data Analysis Example A

Comenzaremos este tutorial trabajando con un ejemplo real de análisis y procesamiento de


datos con Python. No vamos a entrar en detalles, pero las siguientes secciones explicarán qué
hace cada una de las herramientas y cuál es la mejor manera de hacerlo. aplicarlos
combinados y los detalles de ellos en general, esto es solo para que tenga una referencia
rápida y de alto nivel de nuestros procesos diarios analista de datos administradores de datos
científicos de datos que usan Python para el primer conjunto de datos que vamos para usar es
un archivo CSV que tiene este formulario, puede encontrarlo aquí, debajo del directorio de
datos, los datos que vamos a usar son los que acabo de transformar en una hoja de cálculo
para que podamos prácticamente mírelo desde una perspectiva más visual, pero recuerde,
como dijimos en la introducción, ya que los analistas de datos no miraban constantemente los
datos correctamente, no tenemos una referencia visual constante, estamos más impulsados
por la comprensión de los datos en la parte posterior de nuestra cabeza entendemos cómo se
ven los datos, cuál es su forma y eso es lo que está realizando nuestro análisis, así que lo
primero que vamos a hacer Lo que hacemos es que vamos a leer este CSV en Python y puede
ver lo simple que es solo una línea de código cuando el CSV se lee en Python, le daremos una
referencia rápida y este es el marco de datos que tenemos. creado parece que el marco de
datos es una palabra especial es una estructura de datos especial que usamos en la
herramienta pandas y nuevamente veremos que en detalle en el panel de esta parte de este
tutorial, el marco de datos es más o menos la representación CSV, pero tiene algunas cosas
más impuestas, como por ejemplo, cada columna tiene un tipo de datos estricto y no
podremos cambiar su, etc.es una mejor manera de realizar nuestro análisis, la forma de
nuestro marco de datos nos dice cuántas filas y cuántas columnas tenemos, así que puedes
imaginar que con esta cantidad de filas no es tan simple volver a seguir una representación
visual de, es como si fuera un desplazamiento prácticamente infinito en estos puntos, cien mil
filas, pero la forma en que trabajamos es inmediatamente después de cargar nuestros datos.
tenemos queremos encontrar algún tipo de referencia en la forma y las propiedades de los
datos con los que estábamos trabajando y para eso vamos a hacer primero una información
para comprender rápidamente que las cuentas estaban trabajando en este caso, tenemos la
fecha, que es un campo de hora del día que tener día mes año y eso es simplemente
complementario hasta la fecha tenemos la edad del cliente que es un número entero que tiene
sentido grupo de edad correcto puede decirlo aquí mismo es grupo de edad joven género del
cliente tenemos una idea de nuevo del conjunto de datos completo conocemos las columnas
que tenemos, pero también sabemos qué tan grande es y no nos importa lo que hay en el
medio, probablemente lo estaremos limpiando, pero no necesitamos comenzar a buscar
hermano por fila con nuestros ojos muy limitados. tendremos una mejor comprensión de la
estructura de nuestros datos de esta manera voy un paso más allá también tendremos una
mejor comprensión de las propiedades estadísticas de este archivo de datos con el método
descry para todos esos campos numéricos de los que puedo tener una idea la estadística p
propiedades de esos, por ejemplo, sé que la edad promedio de este conjunto de datos es de
35 años. También sé que la edad máxima en este caso, si se trata de datos de ventas, es de 87
años. Sé que el mínimo es de 17 años y de nuevo, puedo comenzar a construir a partir de mi
comprensión de las propiedades estadísticas de la misma, por lo que en este caso la mediana
de mi edad está muy cerca de la media, así que esto me está diciendo todo esto, diciéndome
algo y lo mismo sucederá para cada una de las columnas que estamos usando, por ejemplo,
tenemos una ganancia negativa aquí y tenemos valores muy grandes aquí Arty está en lo
correcto, tal vez esto sea un error nuevamente. Al tener una vista estadística rápida de
nuestros datos, estaremos impulsando el proceso de una análisis sin la necesidad de mirar
constantemente todas las carreteras que tenemos, es una descripción general más general, así
que comenzaremos con el costo unitario, veamos cómo se ve y cometeremos este crimen solo
si lo necesita costa que es más o menos lo que tenemos En este caso, en lo anterior en esta
línea, lo que hicimos fue para todo el marco de datos para todos los datos; en este caso, solo
nos estamos enfocando en la unidad Costo de la costa, lo siento, común, la media, todos los
campos que ya sabemos bastante de esto y los trazaremos rápidamente, usaremos estas
herramientas para visualizarlos y es la misma herramienta que es indolora que está usando en
la parte superior derecha está usando MATLAB, por lo que la visualización se crea con Mapple
en vivo, pero lo estamos haciendo directamente sin dolor y nuevamente, no se preocupe, todo
esto se explica en las lecciones de pandas, por lo que este es el costo unitario correcto, es lo
que es la caja, pero acabamos de crear, tenemos los bigotes que significan que nos muestra el
primer y tercer cuartil es la mediana y luego vemos todos los valores atípicos que tenemos
aquí, así que vemos que un producto que estudia alrededor de $ 500 se considera un valor
atípico y lo mismo si hacemos un diagrama de densidad correctamente, así que esto es lo que
parece que vamos a dibujar dos gráficos más en los que señalaremos la media y la mediana en
el gráfico de distribución y haremos un histograma rápido de los costos de nuestros productos
en el futuro. vamos a hablar de grupos de edad con t La edad de un cliente y en cualquier
momento siempre podemos hacer algo como el tercer encabezado de las celdas para dar una
referencia rápida. Sabemos que la edad del cliente se expresa en años reales, pero también se
han categorizado con 304 en realidad para grupos de edad adultos mayores jóvenes adultos
jóvenes y adultos correctos, por lo que les hemos dado categorías que fueron creativos para
comprender mejor estos grupos y lo hacemos con valores, valores, contras, podemos obtener
rápidamente un gráfico circular o podríamos obtener un gráfico de barras. Como puede ver
aquí mismo, estamos haciendo un análisis de nuestros datos, vemos que los adultos aquí son
el grupo más grande de nuestros datos, al menos así que avanzando, ¿qué pasa con el análisis
de correlación? ¿Cuál es la correlación entre algunas de nuestras propiedades? probablemente
tendremos alto
correlación, por ejemplo, entre el beneficio y el costo que necesita, por ejemplo, o la cantidad
de pedido que se espera, pero eso es todo algo que podemos hacer aquí, esta es una matriz de
correlación que muestra en rojo una alta correlación, por lo que la cantidad de pedido y el
costo unitario o dónde el beneficio aquí mismo el beneficio está aquí, así que vemos una alta
correlación con la unidad con el costo con el beneficio, no con el beneficio, en realidad, es el
azul opuesto es una correlación alta Lo siento, la diagonal que es azul, su correlación es igual a
uno, por lo que la correlación alta es azul y ver que la ganancia tiene un enorme coral tiene
mucha correlación positiva con el costo unitario y el precio unitario y la correlación negativa es
con la derecha oscura, así que nuevamente podemos tener una idea rápida, veamos, por
ejemplo, aquí la ganancia tiene una correlación negativa con la cantidad del pedido, lo cual es
interesante correcto, queremos profundizar en eso, por supuesto, el beneficio tiene una alta
correlación positiva con los ingresos y, de nuevo, es solo una correlación rápida y un análisis sis
también podemos hacer un diagrama de dispersión rápido para analizar la edad del cliente y el
derecho de los ingresos para ver si existe alguna correlación allí y lo mismo para los ingresos y
los beneficios de este derecho obvio. Podemos dibujar rápidamente una diagonal aquí. Hay
mucha dependencia lineal dependiente entre estos virales, por lo que una forma de algunos
diagramas de caja más en este caso comprende la ganancia por grupo correcto para que
podamos ver cómo será la ganancia cambiará la pintura de la edad del cliente y algunos más
diagramas de caja y estamos creando esta cuadrícula de aquí el costo unitario de la edad del
cliente, etc. para múltiples cosas

También podría gustarte