Data Analysis With Python
Data Analysis With Python
Como les dije antes, soy instructor en RMOTR. Si desea obtener más información sobre Python
y la ciencia de datos, ¡visítenos!
Déjame contarte un poco más sobre RMOTR: somos una academia de ciencia de datos práctica
en línea. Nos especializamos en ciencia de datos, incluido el análisis de datos, la programación
y el aprendizaje automático. Tenemos un catálogo de cursos completo y agregamos más
contenido cada mes.
Si está interesado en aprender ciencia de datos o análisis de datos, ¡visítenos!
Como parte de este esfuerzo conjunto entre freecodecamp y RMOTR, puede obtener un 10%
de descuento en su primer mes utilizando el siguiente cupón de descuento.
Hay dos secciones más que quiero señalar especialmente. La primera es la Sección nº 3,
“Tutorial de Jupyter”. Esto no es obligatorio, puede omitirlo si ya sabe cómo usar Jupyter
Notebooks.
La primera parte del proceso de análisis de datos suele ser tediosa, comienza recopilando los
datos, limpiándolos y transformándolos para su posterior análisis.
Aquí es donde sobresalen Python y las herramientas PyData. Usaremos Pandas para leer,
limpiar y transformar nuestros datos.
Modelar datos significa adaptar escenarios de la vida real a los sistemas de información. Usar
estadísticas inferenciales para ver si surgen patrones o modelos. Para ello, utilizaremos las
funciones de análisis estadístico de Pandas y visualizaciones de Matplotlib y Seaborn.
Una vez que hayamos procesado los datos y los modelemos, intentaremos sacar conclusiones
a partir de ellos. Encuentre patrones o anomalías interesantes que puedan surgir. La palabra
"información" es clave. Estamos transformando datos en información. Nuestros datos pueden
ser una lista enorme de todas las compras realizadas en Walmart en el último año. La
información será algo como: "pop-tarts se venden mejor los martes"
Este es el objetivo final del análisis de datos. Necesitamos proporcionar evidencia de nuestros
hallazgos, crear informes y paneles legibles y ayudar a otros departamentos con la información
que hemos recopilado. Varios actores utilizarán su análisis: marketing, ventas, contabilidad,
ejecutivos, etc. Es posible que necesiten ver diferentes "vistas" de la misma información. Es
posible que todos necesiten informes o niveles de detalle diferentes.
La principal ventaja de las herramientas cerradas como Tableau o Excel es que, en general, son
fáciles de aprender. Existe una empresa que redacta la documentación, brinda apoyo e
impulsa la creación del producto. La mayor desventaja es que el alcance de la herramienta es
limitado, no puede cruzar sus límites.
When to choose R?
No podríamos estar hablando de análisis de datos sin mencionar R. R también es un gran
lenguaje de programación. Preferimos Python porque es más fácil comenzar y más "general"
en las bibliotecas y herramientas que incluye. R tiene una enorme biblioteca de funciones
estadísticas, y si estás en una disciplina altamente técnica, deberías revisarla.
Data Extraction
El proceso comienza con la obtención de los datos. ¿De dónde provienen sus datos? Por lo
general, está en su propia base de datos. Pero también podría provenir de archivos
almacenados en diferentes formatos o API web.
Data Cleaning
Una vez que hayamos recopilado los datos, tendremos que limpiarlos. Si la fuente de los datos
es su propia base de datos, probablemente ya esté en forma. Si utiliza fuentes más extremas,
como web scraping, el proceso será más tedioso.
Data Wrangling
Con nuestros datos limpios, ahora tendremos que reorganizar y remodelar los datos para un
mejor análisis. Transformar campos, fusionar tablas, combinar datos de múltiples fuentes, etc.
El objetivo de este proceso es preparar los datos para el siguiente paso.
Analysis
El proceso de análisis implica extraer patrones de los datos que ahora están limpios y en
forma. Captura de tendencias o anomalías. El análisis estadístico será fundamental en este
proceso.
Action
Finalmente, es hora de hacer algo con ese análisis. Si este fuera un proyecto de ciencia de
datos, podríamos estar listos para implementar modelos de aprendizaje automático. Si nos
centramos estrictamente en el análisis de datos, probablemente necesitemos crear informes,
comunicar nuestros resultados y respaldar la toma de decisiones.
Permítanme terminar diciendo que, en la vida real, este proceso no es tan lineal. Por lo
general, saltamos hacia adelante y hacia atrás entre los pasos y parece más un ciclo que una
línea recta.
Los límites entre el análisis de datos y la ciencia de datos no están muy claros. Las principales
diferencias son que los científicos de datos suelen tener más habilidades de programación y
matemáticas. Luego, pueden aplicar estas habilidades en procesos de aprendizaje automático
y ETL.
Los analistas de datos, por otro lado, tienen mejores habilidades de comunicación, creando
mejores informes, con habilidades de narración más fuertes.
Fuente:
https://notebooks.ai/santiagobasulto/radar-chart-data-science-vs-data-analysis-ad638c75
Python & PyData Ecosystem
Exploremos el ecosistema de Python y PyData. Todas las herramientas y bibliotecas que
usaremos.
pandas: la piedra angular de nuestro trabajo de análisis de datos con Python
matplotlib: la biblioteca fundamental para visualizaciones. Otras bibliotecas que usaremos se
crearán sobre matplotlib.
numpy: la biblioteca numérica que sirve como base de todos los cálculos en Python.
seaborn: una herramienta de visualización estadística construida sobre matplotlib.
statsmodels: una biblioteca con muchas funciones estadísticas avanzadas.
scipy: Computación científica avanzada, que incluye funciones de optimización, álgebra lineal,
procesamiento de imágenes y mucho más.
scikit-learn: la biblioteca de aprendizaje automático más popular para Python (no aprendizaje
profundo)
Las bibliotecas más importantes que usaremos son Pandas para análisis de datos y Matplotlib
y Seaborn para visualizaciones. Pero el ecosistema es grande y hay muchas bibliotecas útiles
para casos de uso específicos.
Por el contrario, cuando trabajamos con Python, no tenemos una referencia visual constante
de los datos con los que estamos trabajando. Sabemos que está ahí, sabemos cómo se ve,
conocemos sus principales propiedades estadísticas, pero no lo miramos constantemente. Esto
nos permite trabajar con millones de registros increíblemente rápido. Esto también significa
que puede mover sus procesos de análisis de datos a otras computadoras, por ejemplo, en la
nube, sin muchos gastos generales.
Y finalmente, ¿por qué le gustaría agregar Python a sus habilidades de análisis de datos?
Aparte de las ventajas de la libertad y el poder, existe una razón importante:
Según PayScale, los analistas de datos que conocen Python y SQL están mejor pagados que los
que no saben cómo utilizar las herramientas de programación.
¡Eso es todo! ¡Empecemos! En la siguiente sección, le mostraremos un ejemplo del mundo real
de análisis de datos con Python. Queremos que vea, de inmediato, lo que podrá hacer
DESPUÉS de este tutorial.