Herramientas Open Source
Herramientas Open Source
ABIERTOS CON
HERRAMIENTAS
OPEN SOURCE
(Parte 1)
¿QUÉ ES?
El análisis de datos es un proceso sistemático
que permite transformar información en
bruto en conocimiento valioso, facilitando:
Toma de decisiones informadas.
Identificación de patrones y tendencias. PRIMEROS PASOS DEL PROCESO
Comprensión profunda de conjuntos INTEGRAL DE ANÁLISIS DE DATOS
de datos complejos.
Depuración de datos
Conversión de datos
Análisis de datos
Ejemplos de herramientas
COMPLETAMENTE GRATIS EN SU
GRATUITA VERSIÓN BÁSICA
OpenRefine Talend Open Studio
Limpieza y transformación de datos. Herramienta ETL
Ofrece una interfaz gráfica e intuitiva (Extraer, Transformar, Cargar).
que es multiplataforma (requiere Java). (!) Requiere conocimientos intermedios
Detecta: de programación.
• Duplicidades Permite:
• Datos incompletos • Programación por componentes
• Inconsistencias estructurales • Integral datos de múltiples fuentes
2. Conversión de datos
Ejemplos de herramientas
COMPLETAMENTE COMPLETAMENTE
GRATUITA GRATUITA
Mr Data Converter Tabula
• Conversión entre formatos CSV, • Extracción de tablas desde PDF
Excel, JSON, HTM, XLM • Convierte documentos en formatos
• Interfaz web sencilla reutilizables
• Sin instalación requerida • Útil para informes y documentación
oficial
COMPLETAMENTE
GRATUITA
Pandoc
• Conversión universal de documentos
• Soporta más de 20 formatos
diferentes
• Línea de comandos potente
3. Análisis de datos
Entornos de desarrollo
COMPLETAMENTE GRATIS EN SU
GRATUITA VERSIÓN BÁSICA
Jupyter Notebook RStudio
• Documentos ejecutables • Entorno completo para lenguaje R
• Combinación de código, visualizaciones • Integración de consola, editor y
y narrativa visualización
• Soporta múltiples lenguajes • Herramientas estadísticas
• Ideal para reproducibilidad avanzadas
Herramientas emergentes
COMPLETAMENTE COMPLETAMENTE
GRATUITA GRATUITA
Streamlit Polars
• Creación rápida de aplicaciones • Alto rendimiento
web de datos • Alternativa optimizada de pandas
• Solo requiere Python • Procesamiento paralelo
• Prototipado veloz de dashboards
» En este ejercicio práctico lo
utilizamos para crear un chat
de datos públicos.
COMPLETAMENTE
GRATUITA
Apache Spark
• Procesamiento distribuido
• Para Big data
• APIs en Python, R y Scala
Recomendación
Comienza con herramientas sencillas como Jupyter y Python,
y gradualmente explora opciones más avanzadas según tus
necesidades de análisis.