Data Sets
Data Sets
DATASETS
ING. ANDREA PILCO ATI MSC.
PYTHON
• Python es un lenguaje de scripting orientado a objetos que se lanzó públicamente en 1991. Fue
desarrollado por Guido van Rossum del Instituto Nacional de Investigación de Matemáticas e
Informática en Amsterdam.
CARACTERÍSTICAS
• Interpretado. Para su ejecución utiliza un programa intermedio llamado intérprete,
es decir no se genera un código en lenguaje máquina que pueda ser ejecutado
directamente por la computadora.
• Tipado dinámico. No es necesario declarar el tipo de dato de una determinada
variable ya que éste se determinará en tiempo de ejecución y además el tipo de
variable puede cambiar si se le asigna un valor de otro tipo.
• Orientado a objetos. La orientación a objetos es un paradigma de programación en
el que los conceptos del mundo real se trasladan a clases y objetos en un programa.
El flujo del programa está compuesto de una serie de interacciones entre los objetos.
CARACTERÍSTICAS
• Fuertemente tipado. Una variables de cierto tipo no se puede utilizar como
si fuera de un tipo distinto, es necesario convertir de forma explícita la
variable al otro tipo.
• Multiplataforma. El intérprete de Python está disponible en multitud de
plataformas (Linux, Windows, Mac OS, etc.) por lo que si no utilizamos
librerías específicas de cada plataforma nuestro programa podrá funcionar
en todos estos sistemas sin complicaciones.
TRABAJAR CON PYTHON
• Para poder programar con Python existen varias opciones
1.- Instalar el intérprete de Python en nuestro equipo, escribir los programas en un
editor de texto y ejecutar los códigos como scripts.
2.- Utilizar una suite como Anaconda, que permite crear ambientes de instalación
aislados y que incluye una gran cantidad de bibliotecas relacionadas con ciencias
de datos.
3.- Utilizar un servicio basado en la nube, como Google Colab lo que permitirá
tener varias herramientas listas, sin necesidad de instalar nada en la computadora.
GOOGLE COLAB
• Es un entorno interactivo desarrollado por Google que permite ejecutar
código en la nube. Entre sus principales características es que no se
requiere ninguna configuración previa, es fácil de compartir y que incluye
gran cantidad de bibliotecas listas para usarse. También ofrece un servicio
gratuito, aunque temporal, para utilizar una tarjeta acelerador de gráficos
(GPU).
BIBLIOTECAS
Numpy: Esta biblioteca permite trabajar con arreglos multidimensionales de
alta eficiencia y diseñados para cálculo científico.
https://numpy.org
Matplotlib: Esta biblioteca es utilizada para la generación de gráficos a partir
en Python
https://matplotlib.org
BIBLIOTECAS
Pandas: Pandas es una librería de Python especializada en el manejo y
análisis de estructuras de datos. Permite acceder a los datos mediante índices
o nombres para filas y columnas.
https://aprendeconalf.es/docencia/python/manual/pandas/
EJEMPLO
TITANIC DATASET:
• La competencia es simple: use el aprendizaje automático para crear un
modelo que prediga qué pasajeros sobrevivieron al naufragio del Titanic.
https://www.kaggle.com/competitions/titanic/data?select=test.csv