Tools For The Data Science - Week 3
Tools For The Data Science - Week 3
IBM
En este módulo, conocerá las distintas bibliotecas de la ciencia de datos. Además, comprenderá una API en relación
con la solicitud y la respuesta REST. Además, en el módulo, explorará conjuntos de datos abiertos en el Data Asset
eXchange. Por último, aprenderá a utilizar un modelo de aprendizaje automático para resolver un problema y a
navegar por el Model Asset eXchange.
Objetivos de aprendizaje
▪ Enumere las tareas que debe realizar un científico de datos para construir un modelo.
▪ Enumere las distintas bibliotecas: científica, de visualización, de aprendizaje automático y de aprendizaje
profundo.
▪ Defina la API REST en relación con la solicitud y la respuesta.
▪ Describa los conjuntos de datos y las fuentes de datos.
▪ Explore los conjuntos de datos abiertos en el Data Asset eXchange.
▪ Describa cómo utilizar un modelo de aprendizaje para resolver un problema.
▪ Navegue por el Model Asset eXchange de IBM Research.
1. Bibliotecas, API, Conjuntos de Datos y Modelos
1.1. Bibliotecas para la ciencia de datos
[Video * 5 Minutos]
En este video, vamos a revisar varias bibliotecas de ciencias de datos.
What you will learn
▪ Las bibliotecas son una colección de funciones y métodos que le permiten realizar una amplia
variedad de acciones sin escribir el código usted mismo.
▪ Nos centraremos en las bibliotecas de Python: Bibliotecas de Computación Científica en Bibliotecas
de Visualización de Python en Python Alto Nivel Machine Learning y Bibliotecas de Deep Learning:
Introducción
▪ «Alto Nivel» simplemente significa que no tiene que preocuparse por los detalles, aunque esto hace
que sea difícil estudiar o mejorar Deep Bibliotecas de aprendizaje en Python Libraries usadas en
otros idiomas.
▪ Las bibliotecas generalmente contienen módulos integrados que proporcionan diferentes
funcionalidades que puede usar directamente; a veces se llaman «frameworks».
▪ También hay extensas bibliotecas que ofrecen una amplia gama de instalaciones.
Scientifics Computing Libraries in Python
Pandas ofrece estructuras de datos y herramientas para una limpieza, manipulación y análisis eficaces de
datos. Proporciona herramientas para trabajar con diferentes tipos de datos. El instrumento principal de
Pandas es una tabla bidimensional que consta de columnas y filas. Esta tabla se denomina «DataFrame» y
está diseñada para proporcionar una indexación fácil para que pueda trabajar con sus datos. Las bibliotecas
NumPy se basan en matrices, lo que le permite aplicar funciones matemáticas a estas matrices.
Pandas se construye en realidad sobre los métodos de visualización de datos NumPy son una gran manera
de comunicarse con otros y mostrar los resultados significativos del análisis. Estas bibliotecas le permiten
crear gráficos, gráficos y mapas.
El paquete Matplotlib es la biblioteca más conocida para la visualización de datos, y es excelente para hacer
gráficos y gráficos. Los gráficos también son altamente personalizables. Otra biblioteca de visualización de
alto nivel, Seaborn, se basa en matplotlib. Seaborn facilita la generación de parcelas como mapas de calor,
series de tiempo y parcelas de violín. Para el aprendizaje automático, la biblioteca Scikit-Learn contiene
herramientas para el modelado estadístico, incluyendo regresión, clasificación, clustering y otros.
Apache Spark
La biblioteca Spark tiene una funcionalidad similar a Pandas Numpy Scikit-Learn Apache Spark trabajos de
procesamiento de datos pueden usar Python R Scala, o SQL Hay muchas bibliotecas para Scala, que se
utiliza predominantemente en ingeniería de datos, pero también a veces se usa en ciencia de datos.
Vamos a discutir algunas de las bibliotecas que son complementarias a Spark Vegas es una biblioteca de
Scala para visualizaciones de datos estadísticos.
Scala Libraries
Con Vegas, puede trabajar con archivos de datos, así como con Spark DataFrames.
Para el aprendizaje profundo, puede usar BigDL.
R Libraries
R tiene funcionalidad incorporada para el aprendizaje automático y la visualización de datos, pero también
hay varias bibliotecas complementarias: ggplot2 es una biblioteca popular para la visualización de datos en
R. También puede usar bibliotecas que le permiten interactuar con Keras y TensorFlow. R ha sido el estándar
de facto para la ciencia de datos de código abierto, pero ahora está siendo reemplazado por Python.
Es la parte de la biblioteca que se ve cuando contiene todos los componentes del programa.
API LIBRARY
Para entender mejor cómo funciona una API en una biblioteca, consideremos un ejemplo de la biblioteca
Pandas. Pandas es un conjunto de componentes de software en el que no todos los componentes están
escritos en Python. En su programa, hay algunos datos y un conjunto de componentes de software. Puedes
usar la API de Pandas para procesar los datos comunicándote con los demás componentes del software. El
componente de software del back-end puede ser el mismo, pero puede haber una API para diferentes
idiomas.
REST APIs
Por lo tanto, las API REST son otro tipo de API popular. RE son las siglas de Representational. La S significa
Estado. La T significa Transferencia. Permiten comunicarse a través de Internet y aprovechar recursos como
el almacenamiento, los datos, los algoritmos de inteligencia artificial y mucho más.
COMMON TERMS
Por lo tanto, veamos algunos términos comunes que se utilizan con respecto a la API. Tú o tu código son el
cliente. El servicio web es el recurso. Y el cliente encuentra el servicio a través de un punto final. El cliente
envía solicitudes al recurso y recibe una respuesta del recurso.
HTTP
Los datos se transmiten a través de Internet mediante métodos HTTP. Las API Rest obtienen toda la
información de la solicitud enviada por el cliente. La solicitud se envía mediante un mensaje HTTP que
contiene un archivo JSON. El archivo contiene instrucciones sobre la operación que debe realizar el servicio
web.
Esta operación se transmite al servicio web a través de Internet. Y el servicio realiza la operación. Del mismo
modo, el servicio web devuelve una respuesta a través de un mensaje HTTP, donde la información se
devuelve mediante un archivo JSON. Y esta información se transmite de vuelta al cliente.
En la llamada a la API, enviarás una copia del archivo de audio a la API; esto se denomina solicitud posterior.
A continuación, la API enviará la transcripción textual de lo que diga la persona. En el backend, la API realiza
una solicitud Get.
- Las estructuras de datos jerárquicas o de red se utilizan normalmente para representar las relaciones
entre los datos. Los datos jerárquicos se organizan en un formato similar a un árbol, mientras que los
datos de red se almacenan como un gráfico. Por ejemplo, las conexiones entre las personas en un sitio
web de redes sociales suelen representarse como un gráfico.
- Un conjunto de datos también puede incluir archivos de datos sin procesar, como imágenes o audio. El
conjunto de datos modificado del Instituto Nacional de Estándares y Tecnología (MNIST) es popular para
la ciencia de datos. Contiene imágenes de dígitos manuscritos y se suele utilizar para entrenar sistemas
de procesamiento de imágenes.
DATA OWNERSHIP
- Tradicionalmente, la mayoría de los conjuntos de datos eran privados porque contenían información
privada o confidencial, como datos de clientes, datos de precios u otra información confidencial desde
el punto de vista comercial. Por lo general, estos conjuntos de datos no se comparten públicamente.
- Con el tiempo, muchas entidades públicas y privadas, como instituciones científicas, gobiernos,
organizaciones e incluso empresas, han empezado a poner los conjuntos de datos a disposición del
público como «datos abiertos», lo que proporciona información gratuita. Por ejemplo, las Naciones
Unidas y los gobiernos federales y municipales de todo el mundo han publicado muchos conjuntos de
datos en sus sitios web, que abarcan la economía, la sociedad, la sanidad, el transporte, el medio
ambiente y mucho más. El acceso a estos y otros conjuntos de datos abiertos permite a los científicos
de datos, investigadores, analistas y otras personas descubrir información previamente desconocida y
potencialmente valiosa. Se utilizan para crear nuevas aplicaciones con fines comerciales y de interés
público. También se utilizan para llevar a cabo más investigaciones. Los datos abiertos han
desempeñado un papel importante en el crecimiento de la ciencia de datos, el aprendizaje automático y
la inteligencia artificial. Ha permitido a los profesionales perfeccionar sus habilidades en varios
conjuntos de datos.
A continuación, puede hacer clic en el código fuente para ver todos los cuadernos asociados a su proyecto
de la NOAA.
Puede ejecutar todos los cuadernos en Watson Studio para limpiar los datos, preprocesarlos y analizarlos de
forma exploratoria. Si ya está familiarizado con la apertura de los cuadernos en Watson Studio, puede iniciar
sesión en su cuenta de IBM Cloud, crear un proyecto y cargar todos los cuadernos en el proyecto.
Los conjuntos de datos del DAX también constan de uno o más archivos de datos. Haga clic en la opción
Datos para ver los archivos de datos disponibles en el proyecto.
RECAP
En este vídeo, descubrió que el sitio IBM Data Asset eXchange (DAX) contiene conjuntos de datos abiertos de
alta calidad. Los conjuntos de datos abiertos del DAX incluyen cuadernos tutoriales que proporcionan
instrucciones básicas y avanzadas para los desarrolladores. DAX y MAX están disponibles en el sitio web
para desarrolladores de IBM. Puede obtener, ejecutar y previsualizar conjuntos de datos y libretas en DAX, y
las libretas DAX se abren en Watson Studio.
1.6. Modelos de aprendizaje automático - Aprender de los modelos para hacer predicciones
[Video * 7 Minutos]
Bienvenido a «Modelos de aprendizaje automático: aprender de los modelos para hacer predicciones».
WHAT YOU WILL LEARN
Después de ver este vídeo, podrá:
− definir un modelo de aprendizaje automático,
− describir los diferentes tipos de modelos de aprendizaje y
− describir cómo utilizar un modelo de aprendizaje para resolver un problema.
RECAP
En este vídeo, aprendió lo siguiente: el aprendizaje automático (ML) utiliza algoritmos, también conocidos
como «modelos», para identificar patrones en los datos. El proceso mediante el cual el modelo aprende los
patrones de datos se denomina «entrenamiento con modelos». Los tipos de aprendizaje automático son
supervisado, no supervisado y reforzado. El aprendizaje supervisado comprende dos tipos de modelos:
regresión y clasificación. Y el aprendizaje profundo se refiere a un conjunto general de modelos y técnicas
que emulan vagamente la forma en que el cerebro humano resuelve una amplia gama de problemas.
1.7. El Intercambio de Activos Modelo
[Video * 6 Minutos]
Bienvenido a The Model Asset Exchange
WHAT YOU WILL LEARN
Tras ver este vídeo, podrá:
− navegar por el Model Asset Exchange de IBM Research y
− explicar cómo el servidor de modelos con aprendizaje profundo detecta las imágenes.
Aquí puede cargar diferentes imágens de una persona, perro, gato, camión o automóvil. El modelo se entrenó
anteriormente con imágenes etiquetadas, por lo que ahora puede reconocer imágenes incluso cuando no
están etiquetadas. Seleccione una imagen para ver qué ocurre cuando el modelo invoca el punto final de
predicción.
VISUALIZING MAX-TFJS MODEL PREDICTION
Haga clic en Extraer la predicción. Esto invoca el punto final de la predicción y se carga la imagen. El modelo
TFJS prediseñado prepara la imagen de entrada para su preprocesamiento. El algoritmo del modelo de
aprendizaje profundo identifica los diferentes objetos de la imagen. Genera su respuesta a partir de los
resultados de la predicción y devuelve el resultado a la aplicación.
Verás la imagen existente separada en dos imágenes diferentes: la imagen de fondo y la imagen del perro. La
prueba del modelo ha finalizado. Ha confirmado que este modelo es capaz de identificar los elementos de
una imagen sin utilizar etiquetas predefinidas.
RECAP
En este vídeo, aprendió: The Model Asset eXchange es un repositorio gratuito de código abierto para
microservicios de aprendizaje profundo personalizables y listos para usar. Para reducir el tiempo de
generación de valor, considere la posibilidad de aprovechar los modelos previamente entrenados para
determinados tipos de problemas. Los microservicios que sirven modelos MAX se crean y distribuyen en
GitHub como imágenes de Docker de código abierto. Red Hat OpenShift es una plataforma de Kubernetes
que se utiliza para automatizar la implementación, el escalado y la administración de los microservicios. ML-
Exchange.org tiene varios modelos predefinidos. La herramienta CodePen permite a los usuarios editar los
idiomas de la interfaz.
1.8. Lectura: Introducción al Intercambio de Activos de Modelo y al Intercambio de Activos de Datos
[…]
https://www.coursera.org/learn/open-source-tools-for-data-science/ungradedWidget/WrKDS/reading-
getting-started-with-the-model-asset-exchange-and-the-data-asset
2. Resumen y Evaluaciones del Módulo 3
2.1. Resumen del módulo 3
[…]
¡Enhorabuena! Ha completado este módulo. A estas alturas del curso, ya lo sabe:
− Las bibliotecas suelen contener módulos incorporados que proporcionan diferentes
funcionalidades.
− Puede utilizar métodos de visualización de datos para comunicarse con otras personas y mostrar
resultados significativos de un análisis.
− Para el aprendizaje automático, la biblioteca Scikit-learn contiene herramientas para el modelado
estadístico, incluyendo regresión, clasificación, agrupación, etc.
− La producción a gran escala de modelos de aprendizaje profundo utiliza TensorFlow, un marco de
trabajo de bajo nivel.
− Apache Spark es un marco de computación en clúster de uso general que permite procesar datos
utilizando clústeres de computación.
− Una interfaz de programación de aplicaciones (API) permite la comunicación entre dos piezas de
software.
− La API es la parte de la biblioteca que usted ve, mientras que la biblioteca contiene todos los
componentes del programa.
− Las API REST permiten comunicarse a través de Internet y aprovechar recursos como el
almacenamiento, los datos, los algoritmos de inteligencia artificial y mucho más.
− Los datos abiertos son fundamentales para la Ciencia de Datos.
− El Acuerdo de licencia de datos comunitarios facilita el intercambio de datos abiertos.
− El sitio IBM Data Asset eXchange (DAX) contiene conjuntos de datos abiertos de alta calidad.
− Los conjuntos de datos abiertos DAX incluyen cuadernos tutoriales que ofrecen recorridos básicos y
avanzados para desarrolladores.
− Los cuadernos DAX se abren en Watson Studio.
− El aprendizaje automático (ML) utiliza algoritmos -también conocidos como "modelos"- para
identificar patrones en los datos.
− Los tipos de ML son el supervisado, el no supervisado y el de refuerzo.
− El aprendizaje supervisado comprende dos tipos de modelos: regresión y clasificación.
− El aprendizaje profundo se refiere a un conjunto general de modelos y técnicas que emulan
vagamente la forma en que el cerebro humano resuelve una amplia gama de problemas.
− El Model Asset eXchange es un repositorio gratuito y de código abierto para microservicios de
aprendizaje profundo listos para usar y personalizables.
− Los microservicios de servicio de modelos MAX se construyen y distribuyen en GitHub como
imágenes Docker de código abierto.
− Puede utilizar Red Hat OpenShift, una plataforma Kubernetes, para automatizar la implantación, el
escalado y la gestión de los microservicios.
− Ml-exchange.org dispone de múltiples modelos predefinidos.
2.2. Cuestionario práctico - Bibliotecas, API, conjuntos de datos, modelos
[…]
Pregunta 1
¿Qué biblioteca ofrece estructuras de datos y herramientas para una limpieza, manipulación y análisis
eficaces de los datos?
A. Pandas
B. Scikit-learn
C. Seaborn
D. Matplotlib
Pregunta 2
¿Qué es una API?
A. Datos
B. Servicio web
C. Interfaz
D. Traductor
Pregunta 3
¿Cuál es la mejor manera de representar los datos de la red?
A. En una estructura arborescente
B. Valores separados por comas
C. Como gráfico
D. Formato tabular
Pregunta 4
¿Cuál es el objetivo principal del Intercambio de Activos de Datos (DAX)? Seleccione todas las que
correspondan.
A. Conservar los conjuntos de datos cuya licencia y condiciones de uso estén claramente definidas
B. Recopilar conjuntos de datos de alta calidad
C. Para organizar conjuntos de datos en tablas
D. Para recopilar conjuntos de datos sólo con imágenes
Pregunta 5
¿Cuáles de los siguientes son modelos de aprendizaje automático? Seleccione todos los que correspondan.
A. Formación de modelos
B. Aprendizaje no supervisado
C. Aprendizaje de refuerzo
D. Aprendizaje supervisado
Pregunta 6
¿Cuáles de los siguientes elementos se utilizan para hacer un modelo? Seleccione todos los que
correspondan.
A. Recursos informáticos
B. Docker
C. Experiencia en el dominio
D. Kubernetes
2.
Pregunta 2
¿Qué biblioteca de aprendizaje profundo en Python se utiliza para la experimentación?
A. PyTorch
B. Pandas
C. NumPy
D. Seaborn
Correcto PyTorch se utiliza para la experimentación, facilitando a los investigadores la puesta a prueba de
ideas.
3.
Pregunta 3
¿Qué API se puede utilizar con TensorFlow?
A. Julia
B. Seaborn
C. Panda
D. Lengua C
Correcto Las API desarrolladas voluntariamente por Julia, Matlab y R pueden utilizarse con TensorFlow.
4.
Pregunta 4
¿Qué significa T en REST?
A. Transformador
B. Tensor
C. Transferencia
D. Transporte
Correcto La T de REST significa transferencia.
5.
Pregunta 5
¿Cuál de los siguientes conjuntos de datos se considera datos abiertos?
A. Datos de clientes
B. Datos gubernamentales
C. Datos sobre precios
D. Comercialmente sensible
Correcto Los datos gubernamentales relativos a la economía, la sociedad, la sanidad, el transporte y el
medio ambiente son datos abiertos.
6.
Pregunta 6
¿Qué licencia estipula que la versión modificada de los datos debe publicarse bajo los mismos términos de
licencia que los datos originales?
A. Conjunto de datos CDLA
B. CDLA-Compartir
C. CDLA-Licencia
D. CDLA-Permisivo
Correcto La licencia CDLA-Sharing estipula que si publica su versión modificada de los datos, debe hacerlo
bajo los mismos términos de licencia que los datos originales.
7.
Pregunta 7
¿Qué pestaña de la página web para desarrolladores de IBM le permite abrir la página Data Asset eXchange?
A. Código abierto en IBM
B. Comunidad
C. Temas
D. Productos y servicios
Correcto La pestaña "Open Source en IBM" abre una lista desplegable en la que puede seleccionar la opción
"Data Asset eXchange".
8.
Pregunta 8
¿Qué pestaña de la página del proyecto Data Asset eXchange le permite ver todos los cuadernos Jupyter?
A. Gestionar
B. Empleo
C. Visión general
D. Recursos
Correcto. Haga clic en Activos para ver todos los cuadernos Jupyter y los datos disponibles.
9.
Pregunta 9
¿Qué modelo de aprendizaje automático se utiliza para resolver problemas de regresión y clasificación?
A. Aprendizaje no supervisado
B. Formación de modelos
C. Aprendizaje supervisado
D. Aprendizaje de refuerzo
Correcto El aprendizaje supervisado se utiliza para resolver problemas de regresión y clasificación.
10.
Pregunta 10
En la página del detector de objetos MAX, ¿qué herramienta en línea utilizan los desarrolladores para editar
los lenguajes frontales?
A. Nodo-Flujo rojo
B. Aplicación sin servidor
C. CodePen
D. Predicción de extracción
Correcto CodePen es una herramienta en línea utilizada por los desarrolladores para editar lenguajes front-
end como HTML, JavaScript y CSS.