Silabus Bigdata 2022-I

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 6

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FACULTAD DE INGENIERIA DE SISTEMAS E INFORMATICA


ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS

1. INFORMACION GENERAL
1.1. Nombre y código de la asignatura : BIG DATA -20118061
1.2. Número de Créditos : 03
1.3. Modalidad : No presencial (Virtual)
1.4. Número de horas semanales : 04 Horas (Teoría: 2 y Práctica: 2)
1.5. Ciclo de estudio : VI
1.6. Período académico : 2022-1
1.7. Pre – requisito : Base de datos /Diseño y análisis de algoritmos
1.8. Docentes : Ulises Román Concha
[email protected]

2. SUMILLA
La asignatura es de carácter teórico - práctico. Tiene el propósito de desarrollar habilidades
para el uso de técnicas, modelos y herramientas para el manejo de grandes volúmenes de
datos en las organizaciones e instituciones. Abarca los siguientes temas: Fundamentos de
Big Data, tipos y fuente de datos, herramientas y modelos de Data Science, Arquitectura,
infraestructura y gobierno de Big Data, Sistemas de toma de decisiones, extracción de datos
y gestión de datos-FAIR, minería de datos. Ecosistema de Hadoop/MapReduce, Aprendizaje
automatico y data warehouse. Base de datos NoSQL, Algoritmos y técnicas de explotación,
visualización y predicción de datos, Culmina con una aplicación práctica.

3. COMPETENCIAS

3.1. COMPETENCIAS GENERALES


Al finalizar la asignatura, el estudiante tendrá las siguientes competencias generales:
• CG01: Gestiona tecnologías de información.
• CG02: Capacidad de análisis y síntesis en la toma de decisiones
• CG03: Aplica conocimiento y modelos predictivos en las empresas
• CG04: Genera propuesta de valor y analítica en la organización

3.2 COMPETENCIAS ESPECÍFICAS


Al finalizar la asignatura, el estudiante tendrá las siguientes competencias específicas:
• CE01: Trabajo Individual y en Equipo
• CE02: Comunicación oral y escrita
• CE03: Capacidad de análisis y diseño
• CE04: Desarrollo y mantiene soluciones del curso con actitud innovadora
• CE05: Uso de herramientas modernas
• CE06: Sistemas de información
4. PROGRAMACIÓN

UNIDAD 01: FUNDAMENTOS DE BIG DATA Y SUS APLICACIONES


Conceptos, características, fuente de datos, metodologías y herramientas de Big Data.
Gestión de datos – principio FAIR y datos abiertos, Data Waterhouse, arquitectura e
infraestructura de Big Data.
Competencias generales : CG01, CG02, CG04
Competencias específicas: CE01, CE02, CE05 y CE06

Sem. Estrategias
Contenidos Actividades Evaluación
Didácticas
INTRODUCCIÓN A BIG DATA Teoría (2 Hrs)
Defunción de Big Data. Modelo de
negocios. Metodologías y herramientas Definir y analizar los
para el análisis, visualización y Expositiva Conceptos y su importancia de
predicción de datos aplicadas. Casos de y Big data.
participativa Prueba de
1 éxito. Características, beneficios y entrada
arquitectura. (Video)45 min Trabajo en clase: Prueba de
Sincrónico entrada sobre Big Data
Alcances del desarrollo del curso.
Practica (2 Hrs) Explicación
del proyecto.
FUNDAMENTOS Y APLICACIÓN
DE BIOG DATA
Concepto de Data Science, data Lake, Expositiva Trabajo en clase: comprensión Participación
y continúa de
data Warehouse, Macrodatos. de los fundamentos y la los alumnos
participativa
Caracteristicas de las Vs. Arquitecura aplicación de Big data en las
de Big Data. Tipos de Big Data. organizaciones.
Aplicaciones.
Trabajo practico revisión de
2 Lectura 1: Big Data: ¿La ruta o el herramientas, metodologías a
destino? . Oracle- IEFundation, 2019 usar en un proyecto de Big
Data
FUENTE Y TIPOS DE DATOS EN
BIG DATA
Tipos de datos (Estructurados, no
estructurados y semiestructurados). Trabajo en clase:
fuentes de datos: públicos y privados. Expositiva Determinación de las fuentes
Alfabetización de los datos. Open Data. y de datos usando las Participación
Uso de las herramientas y sitio para la participativa herramientas definidas. de los
3
obtención de datos y su respectiva carga: alumnos en la
Tableau, Weka, Orange, Knime y R. Trabajo practico: Uso de las instalación y
herramientas para determinar prueba de las
herramientas
Trabajo practico: Revisión de las las fuentes de datos que
herramientas. soporta

METODOLOGIAS, HERRAMIENTAS
Y PROCESOS DE BIG DATA Trabajo en laboratorio: Uso
Internet de eventos. Descripción de las de las fuentes de datos bajo
metodologías para desarrollo de en concepto (ETL)
proyectos de Big Data. Etapas de data Expositiva
4 science. Procesos de Big Data. y Lecturas: La creación de Participación
Herramientas y plataformas para usar. participativa valor en las empresas a y desarrollo
través del Big Data practico en
laboratorios
Trabajo practico: Revisión de las etapas
de desarrollo de un proyecto de Big data

INTRODUCCION A BASE DE DATOS


NoSQL y DATA WAREHOSUE. Trabajo en laboratorio: Participación
Expositiva de los
Datawarehousing. Diseño e y Creación de BD y Tablas
5 alumnos en el
Implementación de Data Warehouse. participativa en SQLITE. proceso de
Etapas del proceso de ETL(Extract carga de datos
Trabajo práctico: Creación y creación de
Transform and Load). Opciones para de BD documental usando estructuras
implementar procesos de ETL. MONGODB
Herramientas de ETL.

Introducción a base de datos NoQSL.


Tipos de NoSQL. Herramientas y
ejemplos.
INFRAESTRUCTURA,
ARQUITECTURA Y GOBIERNO DE
BIG DATA Expositiva Participación
Introducción a Hadoop. Componentes de y de los
6 Hadoop: MapReduce/Pig/Hive/HBase – participativa Trabajo práctico: alumnos en el
Tecnologías de almacenamiento y de operaciones básicas de uso de clúster
procesamiento. Programación en Big hadoop
Data

ANALITICA EN BIG DATA -


VISUALIZACION DE DATOS
Explotación de datos. Limpieza y
normalización de datos. Consumo de Expositiva
información de Cloud Data, Redes y Trabajo en laboratorio: Participación
7 continúa de
Sociales y datos públicos. Análisis y participativa Visualización de datos
Visualización de datos geográficos. utilizando Python los alumnos
en la
Visualización de datos en línea. Uso de validación de
la herramienta Tableau y librerías de datos
Python
Prueba Examen
8 EXAMEN PARCIAL escrita Notas

Unidad didáctica 02: MINERIA DE DATOS Y EL PROCESO DE EXTRACCIÓN DE


CONOCIMIENTO – APRENDIZAJE AUTOMATICO
Conceptos de Minería de Datos y Aprendizaje automatico. Conocer el proceso de extracción de
conocimiento y la implementación de algoritmos para apoyar a las empresas u organizaciones en
los requerimientos predictivos. Uso de herramientas y programas para validar datos

Competencias generales : CG02, CG03, CG04


Competencias específicas: CE03, CE04, CE05 y CE06

Sem. Estrategias
Contenidos Actividades Evaluación
Didácticas
MINERIA DE DATOS
Introducción a la
minería de datos.
BigData.
Aprendizaje
automático. El Trabajo en clase:
proceso KDD. La Definir la
minería de datos metodología de
9
como subproceso minería de datos y
del KDD. Conceptos Expositiva aplicar una técnica. Participación
de minería de datos. y Laboratorio: uso de y revisión de
Modelos de minería participativa WEKA, KNIME las técnicas de
MD.
de datos. Técnicas
empleadas.
Metodologías.
Herramientas de
Minería de datos.

PRE Trabajo en clase:


10 Expositiva Definir y realizar la Participación
PROCESAMIENTO y alumnos
DE DATOS participativa limpieza de los datos limpieza de
Datos. Tipos de datos y flujo
de datos
atributos. Pre- Trabajo de
procesamiento de laboratorio:
datos. Limpieza de reprocesamiento de
datos: Valores datos y flujo de datos
perdidos, Outliers. usando una
herramienta KNIME,
Datos ORANGE y WEKA
inconsistentes.
Reducción de datos.
Muestreo de datos.
Discretización de
datos. Similaridad y
distancias

APRENDIZAJE
AUTOMATICO-
CLASIFICACION y
REGRESION
Concepto. Aprendizaje
supervisado y no
supervisado. Trabajo de
Metodologías de laboratorio:
implementación. Instalación,
Clasificación con configuración y uso
árboles de decisión. A de anaconda
priori. Redes neuronales. navegador. Prueba
11-13 MS. Patrones de Expositiva del algoritmo de
asociación y uso de la y clasificación y de
herramienta Pyhton con participativa regresión.
las librerías sklearn.

Lectura 5: Entorno de Participación


Implementación de en el uso de la
análisis predictivo herramienta
utilizando Python y
WEKA

Lectura 6: Aprendizaje
supervisado.
Exposición y
presentación de los Presentación de los
proyectos Expositiva trabajos
14-15 Participación
y en la
participativa exposición
Examen
16 EXAMEN FINAL Prueba escrita Notas

5. ESTRATEGIAS DE APRENDIZAJE

La teoría se desarrollará en el aula virtual a través de videoconferencia en tiempo


real o síncrono (Google Meet y classroom ) y la práctica en el laboratorio cada
alumno podrá desarrollar en casa con sesiones de tutoría del docente. Se
establecerán desde la primera sesión de clases grupos de estudiantes para la
realización de los trabajos prácticos del curso los que serán guiados por el
docente. Asimismo, se procederá a la técnica expositiva del curso usando
presentaciones, organizadores didácticos, y casos de estudio relacionados a los
temas de clases.
El estudiante tendrá una participación activa y permanente en la disertación de
las sesiones de clases. Así como su participación en el laboratorio en casa.
La tarea académica se llevará a cabo en las sesiones de práctica y estarán
compuestas de los trabajos de investigación, las exposiciones y los trabajos
prácticos-laboratorios, que se computarán con promedio simple. los trabajos
deberán subirse al aula virtual ( Moodle o Classroom) . Los trabajos de
investigación tratarán sobre los temas recomendados en las sesiones
correspondientes

6. EVALUACIÓN DEL APRENDIZAJE


La evaluación será permanente durante el desarrollo del curso. La evaluación estará
compuesta por:

Concepto Porcentaje Descripción


N1 Examen Parcial (EP) 20% Examen Parcial (virtual)
Promedio de prácticas (Incluye exposiciones virtuales,
N2 Promedio de Prácticas 60% trabajos académicos, laboratorios y proyecto final)

N3 Examen Final (EF) 20% Examen Final (virtual)

Fórmula = ( N1 + N2 + N3 )/3

7. REFERENCIAS BIBLIOGRAFICAS

1. O reilly (2020). Big Data Now. Strata makink work.


2. Sebastian Raschka(2016). Python Machine Learning (1st published), Wiley
3. Mark Lutz(2019). Learning Phyton. 5ta.edicion. Ornells
4. ORACLE(2019). Demystifying Machine Learning
5. Perz L y Santin G.(2007). Minería de datos: técnicas y herramientas. Paraninfo
6. Margy Ross(2013). Ralph Kimball, , Wiley Computer Publishing. (2013). (3rd.
Edition), Wiley Computer Publishing.
7. Laura Reeves, Margy Ross (2017).The Data Warehouse Toolkit. (2nd. Edition),
Warren Thornthwaite.
8. Ralph Kimball, Joe Caserta (2010). The Data Warehouse ETL Toolkit: Practical
Techniques for Extracting, Cleaning, Conforming, and Delivering Data(1st
Edition),.
9. Charu C. Aggarwal (2015). Data Mining, The textbook. Springer.
10. Rogel, J(2017). Data Science and analytics whit Python

Páginas web de referencias:


- Herramientas básicas para los desarrolladores en Python.
https://bbvaopen4u.com/es/actualidad/herramientas-basicas-para-los-desarrolladores-en-
python

- Oracle Dara Mining.


https://www.oracle.com/database/technologies/advanced-analytics/odm.html

- Repositorio de Machine Learning - UCI


http://archive.ics.uci.edu/ml/datasets.php

- Kaggle – repositorio de data science


https://www.kaggle.com/datasets

- Banco Mundial (data)


https://datos.bancomundial.org/

- Kdnuggets : Conjunto de datos para minería de datos y ciencia de datos


https://www.kdnuggets.com/datasets/index.html

También podría gustarte