Proyecto 1 Horario 104
Proyecto 1 Horario 104
Proyecto 1 Horario 104
Ciencias de la Computación
Proyecto 1 (P1)
Pregrado
2024-1
Profesor: Ian Paul Brossard
Lab 1.04
Proyecto 1 (P1)
El presente trabajo cuenta con 2 preguntas. Para ambas preguntas, usted deberá trabajar
con la colección de datos listada a continuación:
Dataset smogon.csv
• La colección de datos será proporcionada por el profesor. La encontrarán en el
campus virtual bajo el nombre smogon.csv
• Suba este archivo .csv a Google Drive y ábralo con Google Sheets.
• Esta colección de datos corresponde a la información disponible en la página
https://www.smogon.com/dex/xy/pokemon/ cada fila representa a un Pokémon.
Notará que el primer movimiento que aprende Chikorita se llama Ancient Power,
el segundo es Aromatheraphy, el tercero es Attract, y así sucesivamente.
El texto que se encuentra en esta celda no respeta las reglas sintácticas del
Español, sin embargo, la computadora puede entender el conocimiento que está
expresado en dicho texto.
Pregunta 1:
Para esta pregunta, usted deberá agrupar los datos usando TFIDF y PCA, y realizar una
exposición sobre estos dos métodos y explicando las diferencias que encontró.
1.1. Agrupamiento mediante TF-IDF (7 ptos).
• Generar la matriz tf-idf utilizando una cantidad de n-gramas elegida por usted
(unigramas, bigramas, trigramas, etc.).
• Mostrar el número total de tokens (elementos de su vocabulario) que tiene su
matriz tf-idf.
• Imprimir todos los tokens (elementos de su vocabulario)
• Generar un DataFrame con la matriz tf-idf que tenga como cabeceras los
elementos de su vocabulario. Imprimir dicha matriz usando la instrucción print().
• Agrupar las filas de su nuevo DataFrame, en base a sus puntuaciones tf-idf (usted
puede elegir cuántos clusters desea utilizar).
• Generar un archivo de valores separado por comas (CSV) que contenga su matriz
tfidf y el cluster.
• Interpretar los cluster y ponerle un nombre a cada uno. Si no puede ponerle un
nombre, escriba un párrafo explicando las características principales de dicho
cluster. Es posible que solo algunos clusters tengan interpretación y otros no. Por
ejemplo, si usted tiene 18 clusters y solo 10 de ellos pueden ser interpretados,
explique el detalle de esos 10. Si no es posible interpretar nignuno de sus clusters,
entonces repita el proceso usando otro número de n_clusters.
Entregables:
Su trabajo deberá contener los siguientes elementos:
• Un zip con el proyecto de Python (debe incluir los archivos .py y .csv usados).
• Un informe en Word en el que describa los pasos realizados, y se evidencie que
está entregando todos los puntos solicitados en los párrafos anteriores. Al final de
su documento debe escribir 4 conclusiones de su trabajo. En la carátula de este
informe debe incluir el nombre y código de los integrantes de su grupo.
• Una presentación oral.
• Adicional: si usted usó un programa en python u otro lenguaje para preprocesar
los textos antes de introducirlos en su proyecto, deberá adjuntar información
probatoria de las tareas realizadas (puede ser el código fuente, un documento con
capturas de pantalla y la explicación de los pasos, o un video).
Rúbrica:
Criterio EXCELENTE ADECUADO MÍNIMO INSUFICIENTE
Diseña y elabora Diseña y elabora Diseña el No logra el
el software para el software para software para diseño ni la
lograr una lograr una lograr una implementación
solución solución solución correcta del
adecuada al adecuada al adecuada al software.
Desarrollo de
problema problema problema
software
planteado. El planteado. El planteado. El (2 p.)
software debe ser software es solo software no se
ordenado, claro y funcionable. concluye
óptimo. adecuadamente.
(10 p.) (6 p.) (4 p.)
El informe El informe El informe El informe
contiene las contiene las contiene menos contiene menos
secciones de secciones de de la mitad de las de la mitad de las
Antecedentes, Antecedentes, secciones secciones
Fundamento Fundamento estipuladas, estipuladas, sin
Teórico, Métodos Teórico, Métodos incluyendo incluir
Presentación
y Desarrollo y y Desarrollo, pero conclusiones. conclusiones.
escrita
Conclusiones. no pone énfasis
Estas últimas, en las (2 p.) (0 p.)
adecuadamente conclusiones.
formuladas.
(3 p.)
(5 p.)
El alumno El alumno El alumno no El alumno no
presenta el presenta el presenta el presenta el
proyecto en proyecto en proyecto en proyecto en
forma adecuada y forma adecuada, forma adecuada, forma adecuada
responde a las pero no responde pero responde a ni responde a las
preguntas del a todas las las preguntas del preguntas del
Presentación profesor en forma preguntas del profesor en forma profesor en forma
oral lógica y profesor en forma lógica y lógica y
coherente. lógica y coherente. coherente. O no
coherente. se presenta a la
(5 p.) (2 p.) presentación oral.
(3 p.)
(0 p.)