Desarrollo Conceptual
Desarrollo Conceptual
Desarrollo Conceptual
Pongamos como ejemplo que una maquina quiere entender lo que está representando
una imagen; la maquina debe tener un entrenamiento previo para poder comparar y
deducir cual es la mejor respuesta. De igual forma en VTT, la maquina debe tener un
entrenamiento previo, usando tecnología PLN, se usa diccionarios llamados Corpus los
cuales ayudan a la máquina para la comprensión y operaciones con texto.
Teniendo estos conceptos previos, podemos entender a fondo la Fig 1 que nos describe el
problema de VTT, donde explica técnicas, tareas y procesos realizados comúnmente en
esta tarea. Uno de los primeros dataset creados para VTT, fue realizado por Chen D y
Dolan W 2011, el cual consiste en 1970 videos extraídos de Youtube, después de esta
investigación muchos investigadores han creado otros datasets emulando o incluso
mejorando el sistema creado por ellos. Anteriormente se usaba técnicas con el algoritmo
NRMP o Match-Ranking, hoy en día se tienen ya librerías dedicadas a VTT, por lo que en
este trabajo se podrían usar como Video Captioning o Video Description.
Fig. 1
Fig. 2
Principalmente se usa librerías como NLTK para poder realizar este proceso, aunque spaCy
esta teniendo presencia en la comunidad de IA en los últimos años. spaCy es un paquete
moderno de Python para hacer Procesamiento de Lenguaje Natural de potencia industrial
usar spaCy para construir sistemas avanzados de comprensión de lenguaje natural usando
enfoques basados en reglas y en machine learning.
NLTK es una plataforma líder para crear programas de Python para trabajar con NLP
Proporciona interfaces fáciles de usar para más de 50 corpus y recursos léxicos como
WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para
clasificación, tokenización, lematización, etiquetado, análisis y razonamiento semántico,
contenedores para bibliotecas NLP de potencia industrial, y un foro de discusión activo.
Para este proyecto, se han elegido usar 2 tecnologías principales; assemblyai y NLTK. Su
justificación es la siguiente:
*Bastos lenguajes a usar para la tecnología como son Python, TypeScript, PHP, C#, etc.
https://www.nrmp.org/intro-to-the-match/how-matching-algorithm-works/
https://www.ibm.com/topics/speech-recognition#:~:text=the%20next%20step-,What
%20is%20speech%20recognition%3F,speech%20into%20a%20written%20format.
https://course.spacy.io/
https://www.nltk.org/