Desarrollo Conceptual

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 4

Desarrollo conceptual

Hoy en día, el área de percepción computacional ha crecido de forma exponencial en los


últimos años, esto debido a la necesidad generada por los humanos de que la maquina
quiera emular o entender lo que está percibiendo en su entorno, al obtener más
información, más se puede acercar a la IA. Video-to-Text (VTT) ha sido una de las áreas
que más ha llamado la atención, ya que además de ser una herramienta para obtener
información a base de imágenes-video, es una forma esencial de obtener información y
almacenarla, para la máquina.

Pongamos como ejemplo que una maquina quiere entender lo que está representando
una imagen; la maquina debe tener un entrenamiento previo para poder comparar y
deducir cual es la mejor respuesta. De igual forma en VTT, la maquina debe tener un
entrenamiento previo, usando tecnología PLN, se usa diccionarios llamados Corpus los
cuales ayudan a la máquina para la comprensión y operaciones con texto.

Teniendo estos conceptos previos, podemos entender a fondo la Fig 1 que nos describe el
problema de VTT, donde explica técnicas, tareas y procesos realizados comúnmente en
esta tarea. Uno de los primeros dataset creados para VTT, fue realizado por Chen D y
Dolan W 2011, el cual consiste en 1970 videos extraídos de Youtube, después de esta
investigación muchos investigadores han creado otros datasets emulando o incluso
mejorando el sistema creado por ellos. Anteriormente se usaba técnicas con el algoritmo
NRMP o Match-Ranking, hoy en día se tienen ya librerías dedicadas a VTT, por lo que en
este trabajo se podrían usar como Video Captioning o Video Description.
Fig. 1

Descripción de técnicas para VTT

El presente trabajo pretende realizar un Generador de texto a partir de un audio de video


para obtener recetas de cocina, podemos utilizar librerías con Speech Recognition como
son apiai. assemblyai. google-cloud-speech. Pocketsphinx, los cuales son una tecnología
actual que nos permite recibir e interpretar la voz del usuario como un dato de entrada.
Una vez obtenido estos datos de entrada, podemos crear el Corpus para poder separar los
ingredientes y modos de preparación de la receta, este paso es el más importante ya que
define lo que se guardara en la base de datos y no. Para esto se podría utilizar un proceso
general el cual incluye las siguientes etapas:

Fig. 2

Proceso general para NPL

Principalmente se usa librerías como NLTK para poder realizar este proceso, aunque spaCy
esta teniendo presencia en la comunidad de IA en los últimos años. spaCy es un paquete
moderno de Python para hacer Procesamiento de Lenguaje Natural de potencia industrial
usar spaCy para construir sistemas avanzados de comprensión de lenguaje natural usando
enfoques basados en reglas y en machine learning.

NLTK es una plataforma líder para crear programas de Python para trabajar con NLP
Proporciona interfaces fáciles de usar para más de 50 corpus y recursos léxicos como
WordNet, junto con un conjunto de bibliotecas de procesamiento de texto para
clasificación, tokenización, lematización, etiquetado, análisis y razonamiento semántico,
contenedores para bibliotecas NLP de potencia industrial, y un foro de discusión activo.
Para este proyecto, se han elegido usar 2 tecnologías principales; assemblyai y NLTK. Su
justificación es la siguiente:

*Bastos lenguajes a usar para la tecnología como son Python, TypeScript, PHP, C#, etc.

*Comunidad basta donde se responden preguntas y dudas.

*Documentación fácil de entender

*Precios más accesibles para uso masivo de datos.

Chen L, D, B Dolan W, (2011) Collecting highly parallel data for paraphrase


evaluation. In: Annual meeting of the ACL: human language technologies, ACL
1:190–200

https://www.nrmp.org/intro-to-the-match/how-matching-algorithm-works/

https://www.ibm.com/topics/speech-recognition#:~:text=the%20next%20step-,What
%20is%20speech%20recognition%3F,speech%20into%20a%20written%20format.

https://course.spacy.io/

https://www.nltk.org/

También podría gustarte