Recoñecemento da fala
Este artigo precisa de máis fontes ou referencias que aparezan nunha publicación acreditada que poidan verificar o seu contido, como libros ou outras publicacións especializadas no tema. Por favor, axude mellorando este artigo. (Desde novembro de 2020.) |
O recoñecemento automático da fala (RAF) é unha parte da intelixencia artificial que ten como obxectivo permitir a comunicación falada entre seres humanos e computadoras. O problema que se suscita nun sistema de RAF é o de facer cooperar un conxunto de informacións que proceden de diversas fontes de coñecemento (acústica, fonética, fonolóxica, léxica, morfosintáctica, semántica e pragmática), en presenza de ambigüidades, incertezas e erros inevitables para chegar a obter unha interpretación aceptable da mensaxe acústica recibida.
Deseño dun sistema de RAF
[editar | editar a fonte]Aprendizaxe
[editar | editar a fonte]Un aspecto crucial no deseño dun sistema de RAF é a elección do tipo de aprendizaxe que se utilice para construír as diversas fontes de coñecemento. Basicamente, existen dous tipos:
- As técnicas de aprendizaxe dedutiva baséanse na transferencia dos coñecementos que un experto humano posúe a un sistema informático. Un exemplo paradigmático das metodoloxías que utilizan tales técnicas constitúeno os "Sistemas baseados no coñecemento" e, en particular, os "Sistemas expertos"
- As técnicas de aprendizaxe indutiva baséanse en que o sistema poida, automaticamente, conseguir os coñecementos necesarios a partir de exemplos reais sobre a tarefa que se desexa modelizar. Neste segundo tipo, os exemplos constitúenos aquelas partes dos sistemas baseados nos modelos ocultos de Markov ou nas redes neuronais artificiais que son configuradas automaticamente a partir de mostras de aprendizaxe.
Na práctica, non existen metodoloxías que estean baseadas unicamente na aprendizaxe indutiva, de feito, asúmese un compromiso dedutivo-indutivo no que os aspectos xerais fornécense dedutivamente e a caracterización da variabilidade indutivamente.
Decodificador acústico-fonético
[editar | editar a fonte]As fontes de información acústica, fonética, fonolóxica e posiblemente léxica, cos correspondentes procedementos interpretativos, dan lugar a un módulo coñecido como decodificador acústico-fonético (ou en ocasións a un decodificador léxico). A entrada ao decodificador acústico-fonético é o sinal vocal convenientemente representado; para iso, é necesario que este sufra un preproceso de parametrización. Nesta etapa previa é necesario asumir algún modelo físico, contándose con modelos auditivos e modelos articulatorios.
Modelo da linguaxe
[editar | editar a fonte]As fontes de coñecemento sintáctico, semántico e pragmático dan lugar ao modelo da linguaxe do sistema. Cando a representación da sintaxe e da semántica tende a integrarse, desenvólvense sistemas de RAF de gramática restrinxida para tarefas concretas.
Recoñecemento dunha gramática restrinxida
[editar | editar a fonte]O recoñecemento da gramática restrinxida traballa reducindo as típicas frases recoñecidas a un tamaño máis pequeno cá gramática formal. Este tipo de recoñecemento traballa mellor cando o falante proporciona respostas breves a cuestións ou preguntas específicas: as preguntas "si" ou "non", ao elixir unha opción do menú, un artigo dunha lista determinada etc. A gramática especifica as palabras e frases máis típicas que unha persoa diría como resposta rápida e despois asocia esas palabras ou frases a un concepto semántico. Por exemplo, un “si” pode entenderse cando se oe un “sip”, “vale”, “yes” ou “okey”, e un “non” cun “nop”, “nada” ou “en absoluto”.
Se o falante di algo que gramaticalmente non ten sentido, o recoñecemento fallará. Normalmente, se o recoñecemento falla, a aplicación incitará ao usuario a repetir o que dixo e o recoñecemento intentarase de novo. Se o sistema está correctamente deseñado e é repetidamente incapaz de entender ao usuario (debido a que non se entendeu ben a pregunta, un acento pechado, interferencias ou demasiado ruído ao redor), retirarase e desviará a chamada a outro operador.
Os modelos da linguaxe máis complexos necesitan para o seu correcto funcionamento grandes corpos de voz e de texto escrito para a aprendizaxe e a avaliación dos correspondentes sistemas. Grazas a eles, pódense abordar gramáticas máis complexas e achegarse ao procesamento de linguaxes naturais.
Características dos sistemas existentes
[editar | editar a fonte]Os sistemas comerciais estiveron dispoñibles dende o ano 1990. A pesar do aparente éxito destas tecnoloxías, moi poucas persoas utilizan o sistema do recoñecemento do fala nas súas computadoras. Parece ser que moitos dos usuarios utilizan o rato e o teclado para gardar ou redactar documentos, porque lles resulta máis cómodo e rápido a pesar do feito de que todos podemos falar a máis velocidade da que tecleamos. Así a todo, mediante o uso de ambos, o teclado e o recoñecemento do fala, o noso traballo será moito máis efectivo.
Este sistema onde está sendo máis utilizado é en aplicacións telefónicas: axencias de viaxes, atención ao cliente, información etc. A melloría destes sistemas de recoñecemento da fala foron aumentando e a súa eficacia cada vez é maior.
Os programas comerciais máis famosos son IBM ViaVoice e Dragon NaturallySpeaking.
En software libre hai CVoiceControl (grávase a orde como adestramento) e PerlBox (sen adestramento, pero en inglés).
Véxase tamén
[editar | editar a fonte]Outros artigos
[editar | editar a fonte]Ligazóns externas
[editar | editar a fonte]- Comandos con voz en libertonia 2004 (en castelán).
- Voice tools Project
- Guía de programas de recoñecemento de voz para Linux Arquivado 30 de decembro de 2005 en Wayback Machine.