Recoñecemento da fala

O recoñecemento automático da fala (RAF) é unha parte da intelixencia artificial que ten como obxectivo permitir a comunicación falada entre seres humanos e computadoras. O problema que se suscita nun sistema de RAF é o de facer cooperar un conxunto de informacións que proceden de diversas fontes de coñecemento (acústica, fonética, fonolóxica, léxica, morfosintáctica, semántica e pragmática), en presenza de ambigüidades, incertezas e erros inevitables para chegar a obter unha interpretación aceptable da mensaxe acústica recibida.

Deseño dun sistema de RAF

Aprendizaxe

Un aspecto crucial no deseño dun sistema de RAF é a elección do tipo de aprendizaxe que se utilice para construír as diversas fontes de coñecemento. Basicamente, existen dous tipos:

As técnicas de aprendizaxe dedutiva baséanse na transferencia dos coñecementos que un experto humano posúe a un sistema informático. Un exemplo paradigmático das metodoloxías que utilizan tales técnicas constitúeno os "Sistemas baseados no coñecemento" e, en particular, os "Sistemas expertos"
As técnicas de aprendizaxe indutiva baséanse en que o sistema poida, automaticamente, conseguir os coñecementos necesarios a partir de exemplos reais sobre a tarefa que se desexa modelizar. Neste segundo tipo, os exemplos constitúenos aquelas partes dos sistemas baseados nos modelos ocultos de Markov ou nas redes neuronais artificiais que son configuradas automaticamente a partir de mostras de aprendizaxe.

Na práctica, non existen metodoloxías que estean baseadas unicamente na aprendizaxe indutiva, de feito, asúmese un compromiso dedutivo-indutivo no que os aspectos xerais fornécense dedutivamente e a caracterización da variabilidade indutivamente.

Decodificador acústico-fonético

As fontes de información acústica, fonética, fonolóxica e posiblemente léxica, cos correspondentes procedementos interpretativos, dan lugar a un módulo coñecido como decodificador acústico-fonético (ou en ocasións a un decodificador léxico). A entrada ao decodificador acústico-fonético é o sinal vocal convenientemente representado; para iso, é necesario que este sufra un preproceso de parametrización. Nesta etapa previa é necesario asumir algún modelo físico, contándose con modelos auditivos e modelos articulatorios.

Modelo da linguaxe

As fontes de coñecemento sintáctico, semántico e pragmático dan lugar ao modelo da linguaxe do sistema. Cando a representación da sintaxe e da semántica tende a integrarse, desenvólvense sistemas de RAF de gramática restrinxida para tarefas concretas.

Recoñecemento dunha gramática restrinxida

O recoñecemento da gramática restrinxida traballa reducindo as típicas frases recoñecidas a un tamaño máis pequeno cá gramática formal. Este tipo de recoñecemento traballa mellor cando o falante proporciona respostas breves a cuestións ou preguntas específicas: as preguntas "si" ou "non", ao elixir unha opción do menú, un artigo dunha lista determinada etc. A gramática especifica as palabras e frases máis típicas que unha persoa diría como resposta rápida e despois asocia esas palabras ou frases a un concepto semántico. Por exemplo, un “si” pode entenderse cando se oe un “sip”, “vale”, “yes” ou “okey”, e un “non” cun “nop”, “nada” ou “en absoluto”.

Se o falante di algo que gramaticalmente non ten sentido, o recoñecemento fallará. Normalmente, se o recoñecemento falla, a aplicación incitará ao usuario a repetir o que dixo e o recoñecemento intentarase de novo. Se o sistema está correctamente deseñado e é repetidamente incapaz de entender ao usuario (debido a que non se entendeu ben a pregunta, un acento pechado, interferencias ou demasiado ruído ao redor), retirarase e desviará a chamada a outro operador.

Os modelos da linguaxe máis complexos necesitan para o seu correcto funcionamento grandes corpos de voz e de texto escrito para a aprendizaxe e a avaliación dos correspondentes sistemas. Grazas a eles, pódense abordar gramáticas máis complexas e achegarse ao procesamento de linguaxes naturais.

Características dos sistemas existentes

Os sistemas comerciais estiveron dispoñibles dende o ano 1990. A pesar do aparente éxito destas tecnoloxías, moi poucas persoas utilizan o sistema do recoñecemento do fala nas súas computadoras. Parece ser que moitos dos usuarios utilizan o rato e o teclado para gardar ou redactar documentos, porque lles resulta máis cómodo e rápido a pesar do feito de que todos podemos falar a máis velocidade da que tecleamos. Así a todo, mediante o uso de ambos, o teclado e o recoñecemento do fala, o noso traballo será moito máis efectivo.

Este sistema onde está sendo máis utilizado é en aplicacións telefónicas: axencias de viaxes, atención ao cliente, información etc. A melloría destes sistemas de recoñecemento da fala foron aumentando e a súa eficacia cada vez é maior.

Os programas comerciais máis famosos son IBM ViaVoice e Dragon NaturallySpeaking.

En software libre hai CVoiceControl (grávase a orde como adestramento) e PerlBox (sen adestramento, pero en inglés).

Véxase tamén

Outros artigos

Lingüística computacional

Ligazóns externas

Comandos con voz en libertonia 2004 (en castelán).
Voice tools Project
Guía de programas de recoñecemento de voz para Linux Arquivado 30 de decembro de 2005 en Wayback Machine.