Vai al contenuto

Riconoscimento vocale

Da Wikipedia, l'enciclopedia libera.

Il riconoscimento vocale è il processo mediante il quale il linguaggio orale umano viene riconosciuto e successivamente elaborato attraverso un computer o più specificatamente attraverso un apposito sistema di riconoscimento vocale.

Sistemi di riconoscimento vocale vengono utilizzati per applicazioni vocali automatizzate nel contesto delle applicazioni telefoniche, ad esempio call center automatici, per sistemi di dettatura (in inglese dictation system), che consentono di dettare discorsi al computer, oppure per sistemi di controllo del sistema di navigazione satellitare o del telefono in auto tramite comandi vocali.

Il primo sistema di riconoscimento vocale vede la luce nel 1952: esso consisteva in un dispositivo per il riconoscimento di singole cifre parlate[1], un altro dispositivo dei primi anni era il IBM Shoebox, esposto al Salone di New York del 1964[2]. Negli anni sessanta, erano attivi in Italia alcuni ricercatori universitari nella tecnologia di riconoscimento di parole singole, come Angelo Raffaele Meo a Torino, e altri.

Tuttavia, in Italia la tecnologia di riconoscimento vocale è stata studiata estensivamente soprattutto da un gruppo di ricerca dello CSELT di Torino a partire dal 1979[3]: dal 1980 il centro iniziò lo studio dei modelli statistici, a partire dallo studio dei difoni della lingua italiana e di altre lingue europee. Durante gli anni Ottanta, CSELT coordinò diversi progetti europei in questo campo e nel 1990 pubblicò il primo libro italiano sullo stato dell'arte (di cui esiste anche la versione inglese, ristampata nel 2013 da Springer). La particolare attenzione alle esigenze degli utenti disabili nello sviluppo delle proprie tecnologie, in particolare quelle vocali, ha portato il Centro al riconoscimento del premio European Telework Award 1998 da parte della Commissione Europea.[4][5] Dopo la privatizzazione di Telecom Italia degli anni Duemila, capogruppo del centro, tale gruppo divenne la newco Loquendo SpA, il maggiore attore italiano nel settore e uno dei principali a livello mondiale.

Nei primi anni novanta, la SIP propose una versione del servizio di riconoscimento vocale di CSELT per il servizio di 1412 (che utilizzava anche la sintesi vocale di CSELT per la risposta)[3], nel contesto di un sistema di dialogo.

Secondo gli esperti del settore, il riconoscimento vocale (SR) nei primi anni novanta è stato presentato come un sistema per eliminare completamente la trascrizione piuttosto che rendere il processo di trascrizione più efficiente, quindi non è stato immediatamente accettato.[senza fonte] A ciò si aggiunse che, all'epoca, la tecnologia era ancora in piena fase di maturazione.

La più grande limitazione tecnica della trascrizione tramite il riconoscimento vocale è data dal fatto che la natura del dettato narrativo è talvolta interpretativa e dunque, può richiedere un giudizio che può essere fornito da un essere umano, ma non ancora da un sistema automatico. Un'altra limitazione è stata la vasta quantità di tempo necessaria da parte dell'utente e/o il fornitore di sistema per il training del software da parte dell'utente: tuttavia, negli anni più recenti, il software necessita di un training poco dispendioso in termini di tempo o addirittura nessuno.

Una distinzione dei sistemi di riconoscimento vocale automatizzati è spesso fatta tra:

  • "sistemi sintassi artificiale", che di solito sono dominio-specifici
  • "l'elaborazione del linguaggio naturale", che di solito è specifico della lingua.[non chiaro]

La prima applicazione nel mondo[senza fonte] della telefonia mobile appare nel 2003 con il Nokia 6630 ed usata sempre più fino a diventare dominante nel 2010 nei diversi smartphone, o tramite implementazioni dirette nel telefonino o applicazioni terze.

Questi programmi funzionano con algoritmi adattativi di tipo statistico inferenziale, che ricostruiscono il linguaggio in base alla frequenza delle associazioni fra parole. Possiedono anche un vocabolario fonetico con le pronunce base di numerose parole nella lingua selezionata riconoscendo così anche il timbro di voce del parlante.

L'altra grande famiglia di sistemi per l'analisi del linguaggio utilizza un vocabolario di dominio costruito dai produttori e dall'utente, ad esempio tramite ontologie. Il programma di riconoscimento vocale propriamente non deve "capire", ma trascrivere quanto detto. Tuttavia, il possesso di un vocabolario non solo di singole parole, ma di loro associazioni tipiche, inserito dall'uomo o ricostruito con mezzi statistici, è di notevole aiuto a migliorare la qualità del riconoscimento.

A partire dalla metà degli anni Ottanta, alcune industrie hanno cominciato a produrre dei microprocessori specializzati nel riconoscimento vocale. Nel 1986, il centro di ricerca italiano CSELT del gruppo STET presentò alla conferenza Eusipco 86, in Olanda, un microprocessore VLSI per il riconoscimento vocale indipendente dal parlatore per il parlato continuo nell'ambito telefonico: RIPAC (Riconoscimento del PArlato Connesso)[6]. Tale circuito fu progettato con Elsag e prodotto da SGS.

Scrittura vocale

[modifica | modifica wikitesto]

I programmi permettono di dettare documenti in qualunque editor di testo come Notepad, Word, OpenOffice o la casella di testo del proprio programma di posta elettronica. Permettono anche di costruire macro vocali che comandano la freccia del mouse per riavviare il computer, aprire e chiudere file e programmi, accedere ai menu o a un dato sito Internet, ecc.

L'installazione richiede la lettura di un brano davanti al microfono, per abituare il programma a riconoscere la voce, che viene registrata e analizzata per costruire (tuning) una libreria di file vocali. L'addestramento del programma rispetto alla voce del lettore riduce drasticamente gli errori legati al riconoscimento vocale.

In un secondo momento, il programma chiede un elenco di documenti Word o in altri formati scritti da chi parla, per memorizzare il suo lessico.

L'addestramento può proseguire quando il programma non riconosce la pronuncia di una parola, digitando il testo e registrando la pronuncia corrispondente in modo che il programma crei un file vocale (che abbina suono e scrittura della parola desiderata). Alla parola può essere abbinata, in alternativa, una sequenza di simboli dell'alfabeto fonetico.

Altre applicazioni

[modifica | modifica wikitesto]

Il riconoscimento vocale, che comporta la traduzione del discorso umano immesso in immissione di raccolta dati e l'emissione di dati in emissione di discorso viene utilizzato anche nell'ottimizzazione dei processi legati alla catena di distribuzione. Una volta integrato con computer portatile e LAN wireless per applicazioni logistiche, il riconoscimento vocale aumenta drasticamente la produttività e la velocità di acquisizione dati per le soluzioni di manodopera mobile.

Molte applicazioni sono candidati ideali per le soluzioni di riconoscimento vocale: operazioni di magazzinaggio/distribuzione, gestione dell'inventario, controllo qualità, servizi sul campo, lettura luce, acqua, gas, settore sanitario, ecc.

Il riconoscimento vocale consente il multi-tasking che, a sua volta, comporta un aumento significativo della produttività di queste applicazioni rispetto alle soluzioni basate su carta o comunque che impegnano le mani. Con i sistemi scritti, o con quelli che impegnano le mani, gli utenti alternativamente ‘lavorano’ o ‘comunicano’. Questo processo ritarda il lavoro degli operatori e causa sprechi di tempo.

Le soluzioni vocali, invece, consentono di comunicare mentre si maneggiano i prodotti. Di conseguenza la stessa quantità di lavoro può essere ultimata in meno tempo.

Il riconoscimento vocale comporta miglioramenti significativi sia nella produttività che nell'accuratezza dei dati per operazioni quali il prelievo di prodotti nel magazzino (che rappresenta più del 40% dei costi di manodopera e più del 45% degli errori nelle operazioni del magazzino).

Il riconoscimento vocale è utilizzato a vantaggio delle persone audiolese. Esistono applicazioni che convertono la voce dell'interlocutore in un messaggio di testo e simultaneamente convertono in testo anche la voce che viene registrata dal microfono.[7] Le applicazioni permettono di gestire l'intero telefono mediante comandi vocali, effettuando con la voce qualsiasi delle operazioni che è possibile effettuare manualmente. Al 2023 vari modelli di telefono commerciali supportano la voce per le chiamate vocali, la registrazione dei contatti in rubrica e l'invio di SMS; ma non per la navigazione nel web, azione che è invece resa possibile da specifiche app per Android.[7]

Allo stato dell'arte non è ancora stato progettato un telefono per sordomuti ciechi che quindi non potrebbe funzionare né manualmente né mediante comandi vocali, e la cui interfaccia possibile è la lingua dei segni mediante riconoscimento facciale dei gesti registrati dalla videocamera.

Standardizzazione

[modifica | modifica wikitesto]

Il W3C ha definito degli standard per le tecnologie vocali, che sono il VoiceXML (a dicembre 2007, alla versione 2.1) e il CCXML. Per la specifica di grammatiche vocali ha introdotto Speech Recognition Grammar Specification, per la sintesi vocale SSML 1.0 (Speech Synthesis Markup Language), per la pronuncia PLS 1.0 (Pronunciation Lexicon Specification), per l'interpretazione semantica dei risultati SISR 1.0 (Semantic Interpretation for Speech Recognition).

  1. ^ Davies, K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
  2. ^ IBM Shoebox
  3. ^ a b Billi, R., Canavesio, F., Ciaramella, A., & Nebbia, L. (1994, September). Interactive voice technology at work: The CSELT experience. In Interactive Voice Technology for Telecommunications Applications, 1994., Second IEEE Workshop on (pp. 43-48). IEEE.
  4. ^ Marco Mercinelli e Susanna Rauber, Nuove soluzioni di Telecom Italia per la clientela disabile o anziana (PDF), in Notiziario tecnico Telecom Italia Anno 8 n. 2, Agosto 1999.
  5. ^ (EN) Status Report on European Telework - New Methods of Work 1999 (PDF), su fim.uni-linz.ac.at, agosto 1999. URL consultato il 9 giugno 2023.
  6. ^ “A Custom Integrated Circuit with Dynamic Time Warping for Speech Recognition” di R. Cecinati, A. Ciaramella, G. Venuti, C. Vincenzi, CSELT Technical Reports, Vol. 15 . N.1., February 1987 – Reprint of proceedings of Eusipco 86 – The Hague – September 1986
  7. ^ a b App Android per disabili, su disabili.com.
  • Giancarlo Pirani (a cura di), Advanced algorithms and architectures for speech understanding, vol. 1, Springer Science & Business Media, 2013.

Voci correlate

[modifica | modifica wikitesto]

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
Controllo di autoritàLCCN (ENsh85010109 · GND (DE4116578-0 · J9U (ENHE987007295721205171 · NDL (ENJA00575465
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica