Immagina di essere seduto rilassato sul divano e di ordinare al tuo computer o laptop o cellulare di svolgere compiti semplici come digitare una lettera o eseguire pochi comandi. È possibile?

Certo che è, è qui che entra in gioco il riconoscimento vocale.

Seguendo la definizione è il processo di riconoscimento del linguaggio umano e lo ha decodificato in forma di testo.

Principio

Il principio di base di riconoscimento vocale implica il fatto che le parole o le parole pronunciate da qualsiasi essere umano causano vibrazioni nell'aria, note come onde sonore. Queste onde continue o analogiche vengono digitalizzate ed elaborate e quindi decodificate in parole appropriate e quindi frasi appropriate.

riconoscimento vocale

Componenti di un sistema di riconoscimento vocale

Allora in cosa consiste un sistema di riconoscimento vocale di base?

Componenti di un sistema di riconoscimento vocale

Un dispositivo di cattura del parlato : È costituito da un microfono, che converte i segnali delle onde sonore in segnali elettrici e da un convertitore da analogico a digitale che campiona e digitalizza i segnali analogici per ottenere i dati discreti che il computer può comprendere.
Un modulo di segnale digitale o un processore : Esegue l'elaborazione sul segnale vocale grezzo come la conversione nel dominio della frequenza, ripristinando solo le informazioni richieste ecc.
Memorizzazione del segnale preelaborato : Il parlato preelaborato viene archiviato nella memoria per eseguire ulteriori operazioni di riconoscimento vocale.
Riferimenti Modelli di discorso : Il computer o il sistema è costituito da schemi vocali predefiniti o modelli già archiviati in memoria, da utilizzare come riferimento per la corrispondenza.
Algoritmo di pattern matching : Il segnale vocale sconosciuto viene confrontato con il modello vocale di riferimento per determinare le parole effettive o il modello delle parole.

Funzionamento del sistema

Ora vediamo come funziona effettivamente l'intero sistema.

Funzionamento del sistema

Un discorso può essere visto come una forma d'onda acustica, cioè un segnale che trasporta informazioni sul messaggio. Un essere umano normale con la velocità di movimento limitata dei suoi articolatori (organi del linguaggio) può produrre parole a una velocità media di 10 suoni al secondo. La velocità media di informazione è di circa 50-60 bit / secondo. Significa che in realtà sono necessari solo 50 bit / secondo di informazioni nel segnale vocale. Questa forma d'onda acustica viene convertita in segnali elettrici analogici dal microfono. Il convertitore da analogico a digitale converte questo segnale analogico in campioni digitali effettuando misurazioni precise dell'onda a intervalli discreti.
Il segnale digitalizzato consiste in un flusso di segnali periodici campionati a 16000 volte al secondo e non è adatto per eseguire riconoscimento vocale processo poiché il modello non può essere facilmente individuato. Per estrarre le informazioni effettive, il segnale nel dominio del tempo viene convertito in segnale nel dominio della frequenza. Questo viene fatto dal processore del segnale digitale utilizzando la tecnica FFT. Nel segnale digitale, il componente dopo ogni 1/100^thdi un secondo viene analizzato e viene calcolato lo spettro di frequenza per ciascuna di tali componenti. In altre parole, il segnale digitalizzato è segmentato in piccole parti di ampiezze di frequenza.
Ogni segmento o il grafico della frequenza rappresenta i diversi suoni prodotti dagli esseri umani. Il computer esegue la corrispondenza dei segmenti sconosciuti con la fonetica memorizzata della particolare lingua. Questa corrispondenza del modello viene eseguita in 3 modi:

Utilizzando un approccio fonetico acustico : Nell'approccio fonetico acustico, generalmente viene utilizzato il modello Markov nascosto. Questo modello sviluppa un modello di probabilità non deterministico per il riconoscimento vocale. Questo modello è costituito da due variabili: gli stati nascosti dei fonemi archiviati nella memoria del computer e il segmento di frequenza visibile del segnale digitale. Ogni fonema ha la sua probabilità e il segmento viene abbinato al fonema in base alla probabilità ei fonemi abbinati vengono quindi raccolti insieme per formare le parole corrette secondo le regole grammaticali memorizzate della lingua.

Utilizzando un approccio di riconoscimento del modello : Nell'approccio di riconoscimento del modello, il sistema viene addestrato con un modello vocale particolare per qualsiasi lingua e il modello vocale sconosciuto viene confrontato con il modello vocale di riferimento determinando la distanza tra i segnali utilizzando la tecnica del time warping.

Usare l'intelligenza artificiale : L'approccio dell'Intelligenza Artificiale si basa sull'utilizzo di fonti di conoscenza di base come la conoscenza dei suoni pronunciati sulla base di misurazioni spettrali, la conoscenza di parole significative e sintattiche appropriate.

Fattori da cui dipende il sistema di riconoscimento vocale

Il sistema di riconoscimento vocale dipende dai seguenti fattori:

Parole isolate : È necessaria una pausa tra le parole consecutive pronunciate perché le parole continue possono sovrapporsi rendendo difficile per il sistema capire quando una parola inizia o finisce. Quindi ci deve essere un silenzio tra parole consecutive.
Altoparlante singolo : Molti oratori che cercano di fornire un input vocale contemporaneamente possono causare la sovrapposizione dei segnali e le interruzioni. La maggior parte dei sistemi di riconoscimento vocale utilizzati sono sistemi dipendenti dal parlante.
Dimensione del vocabolario : Le lingue con un vocabolario ampio sono difficili da considerare per il pattern matching rispetto a quelle con un vocabolario piccolo poiché le possibilità di avere parole ambigue sono minori in queste ultime.

Sistema di riconoscimento vocale su Windows 7

Vorrei consigliare i seguenti passaggi a chiunque utilizzi Windows 7 per il sistema di riconoscimento vocale

Apri il Pannello di controllo dal menu di avvio o facendo clic sull'icona.
Seleziona Accessibilità e quindi fai clic su Riconoscimento vocale.
Quindi fai clic su configura microfono e seleziona il microfono del desktop dalle opzioni disponibili.
Quindi segui il tutorial vocale e segui le istruzioni fornite.
Dopodiché, istruisci il tuo computer per opzioni migliori in modo che il computer memorizzi uno schema definito del tuo segnale vocale. Questo viene fatto facendo clic sull'opzione 'addestra il tuo computer per comprenderti meglio' e poi segui le istruzioni.
Ora avvia l'icona di riconoscimento vocale e inizia a dettare il tuo discorso al computer. Puoi anche aggiungere le tue parole al dizionario del computer.

Sistemi pratici di riconoscimento vocale: utilizzo di HM2007

Un pratico sistema di riconoscimento vocale può essere costruito utilizzando Speech Recognition IC HM2007 . L'HM2007 è un IC a 48 pin che fornisce la funzione di riconoscimento vocale. Funziona in due modalità: modalità manuale o modalità CPU. In entrambe le modalità, l'IC viene prima addestrato a riconoscere le parole dall'utente pronunciando ciascuna parola per il numero corrispondente premuto sul tasto. L'IC memorizza ogni segnale di parola nella posizione di memoria corrispondente alla parola. L'uscita dei dati dall'IC è interfacciata al microcontrollore da dove viene visualizzata sull'LCD.

Sistemi pratici di riconoscimento vocale

Normalmente usiamo la modalità manuale per il funzionamento di HM2007.

L'HM2007 è costituito da un pin RDY che è un pin basso attivo che indica che l'IC è pronto per l'addestramento.
L'input vocale sarà dato tramite un microfono collegato al pin MICIN dell'IC.
L'IC è interfacciato con una tastiera che viene utilizzata per fornire l'immissione del numero corrispondente a ciascuna parola. L'IC funziona in due funzioni: Clear e Train. Quando il tasto Train viene premuto sulla tastiera, l'IC inizia il suo processo di addestramento.
L'utente preme un tasto numerico prima di premere il tasto funzione 'Train' e dice la parola richiesta al microfono.
L'IC invia un segnale alto al pin ME (Memory Enable) che è collegato al pin ME corrispondente della SRAM. Il segnale dati a 8 bit corrispondente al numero premuto viene memorizzato nella SRAM (RAM esterna) tramite il bus esterno.
Dopo che l'input vocale è stato rilevato, il pin RDY è a livello logico alto e l'IC arriva allo stato di riconoscimento, dove inizia il processo di riconoscimento.
Il risultato del processo viene fornito tramite il bus dati con il pin DEN (Data Enable) alto.
I dati a 8 bit possono essere quindi forniti al microcontrollore tramite un processore di interfaccia in serie o prima agganciati utilizzando il latch IC 74HC573.
Il Microcontrollore è interfacciato con un LCD ed è programmato in modo che sul display venga visualizzata la parola corrispondente.

L'unica precauzione da prendere è quella di non usare omonimi (parole con suono simile) e anche di prendersi cura dell'eccitazione nella voce.

Quindi, questo è tutto come a sistema di riconoscimento vocale di base lavori. Eventuali ulteriori input possono essere aggiunti.