Interfacce Vocali: Riconoscimento, Comprensione e Sintesi

Viene discusso ed analizzato un assistente vocale completamente open source, sviluppando allo stesso tempo un excursus storico sulla evoluzione negli ultimi 40 anni delle tecnologie di trattamento del segnale vocale ai fini dell’interfaccia uomo-macchina, fino a giungere alle moderne tecniche basate su Reti Neurali.

Sul fronte del riconoscimento vocale, si illustrano i collegamenti tra Dynamic Time Warping,  Hidden Markov Models, algoritmo di Viterbi, HMM-DNN, Connectionist Temporal Classification ed RNN-Trasducer.

Sul versante sintesi vocale vengono esposte le basi degli approcci parametrico, concatenativo e statistico, per poi approfondire quello di Tacotron, dei vocoder neurali, e dell’attenzione.

Sono infine presenti numerosi collegamenti agli articoli originali, alle fonti di approfondimento, ed al codice pubblicato.

Oppure, torna alla

Ne ho discusso in un post dedicato: