Interfacce Vocali: Riconoscimento, Comprensione e Sintesi

Viene discusso ed analizzato un assistente vocale completamente open source, sviluppando allo stesso tempo un excursus storico sulla evoluzione negli ultimi 40 anni delle tecnologie di trattamento del segnale vocale ai fini dell’interfaccia uomo-macchina, fino a giungere alle moderne tecniche basate su Reti Neurali.

Sul fronte del riconoscimento vocale, si illustrano i collegamenti tra Dynamic Time Warping, Hidden Markov Models, algoritmo di Viterbi, HMM-DNN, Connectionist Temporal Classification ed RNN-Trasducer.

Sul versante sintesi vocale vengono esposte le basi degli approcci parametrico, concatenativo e statistico, per poi approfondire quello di Tacotron, dei vocoder neurali, e dell’attenzione.

Sono infine presenti numerosi collegamenti agli articoli originali, alle fonti di approfondimento, ed al codice pubblicato.

- PDF, 1.64 MB, 16 volte

Oppure, torna alla

Vetrina dei Download

Ne ho discusso in un post dedicato:

In principio era il Verbo

Cookie	Durata	Descrizione
_pk_id.3.8e1c	1 year 27 days	No description
_pk_ses.3.8e1c	30 minutes	No description
_pk_testcookie_domain	past	No description
mo_openid_signup_url	1 month	No description available.
mtm_consent_removed	30 years	No description available.
pvc_visits[0]	7 days	This cookie is created by post-views-counter. This cookie is used to count the number of visits to a post. It also helps in preventing repeat views of a post by a visitor.
scroll	3 minutes	No description available.