Loading...
Loading...

Go to the content (press return)

Multimodal Speech Recognition

Type of activity
Competitive project
Funding entity
AGAUR. Agència de Gestió d'Ajuts Universitaris i de Recerca
Funding entity code
2019 DI 023
Amount
33.960,00 €
Start date
2019-06-28
End date
2022-06-28
Abstract
El reconeixement de la veu implica generar seqüències de paraules que coincideixen amb el que es diu en enregistraments de la parla. En els últims anys, les tècniques d'aprenentatge automàtic s'utilitzen cada cop més en el reconeixement de veu principalment a causa de la disponibilitat generalitzada de dades d'entrenament i la reducció dels costos de computació a gran escala. Aquests dos factors van fer possible l'ús d'una potent tècnica d'aprenentatge automàtic (aprenentatge profund) per crear sistemes de reconeixement de veu d'extrem a extrem. Això, en comparació amb els mètodes clàssics utilitzats en aquest camp, no requereix un ampli coneixement de la fonètica.

En escoltar qualsevol tipus de discurs, els humans utilitzen coneixements previs sobre el tema (política, medicina, esports, etc.) del discurs per a una millor comprensió. En canvi, els sistemes de reconeixement de veu no solen utilitzar aquest coneixement previ. L'ús d'informació contextual per millorar un sistema de reconeixement de veu automàtic s'explora en aquesta tesi. El resultat d'aquesta tesi serà utilitzat per l'empresa Vilynx per transcriure el discurs de vídeos que, entre d'altres, contenen notícies generals, esportives i d'entreteniment.
Scope
Adm. Generalitat
Plan
Estratègia de recerca i innovació per a l'especialització intel·ligent de Catalunya (RIS3CAT)
Call year
2019
Funcding program
RIS3CAT
Funding call
Doctorats Industrials
Grant institution
Agència De Gestió D'ajuts Universitaris I De Recerca (agaur)

Participants