Graphic summary
  • Show / hide key
  • Information


Scientific and technological production
  •  

1 to 50 of 169 results
  • GRAPHEME-TO-PHONEME CONVERSION IN THE ERA OF GLOBALIZATION  Open access

     Polyakova, Tetyana
    Department of Signal Theory and Communications, Universitat Politècnica de Catalunya
    Theses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    Aquesta tesi es centra en el mòdul de transcripció fonètica en el context de la conversió de text a veu, concretamenten la millora de l¿adaptabilitat, fiabilitat i suport multilingüe del mòdul fonètic. La llengua està en constant evolució per la qual cosa l'adaptabilitat és un dels principals problemes de la transcripció fonètica. La transcripció fonètica s'ha abordat des d'un enfocament basat en dades. D'una banda s'han estudiat i s'han aplicat a la tasca de transcripció fonètica classificadors com ara arbres de decisió, traductors d'estats finits i models Ocults de Markov.A més a més, s'ha analitzat un mètode de generació de la pronunciació per analogia, considerant diferents estratègies.L'algorisme "transformation based learning", basat en aprenentatge dels errors proporciona millores adicionals als classificadors esmentats. Les millores més significatives s'obtenen per classificadors amb taxes d'errors més gran. Els resultats experimentals mostren que la capacitat d'adaptació del mòdul fonètic ha estat millorada obtenint taxes de paraules errònies per sota del 12% (a la llengua anglesa) .També s'ha actuat en línies que permeten augmentar la fiabilitat del mòdul fonètic. Tot i que els resultats experimentals per al G2P són bastant bons, per a aconseguir un major nivell de fiabilitat es proposa utilitzar la fusió de diccionaris. Les pronunciació de les paraules presents en els diccionaris depèn de molts factors, per exemple: opinió experta, especificacions de l'accent local, alfabet fonètic triat, nivell d'assimilació (per a noms propis), etc. Sovint hi ha discrepàncies entre la pronunciació de la mateixa paraula en diferents lèxics. El sistema de fusió proposat es un sistema que aprèn transformacions de fonema a fonema que converteix les pronunciacions del lèxic d'origen a les pronunciacions del lèxic de destí. Una altra part important d'aquesta tesi afronta el repte del multilingüisme, el fenomen que ja forma part habitual de les nostres vides quotidianes. El nostre objectiu va ser obtenir pronunciacions per a inclusions d'altres idiomes que no són del tot desconegudes i que siguin acceptades tant per parlants nadius o amb alt domini de l'idioma estranger com per parlants d'aquesta llengua amb nivell mitjà o baix. Es va aplicar la "nativització" per analogia analogia basada tant a la forma ortogràfica de la paraula com a la forma fonètica per tal de nativitzar paraules comunes i noms propis en anglès i paraules comunes en català en frases en castellà. Els resultats obtinguts, tant objectius com perceptuals són mostren la validesa d'aquesta proposta

    This thesis focuses on the phonetic transcription in the framework of text-to-speech conversion, especially on improving adaptability, reliability and multilingual support in the phonetic module. The language is constantly evolving making the adaptability one of major concerns in phonetic transcription. The phonetic transcription has been addressed from a data- based approach. On one hand, several classifiers such as Decision Trees, Finite State Transducers, Hidden Markov Models were studied and applied to the grapheme-to-phoneme conversion task. In addition, we analyzed a method of generation of pronunciation by analogy, considering different strategies. Further improvements were obtained by means of application of the transformation-based error-driven learning algorithm. The most significant improvements were obtained for classifiers with higher error rates. The experimental results show that the adaptability of phonetic module was improved, having obtained word error rates as low as 12% (for English). Next, steps were taken towards increasing reliability of the output of the phonetic module. Although, the G2P results were quite good, in order to achieve a higher level of reliability we propose using dictionary fusion. The ways the pronunciations are represented in different lexica depend on many factors such as: expert¿s opinion, local accent specifications, phonetic alphabet chosen, assimilation level (for proper names), etc. There are often discrepancies between pronunciations of the same word found in different lexica. The fusion system is a system that learns phoneme-to-phoneme transformations and converts pronunciations from the source lexicon into pronunciations from the target lexicon. Another important part of this thesis consisted in acing the challenge of multilingualism, a phenomenon that is becoming a usual part of our daily lives. Our goal was to obtain such pronunciations for foreign inclusions that would not be totally unfamiliar either to a native or proficient speakers of the language to be adapted, or to speakers of this language with average to low proficiency. Nativization by analogy was applied to both orthographic and phonetic forms of the word. The results obtained show that phonetic analogy gives better performance than analogy in the orthographic domain for both proper names and common nouns. Both objective and perceptual results obtained show the validity of this proposal.

    Fa tan sols uns deu anys les aplicacions de sistemes TTS eren molt més limitades, encara que un passat tan recent sembla més llunyà a causa dels canvis produïts en les nostres vides per la invasió massiva de les tecnologies intel·ligents. Els processos d’automatització de serveis també han assolit nous nivells. Què és el que defineix un bon sistema TTS avui dia? El mercat exigeix que aquest sigui molt adaptable a qualsevol tipus d’àmbit. També és imprescindible un alt nivell de fiabilitat ja que un simple error d’un TTS pot causar problemes seriosos en el nostre dia a dia. La nostra agenda és cada vegada més exigent i hem de fer front a més volums d’informació en menys temps. Deleguem les nostres tasques quotidianes als nostres dispositius intel·ligents que ens ajuden a llegir llibres, triar productes, trobar un lloc al mapa, etc. A més viatgem més i més cada dia. Aprenem a parlar noves llengües, les barregem, en un món més i més globalitzat. Un sistema TTS que no és capaç de fer front a les entrades multilingües no serà capaç de sostenir la competència. Els sistemes TTS moderns han de ser multilingües. La transcripció fonètica és el primer mòdul del TTS per la qual cosa el seu correcte funcionament és fonamental. Aquesta tesi se centra en la millora de l’adaptabilitat, fiabilitat i suport multilingüe del mòdul fonètic del nostre sistema TTS. El mòdul de transcripció fonètica del TTS va passar de ser basat en regles o diccionaris a ser automàtic, derivat de dades. La llengua està en constant evolució, igual que tots els organismes vius. És per això que l’adaptabilitat és un dels principals problemes de la transcripció fonètica. Per millorar-la es necessita un mètode basat en dades que funcioni bé per a derivar la pronunciació de paraules no trobades al lèxic del sistema. En aquesta tesi es comparen diferents mètodes G2P impulsats per dades que utilitzen les mateixes dades d’entrenament i test i es proposen millores. S’han aplicat diversos classificadors basats en dades, com ara arbres de decisió, traductors d’estats finits i models de Markov, a la tasca de transcripció fonètica, analitzant i comparant els resultats. L’algorisme TBL, basat en aprenentatge dels errors proporciona millores adicionals als classificadors esmentats. Aquest mètode permet capturar patrons d’errors i corregir-los. Les millores més significatives s’obtenen per classificadors amb taxes d’errors més gran. Els millors resultats s’obtenen mitjançant l’aplicació del millor classificador FST amb posterior correcció dels errors pel TBL. Els resultats obtingut per altres classificadors i corregits pel TBL mostren millores entre 2-4 punts percentuals en la taxa d’error de les paraules. La millora que s’obté mitjançant l’aplicació del TBL per als resultats del classificador més simple basat només en correspondències lletra-fonema presents en el corpus d’entrenament, ML, és enorme (77-83 punts percentuals depenent del lèxic), el que demostra l’eficàcia del TBL per si sol. L’èxit de l’algorisme TBL demostra l’eficàcia de l’aprenentatge basat en els errors, que és bastant similar a l’aprenentatge de llengües pels humans. Una altra tècnica que els éssers humans utilitzen de forma regular en l’aprenentatge d’idiomes és la pronunciació per analogia. Això és encara més cert per a llengües amb ortografia profunda, on la correspondència entre la forma escrita i parlada és bastant ambigua. Per millorar encara més la capacitat d’adaptació del nostre mòdul de pronunciació fonètica, es va desenvolupar un algorisme de pronunciació per analogia. Aquest algorisme troba arcs de lletres als quals correspon la mateixa pronunciació i calcula la seva freqüència. La pronunciació d’una nova paraula es construeix amb els arcs més llargs que constitueixen el camí més curt a través del graf de totes les pronunciacions disponibles per a aquesta paraula. Es basa en paràmetres com ara la freqüència d’arc, posició en la paraula, etc. Les pronunciacions que contenen el menor nombre d’arcs (si hi ha més d’una) es donen un rang i les estratègies de puntuació escullen la millor opció. En aquest treball s’han proposat noves estratègies de puntuació i s’han obtingut resultats prometedors. Una de les noves estratègies propostes clarament supera a les altres. Les noves estratègies propostes també apareixen a la llista de les millors combinacions d’estratègies. Els millors resultats per al PbA són entre 63 i 88 % paraules correctes segons el lèxic. S’han avaluat els G2P no solament per a l’anglès, si no també per altres idiomes europeus. També s’ha considerat el cas de la parla contínua. Per L’anglès, La adaptació de la pronunciació a la parla contínua considera les formes febles. Els resultats generals mostren que la capacitat d’adaptació del mòdul fonètic ha estat millorada. També s’ha actuat en línies que permeten augmentar la fiabilitat del mòdul fonètic. Tot i que els resultats experimentals per al G2P són bastant bons, encara hi ha errors que poden impedir que la intel·ligibilitat de certes paraules i, per tant, reduir la qualitat de la parla en general. Es proposa aconseguir un major nivell de fiabilitat a través de fusió de diccionaris. Les pronunciació de les paraules presents en els diccionaris depèn de molts factors, per exemple: opinió experta, especificacions de l’accent local, alfabet fonètic triat, nivell d’assimilació (per a noms propis), etc. Sovint hi ha discrepàncies entre la pronunciació de la mateixa paraula en diferents lèxics. En general, aquestes discrepàncies, encara que de vegades significatives, no obstaculitzen greument la pronunciació global de la paraula ja que totes les pronunciacions lèxic han estat prèviament validades per un lingüista expert. Aquestes discrepàncies normalment es troben a la pronunciació de vocals i diftongs. La substitució de vocals per similars no es considera un error greu perquè no afecta la intel·ligibilitat i per tant la qualitat de veu. El sistema de fusió proposat es basa en el mètode P2P, que transforma les pronunciacions del lèxic d’origen a les pronunciacions del lèxic de destí (el sistema està capacitat per aprendre aquestes transformacions). Per entrenar el classificador, es seleccionen les entrades comunes entre el lèxic font i destí. Els experiments es duen a terme tant per paraules comuns com per a noms propis. Els experiment realitzat s’han basat en les tècniques DT i FST. Els resultats mostren que la qualitat de la parla en general es pot millorar significativament donadas les baixes taxes d’error de G2P i una àmplia cobertura del diccionari del sistema. El sistema TTS final és més adaptable i fiable, més preparat per afrontar el repte del multilingüisme, el fenomen que ja forma part habitual de les nostres vides quotidianes. Aquesta tesi considera contextos que contenen la barreja de llengües, on la llengua pot canviar de forma inesperada. Aquestes situacions abunden en les xarxes socials, fòrums, etc. Es proposa un esquema de G2P multilingüe incloent la nativització. El primer component d’un TTS multilingüe és el mòdul d’identificació d’idioma. S’ha desenvolupat un identificador d’idioma basat en n -gramas (de lletres) obtenint bons resultats. Els contextos amb llengües mixtes han de ser tractats amb especial delicadesa. En general, cada frase o paràgraf tenen una llengua principal i les paraules estrangeres presents s’hi consideren inclusions. A l’hora de decidir com pronunciar frases en diverses llengües es poden considerar dos escenaris: 1) aplicar, per cada llengua el diferents G2P classificadors propis de la llengua (es produiria canvis fonètics bruscs que sonarien molt poc natural); 2) aplicar el classificador G2P per a l’idioma principal de la frase suposant que aquesta pronunciació seria més acceptable que la que conté fonemes estrangers. I si cap de les propostes anteriors es acceptada? Per països com Espanya, on el domini de llengües estrangeres per la població general és bastant limitat, proposem nativitzar la pronunciació de paraules estrangeres en frases espanyoles. Quins criteris s’han d’utilitzar tenint en compte les significatives diferències en l’inventari de fonemes? El nostre objectiu és obtenir pronunciacions que no són del tot desconegudes i que siguin acceptades tant per parlants nadius o amb alt domini de l’idioma estranger com per parlants d’aquesta llengua amb nivell mitjà o baix. En aquest treball la nativització es porta a terme per a les inclusions angleses i catalanes en frases en castellà. Quan hi ha diferències significatives en els inventaris de fonemes entre les llengües nativització presenta reptes addicionals. Per tal de validar ràpidament la idea de nativització es van crear taules de mapeig de fonemes estrangers als nativizats, també es va dur a terme una avaluació perceptual. La nativització basada en taules mostra un major nivell d’acceptació per part del públic que la síntesi sense cap nativiztació. Per tal de millorar encara més els resultats de nativització de forma eficaç es necessita un mètode basat en dades. Com a gran part de pronunciacions estrangeres s’aprenen per analogia, l’aplicació del PbA a aquesta tasca és idoni, sobretot perquè ja ha demostrat excel·lents resultats per a la tasca de transcripció fonètica. Per a això s’explora l’analogia tant en el domini ortogràfic com fonètic. Tots els mètodes basats en dades requereixen un corpus d’entrenament i PbA, per descomptat, no és una excepció. Ja que cap corpus de nativització adequat per a la tasca estava disponible es va prendre la decisió de crear un corpus d’entrenament i test per entrenar i validar el nostre classificador per inclusions angleses en castellà, i un altre joc per a les catalanes. Tots els dos corpus d’entrenament contenen 1.000 paraules i són ortogràficament equilibrats. S’aplica la nativització per analogia basada en la forma ortogràfica de la paraula G2Pnat i també basada en la forma fonètica acs ppnat per tal d’nativitzar paraules comunes i noms propis en anglès i paraules comunes en català en frases en castellà. Els resultats obtinguts mostren que l’analogia fonètica dóna un millor rendiment que l’analogia en el domini ortogràfic pels noms propis i paraules comunes. No obstant això, els resultats obtinguts per als noms propis anglesos es troben uns 12 punts percentuals per sota dels obtinguts per a les paraules comunes en anglès. Això és degut al fet que la pronunciació noms propis està influenciada per factors més complexos i fins i tot per als éssers humans presenta importants reptes. L’algorisme TBL també s’ha aplicat per millorar els resultats de nativización per inclusions angleses. S’obtenen millores per als resultats obtinguts per P2Pnat, així com per als resultats obtinguts per les taules de nativiztació. Els bons resultats obtinguts per l’algorisme TBL aplicat a la predicció del mètode ML demostra l’eficàcia del mètode d’aprenentatge a partir d’errors, també per a aquesta tasca. A l’avaluació perceptual duta a terme per inclusions angleses en castellà, es va demanar als oients que votessin el millor dels tres mètodes disponibles: G2P (per castellà), NatTAB i P2Pnat. P2Pnat és triat com el millor en el 50 % dels casos mentre que el G2P per a espanyol obté la majoria de vots negatius (45 % dels casos). Aquests resultats perceptuals i els encoratjadors resultats objectius demostren la idoneïtat de nativització per sistemes TTS multilingües

    Hace tan sólo unos diez años, las aplicaciones de sistemas TTS estaban mucho más limitadas, aunque un pasado tan reciente parece más lejano debido a los cambios producidos en nuestras vidas por la invasión masiva de las tecnologías inteligentes. Los procesos de automatización de los servicios han alcanzado a nuevos niveles. ¿Qué es lo que define un buen sistema TTS hoy en día? El mercado exige que éste sea muy adaptable a cualquier tipo de ámbito. También es imprescindible un alto nivel de fiabilidad, ya que un simple error de un TTS puede causar problemas serios en nuestro día a día. Nuestra agenda es cada vez más exigente y tenemos que hacer frente a un volumen cada vez mayor de información en menos tiempo. Delegamos nuestras tareas cotidianas a nuestros dispositivos inteligentes que nos ayudan a leer libros, elegir productos, encontrar un lugar en el mapa, etc. Además, cada día viajamos más, aprendemos a hablar nuevas lenguas, las mezclamos, volviéndonos más y más globalizados. Un sistema TTS que no sea capaz de hacer frente a las entradas multilngües no será capaz de sostener la competencia. Los sistemas TTS modernos tienen que ser multilngües. La transcripción fonética es el primer módulo del TTS por lo cual su correcto funcionamiento es fundamental. Esta tesis se centra en la mejora de la adaptabilidad, fiabilidad y soporte del módulo fonético de nuestro sistema TTS. El módulo de transcripción fonética del TTS pasó de ser basado en reglas o diccionarios a ser automática, basada en datos. La lengua está en constante evolución al igual que todos los organismos vivos. Es por eso que la adaptabilidad es uno de los principales problemas de la transcripción fonética. Para mejorarla se necesita un método basado en datos que funcione bien para derivar la pronunciación de palabras no encontradas en el léxico del sistema. En esta tesis se comparan diferentes métodos G2P basados en datos, utilizando los mismos datos de entrenamiento y test y se proponen mejoras. Se han estudiado clasificadores basados en datos, tales como árboles de decisión, traductores de estados finitos y modelos de Markov, aplicados a la tarea de transcripción fonética y comparando los resultados. El algoritmo TBL, basado en aprendizaje de los errores y que permite capturar patrones de errores y corregirlos ha aportado nuevas mejoras, que han sido especialmente significativas para los clasificadores con tasa de error más alta. Los mejores resultados se obtienen mediante la aplicación del mejor clasificador FST con posterior corrección de los errores por el TBL. Los resultados obtenido por otros clasificadores y corregidos por el TBL muestran mejoras entre 2-4 puntos porcentuales en la tasa de error de las palabras. La mejora que se obtiene mediante la aplicación del TBL para a los resultados del clasificador más simple, basado solamente en correspondencias letra-fonema presentes en el corpus de entrenamiento, ML, es enorme (77-83 puntos porcentuales dependiendo del léxico), lo que demuestra la eficacia del TBL por si solo. El éxito del algoritmo TBL demuestra la eficacia del aprendizaje basado en los errores, que es bastante similar al aprendizaje de lenguas por los humanos. Otra técnica que los seres humanos utilizan de forma regular en el aprendizaje de idiomas es pronunciación por analogía. Esto es aún más cierto para lenguas con ortografía profunda, donde la correspondencia entre la forma escrita y hablada es bastante ambigua. Para mejorar aún más la capacidad de adaptación de nuestro módulo de pronunciación fonética, se ha estudiado un algoritmo de pronunciación por analogía. Este algoritmo encuentra arcos de letras a los que corresponde la misma pronunciación y calcula su frecuencia. La pronunciación de una nueva palabra se construye con los arcos más largos que constituyen el camino más corto a través del grafo de todas las pronunciaciones disponibles para esta palabra. Se basa en parámetros tales como la frecuencia de arco, posición en la palabra, etc., las pronunciaciones que contienen el menor número de arcos (si hay más de una ) se dan un rango y las estrategias de puntuación escogen la mejor opción. En esta tesis se han propuesto nuevas estrategias de puntuación, obteniéndose resultados prometedores. Una de las nuevas estrategias propuestas claramente supera a los demás. Además, las estrategias propuestas también aparecen seleccionadas al observar las mejores combinaciones de estrategias. Los mejores resultados para PbA son entre 63 y 88% palabras correctas según el léxico. Se obtienen resultados G2P no solamente para el inglés, sino también para otros idiomas europeos. También se ha considerado el caso del habla continua, adaptando la pronunciación para el habla continua del inglés, utilizando las llamadas formas débiles. Los resultados generales muestran que la capacidad de adaptación del módulo fonético ha sido mejorada. Otra línea de investigación en esta tesis se encamina a aumentar la fiabilidad del módulo fonético. Aunque, los resultados experimentales para el G2P son bastante buenos, todavía existen errores que pueden impedir que la inteligibilidad de ciertas palabras y, por lo tanto, reducir la calidad del habla en general. Para lograr un mayor nivel de fiabilidad se propone utilizar la fusión de diccionarios. Las pronunciación de las palabras presentes en los distintos diccionarios depende de muchos factores, por ejemplo: opinión experta, especificaciones del acento local, alfabeto fonético elegido, nivel de asimilación (para nombres propios), etc. A menudo hay discrepancias entre la pronunciación de la misma palabra en diferentes léxicos. Por lo general, estas discrepancias, aunque a veces significativas, no obstaculizan gravemente la pronunciación global de la palabra ya que todas las pronunciaciones léxico han sido previamente validadas por un lingüista experto. Estas discrepancias normalmente se encuentran en la pronunciación de vocales y diptongos. La sustitución de vocales por otras similares no se considera un error grave porque no afecta la inteligibilidad y por lo tanto la calidad de voz. El sistema de fusión estudiado es un sistema P2P que transforma las pronunciaciones del léxico de origen en pronunciaciones del léxico destino (el sistema está capacitado para aprender estas transformaciones). Para entrenar el clasificador, se seleccionan las entradas comunes entre el léxico fuente y destino. Se han realizado experimentos tanto para las palabras comunes como para los nombres propios, considerando los métodos de transformación basados en DT y FST. Los resultados experimentales muestran que la calidad del habla en general se puede mejorar significativamente dadas las bajas tasas de error de G2P y la amplia cobertura del diccionario del sistema. Un sistema TTS adaptable y fiable tiene que estar preparado para afrontar el reto del multilingüísmo, fenómeno que ya forma parte habitual de nuestras vidas cotidianas. Esta tesis también ha considerado contextos que contienen la mezcla de lenguas, en los que la lengua puede cambiar de forma inesperada. Este tipo de contextos abundan en las redes sociales, foros, etc. Se propone un esquema de G2P multilngüe incluyendo la nativización. El primer componente de un TTS multilngüe es el módulo de identificación de idioma. Se ha desarrollado un identificador de idioma basado n -gramas (de letras) que proporciona buenos resultados. Los contextos en los que intervienen varias lenguas deben ser tratados con especial delicadeza. Por lo general, cada frase o párrafo tienen una lengua principal y las palabras extranjeras presentes en ella se consideran inclusiones. Al definir la estrategia sobre cómo pronunciar frases en varias lenguas puede partirse de dos escenarios: 1) aplicar a cada lengua un clasificador G2P distinto e independiente (que produciría cambios fonéticos bruscos que sonarían muy poco natural); 2) aplicar el clasificador G2P para el idioma principal de la frase suponiendo que esta pronunciación sería más aceptable que la que contiene fonemas extranjeros. Pero, ¿y si ninguno de los escenarios anteriores ofrece una calidad aceptable? Para países como España, donde el dominio de lenguas extranjeras por la población general es bastante limitado proponemos nativizar la pronunciación de palabras extranjeras en frases españolas. ¿Qué criterios se deben utilizar dadas las significativas diferencias en el inventario de fonemas? El objetivo ha sido obtener pronunciaciones que no son del todo desconocidas y que sean aceptadas tanto por hablantes nativos o con alto dominio del idioma extranjero como por hablantes de esa lengua con nivel medio o bajo. La nativización se lleva a cabo estudiando específicamente las inclusiones inglesas y catalanas en frases en castellano. Cuando hay diferencias significativas en los inventarios de fonemas entre las lenguas nativización presenta retos adicionales. Con el fin de validar rápidamente la idea de nativización se crearon tablas de mapeo de fonemas extranjeros a los nativizados y se llevó a cabo una evaluación perceptual. La nativización basada en tablas muestra un mayor nivel de aceptación por parte del público que la síntesis sin nativización. A fin de mejorar aún más los resultados de nativización de forma eficaz se propone aplicar un método basado en datos. Como gran parte de pronunciaciones extranjeras se aprenden por analogía, la aplicación del PbA a esta tarea es idóneo, sobre todo porque ya ha demostrado excelentes resultados para la tarea de transcripción fonética. Para ello se explora la analogía tanto en el dominio ortográfico como fonético. Todos los métodos basados en datos requieren un corpus de entrenamiento y PbA, por supuesto, no es una excepción. Ya que ningún corpus de nativización adecuado para la tarea estaba disponible se tomó la decisión de crear un corpus de entrenamiento y test para entrenar y validar nuestro clasificador para inclusiones inglesas en castellano y otro similar para las catalanas. Ambos corpus de entrenamiento contienen 1.000 palabras y son ortográficamente equilibrados. Se aplica la nativización por analogía basada en la forma ortográfica de la palabra G2Pnat y también basada en la forma fonética P2Pnat con el fin de nativizar palabras comunes y nombres propios en inglés y palabras comunes en catalán en frases en castellano. Los resultados obtenidos muestran que la analogía fonética da un mejor rendimiento que la analogía en el dominio ortográfico para los nombres propios y palabras comunes. Sin embargo, los resultados obtenidos para los nombres propios ingleses se encuentran unos 12 puntos porcentuales por debajo de los obtenidos para las palabras comunes en inglés. Esto es debido al hecho de que la pronunciación nombres propios está influenciada por factores más complejos e incluso para los seres humanos presenta importantes retos. El algoritmo TBL también se ha aplicado para mejorar los resultados de nativización para inclusiones inglesas. Se han obtenido mejoras tanto para los resultados obtenidos por P2Pnat, como para los resultados obtenidos por las tablas de nativización. Los buenos resultados obtenidos por el algoritmo TBL aplicado a la predicción del método ML demuestra la eficacia del método de aprendizaje a partir de errores también para esta tarea. En la evaluación perceptual llevada a cabo para ilusiones inglesas en castellano, se pidió a los oyentes que votaran el mejor de los tres métodos disponibles: G2P (para castellano), NatTAB y P2Pnat. P2Pnat es elegido como el mejor en el 50 % de los casos mientras que el G2P para español obtiene la mayoría de votos negativos (45 % de los casos). Estos resultados perceptuales así como los alentadores resultados objetivos demuestran la idoneidad de nativización para sistemas TTS multilngües.

  • Grup de tractament de la parla

     Mariño Acebal, Jose Bernardo; Nadeu Camprubí, Climent; Moreno Bilbao, M. Asuncion; Rodríguez Fonollosa, José Adrián; Hernando Pericas, Francisco Javier; Vallverdu Bayes, Francisco; Monte Moreno, Enrique; Salavedra Moli, Josep; Nogueiras Rodriguez, Albino; Esquerra Llucià, Ignasi; Formiga Fanals, Lluis; Jauk, Igor; Raboshchuk, Ganna; Zewoudie, Abraham Woubie; Bonafonte Cavez, Antonio Jesus
    Competitive project

     Share

  • Glissando: a corpus for multidisciplinary prosodic studies in Spanish and Catalan

     Garrido, Juan Maria; Escudero, David; Aguilar, Lourdes; Cardeñoso Payo, V.; Rodero, Emma; de-la-Mota, Carme; González, César; Vivaracho, C. E.; Rustullet, Sílvia; Larrea, Olatz; Laplaza, Yesika; Vizcaíno, Francisco; Estebas, Eva; Cabrera, Mercedes; Bonafonte Cavez, Antonio Jesus
    Language resources and evaluation
    Vol. 47, num. 4, p. 945-971
    DOI: 10.1007/s10579-012-9213-0
    Date of publication: 2013-12
    Journal article

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    Literature review on prosody reveals the lack of corpora for prosodic studies in Catalan and Spanish. In this paper, we present a corpus intended to fill this gap. The corpus comprises two distinct data-sets, a news subcorpus and a dialogue subcorpus, the latter containing either conversational or task-oriented speech. More than 25 h were recorded by twenty eight speakers per language. Among these speakers, eight were professional (four radio news broadcasters and four advertising actors). The entire material presented here has been transcribed, aligned with the acoustic signal and prosodically annotated. Two major objectives have guided the design of this project: (i) to offer a wide coverage of representative real-life communicative situations which allow for the characterization of prosody in these two languages; and (ii) to conduct research studies which enable us to contrast the speakers different speaking styles and discursive practices. All material contained in the corpus is provided under a Creative Commons Attribution 3.0 Unported License.

  • Voice conversion using K-histograms and residual averaging

     Uriz, A. J.; Agueero, P. D.; Tulli, J. C.; Castineria Moreira, J; Gonzalez, E. L.; Bonafonte Cavez, Antonio Jesus
    Latin american applied research
    Vol. 43, num. 3, p. 231-236
    Date of publication: 2013-07-01
    Journal article

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    The main goal of a voice conversion system is to modify the voice of a source speaker, in order to be perceived as if it had been uttered by another specific speaker. Many approaches found in the literature convert only the features related to the vocal tract of the speaker. Our proposal is to convert those characteristics, and to process the signal passing through the vocal chords. Thus, the goal of this work is to obtain better scores in the voice conversion results.

  • Search engine for multilingual audiovisual contents

     Pérez, José David; Bonafonte Cavez, Antonio Jesus; Ruiz Costa-jussa, Marta; Cardenal, Antonio; Rodríguez Fonollosa, José Adrián; Moreno Bilbao, M. Asuncion; Navas, Eva; Rodríguez Banga, Eduardo
    Jornadas en Tecnología del Habla and III Iberian SLTech Workshop
    p. 422-430
    Presentation's date: 2012-11
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Síntesis de voz aplicada a la traducción voz a voz  Open access

     Agüero, Pablo Daniel
    Department of Signal Theory and Communications, Universitat Politècnica de Catalunya
    Theses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    In the field of speech technologies, text-to-speech conversion is the automatic generation of artificial voices that sound identical to a human voice when reading a text in loud speech. Inside a text-to-speech system, the prosody module produces the prosodic information that is necessary to generate a natural voice: intonational phrases, intonation of the sentence, duration and energy of phonemes, etc. The correct generation of this information directly impacts in the naturalness and expressiveness of the system. The main goals of this thesis is the development of new algorithms to train models for prosody generation that may be used in a text-to-speech system, and their use in the framework of speech-to-speech translation. In this thesis several alternatives were studied for intonation modeling. They combine the parameterization and the intonation model generation as a integrated process. Such approach was successfully judged both with objective and subjective evaluations. The influence of segmental and suprasegmental factors in duration modeling was also studied. Several algorithms were proposed with the results of these studies that may combine segmental and suprasegmental information, likewise other publications of this field. Finally, an analysis of various phrase break models was also performed, both with words and accent groups: classification trees (CART), language modeling (LM) and finite state transducers (FST). The use of the same data set in the experiments was useful to obtain relevant conclusions about the differences between these models. One of the main goals of this thesis was the improvement of naturalness, expressiveness and consistency with the style of the source speaker in text-to-speech systems. This may be done by using the prosody of the source speaker in the framework of speech-to-speech translation as an additional information source. Several algorithms were developed for prosody generation that may integrate such additional information for the prediction of intonation, phoneme duration and phrase breaks. In that direction several approaches were studied to transfer the intonation from one language to the other. The chosen approach was an automatic clustering algorithm that finds a certain number of tonal movements that are related between languages, without any limitation about their number. In this way, it is possible to use this coding for intonation modeling of the target language. Experimental results show an improvement, that is more relevant in close languages, such as Spanish and Catalan. Although no segmental duration transfer was performed between languages, in this thesis is proposed the transfer of rhythm from one language to the other. For that purpose a method that combines the rhythm transfer and audio synchronization was proposed. The synchronizations is included because of its importance for the speech-to-speech translation technology when video is also used. Lastly, in this thesis was also proposed a pause transfer technique in the framework of speech-to-speech translation, by means of alignment information. Studies in training data have shown the advantage of tuples for this task. In order to predict any pause that can not be transferred using the before mentioned method, conventional pause prediction algorithms are used (CART, CART+LM, FST), taking into account the already transferred pauses.

    Dentro de las tecnologías del habla, la conversión texto a voz consiste en la generación, por medios automáticos, de una voz artificial que genera idéntico sonido al producido por una persona al leer un texto en voz alta. En resumen, los conversores texto a voz son sistemas que permiten la conversión de textos en voz sintética. El proceso de conversión texto a voz se divide en tres módulos básicos: procesamiento del texto, generación de la prosodia y generación de la voz sintética. En el primero de los módulos se realiza la normalización del texto (para expandir abreviaciones, convertir números y fechas en texto, etc), y en ocasiones, luego también se hace un etiquetado morfosintáctico. A continuación se procede a la conversión de los grafemas en fonemas y a la silabificación para obtener la secuencia de fonemas necesaria para reproducir el texto. Posteriormente, el módulo de prosodia genera la información prosódica para poder producir la voz. Para ello se predicen las frases entonativas y la entonación de la oración, y también la duración y la energía de los fonemas, etc. La correcta generación de esta información repercutirá directamente en la naturalidad y expresividad del sistema. En el último modulo de generación de la voz es donde se produce la voz considerando la información provista por los módulos de procesamiento del texto y prosodia. El objetivo de la presente tesis es el desarrollo de nuevos algoritmos para el entrenamiento de modelos de generación de prosodia para la conversión texto a voz, y su aplicación en el marco de la traducción voz a voz. En el caso de los algoritmos de modelado de entonación, en la literatura se proponen generalmente enfoques que incluyen una estilización previa a la parametrización. En esta tesis se estudiaron alternativas para evitar esa estilización, combinando la parametrización y la generación del modelo de entonación en un todo integrado. Dicho enfoque ha resultado exitoso tanto en la evaluación objetiva (usando medidas como el error cuadrático medio o el coeficiente de correlación Pearson) como en la subjetiva. Los evaluadores han considerado que el enfoque propuesto tiene una calidad y una naturalidad superiores a otros algoritmos existentes en la literatura incluidos en las evaluaciones, alcanzando un MOS de naturalidad de 3,55 (4,63 para la voz original) y un MOS de calidad de 3,78 (4,78 para la voz original).

  • Voice Source Characterization for Prosodic and Spectral Manipulation  Open access

     Pérez Mayos, Javier
    Department of Signal Theory and Communications, Universitat Politècnica de Catalunya
    Theses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    The objective of this dissertation is to study and develop techniques to decompose the speech signal into its two main components: voice source and vocal tract. Our main efforts are on the glottal pulse analysis and characterization. We want to explore the utility of this model in different areas of speech processing: speech synthesis, voice conversion or emotion detection among others. Thus, we will study different techniques for prosodic and spectral manipulation. One of our requirements is that the methods should be robust enough to work with the large databases typical of speech synthesis. We use a speech production model in which the glottal flow produced by the vibrating vocal folds goes through the vocal (and nasal) tract cavities and its radiated by the lips. Removing the effect of the vocal tract from the speech signal to obtain the glottal pulse is known as inverse filtering. We use a parametric model fo the glottal pulse directly in the source-filter decomposition phase. In order to validate the accuracy of the parametrization algorithm, we designed a synthetic corpus using LF glottal parameters reported in the literature, complemented with our own results from the vowel database. The results show that our method gives satisfactory results in a wide range of glottal configurations and at different levels of SNR. Our method using the whitened residual compared favorably to this reference, achieving high quality ratings (Good-Excellent). Our full parametrized system scored lower than the other two ranking in third place, but still higher than the acceptance threshold (Fair-Good). Next we proposed two methods for prosody modification, one for each of the residual representations explained above. The first method used our full parametrization system and frame interpolation to perform the desired changes in pitch and duration. The second method used resampling on the residual waveform and a frame selection technique to generate a new sequence of frames to be synthesized. The results showed that both methods are rated similarly (Fair-Good) and that more work is needed in order to achieve quality levels similar to the reference methods. As part of this dissertation, we have studied the application of our models in three different areas: voice conversion, voice quality analysis and emotion recognition. We have included our speech production model in a reference voice conversion system, to evaluate the impact of our parametrization in this task. The results showed that the evaluators preferred our method over the original one, rating it with a higher score in the MOS scale. To study the voice quality, we recorded a small database consisting of isolated, sustained Spanish vowels in four different phonations (modal, rough, creaky and falsetto) and were later also used in our study of voice quality. Comparing the results with those reported in the literature, we found them to generally agree with previous findings. Some differences existed, but they could be attributed to the difficulties in comparing voice qualities produced by different speakers. At the same time we conducted experiments in the field of voice quality identification, with very good results. We have also evaluated the performance of an automatic emotion classifier based on GMM using glottal measures. For each emotion, we have trained an specific model using different features, comparing our parametrization to a baseline system using spectral and prosodic characteristics. The results of the test were very satisfactory, showing a relative error reduction of more than 20% with respect to the baseline system. The accuracy of the different emotions detection was also high, improving the results of previously reported works using the same database. Overall, we can conclude that the glottal source parameters extracted using our algorithm have a positive impact in the field of automatic emotion classification.

  • Access to the full text
    Building synthetic voices in the METANET framework  Open access

     Garcia Casademont, Emília; Bonafonte Cavez, Antonio Jesus; Moreno Bilbao, M. Asuncion
    International Conference on Language Resources and Evaluation
    p. 3322-3326
    Presentation's date: 2012-05-25
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    METANET4U is a European project aiming at supporting language technology for European languages and multilingualism. It is a project in the META-NET Network of Excellence, a cluster of projects aiming at fostering the mission of META, which is the Multilingual Europe Technology Alliance, dedicated to building the technological foundations of a multilingual European information society. This paper describe the resources produced at our lab to provide Synthethic voices. Using existing 10h corpus for a male and a female Spanish speakers, voices have been developed to be used in Festival, both with unit-selection and with statistical-based technologies. Furthermore, using data produced for supporting research on intra and inter-lingual voice conversion, four bilingual voices (English/Spanish) have been developed. The paper describes these resources which are available through META. Furthermore, an evaluation is presented to compare different synthesis techniques, influence of amount of data in statistical speech synthesis and the effect of sharing data in bilingual voices.

  • Access to the full text
    The BUCEADOR multi-language search engine for digital libraries  Open access

     Adell, Jordi; Bonafonte Cavez, Antonio Jesus; Ruiz Costa-jussa, Marta; Cardenal, Antonio; Rodríguez Fonollosa, José Adrián; Moreno Bilbao, M. Asuncion; Navas, Eva; Rodríguez Banga, Eduardo
    International Conference on Language Resources and Evaluation
    p. 1705-1709
    Presentation's date: 2012-05-24
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    This paper presents a web-based multimedia search engine built within the Buceador (www.buceador.org) research project. A proof-of-concept tool has been implemented which is able to retrieve information from a digital library made of multimedia documents in the 4 official languages in Spain (Spanish, Basque, Catalan and Galician). The retrieved documents are presented in the user language after translation and dubbing (the four previous languages + English). The paper presents the tool functionality, the architecture, the digital library and provide some information about the technology involved in the fields of automatic speech recognition, statistical machine translation, text-to-speech synthesis and information retrieval. Each technology has been adapted to the purposes of the presented tool as well as to interact with the rest of the technologies involved.

  • Building synthetic voices in the META-NET framework

     Garcia Casademont, Emília; Bonafonte Cavez, Antonio Jesus; Moreno Bilbao, M. Asuncion
    International Conference on Language Resources and Evaluation
    p. 3322-3326
    Presentation's date: 2012-05
    Presentation of work at congresses

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    METANET 4 U is a European project aiming at supporting language technology for European languages and multilingualism. It is a project in the META-NET Network of Excellence, a cluster of projects aiming at fostering the mission of META, which is the Multilingual Europe Technology Alliance, dedicated to building the technological foundations of a multilingual European information society. This paper describe the resources produced at our lab to provide Synthethic voices. Using existing 10h corpus for a male and a female Spanish speakers, voices have been developed to be used in Festival, both with unit-selection and with statistical-based technologies. Furthermore, using data produced for supporting research on intra and inter-lingual voice conversion, four bilingual voices (English/Spanish) have been developed. The paper describes these resources which are available through META. Furthermore, an evaluation is presented to compare different synthesis techniques, influence of amount of data in statistical speech synthesis and the effect of sharing data in bilingual voices

  • Production of filled pauses in concatenative speech synthesis based on the underlying fluent sentence

     Adell Mercado, Jordi; Bonafonte Cavez, Antonio Jesus; Escudero Mancebo, David
    Speech communication
    Vol. 54, num. 3, p. 459-476
    DOI: 10.1016/j.specom.2011.10.010
    Date of publication: 2012-03
    Journal article

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Access to the full text
    BUCEADOR hybrid TTS for blizzard challenge 2011  Open access

     Sainz, Iñaki; Erro, Daniel; Navas, Eva; Adell, Jordi; Bonafonte Cavez, Antonio Jesus
    The Blizzard Challenge
    p. 1-5
    Presentation's date: 2011-09-02
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    This paper describes the Text-to-Speech (TTS) systems presented by the Buceador Consortium in the Blizzard Challenge 2011 evaluation campaign. The main system is a concatenative hybrid one that tries to combine the strong points of both statistical and unit selection synthesis (i.e. robustness and segmental naturalness respectively). The hybrid system has reached results significantly above average as far as similarity and naturalness are concerned, with no significant differences with most of the systems in the intelligibility task. This clearly improves the performance achieved in previous participations, and shows the validity of the hybrid approach proposed. Besides, an HMM-based system was built for the ES1 intelligibility tasks, using an HNM-based vocoder.

  • Adding glottal source information to intra-lingual voice conversion

     Pérez, Javier; Bonafonte Cavez, Antonio Jesus
    Annual Conference of the International Speech Communication Association
    p. 2773-2776
    Presentation's date: 2011-09
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Albayzín 2010: a Spanish text to speech evaluation

     Campillo, Francisco; Méndez, Francisco; Arza, Montserrat; Docío, Laura; Bonafonte Cavez, Antonio Jesus; Navas, Eva; Sainz, Iñaki
    Annual Conference of the International Speech Communication Association
    p. 2161-2164
    Presentation's date: 2011-09
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Introducing nativization to Spanish TTS systems

     Polyakova, Tatyana; Bonafonte Cavez, Antonio Jesus
    Speech communication
    Vol. 53, num. 8, p. 1026-1041
    DOI: 10.1016/j.specom.2011.05.009
    Date of publication: 2011-06
    Journal article

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    In the modern world, speech technologies must be flexible and adaptable to any framework. Mass media globalization introduces multilingualism as a challenge for the most popular speech applications such as text-to-speech synthesis and automatic speech recognition. Mixed-language texts vary in their nature and when processed, some essential characteristics must be considered. In Spain and other Spanish-speaking countries, the use of Anglicisms and other words of foreign origin is constantly growing. A particularity of peninsular Spanish is that there is a tendency to nativize the pronunciation of non-Spanish words so that they fit properly into Spanish phonetic patterns. In our previous work, we proposed to use hand-crafted nativization tables that were capable of nativizing correctly 24% of words from the test data. In this work, our goal was to approach the nativization challenge by data-driven methods, because they are transferable to other languages and do not drop in performance in comparison with explicit rules manually written by experts. Training and test corpora for nativization consisted of 1000 and 100 words respectively and were crafted manually. Different specifications of nativization by analogy and learning from errors focused on finding the best nativized pronunciation of foreign words. The best obtained objective nativization results showed an improvement from 24% to 64% in word accuracy in comparison to our previous work. Furthermore, a subjective evaluation of the synthesized speech allowed for the conclusion that nativization by analogy is clearly the preferred method among listeners of different backgrounds when comparing to previously proposed methods. These results were quite encouraging and proved that even a small training corpus is sufficient for achieving significant improvements in naturalness for English inclusions of variable length in Spanish utterances.

  • Enhancing the european Linguistic Infraestructure

     Vallverdu Bayes, Francisco; Butko, Taras; Nadeu Camprubí, Climent; Bonafonte Cavez, Antonio Jesus; Rodríguez Fonollosa, José Adrián; Wolf, Martin; Moreno Bilbao, M. Asuncion
    Competitive project

     Share

  • Work in progress - Cooperative and competitive projects for engaging students in advanced ICT subjects

     Pardas Feliu, Montserrat; Bonafonte Cavez, Antonio Jesus
    Annual Frontiers in Education Conference
    p. 1-3
    DOI: 10.1109/FIE.2011.6143032
    Presentation's date: 2011
    Presentation of work at congresses

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    In this paper we present a specific kind of projects that can be used for project-based learning in engineering subjects. The subjects must combine lectures with projects, in order to provide the technical competences together with additional skills such as teamwork learning, oral and written communication skills and application of theory to practice. The projects proposed consist on improving an elemental baseline system. The system is decomposed in modules that correspond to the topics that have been learnt during the lectures. For improving the system, the class is divided in groups and each group has to propose, implement, assess and report a better system. In order to be able to improve the system with a limited amount of time and effort the students need to make a coherent proposal and split the project in several tasks that are usually developed by one or two students. The students within a group cooperate to achieve a better system, but groups compete for the best results. We have already implemented this kind of project in a Speech Processing course and we plan to apply it in a Video Coding course.

  • Ogmios: the UPC entry for the Albayzin 2010 TTS Evaluation

     Bonafonte Cavez, Antonio Jesus; Esquerra Llucià, Ignasi; Moreno Bilbao, M. Asuncion; Agüero, Pablo Daniel
    Jornadas en Tecnología del Habla and Iberian SLTech Workshop
    p. 371-374
    Presentation's date: 2010-11-10
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Synthesis using speaker adaptation from speech recognition DB

     Oller Moreno, Sergio; Moreno Bilbao, M. Asuncion; Bonafonte Cavez, Antonio Jesus
    Jornadas en Tecnología del Habla and Iberian SLTech Workshop
    p. 79-82
    Presentation's date: 2010-11
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Access to the full text
    Defining analogy for non-native inclusions in Spanish utterances  Open access

     Polyákova, Tatyana; Bonafonte Cavez, Antonio Jesus
    Jornadas en Tecnología del Habla and Iberian SLTech Workshop
    p. 21-24
    Presentation's date: 2010-10
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    Mass media globalization introduces the challenge of multilingualism into most popular speech applications such as text-tospeech synthesis and automatic speech recognition. In Spain as well as in the other countries, the usage of English words is rapidly growing, however due to the linguistic diversity of the languages spoken across the country, Spanish is not less influenced by inclusions from the four official languages. This work is focused on the pronunciation of Catalan inclusions in Spanish utterances. Our goal was to approach the nativization phenomenon by data-driven methods, making it easily transferable to other languages without loss in performance. For this particular task, training and test nativization corpora were manually crafted and the task itself was approached using pronunciation by analogy. The results were encouraging and showed that even small corpus of 1000 words allows to capture the analogy in the nativization process. The resulting pronunciations allowed significant improvements in the ntelligibility of Catalan inclusions in Spanish utterances.

  • Access to the full text
    Nativization of English words in Spanish using analogy  Open access

     Polyákova, Tatyana; Bonafonte Cavez, Antonio Jesus
    ISCA Speech Synthesis Workshop
    p. 294-299
    Presentation's date: 2010-09
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    Nowadays modern speech technologies need to be flexible and adaptable to any framework. Mass media globalization introduces the challenge of multilingualism into most popular speech applications such as text-to-speech synthesis and automatic speech recognition. Mixed-language texts vary in their nature and when processed, some essential characteristics ought to be considered. In Spain, the usage of English and other foreign origin words is growing as well as in other countries. The particularity of the peninsular Spanish is that there is a tendency to nativized foreign words pronunciation so that they fit in properly into Spanish phonetics. In this work our goal was to approach the nativization challenge by data-driven methods, since they are transferable to other languages and do not yield in performance. Training and test corpora for nativization were manually crafted and the experiments were carried out using pronunciation by analogy. The results obtained were encouraging and proved that even a small training corpus of 1000 words allows obtaining a higher level of intelligibility for English inclusions in Spanish utterances.

  • Voice Conversion Based on Weighted Frequency Warping

     Erro Eslava, Daniel; Moreno Bilbao, M. Asuncion; Bonafonte Cavez, Antonio Jesus
    IEEE transactions on audio speech and language processing
    Vol. 18, num. 5, p. 922-931
    Date of publication: 2010-07
    Journal article

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • INCA Algorithm for Training Voice Conversion Systems From Nonparallel Corpora

     Erro Eslava, Daniel; Moreno Bilbao, M. Asuncion; Bonafonte Cavez, Antonio Jesus
    IEEE transactions on audio speech and language processing
    Vol. 18, num. 5, p. 944-953
    Date of publication: 2010-07
    Journal article

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Synthesis of filled pauses based on a disfluent speech model

     Adell Mercado, Jordi; Bonafonte Cavez, Antonio Jesus; Escudero Mancebo, David
    IEEE International Conference on Acoustics, Speech and Signal Processing
    p. 4810-4813
    Presentation's date: 2010-03
    Presentation of work at congresses

    Read the abstract Read the abstract View View Open in new window  Share Reference managers Reference managers Open in new window

    Postprint (author’s final draft)

  • BUSQUEDA DE INFORMACIÓN EN CONTENIDOS AUDIOVISUALES PLURILINGUES

     Mariño Acebal, Jose Bernardo; Monte Moreno, Enrique; Bonafonte Cavez, Antonio Jesus; Polyakova, Tatyana; Esquerra Llucià, Ignasi; Rodríguez Fonollosa, José Adrián; Ruiz Costa-jussa, Marta; Adell Mercado, Jordi; Moreno Bilbao, M. Asuncion
    Competitive project

     Share

  • Access to the full text
    TTS evaluation campaign with a common spanish database  Open access

     Sainz, Iñaki; Navas, Eva; Hernáez, Inma; Bonafonte Cavez, Antonio Jesus; Campillo, Francisco
    International Conference on Language Resources and Evaluation
    p. 2155-2160
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    This paper describes the first TTS evaluation campaign designed for Spanish. Seven research institutions took part in the evaluation campaign and developed a voice from a common speech database provided by the organisation. Each participating team had a period of seven weeks to generate a voice. Next, a set of sentences were released and each team had to synthesise them within a week period. Finally, some of the synthesised test audio files were subjectively evaluated via an online test according to the following criteria: similarity to the original voice, naturalness and intelligibility. Box-plots, Wilcoxon tests and WER have been generated in order to analyse the results. Two main conclusions can be drawn: On the one hand, there is considerable margin for improvement to reach the quality level of the natural voice. On the other hand, two systems get significantly better results than the rest: one is based on statistical parametric synthesis and the other one is a concatenative system that makes use of a sinusoidal model to modify both prosody and smooth spectral joints. Therefore, it seems that some kind of spectral control is needed when building voices with a medium size database for unrestricted domains.

  • VEU: GRUP DE TRACTAMENT DE LA PARLA

     Bonafonte Cavez, Antonio Jesus; Casar Lopez, Marta; Ruiz Costa-jussa, Marta; Nogueiras Rodriguez, Albino; Esquerra Llucià, Ignasi; Salavedra Moli, Josep; Farrús Cabecerán, Mireia; Hernando Pericas, Francisco Javier; Rodríguez Fonollosa, José Adrián; Monte Moreno, Enrique; Mariño Acebal, Jose Bernardo; Nadeu Camprubí, Climent; Moreno Bilbao, M. Asuncion; Vallverdu Bayes, Francisco
    Competitive project

     Share

  • Access to the full text
    Recent work on the FESTCAT database for speech synthesis  Open access

     Bonafonte Cavez, Antonio Jesus; Esquerra Llucià, Ignasi; Aguilar, Lourdes; Oller Moreno, Sergio; Moreno Bilbao, M. Asuncion
    Iberian SLTech
    p. 131-132
    Presentation's date: 2009-09-04
    Presentation of work at congresses

    Read the abstract Read the abstract Access to the full text Access to the full text Open in new window  Share Reference managers Reference managers Open in new window

    This paper presents our work around the FESTCAT project, whose main goal was the development of voices for the Festival suite in Catalan. In the first year, we produced the corpus and the speech data needed for build 10 voices using the Clunits (unit selection) and the HTS (Markov models) methods. The resulting voices are freely available on the web page of the project and included in Linkat, a Catalan distribution of Linux. More recently, we have updated the voices using new versions of HTS, other technology (Multisyn) and we have produced a child voice. Furthermore, we have performed a prosodic labeling and analysis of the database using the break index labels proposed in the ToBI system aimed to improve the intonation of the synthetic speech.

  • Towards robust glottal source modeling

     Pérez Mayos, Javier; Bonafonte Cavez, Antonio Jesus
    Annual Conference of the International Speech Communication Association
    p. 56-59
    Presentation's date: 2009-09
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Prosodic analysis and modelling of conversational elements for speech synthesis

     Adell Mercado, Jordi
    Department of Signal Theory and Communications, Universitat Politècnica de Catalunya
    Theses

     Share Reference managers Reference managers Open in new window

  • Hacia la definición de un corpus equilibrado prosódicamente: estrategia combinada de algoritmos voraces y manipulación de expertos

     Escudero Mancebo, David; Aguilar, Lourdes; Bonafonte Cavez, Antonio Jesus; Almiñana Garriedo, Juan Maria
    Procesamiento del lenguaje natural
    num. 43, p. 93-101
    Date of publication: 2009
    Journal article

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • 4.1.1 Descripción de las Técnicas Desarrolladas

     Bonafonte Cavez, Antonio Jesus; Hernando Pericas, Francisco Javier; Mariño Acebal, Jose Bernardo; Moreno Bilbao, M. Asuncion; Nadeu Camprubí, Climent
    Date: 2008-09
    Report

     Share Reference managers Reference managers Open in new window

  • On the generation of synthetic disfluent speech: Local prosodic modifications caused by the insertion of editing terms

     Adell Mercado, Jordi; Bonafonte Cavez, Antonio Jesus; Escudero Mancebo, David
    Annual Conference of the International Speech Communication Association
    p. 2278-2281
    Presentation's date: 2008-09
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • A STUDY OF JEMA FOR INTONATION MODELING

     Bonafonte Cavez, Antonio Jesus
    IEEE International Conference on Acoustics, Speech, and Signal Processing
    Presentation's date: 2008-03-30
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Modelo de síntesis de habla con disfluencias basado en modificaciones locales sobre frases constituyentes

     Adell Mercado, Jordi; Escudero-Mancebo, David; Bonafonte Cavez, Antonio Jesus
    Jornadas en Tecnología del Habla
    p. 153-156
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • A new clustering approach for JEMA

     Daniel, Pablo Agüero; Carlos, Juan Tulli; Bonafonte Cavez, Antonio Jesus
    Fourth Conference on Speech Prosody
    p. 83-86
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Pause transfer in the speech-to-speech translation domain

     Daniel, Pablo Agüero; Carlos, Juan Tulli; Bonafonte Cavez, Antonio Jesus
    Fourth Conference on Speech Prosody
    p. 87-90
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Corpus and Voices for Catalan Speech Synthesis

     Bonafonte Cavez, Antonio Jesus; Adell Mercado, Jordi; Esquerra Llucià, Ignasi; Gallego, Silvia; Moreno Bilbao, M. Asuncion; Pérez Mayos, Javier
    Language Resources and Evaluation Conference
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • A study of JEMA for intonation modeling

     Aguero, Pablo D; Carlos, Juan Trulli; Bonafonte Cavez, Antonio Jesus
    IEEE International Conference on Acoustics, Speech, and Signal Processing
    p. 4625-4628
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • The UPC TTS system description for the 2008 blizzard challenge

     Bonafonte Cavez, Antonio Jesus; Moreno Bilbao, M. Asuncion; Adell Mercado, Jordi; Agüero, Pablo D; Eleftherios, Banos; Daniel, Erro; Esquerra Llucià, Ignasi; Javier, Pérez; Polyakova, Tatyana
    Blizzard Challenge 2008
    Presentation of work at congresses

    View View Open in new window  Share Reference managers Reference managers Open in new window

  • Transcripción fonética en un entorno plurilingüe

     Polyákova, Tatyana; Bonafonte Cavez, Antonio Jesus
    Jornadas en Tecnología del Habla
    p. 207-2010
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • On the comparison of Catalan-Spanish intonation systems using statistical corpus modeling and objective metrics

     Escudero-Mancebo, David; Cardenoso-Payo, Valentin; Bonafonte Cavez, Antonio Jesus
    Fourth Conference on Speech Prosody
    p. 563-566
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Intonation Modeling of Mandarin Chinese Using a Superpositional Approach

     Daniel, Pablo Agüero; Bonafonte Cavez, Antonio Jesus; Lu, Yu; Carlos, Juan Tulli
    9th Annual Conference of the International Speech Communicacion Association (Interspeech 2008)
    p. 2134-2137
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • On the generation of synthetic disfluent speech: Local prosodic modifications caused by the insertion of editing terms

     Adell Mercado, Jordi; Bonafonte Cavez, Antonio Jesus; Escudero, David
    9th Annual Conference of the International Speech Communicacion Association (Interspeech 2008)
    p. 2278-2281
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Flexible harmonic/stochasticmodeling for HMM-based speech synthesis

     Eleftherios, Banos; Daniel, Erro; Bonafonte Cavez, Antonio Jesus; Moreno Bilbao, M. Asuncion
    Jornadas en Tecnología del Habla
    p. 145-148
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • The UPC TTS systems description

     Bonafonte Cavez, Antonio Jesus; Agüero, Pablo D
    Jornadas en Tecnología del Habla
    p. 130-133
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Further improvements to pronunciation by analogy

     Polyákova, Tatyana; Bonafonte Cavez, Antonio Jesus
    Jornadas en Tecnología del Habla
    p. 149-152
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • Flexible harmonic/stochastic speech synthesis

     Bonafonte Cavez, Antonio Jesus
    Sixth ISCA Tutorial and Research Workshop on Speech Synthesis (SSW6)
    Presentation's date: 2007-08-22
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window

  • The UPC TTS system description for the 2007 Blizzard Challenge

     Bonafonte Cavez, Antonio Jesus; Adell Mercado, Jordi; Esquerra Llucià, Ignasi; Moreno Bilbao, M. Asuncion
    Sixth ISCA Tutorial and Research Workshop on Speech Synthesis (SSW6)
    Presentation of work at congresses

     Share Reference managers Reference managers Open in new window