Impact de la qualité et du contenu des corpus sur le clonage de voix : Vers une application en français aux voix pathologiques (Impact of corpus quality and content on voice cloning : towards an application in french to voice disorders) Wadoux, Lily - (2024-11-21) / Université de Rennes - Impact de la qualité et du contenu des corpus sur le clonage de voix : Vers une application en français aux voix pathologiques
| |||
Langue : Anglais Directeur(s) de thèse: Lolive, Damien Discipline : Informatique Laboratoire : IRISA Ecole Doctorale : MATISSE Classification : Informatique Mots-clés : Synthèse de la voix, clonage de voix, plongement de locuteur
| |||
Résumé : Les avancées récentes ont élargi le champ des possibles en synthèse de parole, en particulier pour les systèmes multi-locuteurs. Le clonage de voix correspond à la production de parole ressemblant à la voix d'un locuteur cible à partir d'une entrée textuelle et d'un échantillon audio de la cible. En théorie, ils sont capables de synthétiser la voix de n'importe quel locuteur, à partir d'un corpus audio de référence de quelques minutes seulement. Dans ce document, deux questions sont au cœur des raisonnements et des expériences présentées : Si le clonage de voix peut, en théorie, reproduire la voix de n'importe quel locuteur, alors comment se comporterait-il face à des locuteurs atypiques ? Cet axe est exploré dans ce document en premier lieu à travers des données issues de livres audio, puis avec des études préliminaires visant à une application pour les patients atteints de dysphonie. La grande majorité des études portant sur le clonage de voix sont entraînées et testées sur des données en anglais. Serait-il possible, et avec quelles performances, d'entraîner un modèle de clonage de voix dans une autre langue et de le tester avec des locuteurs parlant cette langue ? Cette question est abordée dans ce document avec le choix de la langue française, qui restreint les possibilités en termes de disponibilité de corpus, et implique des compromis entre qualité et nombre de locuteurs. Abstract : Recent advances in the domain of speech synthesis have broadened its potential applications, especially in terms of multi-speaker systems. Voice cloning consists in producing speech matching a target speaker voice, given textual input and an audio sample from the speaker. In theory, they are able to generalise to any speaker, with a minimal amount of reference speech recordings from the target speaker. In this document, two questions lead the reasoning and experiments presented: If voice cloning can, in theory, reproduce the voice of any speaker, then what would be its behaviour when presented with outliers? Atypical speakers are first studied in this document with audiobook data, then through preliminary experiments aiming at an application for patients suffering from voice disorders. The vast majority of voice cloning studies are trained and tested in English. Would it be possible, and with which performances, to train a voice cloning model in another language and to test it with target speakers talking in said language? This question is investigated in this document through the lens of the French language, which limits the possibilities in terms of corpus availability, and induces compromises between quality and number of speaker. |