skip to main content

Singing voice modeling and synthesis using visual features extracted from ultrasound and optical images of articulators

Jaumard-Hakoun , Aurore ; Institut Langevin ondes et images ; Université Pierre et Marie Curie - Paris 6 ( UPMC ) -Université Paris Diderot - Paris 7 ( UPD7 ) -ESPCI ParisTech-Centre National de la Recherche Scientifique ( CNRS ) ; Université Pierre et Marie Curie - Paris VI ; Bruce Denby

https://tel.archives-ouvertes.fr/tel-01441742

HAL CCSD, 2016

Accessible en ligne

  • Titre:
    Singing voice modeling and synthesis using visual features extracted from ultrasound and optical images of articulators
  • Auteur: Jaumard-Hakoun , Aurore
  • Autre(s) auteur(s): Institut Langevin ondes et images ; Université Pierre et Marie Curie - Paris 6 ( UPMC ) -Université Paris Diderot - Paris 7 ( UPD7 ) -ESPCI ParisTech-Centre National de la Recherche Scientifique ( CNRS ) ;
    Université Pierre et Marie Curie - Paris VI ;
    Bruce Denby
  • Sujets: Ultrasound image ; Singing voice synthesis ; Synthèse vocale ; Deep learning ; Réseaux de neurones ; Contour de langue ; Échographie ; Techniques de chant rare ; [ SPI.TRON ] Engineering Sciences [physics]/Electronics
  • Fait partie de: https://tel.archives-ouvertes.fr/tel-01441742
  • Description: This thesis reports newly developed methods which can be applied to extract relevant features from articulator images in rare singing: traditional Corsican and Sardinian polyphonies, Byzantine music, as well as Human Beat Box. We collected data, and modeled these using machine learning methods, specifically novel deep learning methods. We first modelled tongue ultrasound image sequences, carrying relevant articulatory information which would otherwise be difficult to interpret without specialized skills in ultrasound imaging. We developed methods to extract automatically the superior contour of the tongue displayed on ultrasound images. Our tongue contour extraction results are comparable with those obtained in the literature, which could lead to applications in singing pedagogy. Afterwards, we predicted the evolution of the vocal tract filter parameters from sequences of tongue and lip images, first on isolated vowel databases then on traditional Corsican singing. Applying the predicted filter parameters, combined with the development of a vocal source acoustic model exploiting electroglottographic recordings, allowed us to synthesize singing voice excerpts using articulatory images (of tongue and lips) and glottal activity, with results superior to those obtained using existing technics reported in the literature.
    Le travail présenté dans cette thèse porte principalement sur le développement de méthodes permettant d'extraire des descripteurs pertinents des images acquises des articulateurs dans les chants rares : les polyphonies traditionnelles Corses, Sardes, la musique Byzantine, ainsi que le Human Beat Box. Nous avons collecté des données, et employons des méthodes d'apprentissage statistique pour les modéliser, notamment les méthodes récentes d'apprentissage profond (Deep Learning).Nous avons étudié dans un premier temps des séquences d'images échographiques de la langue apportant des informations sur l'articulation, mais peu lisibles sans connaissance spécialisée en échographie. Nous avons développé des méthodes pour extraire de façon automatique le contour supérieur de la langue montré par les images échographiques. Nos travaux ont donné des résultats d'extraction du contour de la langue comparables à ceux obtenus dans la littérature, ce qui pourrait permettre des applications en pédagogie du chant.Ensuite, nous avons prédit l'évolution des paramètres du filtre qu'est le conduit vocal depuis des séquences d'images de langue et de lèvres, sur des bases de données constituées de voyelles isolées puis de chants traditionnels Corses. L'utilisation des paramètres du filtre du conduit vocal, combinés avec le développement d'un modèle acoustique de source vocale exploitant l'enregistrement électroglottographique, permet de synthétiser des extraits de voix chantée en utilisant les images articulatoires (de la langue et des lèvres)et l'activité glottique, avec des résultats supérieurs à ceux obtenus avec les techniques existant dans la littérature.
  • Éditeur: HAL CCSD
  • Date de publication: 2016
  • Langue: Français
  • Identifiant: NNT : 2016PA066223 ; tel-01441742
  • Source: ESPCI Paris (archives ouvertes)
  • Droits: info:eu-repo/semantics/OpenAccess

Recherche dans les bases de données distantes en cours. Merci de patienter.

  • Recherche
  • dansscope:(33PSL-CNSAD),scope:(33PSL-EHESS),scope:(33PSL-PSL_OMEKA),scope:(33PSL-MINES),scope:(33PSL-EFEO),scope:(33PSL-CNSMDP),scope:(33PSL-CHIMIE),scope:(33PSL),scope:("DAU"),scope:(33PSL-CDF),scope:(33PSL-ENS),scope:("33PSL-OBSERV"),scope:("33PSL-ESPCI"),scope:(33PSL-CURIE),scope:(33PSL-ENSBA),scope:("33PSL-ENC"),scope:(33PSL-PSL_STAR),scope:(33PSL-PSL_SFX),scope:("33PSL-EPHE"),scope:(33PSL-ENSAD),primo_central_multiple_fe
  • Afficher ce qui a déjà été récupéré