Jérôme Daniel: Spatial Sound Research and Higher Order Ambisonics

Jérôme Daniel: Spatial Sound Research and Higher Order Ambisonics Retour à la page d'accueil

Recherche en son spatialisé - Systèmes ambisoniques d'ordres supérieurs
Spatial Sound Research - Higher Order Ambisonic Systems

Représentation de champs acoustiques,
application à la transmission et à la reproduction de scènes sonores complexes
dans un contexte multimédia

(Thèse de doctorat 1996-2000)

(PhD thesis 1996-2000)

Introduction - Le choix d'étude - Contribution principale... et en route pour la lecture!
Bientôt sur votre écran - Déroulement et aspects universitaires de la thèse - Liens

Télécharger la thèse et la présentation de soutenance

Download the thesis and the powerpoint presentation

Introduction

Le travail de recherche que je présente ici appartient au domaine de la "spatialisation sonore", dont on peut définir l'objectif général comme étant la (re)création d'un espace sonore subjectif au niveau de l'auditeur, au moyen d'une diffusion sonore sur haut-parleurs (deux ou plus) ou bien sur écouteurs.
Cet objectif se traduit généralement en des termes plus concrets et plus familiers dans les différents domaines où intervient la spatialisation sonore :

Au cinéma par exemple, nous éprouvons "l'effet surround" lorsque nous nous trouvons immergés dans une ambiance sonore, ou lorsqu'on nous fait entendre une source sonore (un avion...) se déplacer d'un côté à l'autre de la tête, etc...
La diffusion musicale stéréophonique (sur deux haut-parleurs) et maintenant multi-canal (stéréo panoramique sur 5 haut-parleurs), doit traduire au niveau de l'auditeur une "mise en espace" instrumentale (organisation spatiale des instruments, disposition orchestrale), tout en cherchant à augmenter le plaisir de l'écoute par un effet d'enveloppement sonore.
Enfin, c'est dans des applications plus interactives comme certains jeux vidéos, la navigation 3D sur Internet et plus généralement toutes les applications de type "réalité virtuelle", que l'on rencontre les techniques de spatialisation les plus élaborées : il s'agit de synthétiser l'espace sonore (son 3D) à partir de la description d'un lieu virtuel (acoustique virtuelle) et d'objets sonores (ou audiovisuels) virtuels, en faisant en sorte que l'utilisateur puisse localiser les différentes sources en fonction de son point de vue dans la scène, et en cohérence avec la représentation visuelle 3D sur son écran.

Deux types de tâche peuvent ainsi être distingués dans la spatialisation sonore: la reproduction d'un champ sonore à partir d'un matériel (stéréo, multi-canal, etc...) issu d'une prise de son ; et un travail de spatialisation à proprement parler, utilisant des procédés de création d'images-fantômes ou illusions sonores localisées (pan-pot 2D ou 3D) et des procédés de synthèse d'effet de salle, ces traitements étant appliqués à des signaux sonores individuels.

    La question de la représentation du champ sonore est présente dans les deux types de tâche. Pour simplifier, une telle représentation peut d'abord être décrite comme un ensemble de signaux à diffuser directement sur les haut-parleurs ou bien à décoder au préalable. Ce premier degré de description laisse déjà entrevoir certains des enjeux auxquels elle doit répondre : dans un contexte de transmission-restitution, on cherche en effet à définir une représentation concise et efficace (en termes de données transmises, ce qui implique de préférence peu de signaux) ; dans un contexte de spatialisation en temps-réel, une représentation intermédiaire compacte peut être envisagée avec avantage au stade intermédiaire de traitement afin d'en factoriser les opérations et en diminuer le coût.
    Plus fondamentalement, à la notion de représentation du champ sonore est associé un type de procédé de création d'image sonore, ce que l'on peut définir par les relations existant entre les signaux émis par les haut-parleurs (ou les écouteurs), la façon dont ils se combinent au niveau des oreilles (selon le placement des haut-parleurs), et finalement la façon dont sont exploités les mécanismes de la perception auditive spatiale (et éventuellement leurs artefacts!) pour conduire à l'illusion d'images sonores et à des impressions spatiales (par exemple l'enveloppement). Si de surcroît une opération de décodage est nécessaire pour produire les signaux diffusés à partir des signaux intermédiaires ou transmis (i.e. "la représentation"), ce décodage est lui-même une composante implicite de la notion de représentation.
    Une représentation du champ sonore porte ainsi en elle un potentiel de restitution, c'est-à-dire des qualités latentes de l'espace sonore reconstitué (précision des images sonores, qualité des impressions spatiales), selon le "degré de satisfaction" des mécanismes naturels de l'audition spatiale.

Nous voilà donc au coeur du sujet...

"Représentation de champs acoustiques,
application à la transmission et
à la reproduction de scènes sonores complexes
dans un contexte multimédia"

... tel est l'intitulé de mon travail de thèse.

Les idées et les préoccupations que je viens d'introduire tissent, parmi d'autres, la toile de fond de mon document de thèse, et bien qu'elles aient ici une expression très générique et relativement abstraite, elles trouvent des réponses précises grâce au choix d'étude d'une approche aussi riche que rationnelle: Ambisonic. Nombreux sont les angles de vue sur cette approche et nombreuses sont les manières de l'aborder. Commençons donc ainsi...
"Représentation de champ acoustique"... la représentation ambisonique est ancrée dans une réalité physique assez parlante: elle décrit en effet la propagation acoustique au voisinage d'un point que l'on assimilera au point de vue de l'auditeur, et c'est ce qui nous permettra, dans une certaine mesure, d'établir des relations de prédiction avec l'effet de localisation. La représentation ambisonique traditionnelle, dite d'ordre 1, est équivalente à la spécification minimale de la propagation, c'est-à-dire la donnée de la pression p et de la vélocité acoustique (vecteur) v au point considéré. Exprimées sous forme scalaire, elles donnent les quatre composantes W X Y Z du B-format.

A chacune des composantes (ou chacun des canaux) W X Y Z est associée une fonction d'encodage directionnel (que je nomme de façon générique Y_mn^s(q,d)). L'information directionnelle (q,d) associée à chaque événement acoustique élémentaire (onde plane portant un signal S) se manifeste alors à travers les amplitudes relatives Y_mn^s(q,d) du signal S au sein des canaux ambisoniques. Cliquez ici ou sur l'image pour une illustration animée en 2D [166 Ko].

En choisissant de privilégier l'observation au voisinage d'un point, cette description du champ acoustique rencontre un formalisme mathématique extrêmement intéressant : la décomposition en harmoniques sphériques. En laissant de côté l'aspect "propagation", cette décomposition peut-être assimilée à une transformée de Fourier de l'espace des directions {(q,d)}. La prise en compte des harmoniques d'ordres m supérieurs (nouvelles fonctions, donc nouveaux canaux d'encodage) conduit donc à une représentation spatiale de meilleure résolution directionnelle, ce qui nécessite également un plus grand nombre de haut-parleurs pour en tirer profit au niveau de la restitution.
Voici par exemple la représentation sphériques des fonctions d'encodage d'ordre 2, de formes plus complexes. En extrapolant l'animation précédente à ces formes supplémentaires, vous pouvez imaginer le processus d'encodage...

Voici les fonctions d'ordre 3, plus complexes, plus "sélectives", et plus nombreuses pour couvrir la sphère directionelle:

Pour conclure ces préliminaires et avant de passer à la suite, ne nous privons pas de citer rapidement les qualités intrinsèques de ce type de représentation :

elle contient une information directionnelle explicite des événements acoustiques et objets de la scène sonore
elle est compacte: la quantité de données reste indépendante de la complexité initiale de la scène
elle est souple: se prête naturellement à des opérations de transformations du champ sonore (rotations...)
elle est indépendante du dispositif de restitution employé (nombre et disposition des haut-parleurs) et laisse donc la liberté d'une restitution à géométrie variable
le nombre de canaux transmis est normalement inférieur au nombre de haut-parleurs (signaux émis)
considérant les ordres supérieurs, elle devient scalable, c'est-à-dire à résolution variable (selon la capacité de transmission et les possibilités de restitution)
ajoutons, ce que nous allons voir plus loin, qu'elle donne lieu à un rendu sonore homogène et cohérent (moyennant un décodage adéquat) et adaptable à des conditions d'écoute variées (individuelle ou collective).

Du contexte "historique" à la principale contribution de cette thèse

Après cette entrée en matière allégée qui vous aura, je l'espère, mis un peu l'eau à la bouche, il va être temps d'entamer la substance de cette thèse. Au début de la préparation de cette thèse, les systèmes ambisoniques existants (que nous appelerons "traditionnels") reposaient sur une représentation limitée à l'ordre 1, pour laquelle plusieurs formes de décodage avaient été définies (par Gerzon d'une part et Malham d'autre part) pour s'adapter au mieux aux conditions de restitution (dont l'étendue de l'auditoire). Les travaux de Bamford en 1995 (analyse d'un système ambisonique d'ordre 2) ont suscité un regain d'intérêt et ouvert de nouvelles perspectives, en replaçant au coeur de l'approche ambisonique la notion de décomposition du champ en harmoniques sphériques (ou plutôt cylindriques en l'occurence) et en soulignant comme conséquence la possibilité d'une reconstruction acoustique étendue du champ sonore (expansion du domaine valide à partir du centre et proportionnelle à la fréquence).
Bien qu'ouvrant un vaste champ d'investigation, cette étude s'est restreinte à une vision partielle de l'approche ambisonique, puisqu'elle ne s'est pas donnée les moyens de caractériser ni d'optimiser la restitution en dehors des conditions (basse-fréquence et position centrée) de reconstruction acoustique valide. Il faut reconnaître que les théories de la localisation (basées sur les vecteurs vélocité et énergie) introduites par Gerzon et qui présidaient à l'optimisation "psychoacoustique" du décodage s'entouraient, et s'entourent encore peut-être pour un certain nombre de personnes, d'un certain "flou scientifique" (dixit Rozenn Nicol). C'est probablement ce qui a retardé l'établissement d'une connexion entre "anciennes" et "nouvelles" théories.

C'est sur ces deux tableaux - approfondissement de la compréhension et généralisation des principes aux ordres supérieurs - que se sont portés mon intérêt et mes efforts durant ce travail de thèse. Il en résulte, comme contribution majeure, l'extension aux ordres supérieurs de la plupart des aspects de l'approche ambisonique:

Sur le plan "pratique", il s'agit principalement de la généralisation du décodage optimisé en fonction des conditions d'écoute, qui était jusque lors réservé aux systèmes d'ordre 1. Le formalisme d'encodage (harmoniques sphériques), qui quant à lui préexistait à la technologie ambisonique, a également été précisé.
Sur le plan théorique, un gros effort a été consacré à la compréhension et à la justification des théories "de la localisation" introduites par Gerzon et habituellement utilisées pour l'optimisation du décodage (notamment celle basée sur le vecteur énergie). Par ailleurs, des propriétés et concepts fondamentaux qui sont sous-jacentes aux problèmes de décodage et de prise de son ont été explicités et formalisés. Enfin, j'ai cherché à donner les moyens de caractériser la qualité de restitution ambisonique.

    Plutôt que de multiplier les redondances entre les pages et les documents présents sur ce site, je vous invite à consulter maintenant le résumé de la thèse (version longue ou courte) en français ou en anglais (long or short abstract).
    Vous pouvez télécharger les différents chapitres de mon document de thèse (version soumise et non définitive) sous forme PostScript (fichiers zippés).
    Vous aurez peut-être aussi intérêt à consulter directement un document "plus animé" (présentation PowerPoint), que j'ai créé à l'occasion de ma soutenance de thèse (le 19 septembre 2000), et qui comprend moult z'illustrations et petits films d'animation. Un certain nombre de pages ont été conçues dans un esprit vraiment didactique, introduisant et illustrant de façon progressive des notions essentielles. En le consultant vous-même, vous aurez la chance de passer le temps que vous voudrez sur les pages qui vous intéressent, ce que je n'ai pas eu le loisir de faire lors de ma soutenance! En attendant une version HTML, plus facile à consulter et plus complète, ce support constituera une aide à la compréhension très appréciable, complémentaire du document de thèse. Alors n'hésitez pas : téléchargez-le!

Bientôt sur votre écran !

Bien d'autres choses devraient bientôt venir compléter ces pages!
Outre une adaptation HTML de la présentation PowerPoint, je prévois quelques films d'animation supplémentaires, et aussi des fichiers sonores (simulations binaurales du rendu ambisonique sur haut-parleurs, en positions d'écoute centrées et excentrées)!

Haut-de-page

Déroulement et aspects universitaires de la thèse

La préparation de cette thèse s'est déroulée :

de 1996 à 1999 : au Centre Commun d'Etudes de Télécommunication et de Télédiffusion (CCETT) à Cesson-Sévigné (Rennes), désormais l'un des centres de France-Télécom Recherche et Développement (FT R&D).
de 1999 à 2000 : à la maison, rue Porcon de la Barbinais à Rennes.
... la thèse étant rattachée au LAM (Laboratoire d'Acoustique Musicale, Université Paris 6) durant ces quatre années universitaires.

La thèse a été soutenue avec succès (comme on dit) le 19 Septembre 2000 au LAM, devant un jury composé de :

Antoine Chaîgne (ENST Paris, ENSTA) : président du Jury
Jacques Jouhanneau (CNAM, Paris) : rapporteur
Xavier Meynial (LAUM, Université du Maine) : rapporteur
Marc Emerit (FT R&D, Lannion) : examinateur, co-rapporteur
Olivier Warusfel (IRCAM, Paris) : examinateur
Jean-Dominique Polack (LAM, Paris 6) : examinateur
Jean-Bernard Rault (FT R&D, Rennes) : examinateur

... ce qui me vaut désormais l'honneur d'être Docteur de l'Université Paris 6, section "Mécanique Energétique", spécialité
"Acoustique, Traitement du Signal et Informatique Appliqués à la Musique".
Voilà, vous avez tous les détails.

Haut-de-page

Liens

En relation avec le son spatialisé (entre autres choses) :
IRCAM, The Machine Listening Group Home Page (MIT Media Lab), Euphonia, CATT-Acoustic, CNMAT, CCRMA, Angelo Farina, R. O. Duda Research
... et bien d'autres

Recherche et ressources relatives à Ambisonic :
U.York : MTG: Ambisonics Home Page (Dave Malham, Université de York, UK), Richard Furse, Jeff Bamford, Martin Leese's Web Page
... et j'en oublie encore sans-doute pas mal.

Sites relatifs à l'audio et à l'acoustique en général :
Audio Engineering Society, Société Française d'Acoustique,

Liens vers des liens :
Audio and Three Dimensional Sound Links, The Virtual Times: Audio Links,
Audio Related WWW Links (AES), Chalmer Media Lab Links

Ressources scientifiques et techniques :
Eric's Treasure Troves of Science (fabuleuse encyclopédie en ligne : mathématiques, physique, etc...),
ResearchIndex (accès à un large ensemble de publications scientifiques),
IBM Intellectual Property Network (banque de données des brevets existants : descriptions succinctes et complètes)

Haut-de-page

Retour à la case départ