Représentation de champs acoustiques,
application à la transmission et à la
reproduction de scènes sonores complexes
dans un contexte multimédia
Télécharger la thèse et la présentation de soutenance
Download the thesis and the powerpoint presentation
Le travail de recherche que je présente ici
appartient au domaine de la "spatialisation sonore", dont
on peut définir l'objectif général comme étant
la (re)création d'un espace sonore subjectif au niveau de l'auditeur,
au moyen d'une diffusion sonore sur haut-parleurs (deux ou plus) ou bien
sur écouteurs.
Cet objectif se traduit généralement
en des termes plus concrets et plus familiers dans les différents
domaines où intervient la spatialisation sonore :
La question de la représentation du
champ sonore est présente dans les deux types de tâche.
Pour simplifier, une telle représentation peut d'abord être
décrite comme un
ensemble de signaux à diffuser directement
sur les haut-parleurs
ou bien à décoder au préalable.
Ce premier degré de description laisse déjà entrevoir
certains des enjeux auxquels elle doit répondre : dans un contexte
de transmission-restitution, on cherche en effet à définir
une représentation concise et efficace (en termes de données
transmises, ce qui implique de préférence peu de signaux)
; dans un contexte de spatialisation en temps-réel, une représentation
intermédiaire
compacte
peut être envisagée avec avantage au stade intermédiaire
de traitement afin d'en factoriser les opérations et en diminuer
le coût.
Plus fondamentalement, à la notion de
représentation du champ sonore est associé un
type de procédé de création d'image sonore,
ce que l'on peut définir par les relations existant entre les signaux
émis par les haut-parleurs (ou les écouteurs), la façon
dont ils se combinent au niveau des oreilles (selon le placement des haut-parleurs),
et finalement la façon dont sont exploités les mécanismes
de la perception auditive spatiale (et éventuellement leurs artefacts!)
pour conduire à l'illusion d'images sonores et à des impressions
spatiales (par exemple l'enveloppement). Si de surcroît une opération
de décodage est nécessaire pour produire les signaux diffusés
à partir des signaux intermédiaires ou transmis (i.e.
"la représentation"), ce décodage est lui-même
une composante implicite de la notion de représentation.
Une représentation du champ sonore porte
ainsi en elle un potentiel de restitution, c'est-à-dire des
qualités latentes de l'espace sonore reconstitué (précision
des images sonores, qualité des impressions spatiales), selon le
"degré de satisfaction" des mécanismes naturels de l'audition
spatiale.
Nous voilà donc au coeur du sujet...
"Représentation de champs acoustiques,
application à la transmission et
à la reproduction de scènes sonores complexes
dans un contexte multimédia"
Les idées et les préoccupations
que je viens d'introduire tissent, parmi d'autres, la toile de fond de
mon document de thèse, et bien qu'elles aient ici une expression
très générique et relativement abstraite, elles trouvent
des réponses précises grâce au choix d'étude
d'une approche aussi riche que rationnelle: Ambisonic. Nombreux
sont les angles de vue sur cette approche et nombreuses sont les manières
de l'aborder. Commençons donc ainsi...
"Représentation de champ acoustique"... la représentation
ambisonique est ancrée dans une réalité physique assez
parlante: elle décrit en effet la propagation acoustique au voisinage
d'un point que l'on assimilera au point de vue de l'auditeur, et c'est
ce qui nous permettra, dans une certaine mesure, d'établir des relations
de prédiction avec l'effet de localisation. La représentation
ambisonique traditionnelle, dite d'ordre 1, est équivalente à
la spécification minimale de la propagation, c'est-à-dire
la donnée de la pression p et de la vélocité
acoustique (vecteur) v au point considéré.
Exprimées sous forme scalaire, elles donnent les quatre composantes
W X Y Z du B-format.
A chacune des composantes (ou chacun des canaux) W X Y Z est associée une fonction d'encodage directionnel (que je nomme de façon générique Ymns(q,d)). L'information directionnelle (q,d) associée à chaque événement acoustique élémentaire (onde plane portant un signal S) se manifeste alors à travers les amplitudes relatives Ymns(q,d) du signal S au sein des canaux ambisoniques. Cliquez ici ou sur l'image pour une illustration animée en 2D [166 Ko].
En choisissant de privilégier l'observation
au voisinage d'un point, cette description du champ acoustique rencontre
un formalisme mathématique extrêmement intéressant
: la décomposition en harmoniques sphériques.
En laissant de côté l'aspect "propagation", cette décomposition
peut-être assimilée à une transformée de Fourier
de l'espace des directions {(q,d)}.
La prise en compte des harmoniques d'ordres m supérieurs
(nouvelles fonctions, donc nouveaux canaux d'encodage) conduit donc à
une représentation spatiale de meilleure résolution directionnelle,
ce qui nécessite également un plus grand nombre de haut-parleurs
pour en tirer profit au niveau de la restitution.
Voici par exemple la représentation sphériques
des fonctions d'encodage d'ordre 2, de formes plus complexes. En extrapolant
l'animation précédente à ces formes supplémentaires,
vous pouvez imaginer le processus d'encodage...
Voici les fonctions d'ordre 3, plus complexes, plus "sélectives", et plus nombreuses pour couvrir la sphère directionelle:
Pour conclure ces préliminaires et avant de passer à la suite, ne nous privons pas de citer rapidement les qualités intrinsèques de ce type de représentation :
Du
contexte "historique" à la principale contribution de cette thèse
Après cette entrée en matière
allégée qui vous aura, je l'espère, mis un peu l'eau
à la bouche, il va être temps d'entamer la substance de cette
thèse. Au début de la préparation de cette thèse,
les systèmes ambisoniques existants (que nous appelerons "traditionnels")
reposaient sur une représentation limitée à l'ordre
1, pour laquelle plusieurs formes de décodage avaient été
définies (par Gerzon d'une part et Malham
d'autre part) pour s'adapter au mieux aux conditions de restitution (dont
l'étendue de l'auditoire). Les travaux de Bamford
en 1995 (analyse d'un système ambisonique d'ordre 2) ont suscité
un regain d'intérêt et ouvert de nouvelles perspectives, en
replaçant au coeur de l'approche ambisonique la notion de décomposition
du champ en harmoniques sphériques (ou plutôt
cylindriques en l'occurence) et en soulignant comme conséquence
la possibilité d'une reconstruction acoustique étendue
du champ sonore (expansion du domaine valide à
partir du centre et proportionnelle à la fréquence).
Bien qu'ouvrant un vaste champ d'investigation,
cette étude s'est restreinte à une vision partielle de l'approche
ambisonique, puisqu'elle ne s'est pas donnée les moyens de caractériser
ni d'optimiser la restitution en dehors des conditions (basse-fréquence
et position centrée) de reconstruction acoustique valide.
Il faut reconnaître que les théories de la localisation (basées
sur les vecteurs vélocité et énergie) introduites
par Gerzon et qui présidaient à l'optimisation "psychoacoustique"
du décodage s'entouraient, et s'entourent encore peut-être
pour un certain nombre de personnes, d'un certain "flou scientifique" (dixit
Rozenn Nicol). C'est probablement ce qui a retardé l'établissement
d'une connexion entre "anciennes" et "nouvelles" théories.
C'est sur ces deux tableaux - approfondissement de la compréhension et généralisation des principes aux ordres supérieurs - que se sont portés mon intérêt et mes efforts durant ce travail de thèse. Il en résulte, comme contribution majeure, l'extension aux ordres supérieurs de la plupart des aspects de l'approche ambisonique:
Plutôt que de multiplier les redondances entre
les pages et les documents présents sur ce site, je vous invite
à consulter maintenant le résumé de la thèse
(version longue ou courte)
en français ou en anglais (long
or short abstract).
Vous pouvez télécharger les différents
chapitres de mon document de thèse
(version soumise et non définitive) sous forme PostScript (fichiers
zippés).
Vous aurez peut-être aussi intérêt
à consulter directement un document "plus animé" (présentation
PowerPoint), que j'ai créé à l'occasion de
ma soutenance de thèse (le 19 septembre 2000), et qui comprend moult
z'illustrations et petits films d'animation. Un certain nombre de pages
ont été conçues dans un esprit vraiment didactique,
introduisant et illustrant de façon progressive des notions essentielles.
En le consultant vous-même, vous aurez la chance de passer le temps
que vous voudrez sur les pages qui vous intéressent, ce que je n'ai
pas eu le loisir de faire lors de ma soutenance! En attendant une version
HTML, plus facile à consulter et plus complète, ce support
constituera une aide à la compréhension très appréciable,
complémentaire du document de thèse. Alors n'hésitez
pas : téléchargez-le!
Bien d'autres choses devraient bientôt venir compléter
ces pages!
Outre une adaptation HTML de la présentation PowerPoint,
je prévois quelques films d'animation supplémentaires,
et aussi des fichiers sonores (simulations binaurales du rendu ambisonique
sur haut-parleurs, en positions d'écoute centrées et excentrées)!
La préparation de cette thèse s'est déroulée :
En relation avec le son spatialisé
(entre autres choses) :
IRCAM, The
Machine Listening Group Home Page (MIT Media Lab), Euphonia,
CATT-Acoustic,
CNMAT,
CCRMA,
Angelo
Farina,
R.
O. Duda Research
... et bien d'autres
Recherche et ressources relatives à
Ambisonic :
U.York
: MTG: Ambisonics Home Page (Dave Malham, Université de York,
UK), Richard Furse, Jeff
Bamford, Martin Leese's
Web Page
... et j'en oublie encore sans-doute pas mal.
Sites relatifs à l'audio et à
l'acoustique en général :
Audio Engineering Society, Société
Française d'Acoustique,
Liens vers des liens :
Audio
and Three Dimensional Sound Links, The
Virtual Times: Audio Links,
Audio Related WWW
Links (AES), Chalmer
Media Lab Links
Ressources scientifiques et techniques
:
Eric's Treasure Troves of
Science (fabuleuse encyclopédie en ligne : mathématiques,
physique, etc...),
ResearchIndex (accès
à un large ensemble de publications scientifiques),
IBM Intellectual Property Network
(banque de données des brevets existants : descriptions succinctes
et complètes)