Thèse de Jérôme Daniel en Son 3D : Résumé de la thèse (version longue)

Thèse de Jérôme Daniel en Son 3D : Résumé de la thèse (version longue) Retour à la page Recherche

Résumé (version longue)

Ce travail de thèse s'intéresse à la représentation de champ acoustique pour la restitution spatialisée sur haut-parleurs ou au casque, appliquée au large domaine des applications multimédias, dont les nouvelles applications de navigation 3D dans des scènes virtuelles composites sur Internet. Ce domaine allie la reproduction spatialisée de champs sonores complexes préexistants (e.g. sous forme multi-canal "5.1") et un travail de spatialisation à part entière (pan-pot 3D et effet de salle). De plus en plus, les spécifications de ce type d'application sont caractérisées par la variabilité d'un grand nombre de paramètres: débit de transmission, ressources de l'utilisateur (CPU et dispositif de restitution), conditions d'écoute (individuelle ou collective), diversité des matériels sonores et audio-visuels brassés, point de vue et position des objets dans la scène virtuelle (interactivité). La question de la représentation – ensemble de signaux à restituer directement ou bien à décoder au préalable – intéresse à la fois la transmission (objectif de concision) et l'étape intermédiaire de spatialisation (encodage global pour une factorisation des opérations en aval).

Nous avons choisi d'approfondir l'approche ambisonique, basée sur une décomposition du champ acoustique en harmoniques sphériques centrée sur le point de vue de l'auditeur. Elle est restée longtemps connue sous une forme restreinte au premier ordre, qui réalise un encodage directionnel minimal du champ sonore à travers quatre composantes (B-format): W (pression) et X, Y, Z (gradient de pression), offrant une manipulation aisée du champ (rotations). Moyennant un décodage optimisé en fonction des conditions d'écoute (idéale-centrée ou collective-excentrée), un rendu cohérent et homogène de l'espace sonore peut être obtenu sur divers dispositifs panoramiques (2D) ou périphoniques (3D). Cette restitution "à géométrie variable" s'étend à la paire d'écouteurs ou de haut-parleurs grâce aux techniques binaurales (haut-parleurs virtuels). Avec la prise en compte de composantes d'ordres supérieurs –à laquelle encore peu de recherche avait été consacrée- s'ajoute à toutes ces propriétés la notion de représentation "à résolution variable" (scalabilité), exploitable en fonction du nombre de haut-parleurs et/ou de la capacité de transmission.

Nous présentons d'abord les fondements acoustiques et psychoacoustiques, et une revue critique des stratégies de spatialisation (stéréo, surround, binaural, transaural et nouvelles variantes). Nous explicitons le lien intrinsèque entre représentation ambisonique et caractéristiques locale (vecteur vélocité V) et globale (vecteur énergie E) de propagation du champ restitué – compte-tenu du dispositif -, ainsi que les relations de prédiction entre ces dernières et l'effet de localisation selon la mobilité de la tête. Les théories de localisation impliquées dans le décodage ambisonique (Gerzon) sont ainsi approfondies. Cette démarche étendue à l'ensemble des approches recensées souligne l'intérêt d'Ambisonic.

La généralisation d'Ambisonic à tous les ordres touche tous les aspects évoqués à l'ordre 1, notamment le formalisme d'encodage et les principes de décodage (2D et 3D). Après développement de la notion d'échantillonnage directionnel de la base d'harmoniques sphériques (applicable aussi à la prise de son), les trois formes de décodage originelles (Gerzon, Malham) sont généralisées en trois familles de solutions, à appliquer selon les conditions d'écoute. Des évaluations objectives étayées par des écoutes informelles confirment l'apport des ordres supérieurs et des solutions optimisées. Cet apport se manifeste sur le plan acoustique à travers l'expansion radiale de la reconstruction du champ et la propagation globale (E), et sur le plan perceptif à travers la précision et la robustesse des images sonores même en conditions non-idéales, ainsi que la préservation des impressions spatiales (séparation latérale, défectueuse à l'ordre 1).

La partie mise en oeuvre et expérimentation couvre, outre Ambisonic (expérimenté jusqu'à l'ordre 2), d'autres techniques de spatialisation (pan-pot, binaural, transaural, plus réverbération artificielle), intégrées à une interface sur PC. Ambisonic a pu ainsi être appliqué avec succès à la manipulation temps-réel et le mélange des sources (mono, multi-canal, B-format), et comparé ou combiné avec les autres techniques, en mode binaural comme sur haut-parleurs. Cet outil pourrait servir à une validation subjective complète de l'approche ambisonique et des théories sous-jacentes.

L'approche ambisonique apporte une réponse globale très satisfaisante aux enjeux de départ, bien que pour certains problèmes spécifiques – matriçage/décodage surround, synthèse binaurale performante d'une scène complexe - elle ne rivalise pas avec d'autres stratégies évoluées. Son extension aux ordres supérieurs intéresse de nombreux domaines et devrait connaître un essor grâce aux recherches et projets en cours.

Mots-clés

Spatialisation - Son 3D - Surround - Multimédia - Navigation 3D - Ambisonic(s) - B-format - Théorie de la localisation - Vecteur vélocité - Vecteur énergie – Décodage psychoacoustique - Représentation de champ acoustique - Décomposition en harmoniques sphériques - Echantillonnage directionnel - Scalabilité

Retour à la page Recherche