Audio du futur? nouvelles techniques de spatialisation

» 12 Avr 2006 20:29

GBo a écrit:Merci de ta réaction WhyHey, en plus ce sont des sujets que je connais un peu et que je serais ravi de discuter avec vous, mais calmement et sur un autre thread!

langmc a écrit:[...]
http://www.homecinema-fr.com/forum/viewtopic.php?t=29791391&highlight=
http://www.homecinema-fr.com/forum/viewtopic.php?t=29772434&highlight=

Langmc, tu veux dire que je ne mets pas assez souvent les pieds sur le forum audio?
C'est pas faux et j'ai tort!

c’était juste pour t’informer :wink:

» 12 Avr 2006 20:31

j'ai passé 1h devant ce 'gadget', c'est franchement en dessous d'un bon système stéreo: AMHA (je me méfie ...)

» 12 Avr 2006 20:39

Je l'ai pas écouté, mais le principe de la possibilité des faisceaux est crédible (en home cinema 5.0 et pourvu que la pièce et le réglage soient adéquats), à comparer à une boite de même dimension, soyons juste. Je n'échangerais pas ça contre une chaine, mais sous une grosse télé...disons que ça me rend curieux.

» 13 Avr 2006 11:32

Merci Mathieu pour les réponses que tu m'as faites.

J'ai été particulièrement heureux de lire celle-ci :

La correction de l'effet de salle dans laquelle est située le dispositif de reproduction est un vaste débat, loin d'être encore résolu. Je partage ton avis sur le fait que parfois le remède est souvent pire que le mal initial. Car pour vouloir corriger l'acoustique de la salle hôte, il faut savoir clairement identifier les moindres détails de celle-ci, ce qui implique d'avoir une bonne antenne de microphones... Comme les performances de celles-ci ne sont pas encore suffisantes, on a le risque de faire pire que mieux en essayant de corriger les défauts identifiés.

Car elle confirme (si je ne fais pas erreur) une de mes analyses précédentes sur les problèmes que pose l'utilisation d'un micro omni pour faire une correction de salle par convolution (c'est le caractère omni du micro qui était critiqué) :

http://www.homecinema-fr.com/forum/view ... =169370803

Dis dans ton vocable, un omni n'est pas une bonne antenne pour caractériser une salle. Peux tu me confirmer ce point ?

Comme je suis devenu très très méfiant sur la correction par convolution (si j'en met éventuellement une en oeuvre, ce sera vraisemblablement une approche inspirée du "complex smoothing" de Mourjopoulos), je me demande si dans le cadre d'une reproduction multicanal de type DSR, une acoustique la plus isotrope possible (même propriétés de diffusion, d'absorbtion et de réflexion dans toutes les directions) ne sera pas finalement la meilleure solution... Est-ce que Philippe a une opinion sur les "bonnes acoustiques" pour la reproduction du DSR ?

@+
Emmanuel

» 13 Avr 2006 14:59

WhyHey a écrit:Tu peux nous expliquer pourquoi dans ton DEA parfois il faut pression et gradient et parfois seulement pression pour trouver une solution aux équation intégrales ?

Concernant cette question des microphones omnidirectionnels (pression) et bidirectionnels (gradient de pression), j'ai avancé sur ce sujet au cours de ma thèse.

Tout dépend si nous considérons l'équation des ondes (équation de propagation), dont la représentation intégrale associée est l'intégrale de Kirchhoff, ou si nous considérons l'équation de Helmholtz (solutions monochromatiques à une fréquence donnée), dont la représentation intégrale associée est l'équation de Kirchhoff-Helmholtz.

Dans le deuxième cas (monochromatique), tu ne peux pas caractériser le champ sonore en connaissant uniquement soit le profil de la pression acoustique soit la composante normale à la surface du gradient de pression, ceci seulement pour certaines fréquences (fréquences propres du problème de Dirichlet ou de Neumann). Pour ces fréquences, il peut y avoir un champ non nul à l'intérieur alors que le profil de la pression acoustique (ou de sa dérivée normale) est nul. C'est ce qui explique pourquoi l'équation intégrale fait intervenir les deux termes, afin de lever l'ambiguité aux fréquences propres.

Dans le premier cas (large bande, solution en temporel), nous pouvons aboutir au résultat théorique que seul un type de microphones est nécessaire pour caractériser sans ambiguité le champ à l'intérieur de la surface fermée. Il ne s'agit d'un résultat qu'à valeur purement théorique car l'extrapolation du champ sonore en un point intérieur à cette surface nécessite la connaissance de la fonction de Green respectant soit des conditions aux limites de type Dirichlet, soit Neumann. Analytiquement, il existe très peu de cas (aucun ?) où l'on est capable d'expliciter une telle fonction de Green. Numériquement, je ne sais pas dans quelle mesure nous serions capables de les estimer. Donc généralement, on utilise la fonction de Green en espace infini (une des seules que nous sommes capables de calculer), mais comme elle ne satisfait pas les conditions aux limites du problème de Dirichlet/Neumann, les deux termes (pression et dérivée de celle-ci par rapport à la normale) sont nécessaires si nous voulons extrapoler le champ en n'importe quel point du volume intérieur.

» 13 Avr 2006 15:29

Emmanuel Piat a écrit:Car elle confirme (si je ne fais pas erreur) une de mes analyses précédentes sur les problèmes que pose l'utilisation d'un micro omni pour faire une correction de salle par convolution (c'est le caractère omni du micro qui était critiqué) :

http://www.homecinema-fr.com/forum/view ... =169370803

Dis dans ton vocable, un omni n'est pas une bonne antenne pour caractériser une salle. Peux tu me confirmer ce point ?

J'ai parcouru en diagonale le thread que tu as pointé. Nous ne parlons pas de la correction de l'effet de salle du même angle. Les corrections par convolution que tu cites n'utilisent pas une antenne de microphones (plusieurs microphones arrangés selon une géométrie particulière), mais généralement un ou deux microphones. Le fait qu'ils soient omnidirectionnels ou cardioïdes (peu importe leurs caractéristiques de directivité) n'entre pas en ligne de compte. Dans ces méthodes de correction de l'effet de salle, on cherche uniquement à corriger le champ sonore reproduit au niveau des microphones, et on ne se préoccupe pas de ce qu'il peut se passer à côté. Donc même si la correction est bonne d'un point de vue déconvolution, le résultat est souvent décevant auditivement. Le complex smoothing dont tu parles dans la suite de ton message permet de régulariser un peu la situation : la réponse ne sera pas forcément plate en fréquence au niveau des microphones, mais elle sera plus robuste lorsque l'on s'écarte des microphones.

La correction de l'effet de salle telle que je l'entendais dans mon post initial essayait de l'envisager de manière globale, et non une minimisation de l'erreur en un certain nombre de microphones. Pour cela, il est nécessaire d'extraire des paramètres généraux de description du champ sonore qui essaient de le décrire sur la plus large zone possible. Pour estimer ces paramètres dans la pratique, nous sommes obligés de nous servir de réseaux de microphones. Et, dans l'état actuel des choses, les informations recueillies ne sont pas assez fiables pour obtenir une correction efficace et globale de l'effet de salle. Tout au plus, nous pourrions le corriger dans une certaine zone de l'espace, que l'on souhaite la plus étendue possible.

Pour en revenir sur le post ciblé, on peut vouloir corriger non pas l'effet de salle, mais la réponse du transducteur. Pour cela, il faut isoler le front direct de ses réflexions, ce qui se réalise mieux en utilisant des microphones directifs, qui éliminent certaines réflexions mais pas toutes, qu'en utilisant des microphones omnis. Généralement, on tronque par application d'un fenêtrage, les réponses impulsionnelles mesurées pour ne conserver que le front direct. Les méthodes de convolutions sont alors plus efficaces dans ce cas à mon avis.

» 13 Avr 2006 16:04

on cherche uniquement à corriger le champ sonore reproduit au niveau des microphones, et on ne se préoccupe pas de ce qu'il peut se passer à côté. Donc même si la correction est bonne d'un point de vue déconvolution, le résultat est souvent décevant auditivement.

oui c'est exactement cela : j'ai eu qq reports d'expérience ou les personnes trouvaient le champ réverbéré très "bizarre" après correction (même s'il la réponse locale était un "beau" dirac du point de vu du micro omni)

La correction de l'effet de salle telle que je l'entendais dans mon post initial essayait de l'envisager de manière globale, et non une minimisation de l'erreur en un certain nombre de microphones.

ok.

[...] Et, dans l'état actuel des choses, les informations recueillies ne sont pas assez fiables pour obtenir une correction efficace et globale de l'effet de salle. Tout au plus, nous pourrions le corriger dans une certaine zone de l'espace, que l'on souhaite la plus étendue possible.

L'emploi du conditionnel dans "pourrions" laisse entendre qu'il y a encore pas mal de grains à moudre j'imagine ?

Pour cela, il faut isoler le front direct de ses réflexions, ce qui se réalise mieux en utilisant des microphones directifs, qui éliminent certaines réflexions mais pas toutes, qu'en utilisant des microphones omnis. Généralement, on tronque par application d'un fenêtrage, les réponses impulsionnelles mesurées pour ne conserver que le front direct. Les méthodes de convolutions sont alors plus efficaces dans ce cas à mon avis.

A l'occasion si tu as une ref sur cette technique je suis preneur (si tu as le temps bien sûr :wink:

).

@+
Emmanuel

» 13 Avr 2006 18:05

Merci

pour la clarification sur la question pression/gradient, je n'avais vu que l'aspect lié aux contraintes de la fonction de green en espace infini dans le premier cas donc.

» 13 Avr 2006 18:33

Merci à vous tous pour ce passionnant post !

Alain :wink:

» 14 Avr 2006 10:02

Concernant l'audio du futur, on peut également s'interroger sur le prix du matériel (DSP) qui sera nécessaire pour la mettre en oeuvre.

Je vais essayer de refaire une tentative pour expliquer le filtrage par convolution et ce que cela implique au niveau du matos, que Dieu me pardonne (et que Gbo me modère si je sors des clous :roll:

). Je précise que je vais rester hyper basique : il n'est pas question d'entrer ds les subtilités => ce que je vais écrire est dnc un compromis entre extrême vulgarisation et exactitude mathématique.

Let's go.

Lorsqu'on veut appliquer une transformation linéaire à un signal numérique, afin d'obtenir un nouveau signal, on peut montrer que cette transformation se modélise dans le domaine temporel par un produit de convolution :

s[k] = somme pour i allant de -l'infini à +l'infini h[i] x e[k-i]

ou

s[k] est le nouveau signal obtenu à l'instant k

h[i] est la réponse impulsionnelle de la transformation à un instant i (la seule chose à retenir ici, c'est que c'est également un signal numérique obtenu d'une certaine manière...)

e[k-i] est le signal qu'on veut transformer à l'instant k-i

Dans la somme qui précède, le truc qui gène si on veut implémenter la convolution dans un DSP est que i varie de -l'infini à + l'infini. (Rq : implémenter cette convolution dans le domaine fréquentiel au lieu du temporel n'y changerait rien : il faudrait alors une précision infinie sur l'axe des fréquences jusqu'à la fréquence d'échantillonnage. Donc quoi qu'il arrive, on a un problème Houston!)

On peut tordre le coup à -l'infini en restreignant la transformation à une transformation dite causale. Dans ce cas, on obtient :

s[k] = somme pour i allant de 0 à +l'infini h[i] x e[k-i]

Mais bon, il reste tjrs un infini...

C'est la réponse impulsionnelle h qui va en quelque sorte nous sauver : il existe deux types de réponse h :

- celles de longueur infinie : quel que soit l'indice i que je considère, il existe toujours des termes non nuls dans le signal h : h[0], h[1], h[2], h[3], ... , h[i], ...

Ce type de réponse impulsionnelle porte le doux nom de IIR (Infinite Impulse Response), ou RII en français.

- celles de longueur finie : à partir d'un certain indice M, les termes sont TOUS nuls dans le signal h: h[0], h[1], h[2], ... , h[M-1], 0, 0, 0, 0, ...

Ce type de réponse impulsionnelle porte le doux nom de FIR (Finite Impulse Response), ou RIF en français.

Contrairement à ce qu'on pourrait imaginer, les transformations IIR sont extrêment classiques en filtrage de signal qu'il soit analogique ou numérique. Par exemple, en analogique, tous les filtres actifs ont des reponses impulsionnelles IIR. En numérique, tous les appareils qui proposent des banques de filtrage paramétrique EQ ont aussi des rép. imp. IIR. Idem pour les appareils qui proposent des filtres numériques passe bas, passe bande et passe haut pour faire de la multiamplification, etc.

Si les filtres (ou transformations) à base d'IIR ont tant de succès, c'est parce qu'en dépit de l'infini présent dans la convolution, il est très simple de les implémenter dans un DSP. On n'utilise tout simplement pas la convolution!!! (puisque c'est impossible). On s'en sort car on peut montrer que ce type de filtre peut *également* se modéliser par une équation récurrente :

dans ce cas, la sortie s[k] va dépendre de l'entrée e[k-1], éventuellement de qq entrées précédentes e[k-2], e[k-3] etc. en nombre *fini* ET FORCEMENT (c'est très important) de qq sorties précédentes s[k-1], s[k-2], etc. également en nombre *fini*.

Donc là on est sauvé ! Comme le nombre de sorties précédentes à considérer est généralement très faible (elle dépend de l'ordre du filtre : 1 sortie précédente pour un filtre d'ordre 1, 2 sorties précédentes pour un filtre d'ordre 2, etc. sachant qu'on va rarement au delà de l'ordre 5 ou 6 en pratique), un petit DSP avec quelques octets de mémoire et une unité de calcul arithmétique de base sur les flottants (nombres réels) est suffisant. Il suffit pour calculer s[k] de mémoriser les qq sorties précédentes et de remettre à jour cette mémorisation à chaque instant k. Ce type de circuit DSP coute quelques dollards et est présent dans tous les circuits audio numérique. Les appareils qui utilisent ces circuits ont généralement un coût assez faible (de la centaine d'euros voir moins à quelques centaines d'euros).

Reste les transformations dont la rép. imp. est de type FIR.

Dans ce cas, comme les termes dans h sont tous nuls à partir d'un certain indice M, la convolution du signal h[] avec le signal e[] devient :

s[k] = somme pour i allant de 0 à (M-1) h[i] x e[k-i]

avec h de longueur M : h[0], h[1], h[2], ... , h[M-1]

Pour implémenter cette convolution, on a deux choix possible : soit l'implémenter dans le domaine temporel (c'est maintenant possible car il n'y a plus d'infini), soit l'implémenter dans le domaine fréquentiel.

Dans le domaine temporel, on peut vite avoir des problèmes de temps de calcul. Imaginons par exemple qu'on veuille faire de la réverb. Si on veut simuler un hall avec une réverb de 5 sec, la longueur M de la réponse impulsionnelle h[] va être :

M = 44100 * 5 = 220500 samples (si on a une fréquence d'échantillonnage de 44.1 kHz).

Donc il va falloir faire 220500 "multiplication-additions" tous les 1/44100 sec pour calculer s[k]. Ca c'est pour 1 canal, il faut ensuite multiplier par le nombre de canaux à traiter.

En 5.0, ca donne : 5 * 220500 = 1 102 500 "multiplication-additions" à faire tous les 1/44100 sec...

Et tout cela empire encore si on est en 96 kHz... Bref, pour faire simple, ce n'est pas possible avec les DSP actuel sauf si M est tout petit (de l'ordre de qq centaines de samples avec des DSP puissants). Pour s'en sortir, on implémente alors la convolution dans le domaine fréquentiel. Pour cela (je schématise car c'est bcp plus compliqué), on calcule la FFT de e[] et de h[], on fait ensuite uniquement qq multiplications puis on fait la FFT inverse du résultat obtenu et on récupère le signal s[].

Malgré l'apparente complexité de ces opérations, dès que M est supérieur à 30, on est largement gagnant : ce calcul peut aller jusqu'à des centaines de fois plus vite selon la valeur de M !

Malgré cela, les DSP capables de faire de tels traitements "temps-réel" en multicanal restent chers (plusieurs dizaines à plusieurs centaines de dollards) et il faut en plus leur adjoindre une quantité importante de mémoire pour stocker les réponses implusionnelles h[] ainsi que leur FFT. Qd on sait que le prix de vente en audio est généralement supérieur ou égal au prix de revient multiplié par 10, on comprend vite le problème.

A titre d'exemple, le processeur Sony d'effet DRE S-777 qui fonctionne en filtrage FIR coute dans les $9000 (voir $11000 avec toutes les options). C'est une des raison qui a fait que l'approche logicielle du filtrage FIR s'est démocratisée sur les PC car aujourd'hui les PC sont capables de rivaliser avec les gros DSP audio pour un coup assez faible. Si on ajoute à ça que les régies numériques de studio utilisent de plus en plus des PC, on comprend l'offre logicielle énorme en matière de filtrage FIR.

Tout ça pour dire que le filtrage FIR qui est nécessaire aux approches audio moderne (Trinnov, travail de recherche de Mathieu, etc.) a un coup non négligeable qu'il faudra répercuter sur nos install. Seul un marché de masse et un support par des poids lourds de l'audio (Sony and co) permettra de faire diminuer ces coûts.

Je terminerai en disant qu'un des avantage du DSR, c'est qu'il n'y a pas besoin de DSP.

@+
Emmanuel

» 14 Avr 2006 14:28

no comment

mais comme je ne peux pas m'en empecher:
http://www.cs.utah.edu/classes/cs7962/slides/15-6up.pdf
un exemple de DSP avec FIR en action, le PC n'est plus le seul capable de rivaliser avec les anciens matériels pro, c'est une erreur de raisonner PC.
Un ADSP 21261 coute moins de 10$. la datasheet est sur le lien que j'ai donné à la page précédente (on y trouve ses capacités FIR et IIR) :
http://www.analog.com/en/epProd/0,,ADSP-21261,00.html
et un intégré Sony numérique utilise la techno Sharc AD de ces DSP 32 bits ... en particulier pour les modes de reproduction des salles Kim et Garry

le DRE-S 777 est un produit qui date de 2000.
http://bssc.sel.sony.com/Professional/d ... e-s777.pdf
il coutait 9000$ en 2001
http://namm.harmony-central.com/SNAMM01 ... tions.html
il se vend aujourd'hui à ... 1000$ pour les nostalgiques.

» 14 Avr 2006 16:10

Allez, je l'imprime, je lis ça ce soir à tête reposée :lol:

» 18 Avr 2006 12:15

angus2 a écrit:Allez, je l'imprime, je lis ça ce soir à tête reposée

Un peu de concentration ayant fait passer le pavé d'Emmanuel somme toute assez facilement j'ai voulu faire un tour sur le domaine ce we en reprenant un document donné il y a quelques temps par Gbo http://www.dspguide.com/pdfbook.htm.

Je l'avais imprimé parmi d'autres cités dans un vieux fil et comme souvent devant un apport trop important, aprés avoir commencé à le feuilleter, j'étais passé à d'autres lectures nouvelles sans y revenir.

c'est un mal en parti réparé (7 chapitres, il y a encore de quoi lire) et je le conseille vivemment à tous ceux qui veulent s'initier en douceur au traitement numérique du son.
Il n'est besoin que d'un peu d'attention et de temps pour faire un bon tour sur toutes les notions de bases.

» 18 Avr 2006 16:01

Michel K a écrit:...
C'est bien pour cette raison que l'on préconise en multi-canal d'avoir une pièce d'écoute plus absorbante qu'en stéréo.

Bonjour à tous, je viens de débarquer sur ce fil (j'ai été "aiguillé" :wink:

) je commence donc à répondre aux premier posts en commencçant par le début

Michel, tu dis :"l'on préconise en multi-canal d'avoir une pièce d'écoute plus absorbante qu'en stéréo".

C'est qui le "on" :wink:

jacques

» 18 Avr 2006 21:36

GBo a écrit:(*) WFS = Wave Field Synthesis, Synthèse de Champ d'Onde:

Voici un petit topo vulgarisé sur le site de l'IRCAM:
http://recherche.ircam.fr/equipes/salle ... s_site.htm

En gros et en Français (je fais un résumé de la page), il s'agit d'une technique de reproduction qui permet de recréer, dans une zone étendue de la salle d'écoute, une spatialisation basée sur la reproduction des champs d'ondes sonores.
Cette technique est basée directement sur le principe de Huygens/Kirchoff (étendu à l'audio!) qui dit que l'on peut, dans certaines conditions, reproduire exactement un champ d'onde à l'aide d'une multitude de sources secondaires bien placées:
.......
Ce réseau de HP drivés correctement et individuellement, permet la recréation de sources ponctuelles, comme ces deux violons (perçus à des profondeurs différentes), sources qui restent en place lorsque l'auditeur se balade dans la salle d'écoute.
Il n'y a pas de "sweet spot" comme en stéréophonie.
Ce réseau permet de recréer aussi, c'est plus surprenant, des sources ponctuelles qui apparaissent devant les HP, puisqu'on maitrise entièrement la forme d'onde generée.
Enfin on peut créer des ondes planes, donc des sources infiniment éloignées qui suivent l'auditeur quand il se déplace (comme le soleil dans un train...).
.....
GBo

GBo

Le WFS, comme son nom l'indique est la création "synthétique" d'un champ acoustique réel.

La stéréophonie est la création de sources fantômes virtuelles (en nombre fini) à partir de sources réelles en nombre fini (2 au départ, puis 5 ou plus plus récemment)

Les deux notions sont très différentes (et différentes dans les zônes et mécanismes de perception du cerveau), le WFS crée ce champ acoustique réel en utilisant un grand nombre de HP (petits pour avoir un maillage spatial et fréquentiel serré), alors que la stéréophonie génère des sources fantômes (des artefacts donc, ou illusions d'acoustique). les deux approches sont radicalement différentes mais peuvent être complémentaires.

pour pouvoir se référer à Huyghens avec un nombre très restraint de transducteurs (disons de 2 à 5 transducteurs, pas vraiment au hasard :wink:

), on va avoir au minimum besoin:
- de capteurs de champs acoustiques (ce qui est très différent d'un microphone qui est au mieux un capteur de pression dans le cas d'un micro omni... on est très loins dans ce cas du champ lui-même)
- d'unité de reproduction sonore capable de reproduire le champ acoustique capté par le capteur lui-même (et une enceinte acoustique "traditionnelle" est aussi très éloignée d'un générateur de champ acoustique contrôlé).

Nous voyons là les contraintes assez gigantesques qu'imposent le WFS (il suffit de voir le nb de HP utilisé parfois!)

L'utilisation de 5 enceintes "classiques" peut par contre permettre une compensation de la déficience du système stéréo de base (très peu de systèmes sont capable de reproduire une stéréo de haut vol avec un angle d'enceintes de 60°. L'augmentation du nb d'enceinte sur un angle de reproduction un peu plus grand permet d'avoir des angles plus fermés et de compenser le manque de rigueur du système de reproduction.

Dans le cas de 5 enceintes réparties régulièrement sur 180°, on se retrouve avec un angle de 45° entre les enceintes qui est nettement plus confortable pour éliminer les "trous" éventuels dans la scène sonore. Ceci est tout techniquement à fait possible, mais donne un nouveau standard qui devra être accepté par les instances mondiales (....) et qui nécessite également un système de prise de son dont les angles de prises de son sont compatibles avec la nouvelle disposition des enceintes (compatibilité entre la production et la restitution): voir à ce sujet les études de Michael Williams sur le couple variable

my 2 cts

jacques

PS: sur un système 5.1, il nous arrive parfois d'utiliser chez TMS un système type WFS qui recrée par exemple le champ acoustique d'une enceinte centrale manquante avec les 4 autres enceintes, et ça marche remarquablement bien (très utile avec un plasma ou quand un écran transsonore n'est pas utilisé)