jago a écrit:J'ajouterai encore un point qui vient nuancer les résultats des tests ABX. Il s'agit de biais de séléction et du petit nombres de participants.
Le biais de sélection ne nous gêne pas si nous voulons réussir le test. Bien au contraire, nous devons sélectionner les sujets les plus entraînés et les plus sensibles.
Si nous voulions déterminer l'audibilité moyenne d'une différence, alors le biais de sélection nous poserait un sacré problème, en effet. Mais nous n'en sommes pas là. Nous nageons en pleine confusion entre ceux qui disent que tout sonne pareil et ceux qui disent que sans fusibles en or, rien ne sonne correctement.
Donc notre objectif est de réussir quelques tests pour avancer un peu. Donc priorité aux oreilles d'or.
jago a écrit:Autrement dit, un test donné n'est valable que pour une expérience donnée ET pour cet échantillon de participants.
En effet. Ensuite, avec un protocole bien décrit et un compte-rendu détaillé, on permet aux lecteurs de se faire une idée de la généralisation possible. A chacun de se dire "si eux, ils y arrivent, alors étant donné mon expérience et mon installation, forcément moi aussi", ou au contraire "s'ils ont tant de difficulté avec un tel matos, aucune chance que cela fasse une différence pour moi". Ou encore "je ne peux rien en déduire, parce que j'écoute des musiques plus/moins exigeantes que celles qu'ils ont employées, sur un matériel différent".
jago a écrit:Non seulement son résultat est difficilement (voire ps du tout reproductible) mais ne peut etre généralisé à un autre groupe de testeurs. Or on entend souvent cette vérité "comme l'ont bien montré les tests en aveugle..."
Nous n'avons aucun recul pour estimer le généralisation possible d'un test aussi rigoureux que ceux que nous menons chez Grand X. On peut déjà constater qu'il est très facile de reproduire les échecs des autres, mais les causes peuvent en être multiples.
grand x a écrit:Le résultat n'a pas à être accepté ou non, il est.
Je suis loin d'être aussi catégorique, dans un sens comme dans l'autre. Que penses-tu du test ABX réussi par
Garf sur Hydrogenaudio ? Le score est de 12/13, ce qui donne moins d'une chance sur 500 d'avoir réussi par hasard. Et il utilisait un logiciel ABX, ce qui garantit le double aveugle complet. Qu'écoutait-il ?...
Rien !
Il n'écoutait absolument rien ! Il avait posé la casque sur la table, et cliquait sur les boutons au hasard. Il a simplement eu de la chance. Dans ces conditions, pourtant cinq fois plus rigoureuses que celles souhaitées en hifi habituellement (1 chance sur 100), nous ne pouvons ceretainement pas affirmer qu'il a "entendu la différence".
Tout ce que nous pouvons dire, c'est que sur ce test en particulier, il avait une chance sur 500 de réussir. Le contexte permet de relativiser ce coup de chance : Garf travaillait, avec ff123, Schnofler etc, aux logiciels ABX, et par conséquent, n'hésitait pas à tester intensivement leur fonctionnement. De plus, à cette époque, nous avions eu des discussions sur les tests séquentiels, c'est-à-dire des tests illimités où l'auditeur voit son score et peut choisir de s'arrêter quand il veut. Si Garf a procédé ainsi, les probabilité sont nettement biaisées, et ses chances de succès étaient en réalité supérieures à 1/500. En l'absence de précisions sur le protocole suivi, le résultat est beaucoup moins fiable.
De plus, d'autres testeurs ont certainement réalisé la même expérience, et échoué sans en parler. Cela augmente encore la probabilité réelle de succès.
L'interprétation d'un résultat positif n'est donc pas absolue et irrévocable. Il faut tenir compte du contexte.
Avec notre protocole et l'appareil ABX, nous sommes en véritable double aveugle, c'est un point qui est réglé.
Nous allons maintenant recommencer des tests déjà tentés la dernière fois, ce qui fait que nous entrons en mode séquentiel. Ce qui va peut-être nécessiter une petite révision sur les scores à atteindre. Mais nous réalisons des entrainements et des pré-séries de 7, ce qui limite fortement le nombre de tests réels menés d'un bout à l'autre, et l'auditeur n'a pas la possibilité de poursuivre une série mal entamée.
Par contre nous sommes nombreux à essayer, ce qui multiplie les coups de chance possibles. Nous devons tenir compte de ce facteur, et c'est pourquoi nous n'en sommes plus au score basique de 7/8.
Nous testons des différences parfois peu probables techniquement (câbles de modulation), et affirmation extraordinaire nécessite preuve extraordinaire.
Enfin, nous nous plaçons dans un forum très fréquenté et nous souhaitons que notre résultat puisse, le plus possible, servir de référence. Tout cela élève l'exigence d'un score élevé, et c'est pourquoi nous visons plutôt dans les 14/15. Score qui serait normalement considéré comme inutilement élevé par matrix-hifi ou David Carlstrom, par exemple.
Nous voyons donc que les choses sont loin d'être aussi simples que "tout succès est irréfutable". Le contexte est extrêmement important.
En ce qui concerne les échecs, je ne suis également pas partisant du "cela ne prouve absolument rien". Là encore, le contexte nous apprend des choses. une écoute ordinaire peut parfois apporter certaines informations. Donc une écoute ABX en apporte aussi, et souvent plus.
Un échec complet et sans conditions ne présente effectivement pratiquement pas d'intérêt, sauf éventuellement pour l'auditeur lui-même.
Mais les choses commencent à devenir intéressantes lorsque l'échec suit une écoute comparative normale assortie d'un compte-rendu sur le son des sources comparées. L'auditeur peut alors nous décrire ce qu'il a ressenti pendant le test, et pourquoi il pense avoir échoué. Je trouve déjà cela plus intéressant qu'un compte-rendu d'écoute d'un appareil quelconque dont je n'envisage la plupart du temps pas l'achat.
L'échec peut également être consécutif à un ABX que l'auditeur est certain d'avoir réussi ! (on a des cas) Là, cela peut devenir passionnant, car cela démontre que le compte-rendu qui précédait, et qui pouvait être considéré comme une indication forte de l'existence d'une différence audible, est caduc. L'auditeur doit alors se poser la question de la pertinence de l'ensemble de ses compte-rendus d'écoute.
Enfin, il y a le cas extrême, qui est théoriquement possible, où le test pourrait démontrer que LA différence n'existe pas (et non qu'UNE différence n'existe pas, nuance). Cela se produirait si toutes les indications du monde qui nous ont permis de conclure à l'existence d'UNE différence étaient, une à une, confrontées au cas précédent : échec dans des conditions où le succès est certain. Cette différence-là serait alors réfutée... Sans préjuger de l'existence éventuelle d'une autre différence, evidemment, mais que personne au monde n'aurait jamais entendue, puisqu'on a bien dit qu'on aurait testé toutes les différences entendues, (donc tous les auditeurs du monde).
Entre toutes ces possibilités, qui vont du test complètement bâclé au passage sur le banc d'essai de tous les audiophiles du monde, il y a nos tests à nous, qui, s'ils échouent, ne prouvent pas tout, mais pas rien non plus.