Modérateurs: Staff Univers Casques, Staff Haute-Fidélité, Staff Juridique • Utilisateurs parcourant ce forum: Aucun utilisateur enregistré et 15 invités

Discussions sur le matériel Haute-Fidélité

Kangourou ABX, ép 4: du muguet pour les kangourous (1er Mai)

Message » 19 Mai 2009 13:07

Et prévoir aussi un droit à l'erreur.
Le type qui réussit un score de 44/45, si on lui dit que c'est un échec, je veux pas être modérateur du forum !
Pio2001
 
Messages: 5911
Inscription: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Annonce

Message par Google » 19 Mai 2009 13:07

Publicite

 
Encart supprimé pour les membres HCFR

Message » 19 Mai 2009 13:15

Je pense aussi à ma propre expérience. Lorsqu'une différence est flagrante, il m'arrive, avec un logiciel, mais je pourrais le faire avec une télécommande, de le faire en 50. Dans ce cas j'obtiens 50/50. Ca prend deux minutes, avec un extrait audio coupé pile là où c'est différent, on écoute pendant une demi-seconde, seulement X.

Pour des différences comme du mp3 à 128 kbps (attention, du haut de gamme), selon que la différence est évidente ou pas, je le fais en 16, sauf si la différence est difficile à entendre. Il me faut alors plusieurs minutes pour donner une réponse. Là je préfère le faire en 8.

Pour des différences très difficiles, comme le test d'oversampling de gbo, que j'avais du mal à réussir au cause de ma mauvaise audition dans les hautes fréquences, il m'a fallu plus d'une heure pour obtenir péniblement 7/8.

Pour des différences de ce genre, il est exclu que je le fasse en 45 fois.
Pio2001
 
Messages: 5911
Inscription: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Message » 19 Mai 2009 14:33

Pio2001 a écrit:Et prévoir aussi un droit à l'erreur.
Le type qui réussit un score de 44/45, si on lui dit que c'est un échec, je veux pas être modérateur du forum !


Non mais je suis devenu raisonnable, je suis repassé à 30. Et si tu fais 29/30 c'est très bien. Personne ne dira que c'est un échec. On calculera la proba que tu avais d'arriver par hasard à 29/30 en faisant 667 ABX (pour comparer à ce qu'on avait précédemment), et on trouverait 0.002 % de chance. Voilà ça sera ton score. Et si tu as réussi ces 29 à la suite, c'est un tout petit peu mieux : 29 à la suite sur 10000 unitaires ça serait 0.0018 %.

C'est certes moins bien que si tu avais fait 30/30 à la suite (0.001 %), mais c'est déjà très bien. C'est aussi bien que quatre ABX à 14/15.

Tout est quantitatif. Il n'y a pas de c'est gagné / c'est perdu juste à cause d'une erreur.

L'idée c'est de faire les tests le mieux possible, en essayant d'avoir la plus longue série de succès de suite. Et dès qu'on échoue, on peut quand même essayer de continuer :

Exemple : on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien). Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là. Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.
Or il se trouve, en faisant 10000 essais unitaires, qu'on avait 18% de chance de réussir 12 à la suite, et 72% de faire quatre fois 8 à la suite et 25 % de réussir 2 séries de 10 à la suite. Là ce n'est pas la joie. C'est finalement les 12 à la suite qui sont les meilleurs ici, on n'a pas réussit à améliorer en continuant. Mais avec 18% de chance que ça soit arrivé au hasard on ne peut quand même pas qualifier ça de succès irréfutable. Si on avait réussit à faire vraiment les quatre fois 12 à la suite là on serait arrivé à un score de 0.006%.

Je ne sais pas si ça a un sens de fixer un seuil de réussite de proba pour que le succès que ça soit arrivé par chance, sur la base de 10000 essais unitaires, seuil en deça duquel on déclarerait un "succès".
Si par exemple on prend 0.1% pour ce seuil (je deviens de plus en plus gentil : les 30 à la suite c'était 0.001 % de chance que ça arrive par hasard), ici pour 0.1% c'est 23 succès à la suite qui suffiront (cf la courbe décroissante du pourcentage pour qu'arrive par hasard n succès à la suite si on fait 10000 tests unitaires) :

Image

Ce qui ne veut pas dire que si on réussit seulement 22 à la suite le test n'est pas valable. Mais, toujours sur la base d'une répétition de 10000 tests unitaires (par exemple 45 séries de 22 fait par 10 personnes différentes), il y avait 0.2 % que ça arrive par hasard. C'est encore bien, mais c'est moins bien. Disons que ça permet de se situer.

Voilà les chiffres (sur la base de 10000 tests unitaires), et j'arrondis :

16 à la suite : 14 %
17 à la suite : 7 %
18 à la suite : 4 %
19 à la suite : 2 %
20 à la suite : 1 %
21 à la suite : 0.5 %
22 à la suite : 0.2 %
23 à la suite : 0.1 %
24 à la suite : 0.06 %
25 à la suite : 0.03 %
26 à la suite : 0.01 %
27 à la suite : 0.007 %
28 à la suite : 0.004 %
29 à la suite : 0.002 %
30 à la suite : 0.001 %

A partir de ces chiffres à chacun de décider ce qui est un échec et ce qui est un succès... Ou plutôt, à partir de ses performances pour un test ABX donné, à chacun de calculer son score.

Pour fixer les idées :

moins de 0.1% de chance que ça arrive par hasard sur 10000 tests unitaires, c'est :

- 24 succès à la suite
- ou deux fois (18 succès à la suite)
- ou trois fois (16 succès à la suite)
- ou quatre fois (15 succès à la suite)
- ou cinq fois (14 succès à la suite)

Je préfère tenter 24 succès à la suite que 5*14 = 70 succès à réussir, mais parfois on n'a pas le choix.

L'inconvénient de ces scores plus stricts c'est qu'ils sont plus difficiles à obtenir que 14/15. L'avantage c'est qu'on a pas à tenir le compte des essais passés et du nombre de participants.
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 19 Mai 2009 14:39

Au final, je trouve que vous etes vraiment trop exigeants avec vos proba... A mon avis, si qq n est pas convaincu avec un abx a 14/15, il ne le sera pas plus par un autre a 34/35... On pourra ds ce cas (et peut etre a juste tittre) dire qu il y avait un defaut ds le deroulement du test...

Bref pourquoi ne pas aller vers plus d objectivite :
* X parmi 10 reussit son abx a 7/8 les autres pas. X argumente les raisons de son succes.
conclusions :
*A est sans doute different de B, mais cette difference n est pas flagrante.
*X a une meilleure oreille sur ce test que les autres...

A mon sens le reste n apporte pas grd chose... :wink:
Hi-fi : nas Qnap TS221, Transporter, Classé 2200i, Vivid Audio, Rel
HC : Pio KRP 500A, Vivid, Scandyna Minipod & Cinepod, Pana BDT 270, Yamaha Rxa 1040
Avatar de l’utilisateur
JG Naum
Staff Œuvres
Staff Œuvres
 
Messages: 5369
Inscription: 12 Mar 2005 20:08
Localisation: Paris

Message » 19 Mai 2009 15:00

JG Naum a écrit:Au final, je trouve que vous etes vraiment trop exigeants avec vos proba... A mon avis, si qq n est pas convaincu avec un abx a 14/15, il ne le sera pas plus par un autre a 34/35...


il ne s'agit pas de convaincre "quelqu'un", il s'agit de convaincre quelqu'un de bonne foi et qui comprend les stats (par exemple Pio2001) et qui pourrait objecter que le 14/15 réussi ne l'est que par 1 personne sur 5. Si je reviens le voir une semaine après en lui disant que cette fois la personne qui l'avait réussi à 14/15 (ou une autre personne, peu importe) l'a réussi en faisant 23 succès à la suite, même si ses 8 comparses n'ont toujours pas réussi, Pio sera convaincu de la validité du test (et moi aussi). C'est tout.

Convaincre tout le monde c'est impossible et ça n'a pas d'importance.


JG Naum a écrit:Bref pourquoi ne pas aller vers plus d objectivite :
* X parmi 10 reussit son abx a 7/8 les autres pas. X argumente les raisons de son succes.
conclusions :
*A est sans doute different de B, mais cette difference n est pas flagrante.
*X a une meilleure oreille sur ce test que les autres...

A mon sens le reste n apporte pas grd chose... :wink:


Si le reste c'est que X réussit la semaine suivante à faire 23 succès de suite, peu importe que les autres n'entendent pas : la différence existe. Pour le fait qu'elle soit flagrante ou pas, ce n'est pas l'échec des autres qui nous le dira (eux ils n'ont rien entendu de toutes façons), c'est X qui pourra expliquer ce qu'il a entendu et comment il a fait pour réussir ses 23 succès de suite. C'est lui qui nous dira si c'était difficile ou pas, si c'était ténu ou pas, etc...
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 19 Mai 2009 15:12

Mais c'est qui ce fameux X ???? :mdr:
Le Pivert
 
Messages: 1860
Inscription: 01 Juin 2006 15:53
Localisation: Belgique
  • offline

Message » 19 Mai 2009 15:19

Quelqu'un qui réussit les tests ABX.
Je me sens du coup pas spécialement visé :(

:wink:
grand x
Pro-Commercant
Pro-Commercant
 
Messages: 7401
Inscription: 28 Juin 2005 8:50
Localisation: Paris 12°

Message » 19 Mai 2009 16:01

corsario a écrit:
JG Naum a écrit:Au final, je trouve que vous etes vraiment trop exigeants avec vos proba... A mon avis, si qq n est pas convaincu avec un abx a 14/15, il ne le sera pas plus par un autre a 34/35...


il ne s'agit pas de convaincre "quelqu'un", il s'agit de convaincre quelqu'un de bonne foi et qui comprend les stats (par exemple Pio2001) et qui pourrait objecter que le 14/15 réussi ne l'est que par 1 personne sur 5. Si je reviens le voir une semaine après en lui disant que cette fois la personne qui l'avait réussi à 14/15 (ou une autre personne, peu importe) l'a réussi en faisant 23 succès à la suite, même si ses 8 comparses n'ont toujours pas réussi, Pio sera convaincu de la validité du test (et moi aussi). C'est tout.



Si le reste c'est que X réussit la semaine suivante à faire 23 succès de suite, peu importe que les autres n'entendent pas : la différence existe. Pour le fait qu'elle soit flagrante ou pas, ce n'est pas l'échec des autres qui nous le dira (eux ils n'ont rien entendu de toutes façons), c'est X qui pourra expliquer ce qu'il a entendu et comment il a fait pour réussir ses 23 succès de suite. C'est lui qui nous dira si c'était difficile ou pas, si c'était ténu ou pas, etc...


Il me semble que dans l histoire des abx, on est deja passe de 7/8 a 14/15 .... Vouloir passer de 14/15 a 22/23 bien qu il y ait 99.95% de chance que la reussite de X ne soit pas due au hasard, ca me semble bcp demander a un pauvre Kangourou... Surtout qu on ne sera tjrs pas a 100% !

Autant debaptiser grand X de suite :lol: :lol:
Hi-fi : nas Qnap TS221, Transporter, Classé 2200i, Vivid Audio, Rel
HC : Pio KRP 500A, Vivid, Scandyna Minipod & Cinepod, Pana BDT 270, Yamaha Rxa 1040
Avatar de l’utilisateur
JG Naum
Staff Œuvres
Staff Œuvres
 
Messages: 5369
Inscription: 12 Mar 2005 20:08
Localisation: Paris

Message » 19 Mai 2009 16:15

JG Naum a écrit:
corsario a écrit:
JG Naum a écrit:Au final, je trouve que vous etes vraiment trop exigeants avec vos proba... A mon avis, si qq n est pas convaincu avec un abx a 14/15, il ne le sera pas plus par un autre a 34/35...


il ne s'agit pas de convaincre "quelqu'un", il s'agit de convaincre quelqu'un de bonne foi et qui comprend les stats (par exemple Pio2001) et qui pourrait objecter que le 14/15 réussi ne l'est que par 1 personne sur 5. Si je reviens le voir une semaine après en lui disant que cette fois la personne qui l'avait réussi à 14/15 (ou une autre personne, peu importe) l'a réussi en faisant 23 succès à la suite, même si ses 8 comparses n'ont toujours pas réussi, Pio sera convaincu de la validité du test (et moi aussi). C'est tout.



Si le reste c'est que X réussit la semaine suivante à faire 23 succès de suite, peu importe que les autres n'entendent pas : la différence existe. Pour le fait qu'elle soit flagrante ou pas, ce n'est pas l'échec des autres qui nous le dira (eux ils n'ont rien entendu de toutes façons), c'est X qui pourra expliquer ce qu'il a entendu et comment il a fait pour réussir ses 23 succès de suite. C'est lui qui nous dira si c'était difficile ou pas, si c'était ténu ou pas, etc...


Il me semble que dans l histoire des abx, on est deja passe de 7/8 a 14/15 .... Vouloir passer de 14/15 a 22/23 bien qu il y ait 99.95% de chance que la reussite de X ne soit pas due au hasard, ca me semble bcp demander a un pauvre Kangourou... Surtout qu on ne sera tjrs pas a 100% !

Autant debaptiser grand X de suite :lol: :lol:


Pas 22/23, 23 à la suite ! (je suis exigeant :mdr: )

Ma contribution visait juste à répondre à cette objection soulevée par Pio2001 :

Une autre affirmation complétement excessive, c'est quand on affirme qu'un seul ABX réussi par une seule personne prouverait de façon absolue et définitive qu'une différence existe. Des ABX positifs, il y en a eu sur des câbles de modulation, et même sur l'ionostat de Pierre Johannet ! Est-ce que l'on considère pour autant comme définitivement prouvé et indiscutable qu'un câble de modulation ou un ionostat change le son ? Posez donc la question aux objectivistes !


et

Un autre point délicat à surveiller est celui des statistiques. Notre vieil ami Nico avait bien retenu cela : si un test ABX échoue, on n'a pas le droit de recommencer, un succès aux deuxième essai ne serait pas valide. Et c'est vrai : cela n'aurait pas la même valeur de preuve que lors d'un test unique.
J'ai contourné ce problème en imposant des réussites à 14/15 au lieu des traditionnels 7/8. Pour l'instant, j'estime que nous pouvons poursuivre encore pendant une ou deux rencontres sur ce chiffre, les probas devraient tenir le coup. Ensuite, il faudra tout de même vérifier où on en est exactement.
Quoi qu'il en soit, deux tests réussis (14/15 une fois et 14/15 une seconde fois, ce qui est envisageable) exploseraient les seuils de significativité et constitueraient une confirmation statistique quel que soit le nombre d'échec les ayant précédés.
On n'est donc pas trop embêtés de ce côté là.


je redis la dernière proposition de Pio en ajoutant la possibilité, aussi fort que de faire deux fois 14/15 : faire un seul 18 à la suite par exemple (4% de chance que ça arrive par hasard sur 10000 tests unitaires dans les deux cas)

Les 30 ou 45 à la suite permettent de répondre à la première remarque : un seul ABX de cette sorte (si la personne qui l'a fait n'a pas triché évidemment) est valide statistiquement à vie (s'il n'y a pas eu de triche ou d'erreur encore une fois). Maintenant pour être sûr qu'il n'y a pas eu de triche ou d'erreur, le fait qu'il soit répliqué par une tierce personne est évidemment un plus, je suis d'accord.

De plus, si une différence est audible, 14/15 ou 23 devraient être aussi facile à faire l'un que l'autre.

Maintenant on a un autre problème : comment quantifier l'importance d'une différence, certes faiblement audible sur un extrait de 10s, mais qui pourrait devenir très fatigante ou très gênante sur 2 heures d'écoutes ?????
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 19 Mai 2009 16:25

corsario a écrit:
Pio2001 a écrit:Et prévoir aussi un droit à l'erreur.
Le type qui réussit un score de 44/45, si on lui dit que c'est un échec, je veux pas être modérateur du forum !


Non mais je suis devenu raisonnable, je suis repassé à 30. Et si tu fais 29/30 c'est très bien. Personne ne dira que c'est un échec. On calculera la proba que tu avais d'arriver par hasard à 29/30 en faisant 667 ABX (pour comparer à ce qu'on avait précédemment), et on trouverait 0.002 % de chance. Voilà ça sera ton score. Et si tu as réussi ces 29 à la suite, c'est un tout petit peu mieux : 29 à la suite sur 10000 unitaires ça serait 0.0018 %.

C'est certes moins bien que si tu avais fait 30/30 à la suite (0.001 %), mais c'est déjà très bien. C'est aussi bien que quatre ABX à 14/15.

Tout est quantitatif. Il n'y a pas de c'est gagné / c'est perdu juste à cause d'une erreur.

L'idée c'est de faire les tests le mieux possible, en essayant d'avoir la plus longue série de succès de suite. Et dès qu'on échoue, on peut quand même essayer de continuer :

Exemple : on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien). Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là. Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.
Or il se trouve, en faisant 10000 essais unitaires, qu'on avait 18% de chance de réussir 12 à la suite, et 72% de faire quatre fois 8 à la suite et 25 % de réussir 2 séries de 10 à la suite. Là ce n'est pas la joie. C'est finalement les 12 à la suite qui sont les meilleurs ici, on n'a pas réussit à améliorer en continuant. Mais avec 18% de chance que ça soit arrivé au hasard on ne peut quand même pas qualifier ça de succès irréfutable. Si on avait réussit à faire vraiment les quatre fois 12 à la suite là on serait arrivé à un score de 0.006%.

Je ne sais pas si ça a un sens de fixer un seuil de réussite de proba pour que le succès que ça soit arrivé par chance, sur la base de 10000 essais unitaires, seuil en deça duquel on déclarerait un "succès".
Si par exemple on prend 0.1% pour ce seuil (je deviens de plus en plus gentil : les 30 à la suite c'était 0.001 % de chance que ça arrive par hasard), ici pour 0.1% c'est 23 succès à la suite qui suffiront (cf la courbe décroissante du pourcentage pour qu'arrive par hasard n succès à la suite si on fait 10000 tests unitaires) :

Image

Ce qui ne veut pas dire que si on réussit seulement 22 à la suite le test n'est pas valable. Mais, toujours sur la base d'une répétition de 10000 tests unitaires (par exemple 45 séries de 22 fait par 10 personnes différentes), il y avait 0.2 % que ça arrive par hasard. C'est encore bien, mais c'est moins bien. Disons que ça permet de se situer.

Voilà les chiffres (sur la base de 10000 tests unitaires), et j'arrondis :

16 à la suite : 14 %
17 à la suite : 7 %
18 à la suite : 4 %
19 à la suite : 2 %
20 à la suite : 1 %
21 à la suite : 0.5 %
22 à la suite : 0.2 %
23 à la suite : 0.1 %
24 à la suite : 0.06 %
25 à la suite : 0.03 %
26 à la suite : 0.01 %
27 à la suite : 0.007 %
28 à la suite : 0.004 %
29 à la suite : 0.002 %
30 à la suite : 0.001 %

A partir de ces chiffres à chacun de décider ce qui est un échec et ce qui est un succès... Ou plutôt, à partir de ses performances pour un test ABX donné, à chacun de calculer son score.

Pour fixer les idées :

moins de 0.1% de chance que ça arrive par hasard sur 10000 tests unitaires, c'est :

- 24 succès à la suite
- ou deux fois (18 succès à la suite)
- ou trois fois (16 succès à la suite)
- ou quatre fois (15 succès à la suite)
- ou cinq fois (14 succès à la suite)

Je préfère tenter 24 succès à la suite que 5*14 = 70 succès à réussir, mais parfois on n'a pas le choix.

L'inconvénient de ces scores plus stricts c'est qu'ils sont plus difficiles à obtenir que 14/15. L'avantage c'est qu'on a pas à tenir le compte des essais passés et du nombre de participants.


Tout ceci est très beau et très amusant, mais bon, faut pas pousser mémé dans les orties non plus. 1%, 0,1 % ou 0,01 % de "c'est un coup de chance"
- si on appliquait ce raisonnement dans la vie, on ne sortirait plus jamais de chez soi. A partir de 75-80 % de réussite je pense qu'on peut dire qu'un test a de grandes chances d'être indépendant de la chance, justement. Et non pas 0.000001%.
HM1848
 
Messages: 280
Inscription: 22 Sep 2006 21:31
Localisation: Saint Maur des Fossés
  • offline

Message » 19 Mai 2009 16:33

HM1848 a écrit:Tout ceci est très beau et très amusant, mais bon, faut pas pousser mémé dans les orties non plus. 1%, 0,1 % ou 0,01 % de "c'est un coup de chance"
- si on appliquait ce raisonnement dans la vie, on ne sortirait plus jamais de chez soi. A partir de 75-80 % de réussite je pense qu'on peut dire qu'un test a de grandes chances d'être indépendant de la chance, justement. Et non pas 0.000001%.


Tu fais ce que tu veux, mais moi je ne joue pas à la roulette russe si j'ai 20 à 25 % de chance de perdre !!!!!
(tes 75-80 % de réussite). 1/4 de chance d'y passer ? Non, non, très peu pour moi :P

Par contre à partir de 0.1 % de chance de perdre, là je commence à jouer.
Et même je préfère jouer si j'ai plutôt 0.001 % de chance de perdre seulement.

Mais tu fais ce que tu veux hein :lol:
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 19 Mai 2009 16:52

corsario a écrit:
HM1848 a écrit:Tout ceci est très beau et très amusant, mais bon, faut pas pousser mémé dans les orties non plus. 1%, 0,1 % ou 0,01 % de "c'est un coup de chance"
- si on appliquait ce raisonnement dans la vie, on ne sortirait plus jamais de chez soi. A partir de 75-80 % de réussite je pense qu'on peut dire qu'un test a de grandes chances d'être indépendant de la chance, justement. Et non pas 0.000001%.


Tu fais ce que tu veux, mais moi je ne joue pas à la roulette russe si j'ai 20 à 25 % de chance de perdre !!!!!
(tes 75-80 % de réussite). 1/4 de chance d'y passer ? Non, non, très peu pour moi :P

Par contre à partir de 0.1 % de chance de perdre, là je commence à jouer.
Et même je préfère jouer si j'ai plutôt 0.001 % de chance de perdre seulement.

Mais tu fais ce que tu veux hein :lol:


Ce n'est pas la roulette russe non plus, à laquelle je ne jouerai pas même avec 0.001 % de chances de perdre. Je dis juste qu'il faut rester raisonnable en valeurs, mais après tout, faites ce que vous voulez aussi :wink:
HM1848
 
Messages: 280
Inscription: 22 Sep 2006 21:31
Localisation: Saint Maur des Fossés
  • offline

Message » 19 Mai 2009 17:17

corsario a écrit:
Crao a écrit:
corsario a écrit:PS : et pour les 100000 tests, ce n'est pas moi qui les fait, c'est l'ordinateur, et il a tout terminé en 2 minutes

Oh pinaise, tout ça ? :o Tu as fait ça sur TRS-80 ? :mdr:


EDIT : je n'avais pas compris que Crao s'inquiétait lui des performances de l'ordinateur . Bon si je faisais tous les tests j'en aurais 100000 * (1+2+3+4+...+100) soit 505000000 itérations. Heureusement je suis malin 8) et j'arrête dès qu'un des "joueurs" a fait un double. Mais bon, partons sur 500 millions d'itérations. Comme je suis paresseux j'ai programmé ça sous Matlab. Imaginons que le run ait réellement duré 100 secondes. Ca fait 5 millions d'itérations à la seconde. Je mets au défi ton TRS-80 de faire ça :mdr:
Et demain (le code est sur l'ordi du boulot), pour votre bon plaisir, je sortirai le nombre réel total d'itérations effectuées et le temps passé (c'est un PC banal, un peu musclé à l'époque, mais un peu âgé, je dirai 3 Ghz)


Pour ceux que ça intéresse le nombre réel d'itérations grâce à la petite l'astuce qui consiste à arrêter dès qu'on a un succès est de 372 millions au lieu de 505 millions (pas de quoi se relever la nuit toutefois), et le PC (3.4 Ghz) met 1 minute 10 pour calculer tout ça (c'est en Matlab. Si je l'avais programmé en Fortran on gagne un facteur 100 et on serait à 0.7 secondes). Mais 70 secondes pour faire 372 millions d'itérations c'est pas si mal je trouve. Pas la peine de se moquer avec ton TRS-80 :P

Enfin la loi binomiale de Bernoulli (rappelée sur ce forum par Whyhey) marche quand même bien :P puisqu'on arrive à avoir la même courbe en 0 seconde à la place de 70 secondes :

Image
Augmentation de la probabilité d'avoir au moins un succès au hasard quand on augmente le nombre d'auditeurs, pour un jeu où chaque auditeur à 1 chance sur 100 de gagner (en abcisse : nb d'auditeurs n) : comparaison entre la courbe issue du programme et la courbe théorique y = 1 - (1-p)^n)

Comme quoi :
1) mon programme marchait bien (ou "Bernoulli avait raison", ça dépend de qui on doutait le plus au départ :P )
et
2) la théorie ça sert des fois quand même, je ne devrais pas foncer comme ça pour programmer des itérations par millions quand une petite formule peut donner la réponse instantanément :mdr:

(fin de la parenthèse "Loi binomiale" commencée ici)
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline

Message » 19 Mai 2009 20:39

JG Naum a écrit:Il me semble que dans l histoire des abx, on est deja passe de 7/8 a 14/15 .... Vouloir passer de 14/15 a 22/23 bien qu il y ait 99.95% de chance que la reussite de X ne soit pas due au hasard, ca me semble bcp demander a un pauvre Kangourou...


C'est clair qu'il faut garder le sens des priorités.

Sur mille tests ABX, combien sont des canulars ou des poissons d'avril ?
Sur mille tests ABX, combien sont réalisés sans tirage au sort ?
Sur mille tests ABX, combien sont réalisés sans aligner les niveaux à 0.1 dB près ?
Sur mille tests ABX, combien réussissent par pure chance ?

Quand on répond à ces quatre questions, on voit que diminuer la probabilité d'erreur de type I, qui correspond à la réponse à la quatrième question, n'est vraiment pas notre priorité !

corsario a écrit:L'idée c'est de faire les tests le mieux possible, en essayant d'avoir la plus longue série de succès de suite. Et dès qu'on échoue, on peut quand même essayer de continuer :

Exemple : on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien). Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là. Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.


Là, par contre, attention ! Tout ceci n'est valable que parce que tu te donnes une marge énorme au niveau de ta probabilité de faux succès. Mais dès que tu te rapproches d'une probabilité raisonnable, c'est tout-à-fait faux.

>on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien).

Faux ! Tu ne dois pas considérer la probabilité de faire quatre fois ces douze succès à la suite, car c'est un évenement dont le tirage est conditionné à l'échec de l'évènement précédent, et de plus, s'il échoue, il génèrera un autre tirage. La façon dont les probas conditionnelles s'imbriquent est intordable.

>Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là.

Excellent exemple : as tu pensé à additionner la probabilité d'avoir quatre séries de douze avec celle d'avoir une série de trente (en négligeant leur produit) dans ton total ? Et ici encore la probabilité de cette paire d'évènements doit s'additionner à celle de l'évènement précédent, et encore à celle du suivant, car tu as décidé que si tu échouerais, tu essaierais autre chose.

>Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.

Et de fil en aiguille tu ajoutes des probabilités d'erreur de plus en plus grandes. Pire : tu considères 4 petites séries. As-tu pensé à multiplier ta probabilité, déjà complètement détruite par les considérations précédentes, par le nombre de combinaisons de petites séries que l'on peut choisir parmi ces 4 plus les 2 précédentes ?
Soit somme pour i = 1 à 6 de C(6,i), soit 63. Au pire, ta probabilité est donc 63 fois plus grande que tu ne le penses, moins si on considère que les évènements ne sont pas indépendants, plus si on considère que tu es prêt à essayer d'extraire n'importe quelle série d'évènement qui t'arrange parmi les résultats que tu as faits. La seule limite étant ton imagination, cette façon de faire conduit à une probabilité de faux succès bien plus grande que ne l'indiquent les simulations correspoindant à chaque cas de figure pris séparément.

Cela fonctionne tant que tes probabilités sont monstrueusement petites, mais toute personne désireuse d'en finir alors qu'elle compare deux objets identiques sera amenée à tenter des succès de moins en moins spectaculaires, et finira toujours par trouver un score fiable à 95 % près... qui en réalité ne sera qu'un coup de chance à 50 % près si on avait tenu compte de tout.

Or, tant que l'auditeur s'autorise à faire cela, il faut en tenir compte même si il réussit du premier coup ! Ce qui fiche tout en l'air. C'est pourquoi il est nécessaire de se donner un score cible à l'avance, et une façon unique d'y parvenir. Sinon, la probabilité de faux succès indiquée est fausse. On ne connaît pas la vraie, et on ne peut rien conclure !

JG Naum a écrit:Au final, je trouve que vous etes vraiment trop exigeants avec vos proba...

Bref pourquoi ne pas aller vers plus d objectivite :
* X parmi 10 reussit son abx a 7/8 les autres pas. X argumente les raisons de son succes.
conclusions :
*A est sans doute different de B, mais cette difference n est pas flagrante.
*X a une meilleure oreille sur ce test que les autres...


Alors ça, c'est l'excès inverse. Qu'une personne parmi dix fasse 7/8 à l'ABX, cela arrive plus souvent qu'une fois sur trois ! On ne peut vraiment rien en déduire.
Pio2001
 
Messages: 5911
Inscription: 07 Oct 2003 12:50
Localisation: Neuville-sur-Saône
  • offline

Message » 20 Mai 2009 9:21

Pio2001 a écrit:C'est clair qu'il faut garder le sens des priorités.

Sur mille tests ABX, combien sont des canulars ou des poissons d'avril ?
Sur mille tests ABX, combien sont réalisés sans tirage au sort ?
Sur mille tests ABX, combien sont réalisés sans aligner les niveaux à 0.1 dB près ?
Sur mille tests ABX, combien réussissent par pure chance ?

Quand on répond à ces quatre questions, on voit que diminuer la probabilité d'erreur de type I, qui correspond à la réponse à la quatrième question, n'est vraiment pas notre priorité !


C'est vrai. Réduire les erreurs dues aux questions 2 et 3 est beaucoup plus important.

Pio2001 a écrit:
corsario a écrit:L'idée c'est de faire les tests le mieux possible, en essayant d'avoir la plus longue série de succès de suite. Et dès qu'on échoue, on peut quand même essayer de continuer :

Exemple : on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien). Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là. Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.


Là, par contre, attention ! Tout ceci n'est valable que parce que tu te donnes une marge énorme au niveau de ta probabilité de faux succès. Mais dès que tu te rapproches d'une probabilité raisonnable, c'est tout-à-fait faux.

>on a réussi à faire seulement 12 succès à la suite; bon; et bien on peut essayer de dupliquer quatre fois ces 12 succès à la suite (pour arriver à un score de 0.006% ce qui est très bien).

Faux ! Tu ne dois pas considérer la probabilité de faire quatre fois ces douze succès à la suite, car c'est un évenement dont le tirage est conditionné à l'échec de l'évènement précédent, et de plus, s'il échoue, il génèrera un autre tirage. La façon dont les probas conditionnelles s'imbriquent est intordable.

>Et ça n'empêche pas de réussir 30 à la suite au 2ème essai si ça se trouve, et du coup de pouvoir tout arrêter dès ce moment là.

Excellent exemple : as tu pensé à additionner la probabilité d'avoir quatre séries de douze avec celle d'avoir une série de trente (en négligeant leur produit) dans ton total ? Et ici encore la probabilité de cette paire d'évènements doit s'additionner à celle de l'évènement précédent, et encore à celle du suivant, car tu as décidé que si tu échouerais, tu essaierais autre chose.

>Et même si on n'arrive jamais à faire mieux que 12 à la suite, et qu'on a fait par exemple 12, puis 8 puis 10 puis 8 encore. Bon, tout ce qu'on aura à faire c'est de prendre le meilleur entre une fois 12 à la suite, ou quatre fois 8 à la suite ou deux fois 10 à la suite.


Tu as raison, c'est un problème. En fait si on s'autorise plusieurs combinaisons de "succès", alors il faut additionner les probabilités des tous ces "succès" possibles pour avoir la proba d'en avoir obtenu un par chance. Et non pas comme je l'ai fait considérer uniquement la proba du succès que l'on considère finalement.

Pio2001 a écrit:Et de fil en aiguille tu ajoutes des probabilités d'erreur de plus en plus grandes. Pire : tu considères 4 petites séries. As-tu pensé à multiplier ta probabilité, déjà complètement détruite par les considérations précédentes, par le nombre de combinaisons de petites séries que l'on peut choisir parmi ces 4 plus les 2 précédentes ?
Soit somme pour i = 1 à 6 de C(6,i), soit 63. Au pire, ta probabilité est donc 63 fois plus grande que tu ne le penses, moins si on considère que les évènements ne sont pas indépendants, plus si on considère que tu es prêt à essayer d'extraire n'importe quelle série d'évènement qui t'arrange parmi les résultats que tu as faits. La seule limite étant ton imagination, cette façon de faire conduit à une probabilité de faux succès bien plus grande que ne l'indiquent les simulations correspoindant à chaque cas de figure pris séparément.

Cela fonctionne tant que tes probabilités sont monstrueusement petites, mais toute personne désireuse d'en finir alors qu'elle compare deux objets identiques sera amenée à tenter des succès de moins en moins spectaculaires, et finira toujours par trouver un score fiable à 95 % près... qui en réalité ne sera qu'un coup de chance à 50 % près si on avait tenu compte de tout.

Or, tant que l'auditeur s'autorise à faire cela, il faut en tenir compte même si il réussit du premier coup ! Ce qui fiche tout en l'air. C'est pourquoi il est nécessaire de se donner un score cible à l'avance, et une façon unique d'y parvenir. Sinon, la probabilité de faux succès indiquée est fausse. On ne connaît pas la vraie, et on ne peut rien conclure !


je vais voir si on peut trouver une solution : ça m'embête de devoir dire à l'avance quelle score je vise.
En fait la solution, si on se cantonne aux suites de succès "à la suite" est simple : il s'agit à partir du tableau précédent d'additionner les probas des suites plus grandes aussi (et on additionne des proba de plus en plus petites, pas de plus en plus grandes) :

Tableau original :
les chiffres de la table originale (sur la base de 10000 tests unitaires) (arrondis) :

16 à la suite : 14 %
17 à la suite : 7 %
18 à la suite : 4 %
19 à la suite : 2 %
20 à la suite : 1 %
21 à la suite : 0.5 %
22 à la suite : 0.2 %
23 à la suite : 0.1 %
24 à la suite : 0.06 %
25 à la suite : 0.03 %
26 à la suite : 0.01 %
27 à la suite : 0.007 %
28 à la suite : 0.004 %
29 à la suite : 0.002 %
30 à la suite : 0.001 %



Tableau en considérant que l'on ne sait pas à l'avance à combien on va s'arrêter :

16 à la suite ou plus : 29 % (= 14+7+4+2+1+0.5+0.2+0.1+0.06+0.03+0.01+0.007+.004+.002+.001+...)
17 à la suite ou plus : 15 %
18 à la suite ou plus : 8 %
19 à la suite ou plus : 4 %
20 à la suite ou plus : 2 %
21 à la suite ou plus : 0.9
22 à la suite ou plus : 0.4 %
23 à la suite ou plus : 0.2 %
24 à la suite ou plus : 0.11 %
25 à la suite ou plus : 0.54 %
26 à la suite ou plus : 0.024 %
27 à la suite ou plus : 0.014 %
28 à la suite ou plus : 0.007 %
29 à la suite ou plus : 0.003 %
30 à la suite ou plus : 0.001 %

Bon, ça reste valable, quand même. Mais si on veut atteindre le seuil de 0.1%, finalement c'est 24 à la suite et non pas 23 qu'il faut réussir à faire.

Maintenant s'il faut rajouter en plus les possibilités de répétitions de succès plus petits, du genre avoir trois 14/15 ou quatre 14/15, etc... ça devient compliqué à calculer. Mais je ne pense pas que ça fasse exploser les probas (je peux me tromper). C'est juste plus compliquer à calculer.

Personnellement, pour mes ABX, de manière pratique, je me limiterai aux succès à la suite et je dirai que je peux faire autant d'essais que je veux et que je cherche une série de succès à la suite, en me référant au tableau ci-dessus corrigé, comme ça pas de surprise. Tu es d'accord là dessus ?

C'est vrai que c'est très conservatif comme probas (29% d'avoir 16 à la suite, ça fait bizarre vu comme ça), mais c'est le prix à payer si on veut avoir le liberté de ne pas compter ses essais et de ne pas dire à l'avance combien on veut faire. Je comprends que dans ces conditions on préfère dire à l'avance son objectif, compter strictement ses essais et s'y tenir. D'ailleurs l'un n'exclut pas l'autre : je me fixe comme objectif d'arriver à 23 à la suite (0.1% de chance, tableau 1). Pas de bol je fait une erreur et je ne réussis que 18 à la suite. Je peux quand même regarder dans le tableau 2 mon score : 8%, c'est pas si mal.

Et en faitil faudrait recalculer les tableaux 1 et 2 en prenant en compte le nombre réel d'essais unitaires qui m'ont permis d'arriver à ce score (j'espère que ça ne sera pas 10000. A mon avis ça sera plus proche de 50 ou 100). Et même si par exemple j'ai réussi du premier coup (c'est à dire que je n'ai fait que 19 essais, le 19ème étant la tentative ratée), on peut peut-être même dire que l'on peut prendre la "vraie" probabilité (1/2^18 + 1/2^19, infime) et pas la combinaison parmi 10000 essais unitaires.

Il faudrait des tableaux de type 1 (on se fixe un objectif à l'avance) et de type 2 (on part à l'aveuglette, on essaie de faire le meilleur score, on s'arrête quand on est fatigué) qui soient fonctions du nombre d'essais effectués.

Si tu es d'accord avec le raisonnement je ferai une petite page avec quelques tableaux (pour 20 essais, 30, 50, 100, 200, 500, 1000, 5000, 10000, ça devrait suffire). Il faut noter que 200 essais ça correspond à une assemblée de 8 personnes faisant 25 essais chacun : ça n'a rien de farfelu.

Ca serait bien de rajouter toutes les possibilités avec une erreur (23/24 ou 16/17 ou 14/15), mais je n'ai pas le courage de calculer. la solution si on veut se lancer dans ce type de tests, c'est de fixer à l'avance son objectif, comme tu le fais, sinon on ne s'en sort pas. Et suivant le nombre de participants (ou d'essais qu'un individu va faire) on pourrait faire un tableau montrant le nombre de 14/15 à réussir pour être en dessous de 0.1 % par exemple (il est nécessaire de faire ce tableau à l'avance pour fixer des objectifs). Du coup c'est rude : si on fait un ABX avec des "sourds", il faudra que la ou les personnes qui réussissent l'ABX réitèrent x fois leur exploit pour remonter les stats.

Mais bon, ici je rappelle à nouveau, comme tu viens de le faire avec raison, c'est que le plus important, avant ces calculs, c'est d'égaliser les niveaux et de s'assurer que X est bien tiré au sort entre A et B. (Comme en ce qui me concerne je fais des ABX sur foobar entre du 16/44.1 et du 24/192, ces deux problèmes sont réglés à la base, c'est pour ça que le seul problème qui me reste ce sont les statistiques. Mais c'est vrai que pour des ABX moins "virtuels", entre amplis ou entre sources, ce sont bien les questions d'égalisation de niveau, et dans une moindre mesure de tirage aléatoire, qui sont les plus importantes).
corsario
 
Messages: 2218
Inscription: 01 Fév 2005 18:39
Localisation: Paris
  • offline


Retourner vers Discussions Générales

 
  • Articles en relation
    Dernier message