UHD – VIDEO

4. Le HFR : High Frame Rate

Généralités :

Toute fréquence d’affichage supérieure à 60hz ( cas de la diffusion TV ) ou à 24hz ( cas de la diffusion cinéma ) peut être considérée comme haute fréquence d’images ( High Frame Rate ou HFR ).

L’illusion de mouvement et l’origine du 24hz au cinéma :

Le phénomène de la persistance rétinienne est observé au XVIIIe siècle par le Franco-Irlandais Chevalier d’Arcy qui fabrique un disque rotatif sur le périmètre duquel est fixé un charbon ardent. À partir d’une vitesse de rotation de sept tours à la seconde, le charbon ardent donne l’illusion d’un cercle lumineux continu, « qu’il ne pouvait être attribuée qu’à la durée de la sensation ». Il en déduit que la perception de mouvement chez l’homme serait le résultat d’une vision persistante composée d’au moins 7 images par secondes.

C’est en 1891 que Thomas Edison et Dickinson présentent le premier film animé grâce à la première caméra ( nommée Kinétographe ). Les prises de vues varient de 18 images par seconde à 46 images par seconde grâce à un moteur asynchrone pouvant entraîner le mécanisme plus rapidement à la demande. Leur expérimentations montrent qu’Une cadence de moins de 16 images par seconde (trame/s) pouvait provoquer la perception d’images clignotantes. Le mouvement reste interprétable même à une taux de 10 images par seconde ou encore plus lent, mais le scintillement causé par l’obturation d’un projecteur de film devient distrayant en dessous du seuil de 16 images par secondes.

Avant 1926, les films muets étaient tournés et projetés à la vitesse maximale de 16 images par seconde. Avec l’arrivée du parlant (The jazz singer en 1927), l’industrie a du augmenter la cadence de défilement des images : à 16 images par seconde, il n’est pas possible de retranscrire les hautes fréquences sonores. La reproduction des aigus exige un défilement plus rapide de la piste optique sonore couchée sur la pellicule. Le choix s’est porté sur une cadence de 24 images par seconde, qui permet non seulement une bonne lecture du son mais aussi une retranscription assez naturelle des mouvements à l’écran. Le format 24 images par seconde est ainsi devenu la norme mais moins pour des raisons artistiques et techniques qu’économiques : ce choix résulte d’un compromis entre les contraintes de rythme de diffusion des images et des sons et le coût de la pellicule. L’industrie aurait pu adopter un standard à 48 i/s. La qualité de la projection aurait été très différente mais cela aurait fait exploser les coûts de production et de distribution. Tant que le cinéma a utilisé les supports argentiques, les tentatives de High Frame Rate, comme le procédé showscan (projection de films 70 millimètres à 60 images / seconde), ont échoué à cause de leur coût trop élevé. Du coup, le 24 i/s n’a jamais été remis en cause pendant près d’un siècle.

Pour nous donner l’impression d’un mouvement fluide et non saccadé, le mécanisme d’entraînement du projecteur doit présenter cette pellicule à la lampe lumineuse de l’appareil d’une façon particulière : non pas en continu, mais en immobilisant durant une fraction de seconde chaque image devant l’objectif du projecteur. Entre deux immobilisations, un obturateur vient s’interposer entre la lampe et la pellicule pour créer un noir qui empêche de voir le déplacement d’une image à l’autre. Autrement dit, à chaque seconde, 24 images alterneraient avec 24 « noirs » sur l’écran de cinéma. Alterneraient, car en réalité, c’est deux fois plus d’images et de noirs qui se succèdent, soit 48.

C’est que l’obturateur passe non seulement entre les images, mais aussi une fois sur l’image elle-même. Pourquoi ? Simplement parce que c’est à partir d’environ 50 images par seconde que notre œil voit plutôt la projection comme une lumière continue.

On a longtemps invoqué un phénomène appelé « persistance rétinienne » pour expliquer l’origine de l’illusion du mouvement que l’on expérimente sur le grand écran. Cette explication a cependant été rejetée par les psychologues pour plusieurs raisons. D’abord parce que nous continuons d’avoir une impression de mouvement quand les images fixes nous sont présentées à un rythme aussi bas que dix images par secondes et même moins. Plus embêtant encore pour cette théorie, la persistance rétinienne n’apparaît qu’environ 50 millisecondes après la cessation de l’image. Or durant cette période, au moins deux images fixes sont vues par le spectateur lors d’une projection normale. Par conséquent la première image du film ne « persisterait » pas avant l’apparition de la deuxième, ce qui cause un sérieux problème à la thèse de la fusion des images persistantes pour assurer l’effet de mouvement …

L’illusion du mouvement au cinéma serait donc produite par un autre phénomène qu’on appelle l’effet bêta . Celui-ci se manifeste dès que deux images légèrement décalées sont présentées rapidement l’une à la suite de l’autre. Notre cerveau y voit alors automatiquement un mouvement, résultat du travail d’intégration des champs récepteurs des cellules rétiniennes et des différentes aires corticales visuelles impliquée dans la détection et l’orientation du mouvement. Nous sommes donc en quelque sorte victimes de l’effet bêta chaque fois que nous voyons des images fixes se succéder rapidement devant nous.

Les insectes, aux liaisons nerveuses ultra-courtes, perçoivent le monde en moyenne à raison de 300 images par seconde. Ils ne verraient, s’ils désiraient aller au cinéma, qu’une succession paresseuses d’images différentes mais parfaitement immobiles.

A quelle fréquence percevons nous la réalité :

Les études montrent que la plupart des êtres humains voient 66 images par secondes. C’est à cette fréquence que nos yeux perçoivent le réel. Les données vues doivent être filtrées par le cerveau qui, à l’aide de cartes mentales, transforme ces informations en réalité perçue ayant un sens. Nous savons désormais que le processus de traitement des données du cerveau humain est de 40 hz. Ce qui signifie que :

– La réalité perçue est vue comme réaliste par le cerveau si on l’abreuve d’au moins 40 images par secondes.
– le cerveau humain n’est parfaitement conscient que de 40 des 66 images que nos yeux captent.

En dessous de cette fréquence de 40hz, le cerveau saura que ce qui lui est envoyé n’est pas « réel ».

Pourquoi avoir besoin de hautes fréquences d’affichages ?:

Les standards de vitesses d’images datent de plus de 60 ans pour le cinéma et la télévision. L’augmentation de la définition d’image et de la taille des diffuseurs a eu pour effet d’augmenter les défauts visibles à l’image. La définition dynamique de la HD est comparable à celle de la SD.

Dans les deux cas, malgré l’amélioration de la définition, il y a une grande différence entre la définition statique et la définition dynamique ce qui entraîne une sensation de nausée. L’accroissement de la définition statique doit ainsi être suivie aussi d’une amélioration de la définition dynamique ( ce qui n’a pas été fait lors du passage de la SD à la HD ).

Il aurait été possible de réaliser un upscaling des fréquences d’origines mais dans ce cas on crée de la fausse HFR à l’écran avec des images captées à basse fréquences et donc contenant les défauts visibles. Il faut donc augmenter les fréquences de captations, de diffusions et d’affichages en même temps.

Ci dessous, la même scène en mouvement est captée à des fréquences différentes : On constate des différences de netteté notamment sur les sabots du cheval et en arrière plan. Le zoom montre bien qu’il est inutile d’augmenter la définition d’image si la fréquence de captation n’est pas suffisante. C’est pour cette raison que les démonstrations d’écrans UHD en magasin se font généralement sur des vidéos ne comprenant que des scènes statiques …

Le laboratoire R&D Orange Labs a réalisé des tests sur une échelle normée allant de 0 à 100 :

ils ont relevé un gain de 10 points apporté par l’augmentation de la définition ( passage de la même séquence en UHD par rapport au Full HD ) et un gain de 20 points pour le passage de 60hz à 120hz ( quel que soit la définition utilisée ). Autrement dit, l’amélioration de la fréquence d’image amène un gain supérieur à l’amélioration de la définition d’image.

Une des problématiques à traiter est que contrairement aux récepteurs des cellules rétiniennes qui permettent à l’oeil de distinguer plusieurs objets évoluant à plusieurs vitesses sans effets de rémanence et de flous, une caméra ne possède que des paramètres identiques pour toute l’image captée quel que soit le nombre d’objets évoluant dans l’image et leur vitesse relative. Ainsi la fréquence de captation et donc d’affichage sur l’écran doit être adaptée à de nombreuses situations. Si la vitesse de captation n’est pas adaptée à la scène filmée, on risque de voir à l’affichage des artefacts comme le flickering ( saccades ), les effets stroboscopiques, ou encore les flous de bougés lors de mouvements rapides qui engendrent une perte de précision à l’image.

D’après le laboratoire R&D de la NHK ( Japan Broadcasting Corporation ) qui a réalisé des tests selon un processus normé, les résultats démontrent qu’il faut une fréquence :

• supérieure à 80hz pour éviter un maximum de saccades,
• supérieure à 100hz pour éviter les effets stroboscopiques,
• supérieure à 200hz pour éviter les flous de bougés lors de mouvements rapides.

C’est pour ces raisons que la fréquence unique de fonctionnement du Super Hi-Vision 8K a été définie à 120hz.

Le laboratoire R&D de Sony a réalisé des tests de fréquences de séquences vidéos comprises entre 60 et 480 hz :

Il faut un minimum de 250 hz pour annuler tout effet de saccades et de flous de bougés lors de mouvements rapides. C’est ce qui a amené Sony à définir la fréquence de 240hz, compatible avec les fréquences de 24 et 60 hz, comme haute fréquence à favoriser. Le choix d’une fréquence élevée réduisant considérablement les effets de bougés permet d’augmenter l’efficacité de l’algorithme prédictif du HEVC et donc de réduire le temps d’encodage en HEVC tout en améliorant la qualité d’image.

ATEME et Orange planchent sur une solution intermédiaire qui consisterait à faire du 120p mais en entrelacé :

La fréquence progressive de 50p n’est pas suffisante pour les scènes rapides ( travelling, sport, … ). De plus les premiers tests de captations à 60hz en UHD pour des matchs de foot ont mis en évidence des interférences gênantes liées à des phénomènes de battements avec la fréquence secteur. ATEME et Orange planchent sur une solution intermédiaire qui consisterait à faire du 120p mais en entrelacé (une demi-image 120 fois par seconde) qui apporterait les bénéfices du 120p en perception des mouvements, et éviterait d’augmenter la bande passante nécessaire par rapport au 50 ou 60p, du fait que la vidéo soit encodée avec des “variable bit rates” qui s’adaptent au débit disponible.

Le laboratoire R&D de la BBC insiste sur le fait que le 140hz ( en progressif ) est la limite basse :

Voici la même séquence rapide filmée par le laboratoire de la BBC à 100 images par secondes avec un temps d’ouverture de la caméra de 1/320 s ( a gauche ) et filmée à 50 images par secondes avec un temps d’ouverture de la caméra de 1/200 s ( à droite ) :

Le laboratoire R&D de la BBC insiste sur le fait que le 140hz ( en progressif ) est la limite basse pour éviter l’augmentation des artefact de type motion-blurr et judder. Cela est notamment du au rapprochement de la distance de visionnage qui rend ces artefacts plus visibles. C’est pour cette raison que mi 2014, le SMPTE modifiera de nouveau ses standards UHDTV pour ajouter de nouvelles hautes fréquences ( 100Hz et 120/1,001 Hz ). Au final le choix de la fréquence reviendra aux diffuseurs en fonction de la bande passante disponible et des capacités de leur matériel de captation.

Au cinéma :
James Cameron va filmer Avatar 2 & 3 en 48 hz ( au lieu de 24hz ). Peter Jackson à tourné le Hobbit 1, 2 et 3 à 48 images/s.

Les problématiques à prendre en compte :

Même pour des résolutions HD, le flou de mouvement du à la camera réduit la résolution perceptible :

• Lorsque la camera effectue un pan/travelling sur une scène.
• Contrainte de vitesse maximale de travelling vs perception.
• Désagréable lors de changements de plans fixe / mouvement.

Il est nécessaire de réduire le shutter camera (durée d’ouverture) et de trouver l’équilibre :

• Une définition tranchante « comme un rasoir » n’est pas forcement meilleure… nécessité pour l’oeil de percevoir le mouvement.
• Il faut que le système visuel humain effectue la « fusion » des images.

Les différentes problématiques à prendre en compte pour la production de contenus sont :

• Le flicker du display, autrement dit la fréquence de rafraîchissement du backlight du téléviseur qui est indépendante de la fréquence de captation du contenu diffusé.
• Le shutter camera (durée d’ouverture) pour obtenir des images avec détails.
• La capacité du système visuel humain pour fusionner les images.
• Les problématiques d’éclairage, plus le temps d’ouverture est faible, moins de lumière est captée par la caméra ce qui impose des conditions d’éclairages adaptées.
• La conversion de standards entre SDR et HDR.
• La performance globale au bruit, autrement dit trouver les bons paramètres de compressions.

SAFE