Notions de base en compression de la vidéo

Notions de base en compression de la vidéo

Quelques généralités

Il est évident que la vidéo numérique, se caractérise et se distingue par sa résolution spatiale (ou Intra-image) et sa résolution temporelle (ou Inter-image). La résolution temporelle est caractérisée par la cadence de l‘animation, cette cadence est exprimée ellemême par le nombre d‘images par seconde (fps ; Frame Per Second). La résolution temporelle doit être toujours supérieure à 25 fps du fait que l‘œil humain, pour un observateur moyen, est capable de distinguer jusqu‘à 20 images par seconde.

La résolution spatiale est définie par le nombre de lignes (nombre de pixels sur l‘axe vertical) multiplié par le nombre de colonnes (nombre de pixels sur l‘axe horizontal) dans chaque image. En fonction de l‘application ou du service visé, plusieurs résolutions et formats sont utilisés. La grande majorité des formats est dérivée soit de standards vieillissants NTSC (National Television System Committee ; 720 x 480), PAL (Phase Alternating Line ; 720 x 576) soit de la télévision numérique haute définition (TVHD), les formats les plus importants sont regroupés comme suit:

● SIF (Standard Interchange Format ; 352×240) dérivés du NTSC avec une résolution temporelle de 30 fps.
● CIF (Common Intermediate Format ;352×288), dérivés du PAL avec une résolution temporelle de 25/30 fps.
● QCIF (Quart de CIF ;176×144), dérivés du PAL avec une résolution temporelle de 25/30 fps.
● Formats DVD dérivés du PAL et du NTSC (NTSC : 720 × 480, PAL: 720×576), ces formats sont appelés également SD (Standard Definition).
● Formats Full HD (1920×1080) et HD (1280×720) dérivés de la TVHD.

Une autre notion importante dans la représentation, le codage et la diffusion de la vidéo est la représentation de la couleur dans l‘image. Cette représentation est exprimée généralement par le nombre de bits par pixel. Le mode de représentation le plus connu est le RVB (RGB en anglais) où chaque pixel est codé sur 3 octets (24 bits) dont chaque composante de couleur (R : Red, G :green et B: blue) est codée sur un octet soient 16777216 possibilités de couleurs différentes. Néanmoins, cet espace de couleur présente l‘inconvénient d‘être moins adapté au système visuel humain (SVH) par rapport aux espaces de couleurs de type luminance/chrominance. La redondance de l‘information contenue dans les trois composantes du système RGB est l‘un des inconvénients majeurs de cet espace de représentation de la couleur.

La majorité des standards existants utilisent un autre espace de couleur plus approprié, de type luminance/chrominance, qui est YCbCr (trois composantes, chacune est codées sur 8 bits). L‘espace chromatique YCbCr utilise une composante de luminance, contient la luminance de l‘image (les niveaux de gris) et deux composantes de chrominance Cb et Cr comportent des informations sur les couleurs de l‘image comme le montre la figure 1.1. Les canaux Y, Cb et Cr sont obtenus à partir des composantes R, G et B à l‘aide des formules suivantes :

𝑌 = 0.299 ∗ 𝑅 + 0.587 ∗ 𝐺 + 0.114 ∗ 𝐵 (1.1)
𝑌 = −0.1687xR − 0.3313xG + 0.5B + 128 (1.2)
𝑌 = Cr = 0.5xR − 0.4187xG − 0.0813xB + 128 (1.3)

La compression d‘images et de la vidéo, doit appliquer une opération de souséchantillonnage avant de procéder au codage de l‘information. Cette opération consiste à atténuer la résolution spatiale de l‘image en diminuant le nombre de lignes et/ou de colonnes et ainsi, la quantité d‘informations à coder. Tous les standards de compression qui utilisent un espace chromatique, favorisent le sous-échantillonnage des composantes de chrominance. Ce choix est motivé par la sensibilité réduite de l‘œil humain aux variations de chrominances (Cb, Cr) qu’aux variations de luminance (Y).

Plusieurs modes de sous-échantillonnage sont utilisés dans la littérature dont les plus importants sont exposés sur la figure 1.2. Le cas du sous- échantillonnage représenté par 4 : 4 : 4, il garde l‘information entière de l‘image (le nombre de lignes et de colonnes et le même pour les trois composantes). Dans le mode 4 :2 :2 une étape de décimation est nécessaire, le nombre de colonnes est réduit d‘un facteur de ½ dans les deux composantes de chrominance, cette diminution est accomplie par le calcul de la valeur moyenne de deux pixels voisins horizontalement. Les deux modes de sous-échantillonnage 4 : 1 : 1 et 4 : 2 : 0 permettent d‘amoindrir considérablement la teinte où un pixel sur quatre est maintenu. Dans ce cas, chaque pixel est obtenu par la moyenne des quatre pixels voisins (verticalement et/ou horizontalement en fonction du mode utilisé). Les modes les plus utilisés en compression de la vidéo sont les deux derniers.

Les deux composantes de chrominance sont sur-échantillonnées lors du décodage des images afin de restituer la résolution spatiale originale. L‘exploitation des corrélations d‘informations d‘une manière efficace, et l‘une des techniques clés dans un système de compression de vidéos. L‘élimination des redondances des informations dans la vidéo source autant que possible avant leur transmission, permet la réduction opérante du débit binaire dans le flux. Dans la compression de la vidéo, on distingue plusieurs types de redondances:

● La redondance psycho-visuelle : Ce type de codage se base principalement sur la sensibilité de l‘œil humain aux différentes variations des signaux. Il s‘agit d‘éliminer des informations non pertinentes par rapport au système visuel humain.
● La redondance spatiale : Le codage spatial est basé sur l‘utilisation de la similarité entre les pixels voisins dans chaque image prise indépendamment des autres. Les redondances spatiales peuvent être diminuées en codant seulement les différences de valeurs entre les pixels consécutifs .
● La redondance temporelle : Les valeurs des pixels de l‘image t+1 sont similaires aux valeurs des pixels de l‘image t. Dans ce cas, dans l‘image t+1, seulement les différences de valeurs de pixels corrélés ainsi que ses positions sont transmises.
● La redondance entropique : C‘est le codage sans perte dans le processus de compression d‘image/vidéo. L‘une des approches les plus simples est d‘attribuer aux valeurs les plus fréquentes dans un signal numérique des codes plus courts .

La normalisation des standards de compression vidéo

Les organismes internationaux de normalisation ISO/IEC [10] et ITU-T [9], ont partagé au cours de ces dernières décennies, la normalisation des standards de compression vidéo. Le principe de base utilisé est le même pour tous les codeurs normalisés par les deux organismes. Néanmoins, l‘ITU-T vise les applications à faible débit, à titre d‘exemple les applications de visioconférence et de visiophonie tandis que l‘ISO/IEC s‘oriente principalement vers les applications de diffusion et d‘archivage qui nécessitent un débit plus élevé. Dans cette section nous décrivons les principaux standards normalisés à l‘ITU-T et à l‘ISO/IEC.

Les normes de l’ITU-T 

La première plateforme commode de codage et de décodage des services audiovisuels numériques était la norme H.261 [13] (de 1988 à 1993). La norme H.261 est conçue principalement pour permettre la transmission des applications de vidéophonie et vidéoconférence pour le réseau RNIS enrobant les débits de 64 Kbit/s à 2 Mbit/s. Cette norme supporte les formats d‘images CIF (288×352 pixels) pour la luminance et QCIF (144×176 pixels) pour les canaux chromatiques. L‘espace de couleur utilisé dans cette norme est le YCbCr (un espace de type luminance chrominance) avec un sous-échantillonnage de 4 :2 :0. Le codage utilisé est de type hybride où la redondance spatiale est diminuée par l‘intervention, entre autres, d‘une transformation en cosinus discrète (DCT) de l‘image. Quand à la redondance temporelle, elle est minimisée par les techniques de prédiction, estimation et compensation du mouvement. Dans les deux cas, le traitement s‘accomplit par la décomposition d‘images en macro-block (MB) comme le montre la figure 1.3. Autrement dit, la DCT et les techniques de prédiction et d‘estimation de mouvement sont appliquées toutes les deux sur des MB.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction Générale
1- Premier Chapitre Compression de la vidéo et le H.264/AVC
1.1. Introduction
1.2. Notions de base en compression de la vidéo
1.2.1. Quelques généralités
1.2.2. La normalisation des standards de compression vidéo
1.2.3. La norme H.264/AVC
1.3. Étude approfondie du standard H.264/AVC
1.3.1. Architecture générale de la norme H.264/AVC
1.3.2. Prédiction Intra
1.3.3. Prédiction Inter
1.3.4. Le mode de décision en H.264/AVC
1.3.5. Transformée fréquentielle et quantification
1.3.6. Filtrage anti-blocs
1.3.7. Codage entropique
1.4. Profils et niveaux du H.264/AVC
1.5. Conclusion
2- Deuxième Chapitre Compression de la vidéo multi-vues extension du H.264/AVC
2.1. Introduction
2.2. Les exigences générales
2.3. Le choix des données et des conditions de test
2.4. Algorithmes de compressions de la vidéo multi-vues
2.4.1. Amélioration du débit binaire
2.4.2. Accélération de l‘encodage
2.4.3. Amélioration de l‘accès aléatoire inter-vues
2.5. Description de la compression de la vidéo multi-vues
2.5.1. Prédiction inter-vues
2.5.2. Mémorisation des imagés décodées
2.5.3. Structure du flux binaire MVC
2.5.4. Profils et niveaux
2.6. Joint Multi-view Video Model (JMVM)
2.7. Conclusion
3- Troisième Chapitre Les structures de prédiction du MVC
3.1. Introduction
3.2. Prédiction temporelle
3.2.1. La structure « images B hiérarchique»
3.2.2. La structure de prédiction Simulcast
3.3. Prédiction inter-vues
3.3.1. La structure de prédiction IPP
3.3.2. La structure de prédiction JMVM (IBP)
3.4. Spécificités des structures de prédiction MVC
3.4.1. Ordre d‘organisation et d‘encodage dans le MVC
3.4.2. La structure du GOP et de la prédiction inter-vues
3.5. Evaluation des structures de prédiction
3.5.1. La qualité de la vidéo
3.5.2. Accès aléatoire inter-vues
3.6. Expérimentation et résultats
3.7. Conclusion
4- Quatrième Chapitre Amélioration de l’accès aléatoire inter-vues
4.1. Introduction
4.2. Présentation de l’approche proposée
4.3. Généralisation de l’approche proposée
4.4. Méthodes d’évaluation proposées
4.4.1. Évaluation des structures étudiées
4.4.2. Évaluation de l‘approche proposée
4.4.3. Évaluation dans le cas général
4.5. Configuration requise
4.6. Expérimentation et résultats
4.6.1. Evaluation de l‘efficacité de la compression
4.6.2. L‘accès aléatoire inter-vues
4.7. Conclusion
5- Cinquième Chapitre Compromis débit binaire et accès aléatoire intervues
5.1. Introduction
5.2. Elimination de la prédiction inter-vues pour les images non-clés
5.3. Amélioration de la structure de prédiction inter-vues
5.4. L’approche pour plusieurs caméras
5.5. Évaluation proposée pour l’accès aléatoire inter-vues
5.6. Expérimentation et résultats
5.6.1. Evaluation de l‘efficacité de la compression
5.6.2. Évaluation de l‘accès aléatoire inter-vues
5.7. Conclusion
Conclusion générale

Lire le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *