Ondelettes et codage vidéo scalable : un état de l’art

Ondelettes dyadiques et nouvelles représentations multirésolution

Avec l’explosion de la diversité des modes de consommation de contenus multimédia, il est souvent souhaitable de disposer d’un même média dans des résolutions et des qualités différentes. Les exemples sont légion : sur un site web, les imagettes nous donnent un aperçu des images en grand format et permettent ainsi une présélection rapide du contenu. De même, on souhaitera disposer d’un morceau de musique numérisé de haute qualité lors d’un concert et on lui préférera une version prenant moins d’espace lors d’une écoute distraite sur baladeur.

Introduction aux représentations multirésolution

Sur la scalabilité

Le terme scalabilité est un néologisme directement emprunté de l’anglais scalability qui peut approximativement être traduit par le terme échelonnabilité. La scalabilité est la caractéristique d’un objet ou d’un signal à être représentable sur plusieurs niveaux de résolution ou de qualité. Une transformation sera ainsi dite scalable si elle est en mesure de représenter un signal sur plusieurs niveaux de résolution ou de qualité. La notion de scalabilité est en fait très générale et il existe plusieurs types de scalabilité. Dans le cas d’un signal monodimensionnel, on parlera de scalabilité en résolution pour désigner le fait qu’un signal puisse être décrit par un nombre variable d’échantillons. Dans le cas d’une image, la scalabilité spatiale qualifie la propriété de pouvoir représenter une image sur plusieurs niveaux de résolution spatiale .

Il est aussi possible de représenter un signal sur différents niveaux de qualité, où chaque échantillon ou coefficient peut être décrit avec une précision plus ou moins grande. On parlera dans ce cas de scalabilité en qualité.

Il existe d’autres types de scalabilité : dans le cas d’une séquence vidéo, on parlera de scalabilité temporelle pour désigner la propriété de pouvoir la représenter à plusieurs fréquences temporelles, exprimées en nombre d’images par seconde. D’autres types de scalabilité peuvent être définis comme la scalabilité en complexité, en objets ou en délai mais nous ne les aborderons pas dans ce document.

Motivation et cas d’utilisation

Avec l’explosion des applications multimédia et le besoin croissant de diffusion de contenu à destination de récepteurs hétérogènes, la scalabilité est devenue indispensable dans la conception d’un schéma de compression d’image ou de codage vidéo. Cette propriété permet ainsi de pouvoir diffuser un unique flux vidéo compressé, capable d’être adapté par les nœuds d’un réseau ou d’être décodé par une grande variété de récepteurs. Il existe de nombreux cas d’utilisation nécessitant une description scalable et parcimonieuse d’un contenu multimédia, relevant pour la plupart du domaine de l’adaptation de contenu. Par exemple, les images présentes sur Internet sont souvent disponibles sous deux voire trois résolutions (aperçu thumbnail, résolution moyenne et haute résolution) en fonction de la façon dont elles sont visualisées. De plus, il est souvent nécessaire de posséder un morceau de musique compressé sous plusieurs débits, en fonction de la qualité désirée et de la place disponible. Enfin, les opérateurs commerciaux de diffusion de contenus multimédia ont tout intérêt à utiliser un format scalable. Un opérateur de téléphonie mobile pourra ainsi diffuser un flux vidéo TV destiné à un parc hétérogène de récepteurs dont les écrans sont de tailles différentes. De plus, la scalabilité est une propriété très utile lors de la diffusion de contenu multimédia dans un environnement enclin aux erreurs de transmissions, comme les réseaux IP sans fil. En effet, elle permet l’adaptation du débit du flux compressé en fonction de la capacité du canal, susceptible de varier selon les conditions de transmission, et augmente la robustesse d’un schéma de codage en cas de pertes, d’erreurs ou d’encombrements. Ces nombreux cas d’utilisation poussent depuis quelques années les organismes internationaux de normalisation ITU, JPEG et MPEG à concevoir des algorithmes de compression d’images et de codage vidéo scalables. La norme de compression d’images fixes JPEG-2000, scalable en résolution et en qualité a ainsi été normalisée en 2000.

Techniques classiques de description scalable

Comment créer une représentation scalable d’un signal ? On peut tout d’abord penser naïvement à une solution de type Simulcast. C’est une stratégie brutale qui consiste simplement à proposer simultanément plusieurs versions du même contenu multimédia. C’est en effet une forme de description scalable mais qui est loin d’être parcimonieuse. Une autre classe de solutions existe : les schémas de codage prédictif en couches. Dans ce type de stratégie, chaque version du contenu multimédia constitue une couche et un mécanisme existe pour permettre la prédiction d’une couche à partir d’une autre, réduisant ainsi la redondance comparée à une stratégie Simulcast. Un exemple simple de schéma de codage prédictif en couches peut être imaginé par un format de musique compressé, où chaque couche représente une qualité différente, obtenue par différence avec la couche de qualité inférieure. Cependant, l’efficacité de ce type de représentation repose principalement sur l’opérateur de prédiction utilisé entre couches et est susceptible de chuter si le nombre de couches est trop important. Enfin, la scalabilité offerte par les schémas en couches est grossière et statique : seules les couches disponibles peuvent fournir une version du contenu compressé et ces dernières doivent être connues au moment de l’encodage.

La transformée en ondelettes est par construction même, une transformation capable de donner une représentation scalable d’un signal. En effet, les coefficients issus de la transformée en ondelettes donnent une représentation du signal sur plusieurs niveaux de résolution, du plus grossier au plus fin. Nous rappelons dans la section suivante les bases de l’analyse par ondelettes.

Ondelettes dyadiques

L’analyse multirésolution par ondelettes d’un signal, d’une image ou plus généralement d’une fonction f ∈ L² (IRN ) consiste en sa projection sur des bases de fonctions, donnant des approximations de moins en moins fines de la fonction originale. Nous rappelons tout d’abord dans cette section le concept d’analyse multirésolution par ondelettes et voyons ensuite comment un algorithme de transformée rapide en ondelettes peut être mis en œuvre sous forme de banc de filtres. Après avoir établi un panorama d’ondelettes classiquement utilisées en compression d’image, nous décrivons alors plusieurs algorithmes de codage de coefficients d’ondelettes utilisés dans ce domaine.

Bases d’ondelettes

Analyse multirésolution
La construction d’espaces multirésolution aptes à représenter plus ou moins grossièrement une fonction f ∈ L² (IR) a été proposée par Mallat et Meyer [79, 80, 89] pour fournir un cadre formel permettant l’analyse d’une fonction f sur plusieurs niveaux de résolution. On définit une approximation multirésolution comme une suite de sous-espaces vectoriels fermés {Vj}j∈Z de L² (IR) emboîtés selon la relation :

∅ ⊂ . . . ⊂ V2 ⊂ V1 ⊂ V0 ⊂ V−1 . . . ⊂ L²(IR) (1.1)

La projection d’une fonction f ∈ L² (IR) sur un espace Vj représente alors une approximation de f au niveau de résolution j. Du fait de l’emboîtement des espaces {Vj}, l’approximation de niveau j sera nécessairement plus précise que celle du niveau j + 1 car l’espace Vj dispose de plus de fonctions que l’espace Vj+1 pour représenter f.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
I Ondelettes et codage vidéo scalable : un état de l’art
1 Ondelettes dyadiques et nouvelles représentations multirésolution
1.1 Introduction aux représentations multirésolution
1.2 Ondelettes dyadiques
1.2.1 Bases d’ondelettes
1.2.2 Ondelettes et bancs de filtres
1.2.3 Panorama d’ondelettes dyadiques utilisées en codage d’image
1.2.4 Compression d’image par transformée en ondelettes
1.3 Nouvelles représentations multirésolution
1.3.1 Structure lifting
1.3.2 Ondelettes géométriques non-adaptatives
1.3.3 Ondelettes géométriques adaptatives
1.3.4 Autres représentations
1.4 Conclusion
2 Codage vidéo scalable : un état de l’art
2.1 Codage vidéo hybride scalable
2.1.1 Schéma de principe d’un codeur vidéo hybride
2.1.2 Panorama des codecs MPEG et H.26X
2.1.3 Scalabilité et l’extension MPEG-4 FGS
2.1.4 SVC ou l’extension scalable de H.264
2.2 Codage vidéo scalable par ondelettes
2.2.1 Premières approches
2.2.2 Schéma de codage vidéo t+2D
2.2.3 Premiers filtres temporels
2.2.4 Exemple de schéma de codage t+2D : le codec MC-EZBC
2.2.5 Améliorations apportées au schéma t+2D
2.3 Conclusion
II Mise en œuvre d’un codec vidéo scalable t+2D
3 Filtrage temporel 5/3
3.1 Filtrage temporel 5/3 compensé en mouvement
3.1.1 Notations
3.1.2 Lifting temporel
3.1.3 Construction d’une transformée 5/3 compensée en mouvement
3.1.4 Traitement au fil de l’eau
3.2 Résultats expérimentaux
3.2.1 Efficacité de codage
3.2.2 Scalabilité temporelle
3.3 Conclusion
4 Optimisation du filtrage temporel
4.1 Optimisation des vecteurs impliqués dans la prédiction
4.1.1 Présentation du problème
4.1.2 Prédiction itérative bidirectionnelle jointe
4.1.3 Prédiction bidirectionnelle à vecteur de mouvement unique
4.1.4 Résultats expérimentaux
4.1.5 Conclusion
4.2 Transformée temporelle 5/3 de sens uniforme
4.2.1 Artefacts fantômes et mise à jour
4.2.2 Transformée temporelle 5/3 de sens de mouvement uniforme
4.2.3 Prédiction bidirectionnelle optimale des zones découvertes
4.2.4 Résultats expérimentaux
4.2.5 Conclusion
4.3 Modération de la latence
4.3.1 Introduction, latence et délais
4.3.2 Analyse des délais créés par différents filtres temporels
4.3.3 Construction d’un filtre temporel flexible à délai contraint
4.3.4 Résultats expérimentaux
4.3.5 Conclusion
4.4 Transformée Daubechies-4 compensée en mouvement
4.4.1 Description et mise en œuvre
4.4.2 Résultats expérimentaux
4.5 Conclusion
5 Bancs de filtres M-bandes et filtrage spatial
5.1 Bancs de filtres M-bandes ; rappels
5.1.1 Définition
5.1.2 Transformées en blocs
5.1.3 Transformées à recouvrement
5.2 Codage spatial par bancs de filtres M-bandes
5.2.1 Caractéristiques des sous-bandes temporelles
5.2.2 Construction d’un banc de filtres 4-bandes adapté
5.2.3 Étude de différents bancs de filtres
5.3 Scalabilité fractionnaire
5.3.1 Motivation
5.3.2 Modification du banc de synthèse
5.3.3 Complexité théorique
5.3.4 Résultats expérimentaux
5.4 Conclusion
6 Filtrage spatial par lifting adaptatif
6.1 Mise à jour adaptative avec critère de seuil binaire
6.1.1 Motivation
6.1.2 Décomposition avec mise à jour adaptative et critère TC
6.2 Comparaison de deux seminormes
6.2.1 Résultats principaux
6.2.2 Un cas d’étude : la seminorme pondérée p(v) = |a T v|
6.3 Comparaison de N seminormes
6.4 Combinaison de deux seminormes et du critère TC
6.5 Résultats expérimentaux
6.5.1 Protocole expérimental
6.5.2 Détail des expérimentations
6.5.3 Efficacité de codage sans perte
6.6 Conclusion
Conclusion générale