Modèles de Mallows-Bradley-Terry pour l’analyse de données de préférence

Modèle général de Babington Smith et extension

Une épreuve de classement de q objets est reliée à une épreuve de comparaisons par paires de ces objets. D’une part, il est claire qu’étant donné un classement, il est aisé de déterminer les q(q − 1)/2 paires de préférence possibles. D’autre part, une comparaison par paires peut conduire à un classement pourvu qu’il y ait transitivité dans les paires de préférence obtenues. Nous entendons, par transitivité, que si l’objet x est préféré à l’objet y, et si l’objet y est préféré à l’objet z alors l’objet x est préféré à l’objet z. Le paradigme sous-jacent aux modèles d’analyse de données de classement basés sur les comparaisons par paire est la possibilité de pouvoir générer des classements à partir des comparaisons par paires d’un ensemble d’objets : le juge construit un classement consistant en commençant par une épreuve de comparaison par paire et ne reporte ses préférences qu’ après avoir eu un ensemble de paires de préférence consistant, c’est-à-dire aboutissant à un classement (Marden, 1995). Ce paradigme remonte au moins à Babington Smith (Smith, 1950) qui a introduit un modèle général de classement basé sur des probabilités de comparaisons par paires.

Modèle de Babington Smith pour classements sans ex-aequo

Considérons un ensemble de q objets identifiés par les entiers naturels distincts de 1 à q. Ces q objets sont soumis à un juge pour une épreuve de classement sans ex aequo. On note r le vecteur contenant les rangs attribués à chacun des objets soumis au classement : la j-ème composante du vecteur r, soit r(j), est donc le rang attribué à l’objet j. Les ex-aequo n’étant pas permis, r est donc une permutation de l’ensemble fini {1, 2, · · · , q} donc un élément du groupe des permutations S(q).

Modèle de Mallows-Bradley-Terry pour classements sans ex-aequo

Comme on peut s’en rendre compte le modèle de Babington Smith nécessite q(q − 1)/2 paramètres et son utilisation peut s’avérer peu commode si le nombre q d’objets à classer est élevé. Le désir de disposer d’un modèle avec un nombre réduit de paramètres aisément interprétables a conduit à des sous-modèles de ce modèle parmi lesquels le modèle de Mallows-Bradley-Terry sans ex-aequo que nous considérons dans la sous-section suivante.

Présentation du modèle : paramètres et identifiabilité

Lorsque le nombre d’objets à classer devient élevé, le nombre de paramètres du modèle de Babington Smith devient très élevé rendant ainsi l’analyse des données plus compliquée et non pertinente. De plus, les calculs deviennent très compliqués à effectuer, spécialement en utilisant l’algorithme de Newton-Raphson pour la maximisation de la vraisemblance. Pour pallier ces inconvénients, un sousmodèle du modèle de Babington Smith a été proposé par Mallows en supposant le modèle de Bradley-Terry pour l’analyse des résultats des épreuves de comparaison par paires comme suit : θij = πi/(πi + πj ) avec πi > 0. Chaque paramètre πi , i = 1, 2, · · · , q s’interprète comme la probabilité que l’objet i, i = 1, 2, · · · , q soit préféré si on soumet au juge l’ensemble des q objets pour qu’il les classe ; l’idée étant que la valeur πi est d’autant plus élevée que la préférence de l’objet i est grande. On remarque bien que le modèle de Bradley-Terry est compatible avec l’axiome du choix Luce [95, 104, 39] puisque θij/(1 − θij ) = πi/πj .

Échantillonneur de Gibbs généralisé
Le recours à une trajectoire d’une chaîne de Markov est parfois nécessaire pour le calcul de sommes et d’intégrales intervenant dans certains calculs numériques. La simulation d’une telle trajectoire peut être un moyen pour générer des réalisations d’une suite de variables aléatoires indépendantes et identiquement distribuées. C’est pour cette raison que nous proposons dans cette section un algorithme de Monte Carlo par chaîne de Markov dont la loi stationnaire appartient à la famille définie par le modèle de Mallows-Bradley-Terry. Plusieurs solutions peuvent être envisagées. Comme nous avons à faire à une distribution multivariée, il est naturel de penser à un échantillonneur de Gibbs.

Méthode du maximum de vraisemblance par l’algorithme MM

L’algorithme MM est une classe générale d’algorithmes qui inclut l’algorithme EM. Cette classe d’algorithmes a pour but de transformer des problèmes d’optimisation très complexes en des problèmes d’optimisation moins complexes et
aisément abordables [74, 88]. Le schéma général d’un algorithme MM pour un
problème de maximisation peut être resumé comme suit : soit θ’ une valeur courante du vecteur des paramètres θ.

1. remplacer la fonction objectif l à optimiser par une fonction auxiliaire S(· ; θ’ ) telle que l(θ) > S(θ; θ’ ) et l(θ’ ) = S(θ’ ; θ’ );
2. mettre à jour l’évaluation de θ en maximisant la fonction auxilaire S(· ; θ’) par rapport à θ, θ’ étant fixé à la valeur courante de θ.

Expérimentation

Dans cette section, nous discutons de l’estimation des paramètres du modèle lorsque le nombre d’objets q à classer est respectivement égal à q = 4 et q = 5. L’estimation des paramètres concerne des échantillons de classements sans exaequo indépendants et identiquement distribués que nous avons simulés via la méthode MCMC. Chaque échantillon de classements avec ex-aequo d’observations indépendantes et identiquement distribuées de taille M donnée pour un vecteur de paramètres θ connus est obtenu en simulant M trajectoires indépendantes de loi stationnaire p(s; θ), s ∈ S(q) jusqu’à un certain temps d’arrêt. Le temps d’arrêt étant la taille de l’échantillon simulé. Les échantillons de Monte Carlo de taille N donnée pour l’estimation des espérances mathématiques sont obtenus en soustrayant N observations d’une seule trajectoire. Dans les deux cas, nous avons simulé la chaîne dans le futur pendant suffisamment longtemps, pour qu’elle approche sa loi stationnaire. Cette période dite de préchauffage (en anglais, Burn-in) permettant à l’algorithme de s’extraire des conditions initiales, n’est pas prise en compte dans la taille des différents échantillons simulés. Dans notre cas, la période de préchauffage a été considérée comme fonction de la taille des objets à classer et fixée à la valeur q β log(q) où q désigne le nombre d’objets à classer et β ∈ R.

Dans les deux exemples qui suivent, nous avons simulé 1000 échantillons de classement sans ex-aequo d’observations indépendantes et identiquement distribuées, de tailles différentes suivant la loi p(s; θ), s ∈ S(q), pour des valeurs connues du vecteur des paramètres. Ensuite ces différents échantillons sont utilisés pour estimer les paramètres du modèle. Dans l’estimation du vecteur des paramètres θ du modèle, la taille de l’échantillon de Monte Carlo simulée à chaque étape de l’algorithme MM est fixée à N = 10000. La période de préchauffage dans la simulation des échantillons de Monte Carlo vaut q β log(q) = 10000 pour q = 4 (β = 6.41) et q = 5 (β = 6.86). Le paramètre de puissance v intervenant dans le calcul du nombre de groupes G et de la taille commune b des groupes dans la méthode Batching est fixé à v = 0.5. On en déduit que G = 100 et b = 100. Pour le critère d’arrêt dans l’estimation des paramètres, nous avons considéré le quantile supérieur fq−1,G−q+1 d’ordre α = 0.05 de la loi de Fisher Fq−1,G−q+1 à q − 1 et G − q + 1 degrés de liberté. On obtient ainsi, fq−1,G−q+1 = 2.70 pour q = 4 et fq−1,G−q+1 = 2.47 pour q = 5.

Dans le but de vérifier l’hypothèse de la normalité asymptotique d’un estimateur du maximum de vraisemblance, nous avons construit le diagramme quantilequantile correspondant à chaque composante du vecteur des paramètres estimés. Cette réprésentation est souvent utilisée pour juger graphiquement de la normalité d’une distribution observée. Rappelons que pour une distribution observée normale, les points obtenus sont alignés.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 Modèles de Mallows-Bradley-Terry pour l’analyse de données de préférence
1.1 Modèle général de Babington Smith et extension
1.1.1 Modèle de Babington Smith pour classements sans ex-aequo
1.1.2 Extension du modèle de Babington Smith pour classements avec ex-aequo
1.2 Modèle de Mallows-Bradley-Terry pour classements sans ex-aequo
1.2.1 Présentation du modèle : paramètres et identifiabilité
1.2.2 Méthode de Monte Carlo pour la simulation d’un échantillon de la loi p(r; θ), r ∈ S(q) et le calcul de l’espérance mathématique
1.2.3 Estimation des paramètres du modèle de Mallows-BradleyTerry par la méthode du maximum de vraisemblance
1.2.4 Maximum de vraisemblance via une méthode de Monte Carlo par chaîne de Markov
1.3 Modèle de Mallows-Bradley-Terry pour classements avec ex-aequo
1.3.1 Présentation du modèle : paramètres et propriétés
1.3.2 Méthodes de Monte Carlo pour la simulation d’un échantillon de la loi p(r; θ, γ) r ∈ E et le calcul d’espérance mathématique
1.3.3 Estimation des paramètres du modèle de Mallows-BradleyTerry par la méthode du maximum de vraisemblance
1.3.4 Maximum de vraisemblance via méthode de Monte Carlo par chaîne de Markov .
1.4 Conclusion
2 Le système visuel humain (SVH) : du stimulus à la perception
2.1 Le stimulus
2.1.1 Caractéristiques et rôle des sources de lumières
2.1.2 Interaction lumière-matière
2.2 Traitement de l’information : anatomie et physiologie du système visuel humain
2.2.1 L’œil humain
2.2.2 Le rôle de la rétine
2.2.3 La transmission : de la rétine au cerveau
2.3 Conclusion
2.4 Mesure de la couleur
2.4.1 Principe de Trichromie
2.4.2 Les expériences d’égalisation : la base de la colorimétrie classique
2.4.3 Les lois de Grassmann et les hypothèses d’une colorimétrie trichromatique
2.4.4 Système de représentation
2.5 Conclusion
3 Le système de stimulation
3.1 Espaces de représentation de la couleur
3.1.1 Les systèmes de primaires
3.1.2 Espaces approximativement uniformes
3.2 Caractérisation et calibrage du moniteur
3.2.1 Choix du moniteur
3.2.2 Modèles de caractérisation du moniteur
3.2.3 Méthodes et résultats de la caractérisation du moniteur
3.2.4 Calibrage du moniteur CRT
3.3 Conclusion
4 Approche expérimentale de la discernabilité perceptive de textures colorées
4.1 Images texturées colorées et textures visuelles
4.1.1 Caractéristiques physiques des stimulations visuelles
4.1.2 Modèle d’Ising généralisé et algorithme
4.2 Description de l’expérience psychophysique
4.2.1 Cadre environnemental
4.2.2 Juges ou observateurs
4.2.3 Épreuve de classement
Conclusion