Quelques contributions à la sélection de variables et aux tests non-paramétriques

L’analyse de données en grande dimension est devenue extrêmement fréquente et importante dans divers domaines des sciences, allant de la génomique et de la biologie à l’économie, la finance et l’intelligence artificielle. Par exemple, pour la classification de maladies utilisant des puces à ADN ou des données protéomiques, des dizaines de milliers d’expressions de molécules ou d’ions sont des prédicteurs potentiels. Dans les études sur l’association entre génotypes et phénotypes il y a des centaines de milliers de variables potentielles pour les phénotypes. Quand des interactions sont considérées, la dimension augmente rapidement. Par exemple, pour la gestion de portefeuilles avec deux mille titres, cela donne déjà plus de deux millions de paramètres dans la matrice de covariance. Les données sont contaminées par du bruit, rendant encore plus difficile la récupération de l’information utile à partir des données. De plus, souvent le nombre de données n est nettement inférieur au nombre de variables.

L’accumulation de bruit dans les problèmes de grande dimension est bien connue. Par exemple pour la classification, on sait que le discriminant de Fisher ne fonctionne pas bien en grande dimension , et même en utilisant la règle d’indépendance, la classification utilisant toutes les variables peut être aussi peu performante qu’un choix au hasard à cause de l’accumulation de bruit dans l’estimation des centres . Ainsi, il apparaît nécessaire de sélectionner les variables intéressantes pour traiter ces problèmes de grande dimension.

Procédures de sélection de variables

On choisit un modèle à l’aide de l’un des critères ci-dessus ou bien à l’aide de ttests (tests de Student), F-tests, le R²aj etc. On peut utiliser les algorithmes de recherche suivants :

Sélection exhaustive On effectue une recherche parmi tous les modèles possibles. Cela donne 2d modèles à considérer et n’est donc possible que pour d petit.

Méthode descendante L’algorithme est le suivant :
– Calculer l’estimateur des moindres carrés pour le modèle incluant toutes les variables explicatives.
– Effectuer un test de Student (ou un autre critère) pour chacune des variables explicatives. Deux cas se présentent :
• Les variables sont toutes significatives. Ce modèle est alors choisi. Nous arrêtons là notre analyse.
• Eliminer la variable la moins significative du modèle.
– Recommencer le processus avec une variable en moins.
Cette méthode est plus économique que la précédente mais présente l’inconvénient de ne pas pouvoir réintroduire une variable une fois qu’elle a été supprimée.

Ces deux premières méthodes ne sont applicables que pour n ≥ d. Ce n’est pas le cas de la méthode suivante.

Méthode ascendante On procède dans le sens inverse de la méthode précédente. On effectue les d régressions possibles avec une seule variable explicative. Pour chacune d’elles, on effectue le test de Student. On retient le modèle pour lequel la variable est la plus significative. On effectue ensuite les d − 1 régressions possibles avec deux variables (dont celle choisie à la première étape). Pour chacune d’elle, on effectue le test de Student pour la nouvelle variable et on retient la plus significative. On continue ainsi jusqu’à ce qu’aucune variable restante ne soit significative. Ici l’inconvénient est qu’une variable introduite ne peut plus être éliminée. Le modèle final peut alors contenir des variables non significatives. Ce problème est résolu par la procédure stepwise.

Procédure stepwise A chaque étape, nous réexaminons toutes les variables introduites précédemment dans le modèle. En effet, une variable considérée comme la plus significative à une étape de l’algorithme peut à une étape ultérieure devenir non significative.

Sélection stagewise (OMP ou greedy least squares regression) On introduit les variables une à une en prenant à chaque étape la variable la plus corrélée avec le résidu courant. On s’arrête quand la corrélation maximum des variables restantes avec le résidu est inférieure à une seuil fixé.

On passe maintenant à des méthodes plus récentes, en examinant d’abord le cas paramétrique. Comme indiqué précédemment, la régularisation L0 intervient naturellement dans beaucoup de méthodes de sélections de modèle classiques. Cependant le calcul est impraticable en grande dimension. On a aussi remarqué que certaines méthodes ne fonctionnent que pour d ≤ n. Pour traiter le cas de la grande dimension d ≫ n avec d dépendant de n, on suppose que le vecteur β est sparse. On note, pour tout vecteur β, S(β) le support de β, c’est-à-dire S(β) = {i ∈ [1, d] : βi 6= 0}. Si β est le vrai vecteur, on note plus simplement S son support et s le cardinal de S.

Examen rapide et sélectif de quelques autres méthodes 

On commence par les procédures de discrimination indépendante, qui consistent à ordonner les variables selon leur utilité marginale, c’est-à-dire que chaque variable est utilisée indépendamment comme prédicteur pour décider de son utilité pour prédire la réponse. La procédure SIS (sure independance screening) a été introduite par Fan et Lv [32] pour réduire le coût de calcul dans le cas des très grandes dimensions. Une idée naturelle pour effectuer la sélection de variable dans ce cas est de réduire la dimension d d’un ordre très très grand (disons log d ≍ n a pour a>0) à un ordre plus modérément grand exemple une puissance de n) à l’aide d’une procédure rapide mais fiable, et ensuite d’utiliser les méthodes habituelles de sélection de variables (tel le Lasso) sur cet ensemble plus restreint de variables. Ce qu’on appelle procédure fiable ici est une procédure possédant la propriété de “sure screening”, qui signifie toutes les variables importantes sont dans le modèle sélectionné avec une probabilité tendant vers 1. Un exemple de discrimination indépendante est la régression marginale étudiée dans [32]. Les variables sont classées selon la magnitude de leur coefficient de corrélation empirique avec la réponse. Comme indiqué précédemment, cela réduit la dimension du modèle car on choisit les p plus grandes avec p ≫ n mais p ≪ d. Pour les problèmes de classification, la procédure est appelée FAIR dans [31].

Tests d’hypothèses basées sur les fonctionnelles quadratiques

On cherche à tester un type particulier d’hypothèse nulle composite sous un modèle de régression nonparamétrique multivarié. Pour une fonctionnelle quadratique Q, l’hypothèse nulle signifie que la fonction de régression f satisfait la contrainte Q[f] = 0, tandis que l’hypothèse alternative correspond aux fonctions pour lesquelles Q[f] est minoré par une constante strictement positive. D’une part, on fournit des taux minimax de test et les constantes de séparation exactes, ainsi que la procédure de test optimale exacte, pour des fonctionnelles quadratiques diagonales et positives. On considère des classes de régularité de forme ellipsoïdale et on vérifie que nos conditions sont remplies dans le cas particulier des ellipsoïdes correspondant à des classes de Sobolev anisotropes.

Lien avec des travaux antérieurs

Depuis les articles fondateurs de Ermakov [29] et Ingster [47, 48, 49], les tests minimax d’hypothèses nonparamétriques ont reçu beaucoup d’attention. Une revue détaillée de la littérature sur ce sujet dépassant le cadre de cette section, on se concentre seulement sur la discussion des résultats existants qui sont très liés au travail présent. Le but ici est de souligner les points communs et les différences les plus importantes avec la littérature existante.

Remarquons que la majeure partie de l’inférence statistique pour les tests d’hypothèses nonparamétriques a été développée pour le modèle de bruit blanc gaussien (BBG) et sa formulation équivalente comme modèle de suite gaussienne (GSM). Comme références récentes pour le problème de test d’une hypothèse simple dans ces modèles, on cite [28, 52], où le lecteur peut trouver des références supplémentaires vers des travaux antérieurs. Ici, l’hypothèse nulle définie par (3.5) est composite et nonparamétrique. Des références anciennes concernant les résultats minimax avec des hypothèses nulles composites incluent [45, 73, 40, 39], où le cas d’une hypothèse paramétrique nulle est le cas principal. Ces articles considèrent le cas unidimensionnel et fournissent seulement les taux minimax de test sans atteindre la constante de séparation exacte. De plus, l’alternative est définie comme l’ensemble des fonctions qui sont à une distance euclidienne d’au moins ρ de l’hypothèse nulle, ce qui est très différent des alternatives considérées ici.

Plus récemment, l’approche nonasymptotique des tests minimax a gagné en popularité [6, 7, 60, 61]. Un des avantages de l’approche nonasymptotique est qu’il n’y a pas de frontière claire entre les concepts d’hypothèses paramétriques ou nonparamétriques, tandis que ses limitations sont qu’il n’y a pas de résultat sur l’optimalité exacte (cette notion elle-même n’est pas bien définie). Remarquons que tous ces articles traitent du GSM et considèrent comme principale application le cas  des signaux unidimensionnels, contrairement à notre cadre de régression en grande dimension.

Examinons plus précisément les articles [50] et [60] qui sont très proches de notre travail que ce soit par la méthodologie utilisée ou par le problème considéré. [50] a étendu certains résultats concernant les tests d’ajustement (goodness-of-fit) pour le modèle BBG en dimension d aux tests d’ajustement pour le modèle de régression nonparamétrique multidimensionnel. Plus précisément, ils ont testé l’hypothèse nulle H0 : f = f0, où f0 est une fonction connue, contre l’alternative H1 : f ∈ Σ, R∆(f − f0)2≥r2n, où Σ est un ellipsoïde dans l’espace de Hilbert L2(∆) par rapport au produit tensoriel de la base de Fourier (avec des extensions à d’autres bases). Ils ont obtenu à la fois le taux minimax et les asymptotiques exactes pour les probabilités d’erreur dans le cadre minimax. Donc le modèle qu’ils considèrent est le même que celui qui nous intéresse ici, mais les hypothèses H0 et H1 sont substantiellement différentes. En conséquence, la procédure de test que l’on propose prend en compte les formes générales de H0 et H1 données par (3.5) et est différente du test asymptotiquement minimax de [50]. De plus, on relâche substantiellement l’hypothèse sur la distribution du bruit en remplaçant l’hypothèse de Gaussianité par la la bornitude du 4ème moment.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
présentation des résultats principaux
1 Introduction à la sélection de variables
1.1 Sélection de modèle classique
1.2 Vraisemblance pénalisée
1.3 Résultats pour certaines méthodes
1.4 Conditions minimales
1.5 Examen rapide et sélectif de quelques autres méthodes
1.6 Sélection de variables dans le contexte de variables groupées
1.7 Cas non paramétrique
2 Sélection de variables pour la régression nonparamétrique
2.1 Formulation du problème et hypothèses
2.2 Cadre idéalisé : modèle de bruit blanc gaussien
2.3 Nombre de points à coordonnées entières dans une boule
2.4 Optimalité des hypothèses
2.5 Adaptativité et taux minimax de séparation
2.6 Régression nonparamétrique avec un design aléatoire
2.7 Remarques de conclusion
2.8 Quelques extensions
2.9 Preuves
3 Tests d’hypothèses basées sur les fonctionnelles quadratiques
3.1 Introduction
3.2 Tests minimax pour les fonctionnelles quadratiques diagonales
3.3 Exemples
3.4 Fonctionnelles quadratiques diagonales non positives et non négatives
3.5 Preuves des résultats énoncés en Section 3.2
3.6 Preuves des lemmes et des propositions de la Section 3.3
3.7 Preuve de la Proposition 3.13
3.8 Preuve de la Proposition 3.17
3.9 Preuves des résultats énoncés dans la Section 3.4
Conclusion
Bibliographie

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.