Exploration des arbres de décision et des support vector machines en vue d'applications dans l'analyse de texte

Au cours des années récentes, la prolifération de dispositifs computationnels numériques et de leur utilisation dans la communication, a produit une production croissante et une grande disponibilité de textes dans divers domaines de l’activité humaine en produisant une importante quantité de données textuelles. Ce phénomène a rendu nécessaire le développement de techniques permettant d’analyser ces données en recherchant des patrons utiles et non triviaux qui seraient impossibles de trouver par une recherche « à main » effectuée par des personnes.

On considère, par exemple, le contexte scientifique dans lequel il y a chaque fois une plus grande génération d’articles scientifiques et didactiques avec contenu de texte numérique, tandis que les bibliothèques numérisent de leur côté leurs patrimoines de livres et autres documents avec contenu de texte. L’analyse de ce type de sources peut représenter une grande occasion de recherche comme l’a démontré Don R. Swanson [79] en utilisant des techniques de fouille de texte pour trouver des relations entre des symptômes, des drogues et leurs effets à partir des titres et des résumés d’articles scientifiques médicaux de l’entrepôt Medline [14], qui, à la fin de l’année 2013, contenait plus de vingt-deux millions d’articles et dont la croissance se poursuit de manière exponentielle [34].

Toutefois, dans beaucoup d’autres domaines, l’utilisation de l’analyse automatique de texte n’a pas été encore grandement exploitée et elle constitue un secteur d’occasion pour les organisations dont le 80% de leur information correspond à des documents de texte[77]. De même, comme le mentionne [3] « il n’est pas difficile de voir comment presque toute affaire pourrait obtenir des bénéfices éventuels de la capacité d’analyser les documents de millions de personnes pour identifier des désirs ou des nécessités de divertissement, de repas, de voyages, vente au détail et pratiquement toute chose ».

Par ailleurs, les chercheurs en sciences sociales peuvent utiliser les sources de données de texte pour découvrir des patrons intéressants comme l’ont fait des chercheurs du Vermont [20] qui ont construit un outil pour mesurer le niveau de bonheur d’une communauté par rapport aux mots contenus dans les messages twitter de ses membres.

L’analyse automatique de texte est, habituellement, à caractère multidisciplinaire, c’est-à-dire qu’elle inclut, en plus des disciplines reliées au type particulier d’application, des disciplines telles que la statistique, la récupération d’information (information retrieval) , la linguistique computationnelle, le traitement du langage naturel et l’apprentissage automatique. Ce dernier, s’est démarqué dans les dernières années par l’apparition de nouvelles approches et stratégies qui lui ont permis de développer des applications capables d’effectuer des tâches pratiques telles que, par exemple, la classification automatique de spam, ce qui est pourvu ordinairement aujourd’hui par les fournisseurs de service de courrier électronique.

Les antécédents

L’apprentissage automatique a été considéré comme étant une branche de l’intelligence artificielle. En prenant ceci en considération, on pouvait faire remonter l’origine de l’apprentissage automatique, d’après [71], à 1943, quand W. McCulloch et W. Pitts ont effectué le premier travail reconnu en lA dans lequel ils ont proposé un modèle constitué par des neurones artificiels au sein duquel chaque neurone se caractérisait comme étant activé ou désactivé; ces auteurs introduisent, avec cette publication, un des paradigmes les plus importants dans le domaine de l’intelligence artificielle: le paradigme de modélisation neuronale (Neural model paradigm [7]). À partir de ce moment, plusieurs approches ont été développées en essayant différentes manières d’aborder des problématiques diverses.

Un autre paradigme introduit au cours de ces premières années est le paradigme d’acquisition symbolique de concepts.

Le paradigme utilisait des structures de représentation logiques ou graphiques au lieu des méthodes et des représentations mathématiques ou statistiques. Les systèmes apprenaient des descriptions symboliques en représentant des connaissances de haut niveau et ils faisaient de fortes hypothèses structurelles sur les concepts à acquérir [7].

Les algorithmes génétiques, introduits par John Rolland au début des années 70s [53], se basent sur l’idée de simuler des processus de sélection évolutifs, produits au moyen de mutations aléatoires, pour obtenir des systèmes qui améliorent leur performance ou qui obtiennent un certain apprentissage par cette évolution.

D’après [67], à partir du début des années 80s, les systèmes experts ont été capables de résoudre des cas de problèmes récurrents dans des domaines de connaissance restreinte en requérant d’avoir une connaissance préalable d’application, ainsi que de règles de but particulier qui permettaient des étapes de raisonnement long pour arriver à la connaissance cherchée. Ces systèmes ont commencé à être acceptés par les grandes industries, lesquelles ont trouvé en ces derniers, une manière d’améliorer leur performance et leur efficacité, leur permettant par le fait même d’économiser des frais. À partir de ce moment, l’apparition de nouvelles techniques et de nouvelles approches, capables d’obtenir des très bons résultats, a eu comme conséquence le surgissement de nouvelles disciplines, telle que la fouille de données qui est également devenue une importante industrie elle même.

Depuis la fin des années 80s, une révolution s’est produite, tant dans le contenu que dans la méthodologie utilisée, dans le domaine de l’Intelligence artificielle et, conséquemment, dans celui de l’apprentissage automatique. Cette réalisation a été rendue possible principalement grâce à l’incorporation de matières comme la théorie du contrôle ou de la statistique en faisant que l’lA fasse déjà partie des méthodes scientifiques. Par conséquent, actuellement, pour soutenir les hypothèses, celles-ci doivent être soumises à des expériences empiriques et les résultats doivent statistiquement être analysés pour identifier leur importance [9] cité par [671. À noter que l’utilisation de l’internet et la répartition de dépôts de code source de test permettent de répliquer les expériences[67].

Les Modèles de Markov Cachés

Les modèles de Markov cachés, HMM par leurs sigles en anglais, se basent sur la supposition que les données observables proviennent d’une chaîne de Markov dont les paramètres sont inconnus et non observables, c’est-à-dire cachés (de là son nom). Par opposition aux modèles de Markov, dans lesquels les états sont visibles en permettant d’utiliser cette information pour estimer la probabilité de transition entre des états, dans les HMM on observe seulement les données résultantes mais pas les états sousjacents qui les produisent, en permettant seulement l’utilisation de cette information pour estimer les paramètres de la chaîne de Markov sous-jacent. Les algorithmes d’apprentissage automatique qui utilisent cette approche tentent alors d’estimer les paramètres de la chaîne de Markov sous-jacente génératrice des données, pour ainsi essayer de prévoir les données suivantes en connaissant une séquence de données observées.

Ces modèles ont été utilisés avec grand succès dans le cadre de la reconnaissance vocale. On peut citer la publication très connue de Lawrence R. Rabiner (1989) sur l’utilisation des Modèles de Markov Cachés pour la reconnaissance vocale [691 . Ils ont été aussi utilisés dans d’autres types de contextes comme la détection d’anomalies [75], soit afin de détecter la fraude bancaire ou des intrusions, soit pour la simulation du comportement humain dans les jeux de vidéo [78] ou encore dans la traduction automatique [50] entre autres.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
1 L’état de l’art.
1.1 Les antécédents
1.2 L’état de l’art .
1.2.1 Les Modèles de Markov Cachés.
1.2.2 L’analyse discriminante.
1.2.3La régression logistique.
1.2.4Les classeurs paresseux (lazy learners).
1.2.5Les arbres et forêts de décision.
1.2.6Les machines à vecteurs de support (SVM).
1.2.7Les réseaux de neurones artificiels.
1.2.8Les modèles d’ensemble.
1.2.9Les autres modèles
1.2.2.1 Le modèle bayésien naïf (naïve Bayes).
1.3 Pourquoi la SVM et la forêt de décision.
1.4 Résumé .
2 L’apprentissage statistique automatique.
2.1 L’approche statistique.
2.2 Le processus de décision
2.3 Le choix du modèle.
2.3.1 L’apprentissage paramétrique ou non paramétrique.
2.3.2 L’apprentissage supervisé ou non supervisé.
2.4 L’optimisation du modèle.
2.4.1 La capacité de généralisation.
2.4.2 La complexité du modèle.
2.4.3 Éviter la mauvaise généralisation.
2.4.4 Soulager le sur-ajustement. .
2.4.5 Soulager le sous-ajustement.
2.4.6 La Régularisation.
2.4.7 La validation.
2.4.8 Les mesures de performance.
2.5 Résumé.
3 Le prétraitement et la transformation du texte.
3.1 L’extraction de termes (Tokenization).
3.2 La lemmatisation ou réduction à la tige (Stemming).
3.3 La suppression de mots fonctionnels (stop words remotion) ..
3.4 La représentation vectorielle du texte .
3.5 La transformation des caractéristiques.
3.6 Résumé.
4 Les machines à vecteurs de support (SVM).
4.1 Le cas quand les données sont linéairement séparables.
4.2 La classification d’une nouvelle donnée.
4.3 Le cas quand les données ne sont pas linéairement séparables.
4.4 La marge souple.
4.5 L’astuce de la fonction noyau.
4.5.1 Les fonctions noyau
4.6 La prévision de la capacité de généralisation.
4.7 La SVM pour plus de deux catégories. .
4.7.1 Une contre une (One versus one).
4.7.2 Une contre tous (One versus aH).
4.8 Contrôler la complexité du classeur
4.9 Les avantages et les inconvénients des SVM.
4.9.1 Les inconvénients
4.9.2 Les avantages
4.10 Résumé
5 Les arbres et forêts de décision
5.1 Introduction.
5.2 Les arbres de décision.
5.2.1 L’entraînement des arbres.
5.2.2 L’optimisation des nœuds.
5.2.2.1 Le Gini index.
5.2.2.2 L’entropie.
5.2.3 La phase de test. .
5.3 Les avantages et les inconvénients des arbres de décision.
5.4 Le modèle de forêt de décision
5.4.1 Le Bagging
5.4.2 La randomisation de nœuds.
5.4.3 L’entraînement de la forêt. .
5.4.4 La prévision et la classification des données.
5.4.5 Le bagging et la capacité de généralisation. .
5.4.6 L’effet des paramètres du modèle de forêt de décision. .
5.4.6.1 Le nombre d’arbres T de la forêt.
5.4.6.2 L’effet du type de classeur faible.
5.4.6.3 La profondeur maximale d’arbre.
5.4.6.4 Le montant de randomisation (contrôlé par Pj).
5.5 Les avantages et les inconvénients des forêts de décision.
5.5.1 Les Avantages
5.5.2 Les inconvénients
5.6 Résumé
6 L’implémentation
6.1 La lecture et le découpage des données.
6.2 La fonction de classification.
6.2.1Les paramètres
6.2.2L’importation et la vectorisation des données.
6.2.3Le choix du classeur.
6.2.4Les classeurs. .
6.2.4.1 La structure.
6.2.4.2 La création d’une instance du classeur à utiliser
6.2.5 L’optimisation du classeur
6.2.5.1 La grille d’hyperparamètres.
6.2.5.2 Les hyperparamètres de la forêt de décision
6.2.5.3 Les hyperparamètres de la SYM
6.2.5.4 La recherche exhaustive des paramètres optimaux
6.2.5.5 La recherche randomisée d’hyperparamètres optimaux
6.2.5.6 L’entraînement du classeur
6.2.5.7 Le test du classeur
6.2.5.8 Les objets retournes
6.3Résumé
7 L’interface de l’Utilisateur
7.1 La fenêtre principale
7.2 Les options pré-traitement et transformation du texte.
7.3 L’entraînement du classeur
7.3.1 La stratégie d’optimisation
La recherche exhaustive
La recherche randomisée
7.4 Le formulaire d’hyperparamètres de la forêt de décision
7.5 Le formulaire d’hyperparamètres de la SVM
7.6 La graphique de la courbe d’apprentissage
7.7 La graphique d’Importance des termes
7.8 L’importance des termes
7.9 Résumé
8 L’expérimentation
8.1 Introduction
8.2 La procédure
8.3 Le prétraitement du texte
8.3.1 L’élimination à main de segments non originaux
8.3.2 Le nettoyage du texte
8.4 La stratégie d’optimisation
8.4.1 L’optimisation des SVM
8.4.2 L’optimisation des forêts de décision
La taille de la forêt
Le nombre de caractéristiques par nœud
8.5 La classification et analyse des chapitres
8.5.1 Chapitre 1. Les Arabes nomades et Arabes sédentaires des cam
pagnes
8.5.2 Chapitre II. Les Arabes des villes. – Mœurs et coutumes
8.5.3 Chapitre III. Institutions politiques et sociales des Arabes.
8.5.4 Chapitre IV. Les femmes en Orient.
8.5.5 Chapitre V. Religion et morale
8.6 Résumé
9 Conclusion