Caractéristiques du texte arabe

Caractéristiques du texte arabe

Segmentation en caractères

L’étape de segmentation des mots en caractères est une étape cruciale dans les systèmes OCR analytiques. Une erreur dans la segmentation des caractères produira des erreurs dans la reconnaissance.

Un point de segmentation est un point entre deux caractères, il se trouve sur la ligne de base qui ne contient aucune information. La tâche de segmentation consiste à localiser deux points de segmentations, puis extraire le caractère entre eux. Dans cette partie nous allons présenter des techniques de segmentation des mots arabes imprimés en caractères.

Les travaux de Parhami et Taraghi [BM82] en 1981 suivis par l’oeuvre d’Amin et Masini [AM82] en 1982 ont été les premières tentatives de segmenter les caractères arabes. Dans les systèmes OCR analytiques, plusieurs techniques ont été proposées pour la segmentation des mots en caractères ; dans les premières tentatives, la projection verticale a été utilisée à cet effet. Plus tard, la tendance était d’obtenir le squelette du mot et de l’analyser pour trouver les points de segmentation appropriés. Cette méthode a été suivie de tentatives de segmentation des mots en traçant le contour du mot. Plusieurs d’autres recherches se sont basées sur la technique de Template-Matching seule ou combinée avec les autres techniques citées précédemment. Les systèmes OCR globaux utilisent l’approche holistique ou sans segmentation dans laquelle les mots sont reconnus sans segmentation. Le schéma de la Figure 8 montre notre classification des techniques utilisées dans le domaine de la segmentation du texte arabe.

Segmentation basée sur les projections

Le but de la méthode de projection est de simplifier un système OCR en réduisant les informations 2D en 1D. elle fonctionne mieux avec les documents imprimés, en particulier avec les polices qui ne forment pas des ligatures telles que «arabe transparent» et «arabe simplifié», cependant, pour les polices comme «arabe traditionnel» qui contient de nombreuses formes de ligature, la méthode des projection présente des problèmes inévitables.

Ces méthodes sont basées sur le fait que les traits de connexion sont toujours de moins d’épaisseur que d’autres parties des mots. Dans ces procédés, on calcule la projection verticale de l’image : Vi=Σ?(?,?) Où p(i,j) est la valeur de pixel à la position (i,j) qui est soit 0 (blanc) soit 1 (noir).
L’ensemble V des Vi forme l’histogramme de l’image, qui peut être manipulé de plusieurs manières pour déterminer les points de segmentation.

Zheng et al. [AHT04] ont proposé un nouvel algorithme de segmentation des caractères arabes, qui est basé sur l’histogramme vertical et quelques autres règles, De plus, les caractéristiques structurelles entre les régions de fond et les composants de caractère, les caractéristiques des caractères arabes, sont également utilisées pour vérifier si le pseudo-mot ne comprend qu’un seul caractère. Ensuite, l’histogramme vertical, et d’autres règles ont été utilisés pour trouver des points de segmentation réels. Enfin, les pseudo-mots ont été divisés en points de segmentation. Les résultats expérimentaux montrent que l’algorithme atteint environ 94% de segmentation correcte.

Segmentation basée sur le contour

La détection des contours d’une image réduit de manière significative la quantité de données et élimine les informations qu’on peut juger moins pertinentes, tout en préservant les propriétés structurelles importantes de l’image. Cette approche a beaucoup d’avantages par rapport à l’utilisation du squelette du mot dans lequel l’information de mot peut être perdue, et qui conduit à moins de taux de reconnaissance.

Dans [BS97] Le contour supérieur est examiné pour les points candidats pour la segmentation des pseudo-mots. Cela se fait en traçant cette partie de gauche à droite en commençant par le premier point au-dessus de la ligne de base. Lorsqu’un point maximum dans la direction verticale est atteint, il est considéré comme un pic si sa valeur est supérieure à une valeur du seuil (t1 = ligne de base + t/6) avec t est la distance entre le top du mot et la ligne de base. Après cette étape, la valeur des coordonnées de contour commence à descendre jusqu’à ce qu’elle arrive à un point minimum : Figure 14. Si cette valeur est inférieure à la valeur de seuil (t1), elle est considérée comme un point de segmentation à condition qu’elle soit suivie d’un pic. Cette procédure se poursuit jusqu’à ce que toutes les coordonnées de la partie supérieure du contour soient examinées. Le point de segmentation est considéré entre deux pics. Si aucun pic n’a été trouvé après avoir rencontré un point minimum, ce point minimum est négligé.

De plus, si deux points minimum ou plus sont trouvés entre deux pics et les deux satisfont la condition de seuil, le point le plus proche du premier point de crête et le plus proche de la ligne de base est pris comme point de segmentation. Cette procédure se poursuit jusqu’à ce que tous les points de segmentation soient trouvés.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport gratuit propose le téléchargement des modèles gratuits de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Introduction générale
CHAPITRE 1. Etat de l’art sur la segmentation du texte arabe imprimé
Introduction
1.1. Caractéristiques du texte arabe
1.2. Segmentation en ligne
1.3. Segmentation en pseudo-mots
1.4. Segmentation en caractères
1.4.1. Généralités
1.4.2. Segmentation basée sur les projections
1.4.3. Segmentation basée sur la squelettisation
1.4.4. Segmentation basée sur le contour
1.4.5. Segmentation basée sur Template-Matching
Conclusion
CHAPITRE 2. Etude et implémentation de quelques méthodes de segmentation
Introduction
2.1. Segmentation du texte en lignes
2.1.1. Principe
2.1.2. Les problèmes rencontrés
2.2. Segmentation des lignes en pseudo-mots
2.2.1. Principe
2.2.2. Les problèmes rencontrés
2.3. Segmentation des pseudo-mots en caractères
2.3.1. Template-Matching
2.3.2. Segmentation à base de seuil
2.3.3. Projection verticale modifiée
2.3.4. Méthode basée sur le contour
2.4. Résultats
CHAPITRE 3. Contribution à la segmentation du texte arabe imprimé
Introduction
3.1. Acquisition
3.2. Prétraitement
3.2.1. Amélioration de la résolution
3.2.2. Binarisation
3.2.3. Opérations morphologiques
3.3. Segmentation des caractères arabes imprimés
3.3.1. Méthode basée sur Template-Matching
3.3.2. Méthode basée sur le contour
Conclusion
CHAPITRE 4. Etude Expérimentale
Introduction
4.1. Environnement de développement
4.1.1. Python
4.1.2. Bibliothèques
4.2. Construction d’un corpus pour la segmentation du texte arabe
4.3. Résultats
Conclusion
Conclusion et perspectives
Références