Prédiction de l’emplacement à partir de flux d’informations dans les réseaux sociaux

L’information géographique est un type d’information qui permet d’associer des entités et des contenus à des lieux physiques (p. ex. des pays, des régions, des villes ou des points d’intérêts). Elle est enregistrée sur une grande variété de supports et de types de documents. Il existe d’innombrables livres, rapports, images et cartes sur papier, mais aussi des bases de données informatiques et des cartes numériques, ainsi qu’un grand nombre de pages web contenant des textes, des images géoréférencées et des versions numériques d’articles ou de livres. Historiquement, cette information, conservée en tant que données structurées, était la prérogative des systèmes d’information géographique (SIG), qui permettaient d’accéder aux informations géographiques via des combinaisons de cartes numériques et de bases de données.

L’importance de la localisation dans la recherche d’information (RI) semble aujourd’hui évidente. Une grande partie des informations disponibles sur le web sont spécifiques à une zone géographique (Vaid et al., 2005; Delboni et al., 2007; Vasardani et al., 2013). De plus, comme tout ce que nous faisons se déroule dans un contexte géographique, il n’est pas surprenant que de nombreuses requêtes sur le web aient une orientation géographique, que ce soit pour trouver le restaurant le plus proche, obtenir des informations sur une ville ou trouver des photos d’un monument par exemple. Nous estimons que 13% à 15% des requêtes soumises à des SRI contiennent des noms de lieux ou des termes géographiques (Sanderson et Kohler, 2004; Gan et al., 2008; Aloteibi et Sanderson, 2014), et plus d’un tiers des recherches mobiles sont liées à la localisation . De fait, les services s’appuyant sur la localisation, dans lesquels l’emplacement actuel ou prévu de l’utilisateur est utilisé comme information contextuelle en temps réel, se propagent à un rythme effréné, avec pour cible principale, les utilisateurs des smartphones (Reichenbacher et al., 2016). C’est donc ce besoin croissant d’accès public à l’information géographique qui a été une motivation majeure pour explorer le domaine de la recherche d’information géographique (RIG), une extension du domaine de la RI (BaezaYates et Ribeiro-Neto, 1999), qui cherche à développer un système de recherche spatialisé et à soutenir les besoins d’information géographique des utilisateurs en utilisant notamment les métadonnées géographiques des documents (Jones et Purves, 2009).

Cependant, l’information géographique présente dans les documents, formulée en langage naturel, est généralement ambiguë et incertaine (Amitay et al., 2004; Clough et al., 2004). Par exemple, les lieux mentionnés peuvent correspondre à différents lieux (p. ex. Paris, en plus d’être la capitale de la France faire référence à plus de soixante villes dans le monde). Ils peuvent aussi être nommés en utilisant des mots courants (Park, Hope et Independence sont des villes américaines) ou des noms propres (Washington et Houston sont des noms de villes ou de personalités). Il peut aussi y avoir une ambiguïté de référence, qui se produit lorsqu’un lieu est associé à plusieurs noms, comme « la ville rose » ou « la cité des violettes » pour désigner la ville de Toulouse. L’ambiguïté rend donc la résolution des références aux lieux intrinsèquement contextuelle. Une étape importante pour aborder la désambiguïsation est la détermination de la portée géographique du document, c.-à d. l’ensemble des lieux référencés par le document et pertinents pour son contenu (Andogah et al., 2012; Alexopoulos et al., 2012; Silva et al., 2006). De ce fait, l’accès efficace aux documents, dans lesquels nous pouvons déduire une pertinence géographique, nécessite des méthodes capables de reconnaître la présence de références géographiques et de les résoudre sans équivoque. Cela inclut l’interprétation automatisée des noms de lieux et des relations spatiales dans les requêtes et les documents. La RIG s’attache ainsi à résoudre ces défis en améliorant la qualité de la recherche d’information géographiquement spécifique (Purves et al., 2008).

Un système de recherche d’information (SRIG) doit donc être capable de détecter et résoudre des références à des lieux, typiquement, mais pas exclusivement, sous la forme de noms de lieux ou de toponymes plus formels, à partir de documents non structurés (Purves et al., 2018). En s’appuyant sur cette résolution de toponymes ou pas, un SRIG doit également être en mesure de déterminer la portée géographique des documents et des requêtes. En d’autres termes, il doit répondre à la question « sur quelle localisation porte le sujet du document ou de la requête ? ». Pour cela, les SRIG, comme les SRI traditionnels, se composent généralement de trois composants majeurs à savoir, l’analyseur de requêtes qui permet de considérer les représentations cognitives de l’espace et la manière dont elles peuvent influencer le langage utilisé pour formuler la requête, un ou plusieurs index qui permettent de récupérer les documents pertinents qui seront ensuite classés par le système d’information, et une interface pour présenter les résultats à l’utilisateur. Cependant, les SRIG possèdent d’autres composants clefs, comprenant toujours un répertoire toponymique (aussi appelé gazetteer) ou index géographique, qui enregistre les noms de lieux et les informations associées telles que les coordonnées ou d’autres informations géographiques structurées permettant de faire le pont entre la RI traditionnelle (Manning et al., 2009) et la science de l’information géographique (Goodchild, 2010).

Depuis quelques années, de nombreux SRIG se sont développés. L’un des exemples de système les plus anciens est le Geo-referenced Information Processing System (GIPSY) (Larson, 1996) qui permettait la recherche au sein de bibliothèques numériques. D’autres systèmes, tels que les projets Web-a-Where (Amitay et al., 2004), Spatially Aware Search Engine for Information Retrieval on the Internet (Purves et al., 2007) ou Spatio-Textual Extraction on the Web Aiding Retrieval of Document (STEWARD) (Lieberman et al., 2007) ont suivi pour la RIG à partir de pages web. Les articles de presse se sont aussi révélés être de très riches sources d’information. L’exemple le plus marquant est celui de NewsStand (Teitler et al., 2008), qui s’est concentré sur la collecte et le résumé de nouvelles en temps réel avec l’utilisation d’index géographiques adaptés. Enfin, d’autres chercheurs ont utilisé les méthodes de RIG pour résumer de grands corpus de textes, à des échelles plus grossières, et pour des régions géographiques beaucoup plus vastes (allant des États-Unis au monde entier). Les systèmes comme TextGrounder (Brown et al., 2012) et FrankenPlace (Adams et al., 2015) s’appuient sur des approches d’apprentissage automatique pour géoréférencer le contenu sans recourir aux index géographiques. Plus récemment, avec l’avènement des réseaux sociaux numériques (RSNs), de nouveaux axes de recherche ont émergé, valorisant ainsi les données sociales pour le résumé spatio-temporel (Li et al., 2015; Liu et al., 2016; Zhang et al., 2016), la recommandation (Shaw et al., 2013; Min et al., 2015; Xie et al., 2016) ou la détection de l’emplacement (Li et al., 2011a; O’Hare et Murdock, 2013; Fang et Chang, 2014).

Introduction à la recherche d’information géographique

La RIG est interdisciplinaire et peut être considérée comme une extension du domaine de la RI. Le but de cette section est donc de présenter un ensemble de concepts généralement formulés en RIG, en ce qui concerne la façon dont l’espace et les données sont conceptualisés, représentés et analysés.

Concepts fondamentaux

Nous introduisons dans cette section les concepts hérités de la géographie, tels que le système géodésique, les coordonnées géographiques, la distance géographique et la projection cartographique.

Définition 2.1 (Système géodésique). Les systèmes de coordonnées géographiques fournissent une méthode quantitative pour enregistrer l’emplacement par rapport à un point de référence connu, c’est-à-dire l’origine du système de coordonnées. Les systèmes de référence couramment utilisés sont les systèmes géodésiques, qui permettent d’exprimer les positions au voisinage de la Terre. Ces systèmes reposent sur une ellipsoïde dont les paramètres de définition sont un centre O, un demi-grand axe a et un aplatissement f . Actuellement, il existe plus de 4 300 systèmes de référence, chacun ayant des paramètres différents. Néanmoins, le système géodésique le plus répandu est le WGS 84 (World Geodetic System 1984) , notamment utilisé par le système de positionnement par satellite GPS .

Définition 2.2 (Coordonnées géographiques). Le système de coordonnées géographiques est un système de coordonnées qui permet à chaque emplacement de la Terre d’être matérialisé par un ensemble de chiffres, lettres ou symboles. Les coordonnées géographiques découlent d’un système géodésique et sont généralement représentées sous la forme d’une latitude (notée lat ou ϕ) et d’une longitude (notée lon ou λ). Elles enregistrent les angles par rapport à des plans de référence. Comme montré sur la Figure 2.1, la latitude est une valeur angulaire exprimant le positionnement Nord ou Sud d’un point de la Terre par rapport à l’équateur. La longitude est quant à elle une valeur angulaire exprimant le positionnement Est ou Ouest d’un point de la Terre par rapport au méridien de Greenwich. Il convient de noter que, comme la Terre n’est pas parfaitement ronde, la longitude n’est pas une mesure proportionnelle et l’écart (ou distance) entre deux longitudes varie selon la latitude. À titre d’exemple, au niveau de l’équateur (latitude de 0°), un écart de 1° de longitude représente 111, 3 km, tandis qu’à Saint Pétersbourg (latitude de 59°), un écart de 1° de longitude ne vaut plus que 55, 80 km.

Définition 2.3 (Distance géographique). Le calcul de la distance entre des coordonnées géographiques est établi sur un certain niveau d’abstraction, qui ne fournit donc pas une distance exacte. Les abstractions courantes pour la distance entre deux points géographiques sont : une surface plane, une surface sphérique et une surface ellipsoïdale.

Dans le cas d’une approximation ellipsoïdale de la surface de la Terre (une sphère oblate), la précision est d’environ 0, 5 mm (Vincenty, 1975). Pour calculer cette distance, Vincenty (1975) a proposé deux méthodes itératives. La première méthode, directe, permet de calculer l’emplacement d’un point qui est à une distance et un azimut (c.-à-d. direction) donnés d’un autre point. La deuxième méthode, indirecte, permet de calculer la distance géographique et l’azimut entre deux points donnés. Cette mesure est largement utilisée en géodésie lorsque des précisions élevées sont requises. Bien que la méthode inverse de Vincenty soit plus précise que les distances détaillées ci-dessus, elle repose sur une méthode itérative qui peut se révéler coûteuse en temps d’exécution. Dans la suite de ce manuscrit, sauf indication contraire, nous utiliserons par défaut la distance Haversine pour calculer la distance géographique entre deux coordonnées. Par commodité, distH(x, y) sera simplifiée par dist(x, y).

Définition 2.4 (Projection cartographique). La projection cartographique est un ensemble de techniques géodésiques permettant de représenter une surface non plane dans son ensemble sur la surface plane d’une carte. Il existe différents types de projection, chacune ayant des propriétés diverses, déformant plus ou moins les formes et les aires des continents, comme le présente la Figure 2.3. La plus commune étant celle de Mercator (Figure 2.3a). La projection ne doit pas être confondue avec le système de coordonnées géographiques qui permet de localiser un point à la surface de la Terre.

Définition 2.5 (Projection UTM). La projection Transverse Universelle de Mercator ou Universal Transverse Mercator (UTM) en anglais, dont un extrait est présenté en Figure 2.4, est un type de projection cartographique conforme de la surface de la Terre. Une projection conforme permet de conserver les angles et donc les formes des continents. Pour couvrir la surface de la Terre, celle-ci est découpée en 60 fuseaux de 6 degrés en séparant l’hémisphère Nord et l’hémisphère Sud, soit au total 120 zones. Le système étant rectangulaire et mesuré en kilomètres, nous pouvons directement recouper chaque zone en grilles plus fines de 200 mètres par 200 mètres par exemple.

Définition 2.6 (Objet géotextuel). Un objet géotextuel, ou plus simplement un géotexte, est un objet textuel géotaggé, c.-à-d. associé à des coordonnées géographiques. Les géotextes sont par exemple des tweets géotaggés sur Twitter, des points d’intérêts (restaurants, bars, musée,etc.) sur Foursquare ou Google Place, des photos géotaggées sur Instagram ou Flickr, etc..

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

INTRODUCTION
1 contexte et contribution de la thèse
1 Contexte et problématique
1.1 Contexte de la thèse
1.2 Problématique de la thèse
2 Contributions
3 Organisation du mémoire
2 prédiction de l’emplacement à partir de flux d’informations dans les réseaux sociaux
1 Introduction à la recherche d’information géographique
1.1 Concepts fondamentaux
1.2 Index et index géographique
1.2.1 La nécessité d’indexer les documents
1.2.2 Indexation avec des listes inversées
1.2.3 Indexation spatiale
1.2.4 Indexation spatio-textuelle
1.3 Requête géographique
1.4 Ordonnancement de pertinence
1.4.1 Notion de pertinence pour la RIG
1.4.2 Calculer et combiner la similarité spatiale
1.5 Principale problématique et périmètre de la thèse
2 Résolution de la portée géographique des géotextes
2.1 Prédiction de l’emplacement du contenu généré par l’utilisateur
2.1.1 Inférence de l’emplacement à partir du contenu
2.1.2 Inférence de l’emplacement à partir du contexte
2.2 Prédiction de l’emplacement mentionné
2.2.1 Reconnaissance de l’emplacement mentionné
2.2.2 Désambiguïsation de l’emplacement mentionné
2.3 Prédiction sémantique de l’emplacement
2.3.1 Appariement d’objets non-géotaggés
2.3.2 Appariement d’objets géotaggés
3 Discussion
4 Conclusion
3 réseaux de neurones pour la représentation distribuée et l’appariement de textes et de géotextes
1 Réseaux de neurones et apprentissage profond : concepts préliminaires
1.1 Concepts préliminaires
1.1.1 Neurone formel
1.1.2 Paramètres libres
1.1.3 Fonction de combinaison
1.1.4 Fonction d’activation
1.2 Réseau de neurones artificiels
1.3 Architectures populaires en recherche d’information
1.3.1 Réseau de neurones à convolution (CNN)
1.3.2 Réseau de neurones récurrents (RNN)
1.3.3 Transformer
1.4 Algorithmes d’apprentissage des modèles neuronaux
1.4.1 Fonction de coût
1.4.2 Rétropropagation du gradient
1.5 Surapprentissage et régularisation
2 Représentations distribuées de textes et de géotextes
2.1 Représentations distribuées de textes
2.1.1 Représentations distribuées des mots
2.1.2 Représentations distribuées des phrases
2.1.3 Apprentissage augmenté par des ressources externes
2.2 Représentations distribuées de géotextes augmentées par les contextes spatiaux
2.2.1 Représentations distribuées des mots
2.2.2 Représentations distribuées des géotextes
3 Réseaux de neurones profonds pour l’appariement de textes
3.1 Formulation unifiée des modèles d’ordonnancement
3.2 Modèles axés sur la représentation
3.3 Modèles axés sur l’interaction
4 Discussion
5 Conclusion
CONCLUSION