Ajustement des SIR lissés sur la défaveur sociale et distribution spatiale de l’incidence 1 Objectif de l’ajustement des nouveaux SIR lissés 

Le registre MONICA Lillois

Description du registre

Le registre MONICA de Lille recense l’ensemble des événements aigües liés à des maladies cardiovasculaires subis par des habitants de la MEL depuis 1985. A l’origine, sa création avait pour objectif de caractériser les effets des facteurs individuels liés à la mortalité par MCV (pour rappel, il s’agit de la consommation de tabac et d’alcool, d’hyperglycémie…). Il constitue une base de données précieuse puisque chaque cas est caractérisé suivant plusieurs variables. Les dates et les adresses des patients ayant subis une attaque liée à une MCV sont aussi renseignés afin de réaliser des études de variations spatiales et temporelles d’incidence.
Le registre MONICA de Lille compte 15 variables décrivant les caractéristiques du patient ayant eu un cas de CI. Chaque ligne du registre correspond à un cas de CI. Un patient peut avoir été victime de plusieurs accidents, et par conséquent se retrouver plusieurs fois dans le registre.
Chaque cas se voit attribuer un identifiant numérique appelé « IDNUM » dans le registre. Ces identifiants sont donc uniques.
Chaque patient se voit attribuer un identifiant appelé « ID_SUJET » dans le registre.
Les quartiers d’habitation qui ont été géolocalisés grâce aux adresses ont un identifiant spatial appelé « SP_ID », soit le code que l’INSEE attribue à chaque IRIS français.
L’âge et le sexe du « cas » est inscrit dans le registre. Puis la présence d’antécédent de cardiopathie est aussi inscrite : « 1 » si le cas a déjà été victime d’une attaque, « 2 » dans le cas contraire, « 9 » pour les cas non-renseignés.
Le jour, le mois et l’année de l’épisode de CI est inscrit dans le registre. La survie après 28 jours est aussi notée (« 1 » en cas de survie, « 2 » en cas de décès, « 9 » pour les cas nonrenseignés) tout comme le nombre de jours, d’heures et de minutes de survie après un événement. De plus, la survie estimée après un cas constitue aussi une variable : 1 pour une survie inférieure à 1h (à partir du début des symptômes), 2 pour une survie de 1 à 24h, 3 pour une survie supérieure à 24h et où l’on connaît le nombre de jours de survie, 4 pour une survie inférieure à 24h, 5 pour une survie supérieure à 24h mais on ne connaît pas le nombre de jours de survie (car la date de début de l’événement est inconnue), 8 lorsque le cas est vivant au 28ème jour et 9 pour les cas non-renseignés.
Enfin, les différentes catégories d’épisodes sont inscrites dans le registre. Il en existe huit notées ainsi : 1 pour les infarctus du myocarde (vivant ou décédé), 2 pour les décès coronaire (décès avec des symptômes et/ou des antécédents coronaires non diagnostiqués en catégorie 1, 5, 6 ou 7), 3 pour les morts subites en moins de 24h sans cause identifiée, 4 pour les sujets décédés pour une raison autre que d’origine coronaire, 5 pour les syndromes coronariens aigus (vivant ou décédé), 6 pour les angors instables (vivant ou décédé), 7 pour les autres épisodes d’insuffisance coronaire aigue (vivant ou décédé), et 9 pour les sujets décédés d’une cause inconnue.
Néanmoins, pour l’étude MONICA de Lille, tous les cas n’ont pas été conservés. L’étude a mis en place des critères d’inclusion, afin de cibler une certaine partie de la population : celle qui est considérée le plus « à risque » dans la MEL.

Critères d’inclusion

Tout d’abord, ne sont conservés que les cas ayant été répertoriés entre le 1er janvier 2008 et le 31 décembre 2011, dates fixées par l’équipe de recherche.
Ensuite, seuls les cas âgés de 35 à 74 ans sont intégrés dans le registre. Ici, l’objectif est de réunir les cas par tranche d’âge (35-44 ans, 45-59 ans, 60-74 ans) et que celles-ci soient pertinentes d’après la revue de la littérature (Tunstall-Pedoe et al., 1994 ; Richard, 1988).
Puis, tous les cas ayant eu une attaque telles qu’un infarctus du myocarde, un décès coronaire, une mort subite en moins de 24H, un syndrome coronaire aigu (vivant ou décédé), un angor instable (vivant ou décédé) ou tout autre forme d’insuffisance coronaire aigüe (vivant ou décédé) a été inscrit dans la base. Sont donc exclus, les catégories de cas 4 et 9.
De plus, n’ont été conservés que les cas n’ayant pas d’antécédents de cardiopathie ischémique avant leur événement. L’objectif étant de travailler sur une base d’incidence, seuls les premiers cas ont de l’intérêt pour l’étude.
Enfin, parmi les cas, seules les personnes résidant dans la Métropole lilloise sont intégrées. Ce qui exclut les touristes, mais aussi les résidant ayant eu une attaque hors de la MEL. De plus, il arrive que certains cas se localisent dans des IRIS que l’INSEE considère comme non peuplés. Les cas se trouvant dans ces IRIS sont donc exclus.
Afin donc de connaitre l’IRIS d’habitation des cas pour savoir s’il peut être inclus dans le registre ou non, un géocodage a été effectué. Cette étape va ainsi pouvoir permettre de mettre en application les critères d’inclusion de connaître le nombre final de cas incidents sur lequel l’étude va porter.

Le géocodage

Nécessité

Lors du début du stage, les cas retenus pour les analyses étaient les cas incidents sur deux années, entre le 1er janvier 2008 et le 31 décembre 2009. Après un géocodage réalisé préalablement aux débuts des analyses que ce stage devait permettre d’effectuer, le nombre de cas étaient de 2 727. Un tri sur la présence d’antécédents ou non a ensuite pu permettre de constater une base d’incidence de 1694 cas, soit 1694 personnes ayant contracté une cardiopathie ischémique au cours de ces deux années.
Cependant, au cours de ces analyses, il a été constaté que certains résultats n’étaient pas significatifs mais que leurs p-value étaient proches de la significativité, ce qui n’indique pas forcément une invalidité de l’hypothèse, mais plutôt un manque de puissance statistique. Aussi, après concertation avec les principaux chercheurs impliqués dans cette étude, il a été décidé d’inclure deux années d’incidence supplémentaires afin de d’augmenter la puissance statistique. L’idée ayant été validée, les cas datant du 1er janvier 2010 au 31 décembre 2011 ont été ajoutés aux analyses de départ.

Méthode

L’exercice de géocodage constitue le fait d’attribuer des coordonnées spatiales (X,Y ou latitude et longitude, ce qu’on appelle un système de coordonnées) à des points dans un espace. Travaillant sur une base d’adresses, le but était de connaitre à quel IRIS appartenait chaque adresse, afin de réaliser dans un premier temps des analyses statistiques, mais aussi dans un souci d’éthique et de conservation d’anonymat des cas dont les adresses étaient entre les mains des chercheurs de l’étude, comme expliqué précédemment.
Les adresses de cas de ces deux dernières années d’études n’étaient pas géocodées à l’IRIS, ce qu’il a donc fallu effectuer avant de réaliser quelconque analyse statistique ou spatiale. Mais ce géocodage connaissait une contrainte : ne pas utiliser internet. Comme expliqué précédemment, l’anonymat des personnes ayant eu cas de CI lors de ces deux années ne devaient en aucun cas avoir le risque d’être diffusé ou rendu publique. Le géocodage sans accès à internet a donc été recommandé (Annexe 1). Pour ce faire, le choix a été de télécharger deux bases réunissant la quasi-totalité des adresses françaises : la Base d’Adresses Nationales (BAN) et la BD Adresses de l’IGN.
Dans ces deux bases de données, les adresses sont rangées par numéro de voie, type de voie (rue, allée, boulevard…), nom de voie, code postal et commune. Pour chaque adresse, les coordonnées spatiales sont connues. Le choix d’utiliser les deux bases étaient d’abord par prévention, car certaines adresses auraient pu se trouver au sein d’une des bases et pas dans l’autre.
Une fois ces deux bases acquises, il a fallu réaliser le géocodage à l’Institut Pasteur, sur l’un des ordinateurs fournis par l’équipe en charge de l’étude car il était sécurisé (pas de connexion internet). La base MONICA des années 2010-2011 comprenait 2992 adresses. Mais avant de commencer à attribuer des coordonnées spatiales à chacune de ces adresses, il a fallu « nettoyer » la base MONICA afin que les adresses qui étaient inscrites dans le registre correspondent exactement à la façon dont étaient écrites celles des bases nationales. La combinaison était ainsi : Numéro de voie, type de voie, nom de la voie, commune. Toutes les adresses étaient écrites en majuscule et sans accent. Le détail de cet exercice est rédigé en annexe 1.
Les coordonnées spatiales qui étaient recherchées dans ces bases de données correspondaient à un système de coordonnée classique appelé WGS 1984, basant sa latitude sur l’équateur et sa longitude sur le Méridien de Greenwich. Mais ces données ont ensuite été convertie vers un système de coordonée français appelé « Lambert 93 ». Différent d’un système basé sur des points de longitude et de latitude, le système de coordonnées « Lambert 93 » est organisé selon un repère dit « cartésien ». Il prend pour base de latitude le parallèle 44°N et pour base de longitude la Méridien de Greenwich pour base de longitude.
La fonction « RECHERCHEV » de l’outil Excel a permis de faire correspondre les coordonnées spatiales des adresses des bases nationales à celles de la base MONICA. Cette technique a permis de géocoder 2 196 cas sur les 2 992, soit environ 73%. Les 796 adresses n’ayant pas trouvé de correspondance ont donc toute dû être géocodées manuellement, c’està-dire en utilisant un autre ordinateur, cette-fois ci connecté à internet, et tapées dans l’outil Google Maps afin de récupérer les coordonnées spatiales. Cette deuxième étape a pris environ 14h de travail et a permis de géocoder 761 adresses sur les 796 restantes. Les 35 dernières adresses ont été soumis à une vérification, qui a nécessité d’aller chercher les dossiers d’admissions des patients lors de leur de leur événement de cardiopathie. Après vérification, seulement 7 adresses se sont retrouvées sans coordonnées spatiales : 5 patients sans domicile fixe, une « adresse inconnue » et un patient dont l’hypothèse est que son adresse n’a pas dû être bien comprises par le professionnel de santé qui l’a pris en charge lors de la rédaction de son dossier. Sur 2992, 2985 ont pu être géocodées. Puis, il a fallu exclure les cas ayant un diagnostic qui ne seraient pas utiles pour des études futures : la catégorie 4 (i.e. les sujets décédés pour une raison autre que d’origine coronaire, c.f figure 8) et la catégorie 9 (i.e. les sujets décédés d’une cause inconnue). Finalement, le registre d’étude MONICA, après géocodage et jointures des cas des années 2008/2009 et 2010/2011, comptait 5448 cas entre le 1er janvier 2008 et le 31 décembre 2011.
Le registre MONICA géocodé, sans l’ensemble des critères d’inclusion, comprend donc 5448 cas. Néanmoins, comme indiqué précédemment, seules les lignes comprenant des cas n’ayant pas d’antécédent ont été conservées. La base des cas incidents se réduit alors 3 326 cas.
En ce qui concerne la sélection des IRIS, la base de travail était au départ les 504 IRIS qui composent la Métropole Européenne de Lille. Un premier tri a été effectué avec les données issues de la base « Population en 2009 » de l’INSEE afin de retirer les IRIS non-peuplés, soit 31 IRIS, ce qui porte le total d’IRIS d’étude à 473. Grâce à ce tri, la base des cas incidents a pu être modifié une dernière fois, où seuls les cas localisés dans des IRIS « peuplés » ont été conservés, soit finalement 3 268 cas.
L’étude MONICA a donc utilisé les données de 3 268 patients localisés dans 473 IRIS de la Métropole Lilloise.
L’organigramme ci-dessous résume le processus d’inclusion/exclusion des cas du registre et des IRIS pour l’étude.

Outils de caractérisation

Bases de données INSEE

Critère de jugement principal

Le critère de jugement principal est la variable qui va aider à déterminer l’influence des facteurs étudiés sur la variabilité d’un phénomène. En ce qui concerne le registre MONICA, l’incidence est le critère de jugement principal car l’objectif est de savoir si celle -ci est significativement influencée par des facteurs environnementaux, ici la défaveur sociale et la pollution atmosphérique. Cette incidence peut se traduire de plusieurs manières. En effet, l’incidence est un indicateur qui peut être discret (nombre de nouveaux cas sur une période) mais peut aussi désigner une proportion : on parle alors de taux d’incidence. Celui-ci représente un rapport entre le nombre de nouveaux cas sur une période et la population « à risque » sur cette même période. Pour le cas de l’étude MONICA, le taux d’incidence sera mesuré grâce au nombre de cas du registre sans antécédents (3 268 cas) rapporté sur la population « à risque », c’est-à-dire ici le nombre d’habitants de la MEL âgés entre 35 et 74 ans. Pour connaitre la taille de cette population, des bases de données INSEE ont été sélectionnées.

Les bases de données

Afin d’obtenir le nombre d’habitants dans la Métropole, les bases de données utilisées ont été téléchargé sur le site internet de l’INSEE. Néanmoins, la base la plus commune « Population en [Année recherchée] » n’avait pas les mêmes tranches d’âges que celles que la registre MONICA propose. Tandis que le registre a effectué un découpage en 3 tranches d’âges (35-44 ans, 45-59 ans, 60-74 ans), la base de l’INSEE disposait d’un découpage plus large pour la première tranche, la limite basse étant de 30 ans. Or pour ne pas fausser les résultats, une autre base a dû être spécialement demandée auprès de l’INSEE. Celle-ci possédait un découpage particulier qui indiquait l’effectif de chaque personne par âge et par IRIS, ce qui a permis de pouvoir réorganiser les tranches d’âge pour correspondre avec les données du registre.
De plus la base sélectionnée est celle datée de 2009. L’hypothèse a été faite que la population de la MEL entre 2008 et 2011 n’avait pas assez évoluée pour altérer les résultats. Pour vérifier cette hypothèse, un calcul du solde migratoire a été effectué (« Le solde migratoire est la différence entre le nombre de personnes qui sont entrées sur le territoire et le nombre de personnes qui en sont sorties au cours de l’année. » INSEE, 2016). Le résultat de celui-ci a montré une augmentation d’environ 1% de population, avec une augmentation annuelle de 0,3% entre 2009 et 2010. Ces données étant calculées sur la population totale et ces résultats montrant une quasi-stabilité de la population, le choix a été fait de conserver uniquement la base de population en 2009 et de considérer la population de la MEL comme constante. De plus, à titre de comparaison, le solde migratoire français correspond à une augmentation annuelle d’environ 0,7% de sa population, ce qui renforce la décision de principe de stabilité de la population (INSEE, 2015). De surcroit, d’autres bases ont été téléchargées sur la plateforme internet de l’INSEE. Mais ces données, issues de recensements, ont cette fois pour vocation d’aider à mesurer la défaveur sociale. Pour ce faire, les bases d’Activités, de Logements, de Couple-Famille-Ménage et de Diplômes ont été extraites.

Outils de mesure de la défaveur sociale : les indices

Description des indices

Ces données de population n’ont pas seulement pour objectif de servir à calculer l’incidence. En effet, celles-ci seront utilisées aussi pour mesurer la défaveur sociale. En effet, la plupart des calculs pour mesurer cette défaveur nécessite de connaitre l’effectif de population à l’intérieur des unités spatiales d’études (ici, les IRIS). Pour mesurer la défaveur, il existe des outils qui permettent de rassembler un certain nombre de variables qui peuvent rendre compte d’une certaine défaveur. Ces outils s’appellent des « indices ». Ces indices sont « composites », c’est-à-dire qu’ils sont calculés à partir de plusieurs variables. Chaque indice à sa méthode de calcul, mais le résultat est toujours une valeur unique qui traduit une tendance ou non à la défaveur. Tous les indices se traduisent différemment.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières
REMERCIEMENTS 
MOTS-CLES / KEY WORDS 
RESUME 
ABSTRACT 
TABLE DES SIGLES 
PARTIE INTRODUCTIVE – Géographie et Maladie Cardio-vasculaire : Contexte et description de l’étude MONICA 
Chapitre introductif : Contexte épidémiologique
1. Les Maladies Cardiovasculaires (MCV)
1.1 Définition
1.2 Epidémiologie à travers le monde
2. Le Projet Monica
2.1 Étude générale
2.2 Le registre
3. Problématique et objectifs
PARTIE I – MATERIEL ET OUTILS D’ANALYSE 
Chapitre 1 : Territoire d’étude et cadre de recherche
1. Territoire d’étude et échelle d’analyse
1.1 Site et situation de la MEL
1.2 Histoire du développement de la MEL
1.3 La Métropole aujourd’hui
1.4 Description de l’échelle d’étude : l’IRIS
2. Revue de la littérature
2.1 Méthodologie de la revue de la littérature
2.2 Principaux enseignements
Chapitre 2 : Cadre d’étude
1. Le registre MONICA Lillois
1.1 Description du registre
1.2 Critères d’inclusion
2. Le géocodage
2.1 Nécessité
2.2 Méthode
Chapitre 3 : Outils de caractérisation
1. Bases de données INSEE
1.1 Critère de jugement principal
1.2 Les bases de données
2. Outils de mesure de la défaveur sociale : les indices
2.1 Description des indices
2.2 Le French EDI
2.3 Le Fdep
2.4 Le choix de l’indice
3. Mesurer la pollution atmosphérique
3.1 Le choix des polluants
3.2 Méthode de captation
3.3 Principales sources d’émissions
3.4 Les indicateurs de pollution
PARTIE II – ANALYSE SPATIALE D’INCIDENCE ET CARACTERISATION DES PRINCIPAUX FACTEURS DE RISQUES
Chapitre 1 : Description du registre MONICA
1. Profil des cas incidents
2. Les taux d’incidence : bruts et standardisés
2.1 Taux d’incidence brute
2.2 Les différents types de standardisation
2.3 Taux d’incidence standardisés par âge
2.4 Taux d’incidence standardisés par âge et par sexe
Chapitre 2 : Distribution spatiale de l’incidence et détection de clusters spatiaux
1. Distribution spatiale des rapports standardisés d’incidence
1.1 Méthode de calcul
1.2 Limites des SIR bruts
1.3 Lissage des SIR par modèle bayésien
2. Détection de clusters spatiaux
2.1 Objectif
2.2 Méthodes
2.2.1 Choix du type de cluster
2.2.2 Phase de détection du cluster
2.2.3 Phase d’inférence
2.2.4 Choix du type de scan
2.3 Résultats des détections
Chapitre 3 : Caractérisation des clusters spatiaux et influence des facteurs de risque dans les variations spatiales d’incidence
1. Objectif
2. Les stratégies de comparaisons de groupes d’IRIS
3. Les méthodes statistiques de comparaison
3.1 Les tests de Kruskal-Wallis
4. Résultats
4.1 Première stratégie
4.2 Deuxième stratégie
5. Limites des stratégies d’analyse de la caractérisation des clusters
PARTIE III – La défaveur sociale : unique facteur de risque ?
Chapitre 1 : Ajustement des SIR lissés sur la défaveur sociale et distribution spatiale de l’incidence
1. Objectif de l’ajustement des nouveaux SIR lissés
2. Ajustement et lissage des SIR ajustés sur la défaveur sociale par régression écologique
3. Résultats des SIR lissés ajustés sur la défaveur sociale
Chapitre 2 : Détection de clusters spatiaux ajustés sur la défaveur sociale
1. Objectif de la détection de nouveaux clusters spatiaux
2. Technique d’ajustement par régression de Poisson
3. Résultats
Chapitre 3 : Régressions écologiques ajustées sur la défaveur sociale
1. Objectif de la régression écologique ajustée
2. Méthodologie de l’analyse bivariée
3. Résultat des régressions écologiques ajustées sur la défaveur sociale
3.1 Analyse bivariée
3.2 Analyse multivariée
DISCUSSION 
CONCLUSION 
BIBLIOGRAPHIE 
SITOGRAPHIE 
TABLE DES ILLUSTRATIONS 
ANNEXES 
ANNEXE 1 : GEOCODAGE D’ADRESSE A L’IRIS
ANNEXE 2 : DETECTION DE CLUSTERS ISOTONIQUES PAR LE LOGICIEL SATSCAN
ANNEXE 3 : LES TESTS POST HOC DES TESTS KW SUR FDEP, POLLUTION ET MOS ………

Rapport PFE, mémoire et thèse PDFTélécharger le rapport complet

Télécharger aussi :

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *