Intelligence artificielle et réseau scientifique et technique

Le RST : un concept du ministère de l’environnement

Le réseau scientifique et technique (RST) est un regroupement d’organismes associés aux thématiques du ministère de l’environnement (MTES). Il est chapeauté par la sous-direction de l’animation scientifique et technique (AST) de la direction de la recherche et de l’innovation (DRI) au sein du commissariat général au développement durable (CGDD). A ce titre, le RST est en soi un concept, comme l’est le CGDD. C’est un concept propre au MTES, hérité de son histoire d’ingénierie publique et un marqueur de son évolution. Tentons de dégager le concept par une image miroir. Le concept de RST existant au MTES est par exemple inconnu du ministère de l’enseignement supérieur (MESRI) qui pour sa part a une approche plus universitaire de la notion de réseau. Ceci conduit le MESRI à un suivi très éloigné par thématiques, l’ANR ayant le véritable contrôle des financements. Le MESRI s’adapte à une culture très individualiste où la notion de gestion des ressources humaines reste l’apanage des grands organismes et corps de recherche qui lui sont rattachés (INSERM, CNRS, CEA, universités,…). L’autonomie obtenue par le statut d’agence, le pouvoir d’influence ou des lois comme celle relative aux libertés et responsabilités des universités (loi LRU de 2007), rend très difficile l’exercice d’une tutelle fine. Cette tutelle peut même être inversée car à l’autonomie importante s’ajoute la cohérence, la taille et la pérennité des établissements rattachés au MESRI. Le MESRI s’est ainsi reporté sur la stratégie nationale de recherche pour conserver un rôle, dans l’espoir d’une vision plus globale et transverse. Au contraire, la tradition d’ingénierie d’un ministère plus opérationnel amène le MTES à une interaction plutôt avec des institutions que de manière directe avec des agents qui jouiraient de la liberté propre aux chercheurs. La proximité de la DRI avec les directions centrales du ministère, comme la DGITM ou la DGPR, la rapproche des décideurs publics et institutionnels qui déterminent ou approuvent les choix stra3 tégiques des organismes. Le paysage de l’ingénierie publique est paradoxalement bien plus éclaté que celui de la recherche publique. La spécialisation extrême des sujets a requis la constitution d’équipes de taille modeste, de l’ordre d’une centaine de personnes, suffisamment cohérentes pour être efficaces sur les politiques et thématiques qui les sollicitent. Les grands remembrements 1 ne font qu’occulter cet état de fait. Les directions centrales ont donc eu pour rôle naturel de fournir une cohérence générale à cet ensemble très diversifié. Il n’existait pas alors d’établissement parmi les organismes directement rattachés au MTES qui puisse choisir de s’abstraire de sa tutelle et de sa relation avec le réseau ministériel sans perdre à la fois ses missions, son financement et sa cohérence. Pour une part importante, le personnel lui-même est dépendant des corps techniques du ministère (ITPE, IPEF,…), ce qui contraint l’autonomie des institutions. Ce lien étroit a entraîné la pérennité des structures aussi longtemps que le ministère associé disposait d’une cohérence. C’est pourquoi la proximité même des organismes à leur tutelle les a confrontés à des bouleversements quand leurs tutelles, aussi bien corps d’Etat que ministères, évoluaient. En effet l’observation du RST souligne que la stabilité des organismes dépendant de façon prépondérante de l’industrie (BRGM, IFPEN) ou de l’enseignement supérieur (CEA, CNES, MNHN) va de pair avec l’instabilité chronique des établissements liés à l’environnement (IRSTEA, IFSTTAR, Cerema, IGN). Cette instabilité est à mettre en regard des « batailles homériques ou guerres picrocholines » [Lascoumes et al, 2014] qui ont déterminé la ligne du MTES à sa fondation. La fondation du ministère est un point central car la naissance du concept de RST sous sa forme actuelle provient de la création du CGDD qui reçoit en 2008 dans ses attributions la définition des « orientations du réseau des organismes scientifiques et techniques du ministère et […] leur mise en œuvre ainsi [que] la diffusion des produits de la recherche et de l’innovation technique » . L’idée de RST porte les même ambitions de transversalité et de mutualisation que le CGDD. La sous-direction AST correspondante tire son existence de la présence d’un RST, qui lui-même renforce la légitimité du CGDD face aux autres directions centrales par la maîtrise de la dimension recherche des thèmes du MTES. La cohérence institutionnelle du nouveau ministère et la recherche d’une culture commune ont ainsi pris racine dans la DRI, qui succède à la Direction de la recherche et des affaires scientifiques et techniques (DRAST) qui existait dans les formes antérieures du MTES.

Le RST : un réseau et des institutions dans un contexte en évolution rapide

Pour les institutions qui proposent des prestations, la concurrence s’est accrue. La montée en compétences du privé ou du monde associatif est notable, aussi bien par la maîtrise des données, comme OpenStreetMap ou GoogleMaps en données géographiques, que pour la maîtrise technique, comme Setec ou Eren en inspection des infrastructures, ou même en recherche et innovation, comme Plume Labs ou Breezometer sur la qualité de l’air. L’origine publique (Caisse des Dépôts, SCNF, RATP,…) ou historiquement privée de ces concurrents importe peu car ces organismes se transforment rapidement. Des spin-offs, comme Altametris (ex-pôle drones de SNCF Réseau) ou Spygen (issu du laboratoire d’Ecologie Alpine), éloignent progressivement la partie innovante des organismes de leur attache publique, à mesure que ces organismes s’autonomisent eux-mêmes. L’heure est aux agences d’agences, comme l’ITE Efficacity ou l’IRT SystemX vis-à-vis de l’ANR, qui bénéficient de plus d’autonomie pour s’adresser à un marché dont le référentiel n’est plus exclusif à la puissance publique, mais dont les clients restent largement les collectivités. Cet écosystème plus riche peut être une chance, car il permet de repenser les missions des établissements du RST, de se focaliser sur l’innovation en laissant le soin des capacités organisationnelles et de passage à l’échelle à d’autres acteurs. Mais la transformation des acteurs a lieu au rythme du numérique, en particulier dans la dernière décennie. En témoigne la reconversion des constructeurs automobiles pour qui l’électronique devient la source principale de valeur, par les services. Métiers et missions sont réévalués, ce qui engendre des frictions, car les institutions du RST sont souvent les têtes de leurs propres réseaux opérationnels (STAC, CETU) ou en incorporent une partie (AFB, Cerema, Météo-France). Le Programme d’investissements d’avenir (PIA) lancé en 2010 accompagne cette transformation générale. Le numérique, qui n’y était pas une priorité, gagne en visibilité après la pénétration exceptionnelle du smartphone depuis 2012. Sa traduction budgétaire dans le fonds pour la transformation de l’action publique (FTAP) offre une marge de manœuvre pour adapter les institutions au nouveau contexte (MétéoFrance a remporté un appel à projet de 2,9M d’euros). Par ailleurs, au niveau des ministères, des réseaux (Supervision générale des données au CGDD, qui s’est dotée d’une doctrine en juin 2018) et des pôles (DINSIC-Etalab) se constituent et s’affirment. Les collectivités ont les leurs, comme Polis ou l’IDDRIM, et la dimension européenne ou internationale se développe. Voici donc le contexte dans lequel la DRI et les organismes du RST s’interrogent sur ce que l’IA pourrait leur apporter.

Les décideurs aux prises avec les modèles

Quelle différence entre un décideur et un simple acteur ? Le décideur bénéficie d’un « point de vue de surplomb » [Desrosières, 1993, p66]. Ses décisions l’engagent moins personnellement que celles d’un acteur, au même titre que le casino peut s’autoriser plus de pertes que le simple joueur et a par conséquent accès à d’autres outils que des martingales illusoires. Entre les deux acteurs, il y a une dissymétrie des rôles et de l’information. Alors que le joueur n’a accès qu’à des probabilités de croyance, depuis son point de vue subjectif, le décideur aspire à l’objectivité. Ceci rappelle la longue querelle statistique entre bayésiens et fréquentistes, sans cesse remise au goût du jour, comme dans [François et Frezal, 2016] pour le secteur de l’assurance. Le vocabulaire autour de l’IA sous-entend fréquemment un risque de domination de l’être humain. Si une réponse classique est qu’un programme informatique est aujourd’hui incapable de créativité et de dépasser sa grammaire, au-delà de la crainte millénariste, un modèle peut-il dominer un décideur ? Il n’y a pas besoin d’invoquer une intelligence supérieure pour obtenir un tel cas de figure. Un modèle peut se contenter de devenir une référence partagée qui par son formalisme fonde et contraint une communauté. Dans [François et Frezal, 2016], les auteurs montrent comment la directive Solvabilité II s’est imposée en façonnant les cadres de pensée des compagnies d’assurance. « Les modèles et les hypothèses implicites qui les fondent jouent en effet, dans la sphère financière, le rôle d’une institution : ils constituent des cadres a priori, normatifs et partagés. » Ici il s’agit du vocabulaire stochastique pour la gestion du risque, la norme renvoyant à une contrainte sur le risque de défaut d’une entreprise. L’acceptation de ces outils se fait par la démission volontaire des responsabilités humaines : « [Les statistiques] permettent, dès lors, d’éviter la mise en critique et de la nécessité de se justifier ex post. » Des indicateurs comme le classement de Shanghai dans l’enseignement supérieur n’agissent pas différemment. Proposer un modèle permet par ailleurs de discuter du biais d’expert. En décrivant un objet par d’autres représentations, il peut y avoir une confrontation avec l’expertise antérieure, qui ne vise plus seulement à imiter mais à compléter ou à souligner les limites, du modèle comme de l’expert. Ces réflexions sur les modèles ne sont pas exclusives au phénomène de l’intelligence artificielle. Quelle est donc la conséquence spécifique à la sophistication des modèles ? Le monde statistique usuel est surtout empreint de linéarité. Les notions de moyenne ou de variance en témoignent. Une large part des méthodes d’apprentissage correspondent à l’extension au cadre non-linéaire. Or l’être humain ne conçoit aisément que les dépendances linéaires (« la croissance d’une valeur induit la croissance d’une autre »). Le non-linéaire ne se prête pas à des raisonnements aussi sommaires. Il faut accepter pour se servir de tels outils de se départir des limites du langage vernaculaire pour embrasser l’abstraction mathématique. Cette remarque renvoie au caractère abusif de « boîte noire » assigné à des modèles. Tout modèle commence par être une « boîte noire » avant qu’il ne soit compris, mais la montée en abstraction fait qu’il ne le sera que par un public restreint. Comme le rappelait John Von Neumann ([von Neumann, 1955, p157-164], d’après [Mawhin, 2017, p89]) : « Certaines des théories que nous avons adoptées, certains des modèles qui nous rendent très heureux et dont nous sommes très fiers ne paraîtraient probablement pas particulièrement simples à quelqu’un à qui on les expose pour la première fois. » La fin de la linéarité a des conséquences considérables car elle remet en cause l’idée et la légitimité de la moyenne ordinaire. Ceci ouvre la porte à l’individualisation. Un internaute aujourd’hui n’est plus soumis à une publicité généraliste s’adressant à un hypothétique auditeur moyen. Il est traité dans sa singularité, la sortie du modèle est adaptée à son historique d’achat ou de navigation 13. Dans l’assurance, les entreprises cherchent à mieux segmenter le public afin d’adapter le produit. Nous assistons progressivement à la fin de la mutualisation, phénomène rendu possible par la complexité des modèles utilisés. Il fallait pour cela une classe de modèles suffisamment riche pour traiter efficacement la diversité, car une solution sur-mesure non automatique, si elle était envisageable, n’était pas économiquement viable. Comme l’écrit Olivier Fliche de l’Autorité de contrôle prudentiel et de résolution : « Dans le secteur financier, en particulier en assurance, le jeu de la concurrence incite à la segmentation et, d’une certaine façon, à une démutualisation des risques qui peut aller jusqu’à une exclusion, explicite ou par les prix, d’une partie de la population. » [Enjeux Numériques, 2018a, Fliche, p30]

Survol technique de l’apprentissage automatique

Cette section cherche à souligner les principes communs aux nombreuses méthodes, sur un plan formel ainsi que sur un plan mathématique. Elle ne se prétend pas exhaustive dans la présentation des techniques. Je recommande la lecture du chapitre 1 du rapport sur l’IA de l’Académie des technologies [AdT, 2018] pour une présentation très accessible des différentes familles d’outils. Par ailleurs, l’aide à la décision n’est bien entendu pas exclusive à l’apprentissage automatique. La théorie du contrôle, la recherche opérationnelle proposent aussi une aide à la décision, souvent au sens d’optimalité d’un critère. Néanmoins leurs modèles sont définis indépendamment des données. L’apprentissage automatique ou statistique (le machine learning) est l’étude systématisée et automatisée à partir d’observations, dans une logique inductive, de la relation entre une entrée x, un modèle f et une sortie y
— Pour x et y connus, il s’agit de modélisation où l’on cherche un modèle correspondant aux données observées.
— Pour x et f connus, il s’agit d’une aide à la décision, sous des modalités descriptives, prédictives ou prescriptives telles que discutées ci-dessus.
— Pour f et y connus, il s’agit d’un problème inverse ou de traitement du signal.
On distingue par habitude les problèmes de classification lorsque la sortie y est discrète, correspondant souvent à un label, des problèmes de régression où la sortie y est continue. Un problème de classification est fréquemment le résultat d’un seuillage sur une régression. On peut définir trois grandes classes d’apprentissage :
— supervisé : l’apprentissage est effectué sur un ensemble de couples (xi, yi)i.
L’erreur commise par le modèle est connue a priori par l’algorithme.
— non supervisé : dans les cas où la sortie y est difficile à décrire, l’algorithme en génère une en cherchant une homogénéité dans ses données. L’erreur commise n’a pas nécessairement de sens numérique.
— par renforcement : l’algorithme génère son propre ensemble de couples (xi, yi)i. L’erreur commise par le modèle est connue a posteriori par l’algorithme. Illustrons ces idées dans leur cadre mathématique. Dans la pratique, bien des problèmes de modélisation peuvent s’écrire comme un problème de minimisation sur une classe M de modèles f où l’on associe une fonction de perte L, qui décrit l’erreur par rapport aux données observées (xi, yi)i ∈ X ×Y, à une fonction de régularisation R, qui limite les variations du modèle f.

Quelles finalités pour le RST à s’approprier cette technique ?

Le prisme de l’intelligence artificielle permet de souligner les objectifs et contraintes partagées par les établissements. La place que pourrait prendre l’apprentissage automatique en dépend. Nous verrons que pour servir une logique d’interaction avec un public, externe ou interne à l’établissement, il manque un facteur d’échelle dans les interactions actuelles. Néanmoins, l’apprentissage dont nous parlons découle d’une automatisation de la modélisation ou de la prise de décision. Toute activité qui se rattache à ces thèmes peut donc opportunément envisager la possibilité d’incorporer des briques algorithmiques ou au moins de s’y comparer. Du point de vue des établissements, le thème de l’intelligence artificielle peut répondre à différents enjeux : disposer d’une compétence supplémentaire, gagner en efficience, élargir le public concerné, produire de nouveaux services. Détaillons ces différents aspects :
— Disposer d’une compétence à faire valoir : Cyniquement, l’image d’un établissement du RST peut bénéficier à peu de frais du battage médiatique sur l’intelligence artificielle 18. Plus utilement, cela permet de répondre aux questions de décideurs, des ministères ou des collectivités, qui veulent déployer de « l’intelligence » dans leurs missions. De telles aspirations, avec un degré de préparation variable, ont été rencontrées par Stéphane Trainel du CGDD au cours des datathons organisés autour des données mises à disposition. En revanche, le milieu de l’apprentissage automatique étant très actif et changeant, il faut une pratique régulière et donc une association à un métier de l’établissement pour maintenir les compétences dans le temps.
— Gagner en efficience : Une loi historique rappelée par [France Stratégie, 2017] stipule que les tâches laborieuses et à faible valeur ajoutée sont les premières automatisées. Bien des métiers, même à forte valeur ajoutée, comportent de telles tâches. Il faut cependant une répétition fréquente, individuellement ou collectivement, pour qu’automatiser soit opportun. L’apprentissage excelle aujourd’hui dans les traitements automatiques du texte, de la parole ou l’image. Ces tâches peuvent être présentes au sein du RST, ou de ses interlocuteurs, en particulier plus opérationnels. On peut penser aux DREAL pour l’AFB, aux DIR pour le CETU. Ces acteurs peuvent eux aussi bénéficier de conseils pour l’automatisation de leurs activités.
— Élargir le public d’utilisation : Si la saturation des services entraîne une limite à l’activité, l’automatisation de l’analyse des données permet son extension à un public plus large, ou à d’autres publics. Un bloc d’apprentissage automatique adéquatement placé et calibré peut transformer la sortie d’un modèle principal, laissé pour sa part inchangé. Ce post-traitement permet d’envisager une information taillée sur mesure pour un destinataire qui ne retire pas actuellement d’utilité de l’information généraliste. Météo-France affine ainsi par des techniques de réseaux de neurones ses zones de prévision de pluie sans modifier son modèle de prévision.
— Produire de nouveaux services : Expérimenter des méthodes d’apprentissage permet d’imaginer d’autres offres pour un établissement à partir de ses données actuelles, et surtout sur de nouveaux jeux de données. Ce point rejoint la stratégie d’innovation et de valorisation d’un établissement. Un risque en la matière est de sous-estimer le taux naturel d’échec, car inventer un produit est aussi difficile dans un établissement qu’en startup. Formuler le besoin d’un public, en particulier pour des institutions qui n’échangent qu’avec un public restreint, ne fait pas nécessairement partie de la culture des établissements.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

1 Contextualisation institutionnelle du RST
1.1 Le RST : un concept du ministère de l’environnement
1.2 Le RST : un ensemble hétérogène d’organismes soumis à diverses tutelles
1.3 Le RST : un réseau et des institutions dans un contexte en évolution rapide
2 Conceptualisation de l’apprentissage automatique
2.1 Modèles et aide à la décision
2.2 Survol technique de l’apprentissage automatique
2.3 Décloisonnement scientifique et questions statistiques
3 Contextualisation technique de l’apprentissage automatique
3.1 Chaîne de production et de valorisation des données
3.2 Cultures métiers et interaction avec l’apprentissage
3.3 Se positionner vis-à-vis de l’apprentissage
4 Enjeux pour le RST en matière d’apprentissage automatique
4.1 Quelles incitations à agir ?
4.2 Quelles finalités pour le RST à s’approprier cette technique ?
4.3 Quels prérequis et quelles approches pour développer la technique au sein du RST ?
4.4 Trois scénarios d’évolution des institutions du RST