L’invention de l’open data : retour sur six moments de définition

Le 27 novembre 2013, le service d’innovation numérique de la région Île-de-France et la Fonderie, son agence de développement de l’économie numérique, organisent une réunion à l’Institut d’Aménagement et d’Urbanisme (IAU) de Paris. Une quarantaine d’agents de la région assistent à cet évènement intitulé « Open Data Bootcamp ». Les organisateurs me présentent comme « observateur » tout comme Simon Chignard, auteur d’un ouvrage sur l’ouverture des données (Chignard, 2012) et un de mes « informateurs » à Rennes. Les organisateurs diffusent une vidéo de l’association nantaise Libertic intitulée « L’open data, on a tous à y gagner ». En voici un court extrait

L’Open Data est une démarche qui vise à rendre des données numériques accessibles et utilisables par tous. Pour les collectivités et les organismes publics, l’Open Data consiste à publier sur une plateforme ouverte des informations : statistiques, cartographiques, des horaires, des données économiques et financières sur les territoires… La mise à disposition des données publiques est une obligation légale. Un cadre juridique strict définit les informations qui peuvent être rendues publiques et celles qui ne le peuvent pas. Les données sensibles et à caractère personnel sont exclues, de fait, de la démarche Open Data .

Après la diffusion de ce clip promotionnel de deux minutes, les organisateurs distribuent un document d’une dizaine de pages. Intitulé « vadémécum de l’ouverture des données de la région », il s’inspire d’une brochure produite par Etalab, la mission en charge de l’ouverture des données du gouvernement français, à l’attention des gestionnaires de données (j’y reviendrai dans le chapitre suivant) et se présente sous la forme de questionsréponses. Laurent, un des animateurs de la réunion, prend le micro et invite les participants assis face à lui à répondre à un quizz qui décline le vadémécum. Il explique que ce quizz vise à « mettre en discussion un certain nombre de sujets qui tournent autour de la problématique open data. » Il projette une présentation sur l’écran et s’arrête sur la première question : « en quoi consiste une démarche d’ouverture et de partage des données publiques ? Moi j’ai une réponse, je ne vous la donne pas. » Laurent demande si Simon veut répondre, il hésite, mais finalement répond : « une démarche d’ouverture et de partage des données publiques, c’est de mettre en ligne des données d’une manière qui facilite leur réutilisation par des tiers. » Laurent demande si quelqu’un aurait une autre définition. Pas de réponse dans la salle, il donne donc celle qui figure dans le vadémécum : « c’est mettre à disposition sur Internet toutes les données brutes qui ont vocation à être librement accessibles et réutilisables. » .

Episode 1, « Open Definition » : des droits de l’usager d’un savoir ouvert

En mai 2004, Rufus Pollock, chercheur en économie à l’université de Cambridge, annonçait la création de l’Open Knowledge Foundation (OKFN), une organisation à but non commercial visant à « promouvoir l’ouverture de toutes les formes de savoir […] information, données et tous les termes synonymes. » La thèse de Rufus Pollock portait sur la valeur économique du domaine public pour les œuvres culturelles dont le copyright a expiré. L’OKFN a pour principe la discussion ouverte; ses échanges se déroulent sur des listes de diffusion publiques et archivées qui constituent un matériau très riche pour restituer les débats au sein du mouvement (Akrich, 2012).

Peu après la création de l’organisation, en août 2005, Pollock invitait les premiers membres de l’OKFN et son réseau de partenaires à adopter collectivement une définition du savoir ouvert. Dans son appel à commentaire (Request for Comments), Pollock souhaitait décliner une série de conditions essentiellement juridiques permettant d’établir qu’un savoir est ouvert. La définition devait aussi servir à énumérer les licences ouvertes spécifiques au savoir et à fédérer des disciplines éparses.

Below is a first draft of an open knowledge definition. The intent is to get down in a simple but clear way what open knowledge means and the principles that open knowledge licenses should embody. The concept of openness has already started to spread rapidly beyond its original roots in software with “open access” journals, open genetics, open geodata, open content etc. However just as with software we can expect (or are already) seeing a proliferation of licenses and a potential blurring of what is open and what is not. A good definition will serve to promote compatibility, guard against dilution and provide a common thread to diverse projects across a multiplicity of disciplines. This is a first draft and all comments and corrections will be much appreciated.

Pollock n’employait pas le terme « open data » dans son message et dans la définition, mais il signalait une prolifération de mouvements se revendiquant de l’ouverture. Sa définition se fondait directement de l’expérience de l’open source, une généalogie clairement affirmée dans le premier brouillon du texte. Pollock y créditait l’Open Source Definition comme la ressource essentielle qui a servi à la rédaction de la définition, mais aussi à forger l’idée même d’ouverture.

Episode 2, « Sebastopol » : l’ouverture exhaustive des données primaires

Le 22 octobre 2007, Carl Malamud envoyait une invitation en vue de l’organisation d’une rencontre de l’« Open Government Working Group » les 7 et 8 décembre 2007. L’évènement s’est tenu à Sebastopol en Californie au sein des locaux de la maison d’édition que dirige Tim O’Reilly, l’autre organisateur de la rencontre. Après avoir fondé une des premières radios en ligne, Carl Malamud a créé le site associatif PublicRessource.org pour partager des données que le gouvernement des États-Unis refusait de diffuser librement sur le web. Malamud s’est fait connaitre en 1995 après avoir forcé un organisme fédéral, la US Securities and Exchange Commission (SEC), de fournir un accès libre aux données sur les entreprises qu’elle collecte. Tim O’Reilly, quant à lui, dirigeait une maison d’édition spécialisée dans les sujets technologiques et s’est fait connaitre pour avoir popularisé l’expression « web 2.0. » Malamud et O’Reilly ont obtenu un financement pour l’organisation de cet évènement par la Sunlight Foundation, une ONG qui défend la transparence et deux grandes entreprises du numérique, Google et Yahoo. Je n’ai trouvé aucune information sur les montants et les objectifs de ces partenariats.

Le rapport de stage ou le pfe est un document d’analyse, de synthèse et d’évaluation de votre apprentissage, c’est pour cela rapport-gratuit.com propose le téléchargement des modèles complet de projet de fin d’étude, rapport de stage, mémoire, pfe, thèse, pour connaître la méthodologie à avoir et savoir comment construire les parties d’un projet de fin d’étude.

Table des matières

Introduction
L’invention de l’open data : retour sur six moments de définition
Episode 1, « Open Definition » : des droits de l’usager d’un savoir ouvert
Episode 2, « Sebastopol » : l’ouverture exhaustive des données primaires
Episode 3, « Raw Data Now » : l’entrée en politique des données « brutes »
Episode 4, « 5-star model » : des formats ouverts et lisibles par les machines
Episode 5, « Open Data Index » : un score d’ouverture et des données «essentielles»
Episode 6, « G8 » : la reconnaissance de données à forte valeur
Conclusion
Vers une administration des données : la trajectoire d’Etalab
Le renvoi de l’APIE : un virage de la politique gouvernementale en faveur de la
gratuité
Etalab : un engagement affiché en faveur de « l’open data »
L’alternance : Etalab sur la sellette
La refonte de data.gouv.fr : « faire vivre » les données
L’administrateur général des données : de l’ouverture à la « gouvernance » des données
Conclusion
L’identification : la découverte progressive et collective des données
L’utopie de l’inventaire exhaustif
L’exploration de l’organisation
Le ciblage des usages
L’organisation d’un réseau
Conclusion
Les frictions de l’identification : quelques « bonnes raisons
organisationnelles » de ne pas ouvrir des données
L’extraction : des assemblages de données à défaire
La qualité : des données qui n’ont pas été conçues pour leur ouverture
La sécurité : anticiper les dangers de la réutilisation
La transparence : un mandat à obtenir
Conclusion
Transformations et transmutations : la fabrique des données brutes
Convertir
Structurer
Editer
Conclusion
L’instauration des publics de données
Les métadonnées : réduire les frictions de l’ouverture et de la réutilisation
La visualisation : transformer les données pour les rendre intelligibles à un plus large
public
Les assemblages temporaires des concours de réutilisation de données
Conclusion
Conclusion
Bibliographie
Annexes