Rapport de l’administrateur général des données : rencontre avec Henri Verdier
Voilà plus d’un an, en septembre 2014, la France se dotait d’un administrateur général des données (AGD), devenant ainsi le premier pays européen à mettre en place cette fonction au niveau national. Après un an d’exercice, Henri Verdier, en charge de cette fonction au sein du SGMAP, vient de remettre au Premier ministre son premier rapport annuel sur la gouvernance de la donnée. Il y dresse un état des lieux des données produites par les administrations, de leur circulation et de leur exploitation, et présente une série de recommandations pour que l’Etat en tire tout le potentiel. Rencontre avec Henri Verdier.
Après un an en tant qu’administrateur général des données, quel état des lieux dressez-vous de la production, la circulation et l’utilisation des données de l’État ?
HENRI VERDIER. Il y a une longue histoire des relations entre l’Etat et les données, et l’Etat a bien souvent joué un rôle moteur dans le développement de nouvelles méthodes tout comme dans la production de grands référentiels. On aurait du mal à imaginer la France d’aujourd’hui sans les données de l’INSEE, de Météo France ou de l’IGN, pour ne citer qu’elles.
Ce qui change aujourd’hui, pour l’Etat comme pour tous les acteurs économiques et sociaux, c’est la quantité et la variété des données dont dispose l’Etat, du fait en particulier de la dématérialisation d’un nombre croissant de procédures. C’est aussi et surtout les manières qui s’offrent à lui pour utiliser ces données, du fait à la fois des progrès des sciences et des techniques (les « datasciences ») mais aussi de l’émergence de nouvelles approches de l’usage des données (les « stratégies fondées sur la donnée »).
Il faut que l’Etat apprenne à organiser ses données pour permettre toutes les utilisations possibles.
Comme toute grande institution, il faut que l’Etat apprenne à organiser ses données pour en permettre toutes les utilisations possibles, tout en garantissant la sécurité nécessaire instaurée par les différents secrets légaux (vie privée, bien entendu, mais aussi secret industriel et commercial, sécurité nationale, etc.).
En quelques années, des progrès notables ont été réalisés sur cette question importante. Mais la « révolution de la donnée » avance rapidement, et il y a encore de nombreuses choses à faire pour en tirer tout le potentiel.
La “circulation des données”, ce n’est pas l’ouverture totale. C’est la recherche d’un optimum.
Au cours de vos premières expérimentations, quels principaux freins avez-vous constatés au bon usage de ces données ?
HV. Il faut d’abord remettre les choses dans leur contexte. Certains freins sont légitimes. Nous pouvons nous réjouir d’être un pays qui est attentif à la protection de la vie privée, à la protection de ses entreprises, et dans lequel l’administration considère la discrétion comme un devoir envers les citoyens qui interagissent avec elle. La « circulation des données », ce n’est pas l’ouverture totale. C’est la recherche d’un optimum. Partager les grands référentiels, chercher de nouvelles solutions à des problèmes, etc. L’objectif de l’administrateur général des données, c’est de favoriser le meilleur usage souhaitable des données que détient l’Etat, en investissant de nouveaux champs de l’action publique, comme l’analyse prédictive, la décision en temps réel, la détection de signaux faibles, etc.
Le frein le plus important est la méconnaissance des données disponibles.
Face à cet objectif, et après une année d’expérimentations avec différentes administrations, nous avons pu identifier des freins qui n’étaient pas forcément ceux que nous aurions anticipés. Le plus important, par exemple, nous semble être la méconnaissance des données disponibles. Autant les données de savoir (comme la statistique publique) sont bien connues, autant les données produites par les systèmes de gestion automatisée, les données produites dans les grandes communautés de contribution, et plus généralement de nombreuses données numériques, restent inexploitées.
La deuxième difficulté est l’abandon d’une forme de contrôle sur notre informatique. Il devient essentiel de penser les conditions pour que l’Etat puisse à tout moment reprendre et utiliser lui-même toutes les données dont il a besoin pour remplir sa mission (on parle bien de nouveau d’informatique de gestion). Ensuite, le rapport analyse plusieurs autres freins, comme l’absence d’incitations à la coopération entre administrations, les difficultés liées à une application approximative des secrets légaux… et enfin, bien sûr, la diffusion encore trop restreinte des datasciences. Car enfin, comment demander tant d’efforts aux administrations si elles ne peuvent pas en bénéficier grâce à la maîtrise de ces nouveaux usages des données ?
Pour faire avancer la pratique des datasciences, il faut en prouver la valeur pour l’Etat.
D’où le fait d’avoir constitué auprès de vous, dès le début de votre mission, une équipe de datascientists ?
HV. Effectivement. Le plus important, sans doute, pour faire avancer la pratique des datasciences est d’en prouver la valeur pour l’Etat et d’en diffuser largement la maîtrise. Le pari est qu’au fur et à mesure de la banalisation de ces méthodes, les principes de bonne gouvernance de la donnée paraîtront évidents.
En effet, de très nombreuses dimensions de l’action publique peuvent - vont - être substantiellement améliorées grâce à l’utilisation de ces données et de ces outils. Mieux prédire de grands phénomènes (épidémies, tensions sur le marché de l’emploi…), mieux comprendre des événements plus individuels (cambriolages, accidents de la route, fraude fiscale…), piloter des politiques en temps réel, allouer ses ressources avec pertinence… Toutes ces possibilités - et bien d’autres - sont ouvertes avec des moyens très modérés, pourvu que les données soient accessibles et que quelques compétences rares soient intégrées au sein de l’Etat.
Les datasciences, qu’est-ce que c’est ?
Les datasciences – ou sciences de la donnée – sont une nouvelle discipline visant à extraire des données des informations utiles et à concevoir de nouveaux usages, de nouveaux services. Elles s’appuient pour cela sur un ensemble de méthodes, alliant statistiques, mathématiques, informatique et visualisation des données.
À quelles problématiques avez-vous appliqué les datasciences, et pour quels résultats ?
HV. Au cours de cette première année, mon équipe et moi avons par exemple travaillé avec le service des achats de l’Etat pour analyser en détails les données de consommation d’électricité dans les bâtiments publics et grâce à cela mieux négocier les achats de l’Etat. Avec Pôle emploi, nous avons élaboré, à partir de plus de 600 variables, un modèle capable de prédire à 80% les entreprises allant recruter dans le semestre à venir près de chez soi pour un profil donné. Ce qui a permis l’ouverture d’un nouveau service qui facilite les candidatures spontanées : La Bonne Boîte . Avec la police et la gendarmerie, nous avons développé un modèle de prédiction des vols de voiture extrêmement efficace. Et nous avons soutenu l’initiative d’une entreprise qui a développé un très intéressant modèle de prédiction des évolutions thérapeutiques grâce à l’analyse de la littérature scientifique. C’est un modèle essentiel pour qui veut prendre des décisions d’investissement.
Tous ces résultats sont consultables sur le blog de l’AGD
Il est important de continuer à développer des projets concrets à résultats vérifiables.
Quelles sont vos principales recommandations pour améliorer l’exploitation et la circulation des données ?
HV. Le rapport formule plusieurs recommandations et cette ambition va être l’un des fils rouges de l’action de la direction interministérielle du numérique et du système d’information et de communication de l’Etat (DINSIC), au sein du SGMAP, dans les années à venir. Le plus important consistera à continuer à développer des projets concrets à résultats vérifiables, à l’image de France connect, la Base adresse nationale, et l’approche startups d’Etat, et à bâtir une circulation croissante au fur et à mesure des API qui seront développées pour les projets.
Les autres recommandations visent à engager les réformes nécessaires en adoptant le plus souvent possible les approches ouvertes et contributives qui font le succès des stratégies « open data » : organiser avec les administrations volontaires le recensement des données disponibles selon une logique ouverte, construire avec la CNIL et les administrations un « pack de conformité » définissant un ensemble de bonnes pratiques de traitement de données potentiellement à caractère personnel, muscler les méthodes d’anonymisation de fichiers disponibles dans l’Etat, mettre les différentes initiatives en réseau pour qu’elles partagent leurs bonnes pratiques. Ces premières mesures permettraient de faire entrer profondément la question des données dans la palette des outils au service de la transformation de l’action publique.
Télécharger le rapport 2015 de l’administrateur général des données sur la gouvernance de la donnée