INAH : La plateforme éthique et sécurisée d’analyse de données médicales

INAH : La plateforme éthique et sécurisée d’analyse de données médicales

Le projet INAH (Institute of Analytics for Health) a été lancé par le gouvernement wallon pour créer une plateforme technologique permettant un accès sécurisé et éthique aux données de santé dans le cadre d’une recherche scientifique et statistique. Cette plateforme complète l’écosystème de la santé numérique de la Wallonie tout en apportant un impact sociétal et économique positif.

Le développement et la généralisation des technologies numériques a, comme pour de nombreux autres domaines, un impact majeur sur celui de la santé.
Le potentiel lié à l’analyse de ces données médicales est très important. Plusieurs acteurs de la santé, comme les universités, les entreprises des sciences de la vie, des organismes publics sont intéressés par les informations qui peuvent être extraites de ces ensembles de données, afin d’accélérer la recherche médicale, d’améliorer la qualité de vie des patients et aider à la mise en œuvre des politiques de santé. Le but est d’évoluer vers une médecine personnalisée, prédictive et préventive. Cependant, l’utilisation de ces données médicales doit faire face à plusieurs conditions, juridiques et éthiques, afin de préserver la vie privée des patients et assurer la qualité et la sécurité des données médicales, ce qui conduit à des défis technologiques importants.

Actuellement, les acteurs qui souhaitent accéder à des données dans le cadre de leurs activités contactent déjà les hôpitaux. Les études multicentriques, visant à travailler simultanément avec plusieurs hôpitaux, sont également possibles. S’il s’agit de produire des statistiques anonymes, les données médicales peuvent être utilisées après vérification de leur usage, par contre, l’acquisition de données spécifiques à un patient nécessitera évidemment le consentement de celui-ci. Dans tous les cas, un ou plusieurs comités d’éthique sont mobilisés au sein des hôpitaux pour valider chaque étude.
Un dossier peut vite devenir très complexe si le nombre d’acteurs contacté est important, si le nombre et la taille des ensembles de données est important, si l’échantillon ciblé est spécifique, si les environnements informatiques sont différents. Cependant, des technologies numériques novatrices peuvent être utilisées afin de faciliter grandement ces processus, tout en garantissant la sécurité des données.

Les 5 principes clés de l’INAH

Pour faire face à ces enjeux, le gouvernement wallon a lancé en 2018 le développement de la plateforme INAH, visant à permettre un accès sécurisé et éthique à ces données médicales. Cette plateforme, qui est développée par le CETIC et la FRATEM, en collaboration avec des hôpitaux, permet de mener facilement des analyses multicentriques de données médicales en respectant les cinq principes clés suivants :

  1. Souveraineté des données : Les fournisseurs de données (hôpitaux partenaires) gardent le contrôle et la gouvernance totale de leurs données et sont libres de participer aux projets soumis à INAH.
  2. Confidentialité : INAH s’appuie sur un accès sécurisé et ne permet pas d’identifier directement ou indirectement des patients.
  3. Partenariat : INAH facilite la collaboration entre les demandeurs, les fournisseurs et/ou les médecins autour d’un projet de recherche.
  4. Vélocité : INAH permet un accès rapide et performant aux données médicales ciblées.
  5. Conformité : INAH est conforme aux législations liées aux traitements de données personnelles (GDPR) ainsi qu’aux standards médicaux (SNOMED).

Le projet s’est donc focalisé sur la démonstration de la faisabilité du respect de ces 5 principes dans un cadre réel.

Souveraineté des données

Dans une approche classique, la plupart des projets d’analyse de données prévoient de créer un réservoir de données (Data Lake) rassemblant toutes les données disponibles (par exemple : l’ensemble des données d’une usine). Le premier principe d’INAH a conduit à concevoir une architecture allant à l’opposé de cette approche. Pour assurer le principe de souveraineté des données, l’architecture INAH s’appuie sur une fédération de bases de données distribuées (INAH Local). Les données sont préparées au sein de chaque hôpital, en se connectant aux différents systèmes d’informations de celui-ci. Elles sont pseudonymisées, et des formats standards unifiés sont utilisés pour le stockage (Data Warehouse Local). Par la suite, l’accord de l’hôpital sera demandé pour chaque étude soumise. Au niveau de chaque hôpital, ce sont les résultats strictement liés à une étude donnée qui sont renvoyés vers le composant central qui ne fera que les combiner entre hôpitaux. Au niveau central, aucune donnée n’est conservée par la suite.

Confidentialité

Les données qui sont traitées via INAH sont doublement [1] pseudonymisées directement au niveau des hôpitaux, et ce, dans le respect du principe général de minimisation des données transférées et conformément à l’article 201 de la loi sur la protection des données (LPD).
Il faut savoir que la pseudonymisation est privilégiée à l’anonymisation, car il s’agit d’un processus réversible au sens de l’article 200 de la LPD. Si l’information résultant de l’étude menée peut être utile au patient, il est possible de demander à l’hôpital de contacter celui-ci, et de le mettre en relation avec l’entité ayant traité la donnée. Cela permet par exemple de proposer un traitement novateur ou un traitement personnalisé. Séparément, ni INAH, ni le demandeur de données n’ont à leur disposition les informations nécessaires à l’identification des personnes. Pour rétablir le contact, il faut d’office impliquer le tiers de confiance (TTP, trusted third party) qui gère les clés de pseudonymisation, la FRATEM. Pour être complet, des motifs de santé publique, validés par le délégué à la protection des données du système source, peuvent aussi conduire à la “dépseudonymisation”, conformément à l’article 200 de la LPD.

Partenariat

Comme on le voit dans cet article, le processus complet implique de nombreux acteurs : patients, corps médical, services informatiques, demandeurs de données, comités d’éthique. Afin de gérer ceci, le processus d’introduction d’une demande (projet) dans la plateforme INAH est fortement encadré.
Ce projet est d’abord évalué par un comité d’approbation, qui analyse celui-ci d’un point de vue éthique et scientifique. Ensuite, le projet sera envoyé au comité d’éthique de chaque hôpital, qui pourra décider de participer à ce projet et choisir précisément quelles données seront utilisées. Ensuite, les demandeurs de données peuvent utiliser la plateforme INAH (INAH Central) : les requêtes correspondant aux besoins de l’étude sont transmises aux fournisseurs de données. Le résultat provenant des différents hôpitaux sera combiné et finalement rendu accessible au demandeur.
La plateforme INAH permet d’interroger les données de différentes façons. Il est possible d’obtenir des statistiques : “combien de patients correspondent aux caractéristiques suivantes :...?” (p.ex. pathologie, traitement reçu,...). La réponse est alors un comptage. Il est aussi possible d’obtenir un listing pseudonimisé pour des projets nécessitant de travailler sur des ensembles de données (exemple : listes de comorbidités d’une population nouvellement vaccinée). D’autres fonctions sont déjà prévues, telles que la possibilité de créer des alertes en temps réel sur base de critères (par exemple pour une enquête épidémique) mais, comme signalé, il n’est possible pour le demandeur de notifier un patient que s’il y consent.

Vélocité

Le travail de préparation en amont est conséquent : INAH est connecté à différents systèmes informatiques, les données sont uniformisées, pseudonymisées, un système commun est utilisé pour gérer les différents projets/études. Ce travail de préparation important permet de gagner beaucoup de temps pour les nouvelles études proposées, tout en conservant les garanties de protection de la vie privée.

Conformité

Les principes qui gouvernent l’accès aux données de santé sont connus, et de telles analyses de données médicales sont déjà menées. Cette première phase a permis de démontrer qu’avec les principes novateurs utilisés , la plateforme INAH conservait les propriétés qui la rendaient conforme à ces prescriptions, tout en facilitant le processus, en permettant de gérer plus de complexité.

Architecture de la plateforme INAH

Conclusion

La première phase de développement de la plateforme INAH est en train de s’achever. Celle-ci a permis de mettre en place un démonstrateur de la plateforme INAH, actuellement déployé au sein de trois grands hôpitaux wallons (CHC, CHU Charleroi et GHDC). INAH intègre actuellement des données pseudonymisées de plus de 420 000 patients.
Cette plate-forme est testée à travers des cas d’étude avec deux entreprises locales des sciences de la vie (OncoDNA et DNALytics) et le Collège de médecine générale concernant les soins de première ligne.

Sur base des très nombreux échanges qui ont eu lieu autour du projet, on peut parler d’une bonne acceptation de la plateforme par les professionnels de santé, le grand public, et le pouvoir public, sur base des garanties qui ont été mises en place quant à la protection des données. Ces échanges portaient tout autant sur la faisabilité technique, juridique et économique de la plateforme.

Il est donc opportun de profiter des résultats et de la dynamique créés par ce projet pour mettre progressivement en production la plateforme INAH. Sur base des leçons tirées durant cette première phase, une feuille de route a été rédigée concernant l’évolution technologique de celle-ci. Celle-ci vise à renforcer les composants technologiques, augmenter les sources de données accessibles, rendre leur usage le plus générique possible afin d’augmenter le nombre d’hôpitaux partenaires, renforcer les capacités d’analyse, afin de permettre des analyses très pointues répondant aux questions toujours plus complexes posées par les acteurs de la santé.

Les acteurs de l’écosystème wallon de la santé, les hôpitaux et fédérations hospitalières, les professionnels de santé, les acteurs académiques et les entreprises Life-science et le pôle de compétitivité Biowin, ont montré un grand intérêt pour poursuivre le déploiement de cette plateforme.

[1Le processus de pseudonymisation comporte deux niveaux : (1) Un premier niveau de pseudonymisation est appliqué au moment de l’importation des données des hôpitaux partenaires vers INAH Local afin de masquer l’identité des patients (masquer le NISS du patient) ; (2) Un deuxième niveau de pseudonymisation est appliqué au moment de l’exécution des requêtes d’accès aux données de INAH Local dans le cadre d’un projet de recherche (une étude) d’un demandeur qui est validé par le comité d’approbation INAH et les fournisseurs de données. Ce deuxième niveau permet d’éviter le croisement de données inter-projet (inter-étude) d’un même demandeur.