La plateforme Big-Data de l'AP-HP constitue la brique technique principale de l'Entrepôt de Données de Santé.
Afin de répondre aux objectifs ambitieux que se donne l’AP-HP pour développer l’usage de ses données, et notamment permettre l’émergence et le développement de l’intelligence artificielle dans le domaine médical, la plateforme Big-Data a été mise en place et répond aux besoins techniques qui y sont liés, à savoir :
Cette plateforme est hébergée par l'AP-HP dans un datacenter certifié pour l'hébergement de données de santé, les plus hauts niveaux de sécurité sont donc en place pour s'assurer à la fois de la sécurité des données et de la disponibilité de la plateforme.
La plateforme Big-Data supporte 4 briques principales :
C'est la 1ère étape à la constitution d'un Entrepôt de Données de Santé. Il s'agit :
Un effort important est porté à l’intégration rapide des données cliniques (structurées et non structurées) produites dans les différents systèmes d’information hospitaliers (Dossier Patient Informatisé (DPI) ORBIS, logiciels historiques et de spécialité, données des moniteurs haute fréquence, données d’imagerie…) afin de pouvoir les mettre à disposition de tiers au travers d’outils spécifiques (logiciel I2B2, outil BI Cognos, outils propres de visualisation et de création de cohortes...) ou d’interfaces FHIR (API).
Un travail important de standardisation des données est réalisé afin de s’aligner sur les standards internationaux et assurer une interopérabilité maximale des données (OMOP, FHIR et les terminologies médicales de référence LOINC, CIM…).
Après la récupération des données et leur modélisation dans des standards internationaux, la seconde étape constitue à :
Un travail conséquent est réalisé afin de choisir la meilleure manière de stocker et d'exposer la donnée. Il s'agit dans un premier temps de réaliser une veille technologique, puis d'installer le système qui correspond le mieux à ces attentes, afin de stocker ces données dans des bases de données relationnelles classiques (PostgreSQL, MySQL), dans des systèmes de fichiers distribués (HDFS, GlusterFS...), dans des bases de données distribuées (Hive, HBase, DeltaLake...), et parfois dans des systèmes développés par l'équipe de l'EDS. La manière dont les clients accèdent à la donnée orientent aussi très fortement ces choix.
Pour l'indexation, un travail similaire est réalisé. Nous utilisons principalement Apache SolR qui fonctionne avec les technologies déjà en place, en particulier HDFS.
Une fois la donnée modélisée et stockée, différentes interfaces exposent :
L'exposition de données de manière standardisée passe par l'utilisation du standard FHIR. Ce standard définit des ressources (Patient, Visite, Observation, Diagnostique...) et la manière de les requêter. Techniquement, cela se traduit par un serveur FHIR qui expose sous forme d'API REST les différentes ressources implémentées.
L'accès à cette API REST est sécurisé et seul les personnes appartenant au corps médical ou médico-techniques peuvent l'exploiter.
Un des objectifs de l'EDS est le développement d'algorithmes à destination du soin, de plateaux médico-techniques... Une fois développés, ces algorithmes sont mis à disposition à travers des APIs REST afin d'être exploités en production.
La plateforme Big-Data héberge de nombreuses interfaces web simplifiant l'exploitation des données collectées et exposées. Il s'agit principalement de :
|
|
![]() |
est une solution open source permettant de sélectionner des cohortes de patients et de construire des environnements de travail sécurisés avec les données nécessaires, mises à disposition pour chaque projet de recherche. |
|
|
![]() |
est une application web dédiée à l’analyse de données massives permettant de programmer dans plusieurs langages (Python, R, Scala...). |
|
|
![]() |
est une application web dédiée au pilotage de l’activité hospitalière permettant de développer des indicateurs d’activité et de performance et des tableaux de bord de suivi. |
|
|
![]() |
est un outil de visualisation de cohortes de patients. |
|
|
SPHERE |
Solution PACS for HEalth REsearch est un outil pour la collecte et la mise à disposition des données DICOM (photos médicales). |
|
|
![]() |
est une solution de mise en place de formulaires structurés pour la saisie manuelle d’information, complémentaires de l’EDS, dans le cadre de recherches internes n’impliquant pas la personne humaine (RNIPH). |
|
EDS Imagerie : |
Une partie de l'équipe EDS prend en charge la collecte et la mise à disposition des données d'imagerie médicale. De part son expertise, elle accompagne des partenaires variés - industriels, start-up et académiques - pour la réalisation de projets innovants dont des projets en IA. De plus au travers d'outils spécifiques développés en interne, elle facilite la visualisation et l'annotation des images ou encore leur analyse. |
La plateforme est constituée de nombreux serveurs, les utilisateurs finaux de la plateforme se partagent (au 02/2021) :