Top Banner
Exploitation des données massives en santé pour la recherche médicale : méthodes, outils et cas d’utilisation Pr Marc CUGGIA Département d’information médicale Equipe projet données massives en santé (Inserm UMR 1099 - LTSI) Unité Support Fouille de données (Inserm CIC - 1414 - CHU Rennes) Université de Rennes 1 CENTRE HOSPITALIER UNIVERSITAIRE DE RENNES
63

Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Sep 12, 2018

Download

Documents

donhan
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Exploitationdesdonnéesmassives ensantépourlarecherchemédicale:méthodes,outilsetcasd’utilisation

Pr Marc CUGGIA

Département d’information médicaleEquipe projet données massives en santé

(Inserm UMR 1099 - LTSI)

Unité Support Fouille de données

(Inserm CIC - 1414 - CHU Rennes)

Université de Rennes 1

CENTREHOSPITALIER

UNIVERSITAIREDE RENNES

Page 2: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement2

5

Page 3: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement3

5

Page 4: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Jusqu’àhierQuelssontlespatientséligiblespourceprojetderecherche?

Revenezdans1mois…

Page 5: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Jusqu’àaujourd’huiUnSystèmed’Informationtrèsriche

Maispeuexploitableenl’état

Page 6: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Base rechercheRegistre (Small data)

DPISIH

Imagerie

Omic

e-Santé

SNIIR-AM

Page 7: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

DonnéesMassivesen Santé

• Volume• Variabilité• Véracité• Vélocité• Sensibilité

Page 8: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

8

Page 9: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

99

EHR evaluation forms> 70.000 selectable items (including versioning)!

Page 10: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement10

5

Page 11: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Quelsusages?

•Pourl’individu• Médecinecibléeetpersonnalisée

•Pourlescollectivités• Vigilances,veillesanitaire

• Larecherche• Épidémiologique:Détectiondecohortes• Clinique:Étudesdefaisabilité,Recherchedepatientéligible

•Médico-administratif• organisationraisonnéedessoins,pilotagedesactivités,analysedestrajectoiresdesanté

•Pourl’enseignement• Professionnelsdesanté,éducation,informationdescitoyens

11

Page 12: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Rechercheclinique:Etudedefaisabilitéetprescreening

CriteriaInclusion Criteria:1Male subjects, over 50 years of age at the time of enrollment.2Subjects referred to urology for BPH leading to permanent indwellingbladder catheters and are considered poor surgical candidates3Written informed consent to participate in the study.4Ability to comply with the requirements of the study proceduresExclusion Criteria:1Previous surgical treatment for BPH2Presence of bladder stones3History of prostate cancer4Prostate size > 150 g5History of urethral stenosis or its management6Known of suspected neurogenic bladder7History of recent hematochezia in the last 3 months8Contraindication to intravascular iodinated contrast such as allergies or significant elevated creatinine/renal failure9Uncorrected coagulopathy1Subjects who participated in an active stage of any drug, intervention or treatment trial within 30 days of enrollment.1Subjects with preexisting conditions, which, in the opinion of the investigator, interfere with the conduct of the study.1Subjects who are uncooperative or cannot follow instructions.1Mental state that may preclude completion of the study procedure or obtention of infor

Page 13: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

13

Page 14: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

14

Page 15: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

15

Intégration des données pour une Médecine translationnelle, prédictive et personnalisée

Page 16: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

16

Page 17: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Toward Precision Medicine: Building a Knowledge Network for Biomedical Research and a New Taxonomy of Disease Report from National academy of science, USA, 2011

8

17

Page 18: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement18

5

Page 19: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

intégrationetexploitationdesdonnéescliniqueshétérogènes

Entrepôtdedonnéesbiomédical

19

Page 20: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Entrepôtsdedonnéesbiomédicaux

Analyses

Clinique

Imagerie

Biologie

GénomiqueMédico-économique

Pharmacie

Chirurgie

Page 21: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Entrepôtdedonnéesbiomédicales

üCopiedesdonnéesdeproduction

üPermetlesanalysestrans-domaines

üAméliorelaqualitédesdonnées

Entrepôtde

DonnéesBiomédicales

Outils derecherche etde

fouille dedonnées

SillageDpi

Labo Pmsi

Radio …ETL

Systèmedeproduction

S.I.H

Page 22: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

22

Page 23: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

SomeexamplesofCDWtechnologies

• I2B2 shrine TRANSMART• Informatics forintegrating biologyandthebedside

• Harvard• Translationnal medicine

• STRIDE• Stanford• 3hospitals• Détectiondecohorte

• EHOP• Entrepôt HOPital

[1]M. Cuggia, N. Garcelon, B. Campillo-Gimenez, T. Bernicot, J.-F. Laurent, E. Garin, A. Happe, et R. Duvauferrier, « Roogle: an information retrieval engine for clinical data warehouse », Stud Health Technol Inform, vol. 169, p. 584-588, 2011.

Page 24: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

•Entrepôt dedonnéesduCHUdeRennes•1,2millionsdepatients•27millionsde documents•130millionsd’élémentsdedonnées

• Compte-rendus Hospitaliers DossiersUrgence Génétique• Anatomo-pathologie Données deLaboratoires PMSI• Imagerie Dossiersinfirmier• Prescription/administration• Biobanque(CRB)

Page 25: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Quelquescaractéristiquestechniques

• Herbegée dansleSIHduCHU• Technologiesweb,BasededonnéesOracleetMongoDB• Conservationducontexte:dualitéDocument/Donnéesatomiques• Intégrationbaséesur

• lesstandardsd’interopérabilité HL7,PN13,HPRIM• Lesterminologiesmédicale :CIM10,ADICAP,SNOMED,LOINC

• Alimentationaufildel’eau:ETLindustriel:ENOVACOM/TALEND• Moduled’analyseetdefouillededonnées:R• Dé-identificationdesdonnées,traçabilitédesaccès• CompatibleetcomplémentaireàI2B2/SHRINE

25

Page 26: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

26

• Traitement automatique des données textuelles • Extraction des concepts• Détection de la négation, de l’incertitude• Expansion sémantique

Page 27: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

27

Page 28: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

ResultsCritèresdémographiques

Recherchesurdonnéestextuelles

Traitementautomatiquedulangage

Recherchesurdonnéesstructurées

Page 29: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •
Page 30: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

30

Page 31: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •
Page 32: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •
Page 33: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Ex:Sélection decohortes

Page 34: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

34

Page 35: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

35

Page 36: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

36

Page 37: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

37

Shneiderman, B., Plaisant, C.Sharpening Analytic Focus to Cope with Big Data Volume and Variety: Ten strategies for data focusing with temporal event sequences (2015)

Page 38: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

38

Malik, S., Du, F., Monroe, M., Onukwugha, E., Plaisant, C., Shneiderman, B.Cohort Comparison of Event Sequences with BalancedIntegration of Visual Analytics and StatisticsACM Intelligent User Interfaces (IUI) 2015. Atlanta, GA, USA. (2015)

Page 39: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement39

5

Page 40: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

CentredeDonnéesCliniqueCDC

• Organisation intra-hospitalière « guichet unique »

• Propose une offre de service au sein de chaque établissement pourexploiter les données du SIH grâce à l’entrepôt de données et des outilsde fouille de données

• Rassemble des compétences Informatiques (DSI), réglementaires etméthodologiques (DIM), Métiers (Recherche clinique, épidémiologie).

• Structure tiers de confiance• Accède à l’exhaustivité des données qui lui sont confiées• Effectue les traitements et en assure la traçabilité• Respect strict du cadre éthique, juridique et réglementaire

• Met en œuvre des actions pour l’amélioration de la qualité des donnéesde l’entrepôt. (Ex : optimisationdu codage)

Page 41: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Entrepôtdedonnéesbiomédicales

Outilsd’exploitations(recherched’informationet

fouillededonnées)

Datamarts

DatamartsData

martsDatamarts

PortailrechercheGuichetunique

SystèmeEHOP

Demandes

Traitement

Exploitation

Page 42: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement42

5

Page 43: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

RéseauxdedonnéesdesantéClinical DataResearch Networks

43

Page 44: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Réseauinterégional desCDC

Page 45: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Ri-CDC:Objectifs

• ÉtendrelamiseenplacedesCDCdanschaqueétablissement• Gouvernance,procédures,méthodologied’exploitation,technicité

• Mutualiser,formeretutiliserdesoutilstechnologiques• Pourl’exploitationdubig datahospitalier• Intégrationdesdonnées

• OMICS,Imagerie,e-Santé• SNIIR-AM• Registres• SystèmeNationaldesDonnéesdeSanté

• Faciliterl’exploitationmulticentriquedesdonnées• Réseaudedonnéesnationauxetinternationaux

Page 46: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

• Faireevoluer lesoutilsenétablissantunedémarchevertueusederechercheetdéveloppement

Ri-CDC:Objectifs

Projetsderechercheeninformatiquemédicales

Page 47: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Feasibility Screening e-CRF Pharmacovigilance

Electronic Health Record for Clinical Research

FP7/IMIInovativemedicalInitiative

Feasibility Screening e-CRF Pharmacovigilance

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Electronic Health Record for Clinical Research

Page 48: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Electronic Health Record for Clinical Research

Page 49: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

EtudeFaisabilité Recrutement E-CRF Pharamaco

vigilance

Rennes:10Paris:230Londres223Genève:22

Electronic Health Record for Clinical Research

Page 50: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

June7th 2013 IMI JUInterimReviewMeeting 50

Page 51: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

5151

Page 52: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

52

FDA NHS

Page 53: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Plandel’exposé

Définitiondesdonnéesmassivesensanté

Réutilisationdesdonnées:champsd’applications

Lesentrepôtsdedonnéesbiomédicaux

LesCentresdeDonnéesCliniques

Lesréseauxdedonnéesdesantés

Lesperspectivesderechercheetd’enseignement53

5

Page 54: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Dynamiquederecherche• ProjetPEPS :Plateformed’EtudedesProduitsdeSanté

• UtilisationduSNIIR-AMpourréaliserdesétudesdepharmacovigilance• SNIIRAM:Donnéesderemboursement+PMSI(donnéeshospitalières)• Caractérisationdelatrajectoiredesantédespatients

SNIIR AM

Chainage des données

Intégration des données

Page 55: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

55

• Projet INSHARE(AOANR)(3ans):• PlateformeCloudd’Intégrationetpartagedesdonnéesensantépourlarecherche

• Protectiontatouagedesdonnées• Intégrationdesdonnéeshospitalières,SNIIRAM,etdesregistresépidémiologiques

Page 56: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

56

Page 57: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

57

Page 58: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

• Analysededonnées:• Evaluationdespratiques:ProjetPREPSPACHA(AOPREPSobtenu)

• ObservatoiredesbonnepratiquedeprescriptiondesACO• Cardiophen :Sociétéfrancaise decardiologie

• Phénotypage del’insuffisancecardiaqueafractiond'éjectionpréservéeparlafouillededonnéesmassiveshospitalières

• Intégrationdedonnéesmultidomaine• Signaux:ProjetCardionode

• Intégrationdesdonnéesdesignauxelectrographique issusdedéfibrilateurs implantablescommunicant

• aideàladécision,• détectiondebiomarqueursbaséessurlessignauxélectrocardiographiques

• Biobanque :ProjetIBCB:IntegratingBioClinical dataforBiobanks• Annotationéchantillonsaveclesdonnéesclinico-biologiquedespatients• Fédérationd’entrepots dedonnéesnational

• ITFoc :IT:thefurure ofCancer(Flag-ERA- Digitalmedecine forCancer)• IntégrationdedonnéesCLINIC-OMIC

Dynamiquederecherche

Page 59: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Dynamiquederecherche

• Qualitédesdonnées:ProjetQualimed• Monotoring delaqualitédesdonnées• Utilisationdansl’améliorationducodageduPMSI

• Text mining etTraitementautomatiquedulangage• ProjetBIGCLIN:Big dataforclinical research (Cominlab)• Exploitationdesdonnéescliniquestextuelles pourlarechercheclinique• Machinelearning – Deep learning• Calculintensif

59

Page 60: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Dynamiqued’enseignement

• Nouvellestechnologiesè nouveauxmétiers• MasterdesSciencesdesDonnéesenSanté(2017)SDS

– Datascientists ensanté– 2champsd’applications:rechercheetpilotagedesétablissements

Informatique Biostatistiques

ExpertiseEnsanté

Page 61: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Biostatistiques etbio-mathématiquesInformatique algorithmique etbases dedonnéesBases enépidémiologie etrecherche clinique

TRONC COMMUNSystème d’information en santé

Sémantique des données Intégrationdes données massivesFouille dedonnées – recherched’information

Protection etgouvernance des données ensanté

ParcoursapplicationalaRECHERCHE

Recherche clinique etTranslationelleEpidémiologie

Pharmaco-epidémiologieEpidémiologie génétique

Parcoursapplicationàlal’évaluation etl’analyse

stratégiqueEvaluation médico

économiqueEvaluation des pratiques

STAGE (6mois)

MASTER1(S1/S3)

MASTER2(S3/S4)

MASTERSCIENCESDESDONNEESENSANTE(SDS)

Page 62: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Quefautilretenir?üLeBig dataensantéestconstituédedonnées:

• Hétérogènes• Multi-domaines• multi-échelles• Donnéessensibles

üLesentrepôts sontdesconcentrateurs dedonnéespermettantuneexploitationfacilitéedesdonnéesmaisquinécessitent:

• Unetechnicité:nouveauxmétiers• Desorganisationstiersdeconfiancepermettantleurexploitationsrespectantleprotectiondesdonnées

üCestechnologiespeuventmisesenœuvredansdenombreuxcasd’utilisationenrecherche(maisaussiaudelà)

• Ilssontcomplémentairesdesapprochesclassiquesderecueilpro-actifd’information

üLatendanceestlaconstitutionderéseauxdedonnéespouruneexploitationmulticentrique

üNousensommesaudébut62

Page 63: Exploitation des données massives en santé pour la ... · • Module d’analyse et de fouille de données : R • Dé-identification des données, traçabilité des accès •

Contact:

__________________________________________• Pr.MarcCUGGIA,MD,PhD• LTSI- UMRInserm- UniversitédeRennes1• Equipe-ProjetDonnéesmassivesensanté(DMS)• CampusdeVillejean- Bât.6• 35043RennesCedex- France-• Tel:+33223235350• Portable:+33672025620• Email:[email protected]__________________________________________________

• Départementd'informationMédicale• UFFouille dedonnées• Centred’investigationclinique• CHUPontchaillou• rueH.LeGuilloux- 35033Rennes__________________________________________________