Top Banner
Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015
26

Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Sep 12, 2018

Download

Documents

dodieu
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Data mining et statistiques

Hugues Bersini

IRIDIA / ULB

Exposé Bordet 14/11/2015

Page 2: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Philippe Smets (1938-2005), créateur d’IRIDIA

Exposé Bordet 14/11/2015

Théorie des croyances vs Probabilités

Page 3: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

IA, IRIDIA et Data Mining

Exposé Bordet 14/11/2015

Page 4: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Les réseaux de neurones

Exposé Bordet 14/11/2015

Page 5: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

IA à la Google

Page 6: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Deep Learning: Reconnaissance d’images, traduction, conduite automatique,… (déterministe)

Exposé Bordet 14/11/2015

Page 7: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

IRIDIA dans le domaine médical

• Diagnostique automatique de cancer: Decaestecker, Van Ham,

Kiss • Détection de problèmes respiratoires: Mathys, Degroot, Kahn • Analyse d’électrocardiogrammes: Bableyantz • Aide à la marche assistée de paraplégiques: Preumont • Aide à l’empowerment des diabétiques • Classification des cancers par puce ADN: IRIBHM et Bordet • Création de l’institut IB2, projet BridgeIris: Bontempi

Exposé Bordet 14/11/2015

Page 8: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Gradation automatique des cancers

Exposé Bordet 14/11/2015

Christine Decaestecker

Page 9: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Cluepoints : detection of outlier clinical site

• Real example – Known fraud in

center 191

• SMART analysis – 191 is an outlier

• Other centers? – 141, 155, 165?

– Most frauds are undetected by current methods

Summary through PCA of a SMART analysis

Exposé Bordet 14/11/2015

Marc Buyse

Page 10: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Microarray chip

PUCE ADN

Exposé Bordet 14/11/2015

Vincent Detours Gianluca Bontempi

Page 11: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

LA SPINOFF INSILICO

Exposé Bordet 14/11/2015

Page 12: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

The concept: InSilico DB is a central data hub for genomics-based biomedical research

InSilico DB = Data + Tools Exposé Bordet 14/11/2015

David Weiss et Alain Coletta

Page 13: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Website for genomics datasets management and query

• Illustrer le propos par un projet récemment réalisé + 1 photo

Exposé Bordet 14/11/2015

Page 14: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Integration with visualisation and analysis tools

Exposé Bordet 14/11/2015

Curated biological samples information

Smoker

Genes Integr. Gen. Viewer

Excel

GenePattern

R/Bioconductor

Page 15: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Exposé Bordet 14/11/2015

Page 16: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Exposé Bordet 14/11/2015

Page 17: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Personalized Medicine

• Identifying robust drugs–genotype–phenotype relationships is a key challenge in

the process of making this vision a reality.

• This requires very large sample sets for discovery and validation.

Phenotype Clinical annotations

Drugs

Genotype

Exposé Bordet 14/11/2015

Page 18: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Exposé Bordet 14/11/2015

Qui se ressemble s’assemble

Page 19: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Exposé Bordet 14/11/2015

Page 20: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Dernier en date: BridgeIris

Exposé Bordet 14/11/2015

Page 21: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Première veritable infrastructure BigData à l’ULB

Exposé Bordet 14/11/2015

Page 22: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Statistiques et Data Mining

1. Les data scientists font tout le temps des stats “fréquentielles”, souvent de manière maladroite et inconsciente pour trouver le meilleur modèle: comptage et métrique.

2. Faut-il évaluer les modèles de manière plus “scientifique”: p-value, student-test, …. ?

3. L’opérationalité, le déterminisme du monde et l’absence de risque (envoi de mails, sms …) le rendent rarement necessaire … mais en médecine ??

4. Le BigData renforce le bricolage opérationnel et diminue le recours à l’évaluation scientifique des résultats.

Exposé Bordet 14/11/2015

Page 23: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Statistiques « inconscientes » pour la classification: Trois exemples

Exposé Bordet 14/11/2015

Naïve Bayes

A model

?

?

? ?

Plus proches voisins

Arbres de décision

Page 24: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Exposé Bordet 14/11/2015

Classification incertaine Diagnostic médical Erreurs conséquentes

Classification certaine Reconnaissance de caractère, de scène Erreurs inconséquentes

Stats plus formelles

Approches plus informelles

Page 25: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Evaluation de modèles plus “formelle”

• Validation croisée

• Comparaison de modèles: t-test.

• Validation de modèle et intervalle de confiance : Pr[-z < val/N < +z] = c

• Conforte l’idée de l’élargissement de l’ensemble de données

Exposé Bordet 14/11/2015

et base de la comparaison

Page 26: Data mining et statistiques - oncorea.com Rencontre/14. Bersini.pdf · Data mining et statistiques Hugues Bersini IRIDIA / ULB Exposé Bordet 14/11/2015

Conclusions

• Stats inconscientes (le minimum qu’il faut savoir) dans l’elaboration des modèles.

• Data Mining et BigData, de plus en plus, privilégient les qualités d’informaticien sur celles de statisticiens.

• Le besoin de rigueur statistique s’accroit avec l’incertitude inhérente au monde et les consequences des erreurs.

• Mais la culture statistique est toujours un grand plus!

Exposé Bordet 14/11/2015