Top Banner
子どもたちの未来を支える機械学習 定量的構造活性相関による有機ハロゲン化合物の母子間移行率予測 第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りー 1/16@フリークアウト様 @siero5335 1 OpenStax College Anatomy & Physiology, Connexions Web site. h;p:// cnx.org/content/col11496/1.6/, Jun 19, 2013. CC BY 3.0, File:2910 The Placenta02.jpg
52

子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

Apr 14, 2017

Download

Data & Analytics

Akifumi Eguchi
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

子どもたちの未来を支える機械学習 定量的構造活性相関による有機ハロゲン化合物の母子間移行率予測

第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りー 1/16@フリークアウト様

@siero5335 1 OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p://cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The  Placenta-­‐02.jpg

Page 2: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

自己紹介 Twitter ID: @siero5335

仕事: 化学物質曝露影響の解析    化学分析法の開発    専門: 環境化学、分析化学

興味: 生理活性物質の一斉分析 hoxo-m

2

Page 3: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

「続・わかりやすいパターン認識」読書会 無事完走!

3

Page 4: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

環境化学:どんな目的での研究が多い?

汚染実態の解析(どこにどのくらいどんな物質があるのか) →測定値とその他調査データから汚染源・汚染の広がりを解明

毒性の調査(毒性があるのか・あるならどんな毒性か) →細胞や動物に汚染物質を投与して影響を見るなど

健康・生態系への影響調査(アウトカムとの関係は?) →癌・免疫・アレルギー・知能…etc と曝露の関係解析

環境中・体内での動態・毒性予測(物質の構造・性質から予測) →化学物質の物理化学的性質から動態・毒性を予測

4

Page 5: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

今日紹介させていただく論文

5

h;p://link.springer.com/arOcle/10.1007%2Fs11356-­‐015-­‐5436-­‐0

PCBs: (Polychlorinated biphenyls, ポリ塩化ビフェニル) OCPs: (Organohalogen pesticides, 有機塩素系農薬) PBDEs: (Polybrominated diphenyl ether, ポリ臭化ジフェニルエーテル)

Page 6: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

体内に残留する有機ハロゲン化合物

ポリ塩化ビフェニル(PCBs)!カネミ油症事件

ポリ臭化ビフェニルエーテル(PBDEs)!難燃剤として電化製品等に添加

ダイオキシン!(枯葉剤の不純物・焼却炉で生成)! ヘキサクロロ!

ベンゼン!(殺菌剤)!

ヘキサクロロ シクロヘキサン (殺虫剤)

トランスノナクロル!(殺虫剤)!

ヘプタクロル!エポキシド!(殺虫剤)!

高次生物に高蓄積!発がん性・催奇形性!

甲状腺ホルモンかく乱・神経毒性などが報告 6

Page 7: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

胎児への影響

Environmental   exposure   to   polychlorinated   biphenyls   and   quality   of   the  home  environment:  effects  on  psychodevelopment  in  early  childhood

Intellectual  Impairment  in  Children  Exposed  to  Polychlorinated  Biphenyls  in  Utero

日本でも環境要因が子供の成長に与える影響の  解明を目的とした大規模疫学調査がスタート    とは言え化学物質測定するのも難しい  

IQ下がる→人類全体の平均知能が落ちて損失  

7

Page 8: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は?

8

Page 9: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる

9

Page 10: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる

化学物質のどんな特徴が移行率に関わるのか、  特徴からどの程度移行率を予測できるかについて  

解析した研究は限られている   10

Page 11: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

目的

1. 有機ハロゲン化合物各種の母子間移行率を 定量的構造活性相関 (QSAR) により予測し、 2. 予測モデル内において重要な変数を抽出することで、 母子間移行率に関連する分子情報を特定する

11

Page 12: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

? 12

定量的構造活性相関 (QSAR)

Page 13: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship)

h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 13

Page 14: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。

h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 14

Page 15: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移行率の関係を解析することで、移行しやすい物質を特定したり、その構造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B

%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 15

Page 16: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

血液脳関門

SchemaOc  sketch  showing  the  blood-­‐brain  barrier.  From  the  brain  down  to  the  Oght  juncOons.  ©  von  Kuebi  =  Armin  Kübelbeck,  and  for  the  brain:  Patrick  J.  Lynch  [CC-­‐BY-­‐3.0  (h;p://creaOvecommons.org/licenses/by/3.0)],  via  Wikimedia  Commons

化学物質が血液から脳に直接運ばれないようにするための機構が存在 16

Page 17: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

血液脳関門

SchemaOc  sketch  showing  the  blood-­‐brain  barrier.  From  the  brain  down  to  the  Oght  juncOons.  ©  von  Kuebi  =  Armin  Kübelbeck,  and  for  the  brain:  Patrick  J.  Lynch  [CC-­‐BY-­‐3.0  (h;p://creaOvecommons.org/licenses/by/3.0)],  via  Wikimedia  Commons

うつ病の薬・脳への悪影響への考慮などから移行率に関する研究が進んでいる 17

Page 18: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

血液胎盤関門

OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p://cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The  Placenta-­‐02.jpg

胎盤にも同様の機構が存在することは知られているが、 血液脳関門に比べると研究の数が少なくマイナー

18

Page 19: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

文献数の違い Web of Science (Thomson Reuters社文献検索システム) 1月8日調べ Blood brain barrier (血液脳関門): 約39000件 Blood placental barrier (血液胎盤関門): 約 560件

19

Page 20: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

血液胎盤関門

OpenStax  College  -­‐  Anatomy  &  Physiology,  Connexions  Web  site.  h;p://cnx.org/content/col11496/1.6/,  Jun  19,  2013.  CC  BY  3.0,  File:2910  The  Placenta-­‐02.jpg

汚染物質は児の発達に影響すると言われているが、移行しやすい物質は不明 移行率に関わる因子としては分子量くらいしかよく知られた指標がない

20

Page 21: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

定量的構造物性相関 (QSPR) 定量的構造物性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSPR(=Quantitative Structure-Property Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移行率の関係を解析することで、移行しやすい物質を特定したり、その構造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B

%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 21

Page 22: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

試料と方法

22

Page 23: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

測定対象物質

ポリ塩化ビフェニル(PCBs)  カネミ油症事件

ポリ臭化ビフェニルエーテル(PBDEs)  難燃剤として電化製品等に添加

ダイオキシン  (枯葉剤の不純物・焼却炉で生成)   ヘキサクロロ  

ベンゼン  (殺菌剤)  

ヘキサクロロ シクロヘキサン (殺虫剤)

トランスノナクロル  (殺虫剤)  

ヘプタクロル  エポキシド  (殺虫剤)  

23

Page 24: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

測定検体

PCBs, 有機塩素系農薬: 29 pairs Dioxins, dioxin-like PCBs: 41 pairs PBDEs: 9 pairs 高分解能ガスクロマトグラフ質量分析計により 母体血・臍帯血中の上記汚染物質を定量

24

Page 25: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

半経験的分子軌道法による分子状態の計算

半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する

25

Page 26: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

半経験的分子軌道法による分子状態の計算

半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する

MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得

26

Page 27: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

半経験的分子軌道法による分子状態の計算

半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する

MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得

分子量・生成熱・全エネルギー・電子エネルギー・全核間反発エネルギー・最高被占軌道, 最低空軌道のエネルギーおよびその差分・双極子モーメント・部分電荷の最大最小値

27

Page 28: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

半経験的分子軌道法による分子状態の計算

半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する

MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得

分子量・結合エネルギー・反応性・電荷の偏り

28

Page 29: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁  (EPA)  が開発したソフトウェア  化学構造から物性を算出する(親水性、生物濃縮性など)  正式名称はThe  EsOmaOons  Programs  Interface  for  Windows    下記URLから入手可能  h;p://www.epa.gov/tsca-­‐screening-­‐tools/epi-­‐suitetm-­‐esOmaOon-­‐program-­‐interface    6種類の分子情報を取得 LogKow,  LogKoA,  Water  solubility,  LogBCF,  LogBAF,  Half  life  

29

Page 30: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁  (EPA)  が開発したソフトウェア  化学構造から物性を算出する(親水性、生物濃縮性など)  正式名称はThe  EsOmaOons  Programs  Interface  for  Windows    下記URLから入手可能  h;p://www.epa.gov/tsca-­‐screening-­‐tools/epi-­‐suitetm-­‐esOmaOon-­‐program-­‐interface    6種類の分子情報を取得 オクタノール/水分配係数、オクタノール/空気分配係数、  水溶性、生物濃縮性2種、生体内半減期  

30

Page 31: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

ダイオキシン毒性等価係数 (Toxic equivalency factor: TEF)

塩素のつき方・構造の違いにより  419種類の異性体が存在  

うち毒性が強いものが17種類  丸のところに塩素が入ってると毒性が強い

塩素のつき方によって  209種類のPCBsが存在  

平面性を持つPCBsはダイオキシンとしての毒性が強い(12種類)

Polychlorinated dibenzo-p-dioxins TCDD PeCDD 1,6-HxCDD 1,4-HxCDD 1,9-HxCDD 1,4,6-HpCDD OCDD

1 1 0.1 0.1 0.1 0.01 0.0003              

Polychlorinated dibenzofurans TCDF 1-PeCDF 4-PeCDF 1,4-HxCDF 1,6-HxCDF 1,9-HxCDF  

0.1 0.03 0.3 0.1 0.1 0.1   4,6-HxCDF 1,4,6-HpCDF 1,4,9-HpCDF OCDF      

0.1 0.01 0.01 0.0003      

             

Coplanar pcb PCB 77 PCB 81 PCB 105 PCB 114 PCB 118 PCB 123  

0.0001 0.0003 0.00003 0.00003 0.00003 0.00003  

PCB 126 PCB 156 PCB 157 PCB 167 PCB 169 PCB 189  

0.1 0.00003 0.00003 0.00003 0.03 0.00003   31

Page 32: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

データ解析

データの要約 → 主成分分析 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF)

の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用

32

Page 33: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

データ解析

データ全体を訓練データと検証データに分割して検証することで、未知データに対応可能か確認

データサイエンティスト養成読本R活用編  P45参照

データ

訓練データ

検証データ

モデル構築

モデル検証

予測モデル 10  fold  cross  validaNon

33

Page 34: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

•  訓練データ24物質:     HCB,  HCH,  Heptachlor  epoxide,     1.2.3.7.8.PeCDD, 1.2.3.6.7.8.HxCDD,  1.2.3.4.6.7.8.HpCDD,     OCDD,  2.3.4.7.8.PeCDF,  1.2.3.4.6.7.8.HpCDF,     CB77,  CB126,  CB169,  CB114,  CB118,  CB123,  CB156,  CB157,   CB167,  TetraCB,  PentaCB,  HexaCB,  OctaCB,     BDE47,  BDE153    

•  検証データ7物質:     Trans-­‐nonachlor,     1.2.3.4.7.8.HxCDF,  1.2.3.6.7.8.HxCDF,     CB105,  CB189,  HeptaCB,     BDE100  

訓練データ・検証データ分割

34

Page 35: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

Transfer ratio

Molecular weight

TEF

LogKow

LogKoA

Water solubility

LogBCF

LogBAF

Half life

Final heat of formation

Total energy

Electronic energy Core-Core repulsion

EHomo

ELumo

q-

q+

Ehomo-Elumo

Total dipole

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 PC1  (33.7%)

PC2  (17.1%

) HCB

HCH

Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD

1.2.3.6.7.8.HxCDD

1.2.3.4.6.7.8.HpCDD

OCDD

2.3.4.7.8.PeCDF

1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF

CB77

CB126 CB169

CB105

CB114 CB118 CB123

CB156 CB157 CB167

CB189 TetraCB

PentaCB HexaCB

HeptaCB OctaCB

BDE47 BDE100 BDE153

-8

-6

-4

-2

0

2

4

-8 -6 -4 -2 0 2 4 6 t[1]

主成分分析によるデータの要約

横軸:分子量、反応性, 縦軸: 生物蓄積性、水溶性 PCBs dioxin-­‐like  PCBs PCDD/Fs OCPs PBDEs

35

Page 36: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

Transfer ratio

Molecular weight

TEF

LogKow

LogKoA

Water solubility

LogBCF

LogBAF

Half life

Final heat of formation

Total energy

Electronic energy Core-Core repulsion

EHomo

ELumo

q-

q+

Ehomo-Elumo

Total dipole

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3

PCBs dioxin-­‐like  PCBs PCDD/Fs OCPs PBDEs PC1  (33.7%)

PC2  (17.1%

) HCB

HCH

Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD

1.2.3.6.7.8.HxCDD

1.2.3.4.6.7.8.HpCDD

OCDD

2.3.4.7.8.PeCDF

1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF

CB77

CB126 CB169

CB105

CB114 CB118 CB123

CB156 CB157 CB167

CB189 TetraCB

PentaCB HexaCB

HeptaCB OctaCB

BDE47 BDE100 BDE153

-8

-6

-4

-2

0

2

4

-8 -6 -4 -2 0 2 4 6 t[1]

主成分分析によるデータの要約

PCBs, Dioxins, OCPsが分子情報により分類 36

Page 37: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

Molecular weight TEF

LogKow

LogKoA

Water solubility

LogBCF

LogBAF

Half life

Final heat of formation

Total energy

Electronic energy

Core-Core repulsion

EHomo

ELumo q- q+

Ehomo-Elumo

Total dipole

Molecular weight 1.00                                  

TEF -0.08 1.00                                

LogKow 0.68 0.31 1.00                              

LogKoA 0.74 0.25 0.84 1.00                            

Water solubility -0.79 -0.27 -0.92 -0.91 1.00                          

LogBCF -0.55 -0.35 -0.77 -0.80 0.81 1.00                        

LogBAF -0.19 -0.26 -0.05 -0.02 0.24 0.52 1.00                      

Half life 0.03 -0.36 0.15 -0.02 0.07 0.26 0.85 1.00                    

Final heat of formation -0.17 -0.28 -0.23 -0.09 0.23 0.39 0.53 0.43 1.00                  

Total energy -0.71 -0.33 -0.71 -0.61 0.74 0.59 0.32 0.12 0.65 1.00                

Electronic energy -0.74 -0.03 -0.59 -0.47 0.58 0.39 0.13 -0.03 0.43 0.79 1.00              

Core-Core repulsion 0.82 0.14 0.68 0.62 -0.71 -0.54 -0.26 -0.03 -0.57 -0.95 -0.87 1.00            

EHomo 0.09 0.49 0.24 0.34 -0.38 -0.32 -0.32 -0.41 0.05 -0.16 0.05 0.08 1.00          

ELumo -0.33 -0.56 -0.77 -0.6 0.70 0.64 0.23 0.14 0.50 0.66 0.45 -0.54 -0.21 1.00        

q- -0.53 -0.34 -0.34 -0.49 0.52 0.42 0.38 0.39 0.04 -0.43 0.32 -0.42 -0.45 0.21 1.00      

q+ 0.54 -0.04 0.32 0.53 0.58 -0.45 -0.35 -0.34 -0.06 -0.4 -0.29 0.38 0.37 -0.17 -0.6

3 1.00    

Ehomo-Elumo 0.39 0.53 0.83 0.67 -0.79 -0.7 -0.21 -0.10 -0.41 -0.69 -0.45 0.58 0.52 -0.87

-0.30 0.32 1.00  

Total dipole -0.20 -0.05 -0.21 -0.30 0.31 0.34 0.46 0.48 0.41 0.22 0.03 -0.18 -0.19 0.30 0.06 -0.20 -0.25 1.00

多重共線性の排除

相関の強い因子(太字: R > 0.7)を予測モデルの因子から排除 37

Page 38: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

予測モデルの構築 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF)

の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用

38

Page 39: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

データをtraining, testに分割し、training setを10-fold cross validationでチューニング チューニングしたモデルをtest setにあてはめ

Random forestが良好な結果を示した。

予測値

実測

訓練データ 検証データ

Random  forest  R2

cv  =  0.566  R2

pred  =  0.519

線形重回帰モデル  R2

cv  =  0.425  R2

pred  =  0.129

実測値と予測値の比較

39

Page 40: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

Validation setでもrandom forestは良好な性能を示したし これでいいやろ? →Reviewer 3: 駄目です

予測値

実測

訓練データ 検証データ

Random  forest  R2

cv  =  0.566  R2

pred  =  0.519

線形重回帰モデル  R2

cv  =  0.425  R2

pred  =  0.129

実測値と予測値の比較

40

Page 41: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

実測値と予測値の比較2 Tropsha’s  validaOon  factorで評価するように

Tropsha  A  (2010)  Best  pracOces  for  QSAR  model  development,  validaOon,  and  exploitaOon.  Mol  Inf  29:476–488  Tropsha  A,  and  Golbraikh  A  (2002)  Beware  of  Q2.  J  Mol  Graph  Model  20.4:  269-­‐276.  Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:  method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem  Inf  Model  46:  1984–1995  

R2EXT = 1− !!"#$!!!"#

!!!!!!!"#$!!!"

!!!!!

,where!!!" !is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R2CV

k = !!"#!

!!! ∗!!"#$!!"#$!!

!!!

R20 = 1− (!!"#$!!∗!!"#)!!!!!

(!!"#$!!!"#)!!!!!

, where !!"# is the mean over all predictive values by R2pred

41

Page 42: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

実測値と予測値の比較2

R2pred  =  0.519  R2EXT  =  0.508  R2EXT-­‐R20/R2EXT  =  0.0062  k  =  1.033

Tropsha’s  validaOon  factorで評価するように

Tropsha  A  (2010)  Best  pracOces  for  QSAR  model  development,  validaOon,  and  exploitaOon.  Mol  Inf  29:476–488  Tropsha  A,  and  Golbraikh  A  (2002)  Beware  of  Q2.  J  Mol  Graph  Model  20.4:  269-­‐276.  Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:  method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem  Inf  Model  46:  1984–1995  

R2EXT = 1− !!"#$!!!"#

!!!!!!!"#$!!!"

!!!!!

,where!!!" !is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R2CV

k = !!"#!

!!! ∗!!"#$!!"#$!!

!!!

R20 = 1− (!!"#$!!∗!!"#)!!!!!

(!!"#$!!!"#)!!!!!

, where !!"# is the mean over all predictive values by R2pred

42

Page 43: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

実測値と予測値の比較3 APD  (applicaOon  of  domain)で評価するように      

APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5    

<d>,  σ  予測値と実測値のユークリッド距離の平均、分散

Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:  method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem  Inf  Model  46:  1984–1995  

Distance* (APD = 0.109)

1.2.3.4.7.8.HxCDF 0.139

1.2.3.6.7.8.HxCDF 0.120

CB105 0.106

CB189 0.0819

HeptaCB 0.102

BDE100 0.183

Trans-nonachlor 0.143

43

Page 44: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

実測値と予測値の比較3

必ずしもvalidaOon  setへの当てはまりが良いわけではなかった…

Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:  method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem  Inf  Model  46:  1984–1995  

44

APD  (applicaOon  of  domain)で評価するように      

APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5    

<d>,  σ  予測値と実測値のユークリッド距離の平均、分散

Distance* (APD = 0.109)

1.2.3.4.7.8.HxCDF 0.139

1.2.3.6.7.8.HxCDF 0.120

CB105 0.106

CB189 0.0819

HeptaCB 0.102

BDE100 0.183

Trans-nonachlor 0.143

Page 45: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

実測値と予測値の比較3

Zhang  SX,  Golbraikh  A,  Oloff  S,  Kohn  H,  Tropsha  A  (2006)  A  novel  automated  lazy  learning  QSAR  (ALL-­‐QSAR)  approach:  method  development,  applicaOons,  and  virtual  screening  of  chemical  databases  using  validated  ALL-­‐QSAR  models.  J  Chem  Inf  Model  46:  1984–1995  

45

APD  (applicaOon  of  domain)で評価するように      

APD  (applicaOon  of  domain)  =<d>+Zσ  [Z:  empirical  cutoff  value  0.5    

<d>,  σ  予測値と実測値のユークリッド距離の平均、分散

Distance* (APD = 0.109)

1.2.3.4.7.8.HxCDF 0.139

1.2.3.6.7.8.HxCDF 0.120

CB105 0.106

CB189 0.0819

HeptaCB 0.102

BDE100 0.183

Trans-nonachlor 0.143

必ずしもvalidaOon  setへの当てはまりが良いわけではなかった…  が、正直にそう書いたらその後修正は求められず

Page 46: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

予測モデルの構築に関わる因子の抽出

46

Page 47: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

モデル中の変数重要度比較 RF MLR

Variable importance t-value

q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032

HOMO 65.79 HOMO 5.683 Final heat of

formation 56.84 Molecular

weight -3.979 Ehomo-Elumo 53.34 q+ 2.027

q+ 48.28 LogBAF 42.33 LogBCF 39.23

TEF 22.47 Molecular

weight 15.32

47

Page 48: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

モデル中の変数重要度比較

過去の文献では分子量が重要と言われているが…

RF MLR Variable

importance t-value q- 100 LogBAF 7.912

Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683

Final heat of formation 56.84

Molecular weight -3.979

Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28

LogBAF 42.33 LogBCF 39.23

TEF 22.47 Molecular

weight 15.32 分子量

48

Page 49: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

過去の文献では分子量が重要と言われているが… 電荷の偏り、反応性が重要?

RF MLR Variable

importance t-value q- 100 LogBAF 7.912

Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683

Final heat of formation 56.84

Molecular weight -3.979

Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28

LogBAF 42.33 LogBCF 39.23

TEF 22.47 Molecular

weight 15.32

モデル中の変数重要度比較

電荷の偏り

反応性 電荷の偏り

反応性 電荷の偏り

エネルギー

49

Page 50: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

ダイオキシンの毒性等量 (TEF) が移行率と関係 →胎盤で発現する薬物代謝酵素の影響?

RF MLR Variable

importance t-value q- 100 LogBAF 7.912

Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683

Final heat of formation 56.84

Molecular weight -3.979

Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28

LogBAF 42.33 LogBCF 39.23

TEF 22.47 Molecular

weight 15.32

モデル中の変数重要度比較

ダイオキシン毒性等量

50

Page 51: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

既存研究では特徴量として余り注目されていなかった因子が移行率に関係している可能性を示唆

RF MLR Variable

importance t-value q- 100 LogBAF 7.912

Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683

Final heat of formation 56.84

Molecular weight -3.979

Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28

LogBAF 42.33 LogBCF 39.23

TEF 22.47 Molecular

weight 15.32

モデル中の変数重要度比較

ダイオキシン毒性等量

51

Page 52: 子どもたちの未来を支える機械学習: 定量的構造活性相関 (QSAR) による有機ハロゲン化合物の母子間移行率予測

まとめ

ランダムフォレストモデルにより、化学物質の母子間移行率を高精度で予測 既報にある分子量に加え、電荷の偏り、物質の反応性、ダイオキシンとしての毒性等が母子移行率と関係していることを示唆

52