Page 1
子どもたちの未来を支える機械学習 定量的構造活性相関による有機ハロゲン化合物の母子間移行率予測
第50回 データマイニング+WEB@東京 ー機械学習 実活用 祭りー 1/16@フリークアウト様
@siero5335 1 OpenStax College -‐ Anatomy & Physiology, Connexions Web site. h;p://cnx.org/content/col11496/1.6/, Jun 19, 2013. CC BY 3.0, File:2910 The Placenta-‐02.jpg
Page 2
自己紹介 Twitter ID: @siero5335
仕事: 化学物質曝露影響の解析 化学分析法の開発 専門: 環境化学、分析化学
興味: 生理活性物質の一斉分析 hoxo-m
2
Page 3
「続・わかりやすいパターン認識」読書会 無事完走!
3
Page 4
環境化学:どんな目的での研究が多い?
汚染実態の解析(どこにどのくらいどんな物質があるのか) →測定値とその他調査データから汚染源・汚染の広がりを解明
毒性の調査(毒性があるのか・あるならどんな毒性か) →細胞や動物に汚染物質を投与して影響を見るなど
健康・生態系への影響調査(アウトカムとの関係は?) →癌・免疫・アレルギー・知能…etc と曝露の関係解析
環境中・体内での動態・毒性予測(物質の構造・性質から予測) →化学物質の物理化学的性質から動態・毒性を予測
4
Page 5
今日紹介させていただく論文
5
h;p://link.springer.com/arOcle/10.1007%2Fs11356-‐015-‐5436-‐0
PCBs: (Polychlorinated biphenyls, ポリ塩化ビフェニル) OCPs: (Organohalogen pesticides, 有機塩素系農薬) PBDEs: (Polybrominated diphenyl ether, ポリ臭化ジフェニルエーテル)
Page 6
体内に残留する有機ハロゲン化合物
ポリ塩化ビフェニル(PCBs)!カネミ油症事件
ポリ臭化ビフェニルエーテル(PBDEs)!難燃剤として電化製品等に添加
ダイオキシン!(枯葉剤の不純物・焼却炉で生成)! ヘキサクロロ!
ベンゼン!(殺菌剤)!
ヘキサクロロ シクロヘキサン (殺虫剤)
トランスノナクロル!(殺虫剤)!
ヘプタクロル!エポキシド!(殺虫剤)!
高次生物に高蓄積!発がん性・催奇形性!
甲状腺ホルモンかく乱・神経毒性などが報告 6
Page 7
胎児への影響
Environmental exposure to polychlorinated biphenyls and quality of the home environment: effects on psychodevelopment in early childhood
Intellectual Impairment in Children Exposed to Polychlorinated Biphenyls in Utero
日本でも環境要因が子供の成長に与える影響の 解明を目的とした大規模疫学調査がスタート とは言え化学物質測定するのも難しい
IQ下がる→人類全体の平均知能が落ちて損失
7
Page 8
汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は?
8
Page 9
汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる
9
Page 10
汚染物質の母子間移行率予測モデル 胎児は母体から胎盤を通じて栄養素などを得ることで成長 同時に化学物質も母体から移行 化学物質の物理化学的性質から移行率をどの程度予測できるのか 移行しやすい物質の特徴は? 臍帯血など、胎児由来の試料を採取することは困難 移行しやすく、リスクの大きそうな物質を特定できれば、 限られた試料をその物質の分析に集中できる
化学物質のどんな特徴が移行率に関わるのか、 特徴からどの程度移行率を予測できるかについて
解析した研究は限られている 10
Page 11
目的
1. 有機ハロゲン化合物各種の母子間移行率を 定量的構造活性相関 (QSAR) により予測し、 2. 予測モデル内において重要な変数を抽出することで、 母子間移行率に関連する分子情報を特定する
11
Page 12
? 12
定量的構造活性相関 (QSAR)
Page 13
定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship)
h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 13
Page 14
定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。
h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 14
Page 15
定量的構造活性相関 (QSAR) 定量的構造活性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSAR(=Quantitative Structure-Activity Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移行率の関係を解析することで、移行しやすい物質を特定したり、その構造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B
%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 15
Page 16
血液脳関門
SchemaOc sketch showing the blood-‐brain barrier. From the brain down to the Oght juncOons. © von Kuebi = Armin Kübelbeck, and for the brain: Patrick J. Lynch [CC-‐BY-‐3.0 (h;p://creaOvecommons.org/licenses/by/3.0)], via Wikimedia Commons
化学物質が血液から脳に直接運ばれないようにするための機構が存在 16
Page 17
血液脳関門
SchemaOc sketch showing the blood-‐brain barrier. From the brain down to the Oght juncOons. © von Kuebi = Armin Kübelbeck, and for the brain: Patrick J. Lynch [CC-‐BY-‐3.0 (h;p://creaOvecommons.org/licenses/by/3.0)], via Wikimedia Commons
うつ病の薬・脳への悪影響への考慮などから移行率に関する研究が進んでいる 17
Page 18
血液胎盤関門
OpenStax College -‐ Anatomy & Physiology, Connexions Web site. h;p://cnx.org/content/col11496/1.6/, Jun 19, 2013. CC BY 3.0, File:2910 The Placenta-‐02.jpg
胎盤にも同様の機構が存在することは知られているが、 血液脳関門に比べると研究の数が少なくマイナー
18
Page 19
文献数の違い Web of Science (Thomson Reuters社文献検索システム) 1月8日調べ Blood brain barrier (血液脳関門): 約39000件 Blood placental barrier (血液胎盤関門): 約 560件
19
Page 20
血液胎盤関門
OpenStax College -‐ Anatomy & Physiology, Connexions Web site. h;p://cnx.org/content/col11496/1.6/, Jun 19, 2013. CC BY 3.0, File:2910 The Placenta-‐02.jpg
汚染物質は児の発達に影響すると言われているが、移行しやすい物質は不明 移行率に関わる因子としては分子量くらいしかよく知られた指標がない
20
Page 21
定量的構造物性相関 (QSPR) 定量的構造物性相関(ていりょうてきこうぞうかっせいそうかん)は化学物質の構造と物理学的な挙動・性質との間になりたつ量的関係のこと。これにより構造的に類似した化合物の動態・性質について予測することを目的とする。英語ではQSPR(=Quantitative Structure-Property Relationship) 化合物の疎水性、対象とする化合物の構造を表現する数量(幾何学的構造を表す記述子、フロンティア軌道理論に基づくエネルギー(最高被占軌道: HOMO, 最低空軌道: LUMO)、電気陰性度といった電子的記述子など)を抽出し、構造的に類似する一連の物質に関してこれら数量と動態との関係を検討する。 今回の研究ではPCBs, ダイオキシンなどの化学物質の構造と母子間移行率の関係を解析することで、移行しやすい物質を特定したり、その構造の特徴を捉えることが目的となる。 h;p://ja.wikipedia.org/wiki/%E5%AE%9A%E9%87%8F%E7%9A%84%E6%A7%8B
%E9%80%A0%E6%B4%BB%E6%80%A7%E7%9B%B8%E9%96%A2 21
Page 23
測定対象物質
ポリ塩化ビフェニル(PCBs) カネミ油症事件
ポリ臭化ビフェニルエーテル(PBDEs) 難燃剤として電化製品等に添加
ダイオキシン (枯葉剤の不純物・焼却炉で生成) ヘキサクロロ
ベンゼン (殺菌剤)
ヘキサクロロ シクロヘキサン (殺虫剤)
トランスノナクロル (殺虫剤)
ヘプタクロル エポキシド (殺虫剤)
23
Page 24
測定検体
PCBs, 有機塩素系農薬: 29 pairs Dioxins, dioxin-like PCBs: 41 pairs PBDEs: 9 pairs 高分解能ガスクロマトグラフ質量分析計により 母体血・臍帯血中の上記汚染物質を定量
24
Page 25
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する
25
Page 26
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得
26
Page 27
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得
分子量・生成熱・全エネルギー・電子エネルギー・全核間反発エネルギー・最高被占軌道, 最低空軌道のエネルギーおよびその差分・双極子モーメント・部分電荷の最大最小値
27
Page 28
半経験的分子軌道法による分子状態の計算
半経験的分子軌道法 機械学習で言うところのsemi-supervised learning 実験値など、既知の値を使って構造を最適化する
MOPAC2009のParameterized Model number 6(既知パラメータが9000種類程度入っている)で構造最適化後、11種類の分子情報を取得
分子量・結合エネルギー・反応性・電荷の偏り
28
Page 29
EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁 (EPA) が開発したソフトウェア 化学構造から物性を算出する(親水性、生物濃縮性など) 正式名称はThe EsOmaOons Programs Interface for Windows 下記URLから入手可能 h;p://www.epa.gov/tsca-‐screening-‐tools/epi-‐suitetm-‐esOmaOon-‐program-‐interface 6種類の分子情報を取得 LogKow, LogKoA, Water solubility, LogBCF, LogBAF, Half life
29
Page 30
EPI Suiteによる分子情報の取得 アメリカ合衆国環境保護庁 (EPA) が開発したソフトウェア 化学構造から物性を算出する(親水性、生物濃縮性など) 正式名称はThe EsOmaOons Programs Interface for Windows 下記URLから入手可能 h;p://www.epa.gov/tsca-‐screening-‐tools/epi-‐suitetm-‐esOmaOon-‐program-‐interface 6種類の分子情報を取得 オクタノール/水分配係数、オクタノール/空気分配係数、 水溶性、生物濃縮性2種、生体内半減期
30
Page 31
ダイオキシン毒性等価係数 (Toxic equivalency factor: TEF)
塩素のつき方・構造の違いにより 419種類の異性体が存在
うち毒性が強いものが17種類 丸のところに塩素が入ってると毒性が強い
塩素のつき方によって 209種類のPCBsが存在
平面性を持つPCBsはダイオキシンとしての毒性が強い(12種類)
Polychlorinated dibenzo-p-dioxins TCDD PeCDD 1,6-HxCDD 1,4-HxCDD 1,9-HxCDD 1,4,6-HpCDD OCDD
1 1 0.1 0.1 0.1 0.01 0.0003
Polychlorinated dibenzofurans TCDF 1-PeCDF 4-PeCDF 1,4-HxCDF 1,6-HxCDF 1,9-HxCDF
0.1 0.03 0.3 0.1 0.1 0.1 4,6-HxCDF 1,4,6-HpCDF 1,4,9-HpCDF OCDF
0.1 0.01 0.01 0.0003
Coplanar pcb PCB 77 PCB 81 PCB 105 PCB 114 PCB 118 PCB 123
0.0001 0.0003 0.00003 0.00003 0.00003 0.00003
PCB 126 PCB 156 PCB 157 PCB 167 PCB 169 PCB 189
0.1 0.00003 0.00003 0.00003 0.03 0.00003 31
Page 32
データ解析
データの要約 → 主成分分析 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF)
の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用
32
Page 33
データ解析
データ全体を訓練データと検証データに分割して検証することで、未知データに対応可能か確認
データサイエンティスト養成読本R活用編 P45参照
データ
訓練データ
検証データ
モデル構築
モデル検証
予測モデル 10 fold cross validaNon
33
Page 34
• 訓練データ24物質: HCB, HCH, Heptachlor epoxide, 1.2.3.7.8.PeCDD, 1.2.3.6.7.8.HxCDD, 1.2.3.4.6.7.8.HpCDD, OCDD, 2.3.4.7.8.PeCDF, 1.2.3.4.6.7.8.HpCDF, CB77, CB126, CB169, CB114, CB118, CB123, CB156, CB157, CB167, TetraCB, PentaCB, HexaCB, OctaCB, BDE47, BDE153
• 検証データ7物質: Trans-‐nonachlor, 1.2.3.4.7.8.HxCDF, 1.2.3.6.7.8.HxCDF, CB105, CB189, HeptaCB, BDE100
訓練データ・検証データ分割
34
Page 35
Transfer ratio
Molecular weight
TEF
LogKow
LogKoA
Water solubility
LogBCF
LogBAF
Half life
Final heat of formation
Total energy
Electronic energy Core-Core repulsion
EHomo
ELumo
q-
q+
Ehomo-Elumo
Total dipole
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 PC1 (33.7%)
PC2 (17.1%
) HCB
HCH
Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD
1.2.3.6.7.8.HxCDD
1.2.3.4.6.7.8.HpCDD
OCDD
2.3.4.7.8.PeCDF
1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF
CB77
CB126 CB169
CB105
CB114 CB118 CB123
CB156 CB157 CB167
CB189 TetraCB
PentaCB HexaCB
HeptaCB OctaCB
BDE47 BDE100 BDE153
-8
-6
-4
-2
0
2
4
-8 -6 -4 -2 0 2 4 6 t[1]
主成分分析によるデータの要約
横軸:分子量、反応性, 縦軸: 生物蓄積性、水溶性 PCBs dioxin-‐like PCBs PCDD/Fs OCPs PBDEs
35
Page 36
Transfer ratio
Molecular weight
TEF
LogKow
LogKoA
Water solubility
LogBCF
LogBAF
Half life
Final heat of formation
Total energy
Electronic energy Core-Core repulsion
EHomo
ELumo
q-
q+
Ehomo-Elumo
Total dipole
-0.4
-0.3
-0.2
-0.1
0
0.1
0.2
0.3
0.4
0.5
-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3
PCBs dioxin-‐like PCBs PCDD/Fs OCPs PBDEs PC1 (33.7%)
PC2 (17.1%
) HCB
HCH
Trans-nonachlor Heptachlor epoxide 1.2.3.7.8.PeCDD
1.2.3.6.7.8.HxCDD
1.2.3.4.6.7.8.HpCDD
OCDD
2.3.4.7.8.PeCDF
1.2.3.6.7.8.HxCDF 1.2.3.4.7.8.HxCDF 1.2.3.4.6.7.8.HpCDF
CB77
CB126 CB169
CB105
CB114 CB118 CB123
CB156 CB157 CB167
CB189 TetraCB
PentaCB HexaCB
HeptaCB OctaCB
BDE47 BDE100 BDE153
-8
-6
-4
-2
0
2
4
-8 -6 -4 -2 0 2 4 6 t[1]
主成分分析によるデータの要約
PCBs, Dioxins, OCPsが分子情報により分類 36
Page 37
Molecular weight TEF
LogKow
LogKoA
Water solubility
LogBCF
LogBAF
Half life
Final heat of formation
Total energy
Electronic energy
Core-Core repulsion
EHomo
ELumo q- q+
Ehomo-Elumo
Total dipole
Molecular weight 1.00
TEF -0.08 1.00
LogKow 0.68 0.31 1.00
LogKoA 0.74 0.25 0.84 1.00
Water solubility -0.79 -0.27 -0.92 -0.91 1.00
LogBCF -0.55 -0.35 -0.77 -0.80 0.81 1.00
LogBAF -0.19 -0.26 -0.05 -0.02 0.24 0.52 1.00
Half life 0.03 -0.36 0.15 -0.02 0.07 0.26 0.85 1.00
Final heat of formation -0.17 -0.28 -0.23 -0.09 0.23 0.39 0.53 0.43 1.00
Total energy -0.71 -0.33 -0.71 -0.61 0.74 0.59 0.32 0.12 0.65 1.00
Electronic energy -0.74 -0.03 -0.59 -0.47 0.58 0.39 0.13 -0.03 0.43 0.79 1.00
Core-Core repulsion 0.82 0.14 0.68 0.62 -0.71 -0.54 -0.26 -0.03 -0.57 -0.95 -0.87 1.00
EHomo 0.09 0.49 0.24 0.34 -0.38 -0.32 -0.32 -0.41 0.05 -0.16 0.05 0.08 1.00
ELumo -0.33 -0.56 -0.77 -0.6 0.70 0.64 0.23 0.14 0.50 0.66 0.45 -0.54 -0.21 1.00
q- -0.53 -0.34 -0.34 -0.49 0.52 0.42 0.38 0.39 0.04 -0.43 0.32 -0.42 -0.45 0.21 1.00
q+ 0.54 -0.04 0.32 0.53 0.58 -0.45 -0.35 -0.34 -0.06 -0.4 -0.29 0.38 0.37 -0.17 -0.6
3 1.00
Ehomo-Elumo 0.39 0.53 0.83 0.67 -0.79 -0.7 -0.21 -0.10 -0.41 -0.69 -0.45 0.58 0.52 -0.87
-0.30 0.32 1.00
Total dipole -0.20 -0.05 -0.21 -0.30 0.31 0.34 0.46 0.48 0.41 0.22 0.03 -0.18 -0.19 0.30 0.06 -0.20 -0.25 1.00
多重共線性の排除
相関の強い因子(太字: R > 0.7)を予測モデルの因子から排除 37
Page 38
予測モデルの構築 回帰モデルの構築 → 重回帰分析(with 変数選択) ランダムフォレスト (RF)
の2つの手法を比較 回帰モデル構築にはRのパッケージであるcaretを使用
38
Page 39
データをtraining, testに分割し、training setを10-fold cross validationでチューニング チューニングしたモデルをtest setにあてはめ
Random forestが良好な結果を示した。
予測値
実測
値
訓練データ 検証データ
Random forest R2
cv = 0.566 R2
pred = 0.519
線形重回帰モデル R2
cv = 0.425 R2
pred = 0.129
実測値と予測値の比較
39
Page 40
Validation setでもrandom forestは良好な性能を示したし これでいいやろ? →Reviewer 3: 駄目です
予測値
実測
値
訓練データ 検証データ
Random forest R2
cv = 0.566 R2
pred = 0.519
線形重回帰モデル R2
cv = 0.425 R2
pred = 0.129
実測値と予測値の比較
40
Page 41
実測値と予測値の比較2 Tropsha’s validaOon factorで評価するように
Tropsha A (2010) Best pracOces for QSAR model development, validaOon, and exploitaOon. Mol Inf 29:476–488 Tropsha A, and Golbraikh A (2002) Beware of Q2. J Mol Graph Model 20.4: 269-‐276. Zhang SX, Golbraikh A, Oloff S, Kohn H, Tropsha A (2006) A novel automated lazy learning QSAR (ALL-‐QSAR) approach: method development, applicaOons, and virtual screening of chemical databases using validated ALL-‐QSAR models. J Chem Inf Model 46: 1984–1995
R2EXT = 1− !!"#$!!!"#
!!!!!!!"#$!!!"
!!!!!
,where!!!" !is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R2CV
k = !!"#!
!!! ∗!!"#$!!"#$!!
!!!
R20 = 1− (!!"#$!!∗!!"#)!!!!!
(!!"#$!!!"#)!!!!!
, where !!"# is the mean over all predictive values by R2pred
41
Page 42
実測値と予測値の比較2
R2pred = 0.519 R2EXT = 0.508 R2EXT-‐R20/R2EXT = 0.0062 k = 1.033
Tropsha’s validaOon factorで評価するように
Tropsha A (2010) Best pracOces for QSAR model development, validaOon, and exploitaOon. Mol Inf 29:476–488 Tropsha A, and Golbraikh A (2002) Beware of Q2. J Mol Graph Model 20.4: 269-‐276. Zhang SX, Golbraikh A, Oloff S, Kohn H, Tropsha A (2006) A novel automated lazy learning QSAR (ALL-‐QSAR) approach: method development, applicaOons, and virtual screening of chemical databases using validated ALL-‐QSAR models. J Chem Inf Model 46: 1984–1995
R2EXT = 1− !!"#$!!!"#
!!!!!!!"#$!!!"
!!!!!
,where!!!" !is!the!mean!over!all!!"#$%&'%(#!!"#$%&!!"!R2CV
k = !!"#!
!!! ∗!!"#$!!"#$!!
!!!
R20 = 1− (!!"#$!!∗!!"#)!!!!!
(!!"#$!!!"#)!!!!!
, where !!"# is the mean over all predictive values by R2pred
42
Page 43
実測値と予測値の比較3 APD (applicaOon of domain)で評価するように
APD (applicaOon of domain) =<d>+Zσ [Z: empirical cutoff value 0.5
<d>, σ 予測値と実測値のユークリッド距離の平均、分散
Zhang SX, Golbraikh A, Oloff S, Kohn H, Tropsha A (2006) A novel automated lazy learning QSAR (ALL-‐QSAR) approach: method development, applicaOons, and virtual screening of chemical databases using validated ALL-‐QSAR models. J Chem Inf Model 46: 1984–1995
Distance* (APD = 0.109)
1.2.3.4.7.8.HxCDF 0.139
1.2.3.6.7.8.HxCDF 0.120
CB105 0.106
CB189 0.0819
HeptaCB 0.102
BDE100 0.183
Trans-nonachlor 0.143
43
Page 44
実測値と予測値の比較3
必ずしもvalidaOon setへの当てはまりが良いわけではなかった…
Zhang SX, Golbraikh A, Oloff S, Kohn H, Tropsha A (2006) A novel automated lazy learning QSAR (ALL-‐QSAR) approach: method development, applicaOons, and virtual screening of chemical databases using validated ALL-‐QSAR models. J Chem Inf Model 46: 1984–1995
44
APD (applicaOon of domain)で評価するように
APD (applicaOon of domain) =<d>+Zσ [Z: empirical cutoff value 0.5
<d>, σ 予測値と実測値のユークリッド距離の平均、分散
Distance* (APD = 0.109)
1.2.3.4.7.8.HxCDF 0.139
1.2.3.6.7.8.HxCDF 0.120
CB105 0.106
CB189 0.0819
HeptaCB 0.102
BDE100 0.183
Trans-nonachlor 0.143
Page 45
実測値と予測値の比較3
Zhang SX, Golbraikh A, Oloff S, Kohn H, Tropsha A (2006) A novel automated lazy learning QSAR (ALL-‐QSAR) approach: method development, applicaOons, and virtual screening of chemical databases using validated ALL-‐QSAR models. J Chem Inf Model 46: 1984–1995
45
APD (applicaOon of domain)で評価するように
APD (applicaOon of domain) =<d>+Zσ [Z: empirical cutoff value 0.5
<d>, σ 予測値と実測値のユークリッド距離の平均、分散
Distance* (APD = 0.109)
1.2.3.4.7.8.HxCDF 0.139
1.2.3.6.7.8.HxCDF 0.120
CB105 0.106
CB189 0.0819
HeptaCB 0.102
BDE100 0.183
Trans-nonachlor 0.143
必ずしもvalidaOon setへの当てはまりが良いわけではなかった… が、正直にそう書いたらその後修正は求められず
Page 46
予測モデルの構築に関わる因子の抽出
46
Page 47
モデル中の変数重要度比較 RF MLR
Variable importance t-value
q- 100 LogBAF 7.912 Total dipole 72.48 TEF -6.032
HOMO 65.79 HOMO 5.683 Final heat of
formation 56.84 Molecular
weight -3.979 Ehomo-Elumo 53.34 q+ 2.027
q+ 48.28 LogBAF 42.33 LogBCF 39.23
TEF 22.47 Molecular
weight 15.32
47
Page 48
モデル中の変数重要度比較
過去の文献では分子量が重要と言われているが…
RF MLR Variable
importance t-value q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683
Final heat of formation 56.84
Molecular weight -3.979
Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28
LogBAF 42.33 LogBCF 39.23
TEF 22.47 Molecular
weight 15.32 分子量
48
Page 49
過去の文献では分子量が重要と言われているが… 電荷の偏り、反応性が重要?
RF MLR Variable
importance t-value q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683
Final heat of formation 56.84
Molecular weight -3.979
Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28
LogBAF 42.33 LogBCF 39.23
TEF 22.47 Molecular
weight 15.32
モデル中の変数重要度比較
電荷の偏り
反応性 電荷の偏り
反応性 電荷の偏り
エネルギー
49
Page 50
ダイオキシンの毒性等量 (TEF) が移行率と関係 →胎盤で発現する薬物代謝酵素の影響?
RF MLR Variable
importance t-value q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683
Final heat of formation 56.84
Molecular weight -3.979
Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28
LogBAF 42.33 LogBCF 39.23
TEF 22.47 Molecular
weight 15.32
モデル中の変数重要度比較
ダイオキシン毒性等量
50
Page 51
既存研究では特徴量として余り注目されていなかった因子が移行率に関係している可能性を示唆
RF MLR Variable
importance t-value q- 100 LogBAF 7.912
Total dipole 72.48 TEF -6.032 HOMO 65.79 HOMO 5.683
Final heat of formation 56.84
Molecular weight -3.979
Ehomo-Elumo 53.34 q+ 2.027 q+ 48.28
LogBAF 42.33 LogBCF 39.23
TEF 22.47 Molecular
weight 15.32
モデル中の変数重要度比較
ダイオキシン毒性等量
51
Page 52
まとめ
ランダムフォレストモデルにより、化学物質の母子間移行率を高精度で予測 既報にある分子量に加え、電荷の偏り、物質の反応性、ダイオキシンとしての毒性等が母子移行率と関係していることを示唆
52