YOU ARE DOWNLOADING DOCUMENT

Please tick the box to continue:

Transcript
Page 1: TokyoR LT Rで連続データを離散化

Rで連続データを離散化

#51 Tokyo.R 2015/10/10

ニフティ株式会社

Page 2: TokyoR LT Rで連続データを離散化

伊藤 徹郎 (@tetsuroito)

食欲の秋、ハロウィンですね

最近運動不足気味

自己紹介

Page 3: TokyoR LT Rで連続データを離散化

ありがたいご恵贈の数々

近況

Page 4: TokyoR LT Rで連続データを離散化

みなさんの素晴らしい 成果によって

日々助けられてます

Page 5: TokyoR LT Rで連続データを離散化

ありがとうございます

Page 6: TokyoR LT Rで連続データを離散化

データ分析よくあるパターン 1. WindowsのGUIアプリやWebサービスの管理画面 2. Windows上でのプログラミング 3. Linux上でのコマンド操作 4. Linux上でのプログラミング 5. DBとかKVSとかを自前で用意する 6. Hiveとか、最近だとMPP 7. Hadoop/Sparkなどの環境下でのプログラミング

上記2,3のギャップを埋める書籍です。

コマンドラインでの記述がメインですが、 Rも関連したコマンドラインの紹介もあります

ggplot2の話もいっぱい

Page 7: TokyoR LT Rで連続データを離散化

もうこの会では何度も紹介されてきた名著

Rの基礎から可視化、データ加工、分析、 パッケージ作成までを網羅した1冊!

現在、第3版!

最新版はさらに内容がよくなっているそうです! もう説明は不要ですよね? Tokyo.Rテキストシリーズで採用しても良さそう!

Page 8: TokyoR LT Rで連続データを離散化

よくあるデータ分析の手法 (多変量解析、機械学習)の解説書ではなく 適切な分析計画の立案、データ収集・蓄積、 データ加工やデータ変換などの前処理、 その後の分析手法の適用、活用までを 幅広く解説したall in oneの書籍

本日のLTはこちらから 「連続データの離散化」の箇所を紹介します

Page 9: TokyoR LT Rで連続データを離散化

データの離散化のメリット

データ記述の簡略

データ及びその処理結果に対する理解向上

多くの数値属性を含むデータ処理の実行

Page 10: TokyoR LT Rで連続データを離散化

データ離散化の手法の分類

・・・・・・・・・

・・・・・・・・・

・・・・・・・・・

トップダウンアプローチ ボトムアップアプローチ

・・・・・・・・・

全データを1区間からスタート 逐次的に分割

・・・・・・・・・

・・・・・・・・・

複数区間からスタート 必要に応じて区間を併合

Page 11: TokyoR LT Rで連続データを離散化

連続データの離散化手法

教師データなし 教師データあり

トップダウン

等間隔区間による 離散化(EWD) 等頻度区間による 離散化(EFD)など

エントロピーを用いた 離散化

(CAIM,CACC,Aeva) 最小記述長原理による 離散化(MDLP)など

ボトムアップ k-meansなど カイマージ、カイ2など

k-meansは割愛します

Page 12: TokyoR LT Rで連続データを離散化

連続データ離散化を実現するRパッケージ

discretization パッケージ

infotheo パッケージ

>install.packages("infotheo",quiet=TRUE) >install.packages("discretization",quiet=TRUE)

Page 13: TokyoR LT Rで連続データを離散化

等間隔区間による離散化irisデータで試してみる

分割数はnbins引数で指定可能

Page 14: TokyoR LT Rで連続データを離散化

等頻度区間による離散化irisデータで試してみる

分割数はnbins引数で指定可能

引数を変更

Page 15: TokyoR LT Rで連続データを離散化

カイマージによる離散化カイマージとは‥

χ二乗検定を用いて分割点を決定するもの

具体的には‥属性を離散化して隣接する区間で各クラスの確率に 有意な違いはないと判断されたら2区間を併合する

discretization パッケージchiM関数で実行可能

Page 16: TokyoR LT Rで連続データを離散化

カイマージによる離散化irisデータで試してみる

Page 17: TokyoR LT Rで連続データを離散化

情報エントロピーを用いた離散化

おそらく、5分で説明するには時間が足らない と思うので、知りたい方は書籍を読んでください

最小記述長原理を用いた離散化

http://d.hatena.ne.jp/sfchaos/20131208/p1

もしくは著者のブログをチェック!

Page 18: TokyoR LT Rで連続データを離散化

Enjoy!


Related Documents