TokyoR LT Rで連続データを離散化

Post on 19-Jan-2017

1760 Views

Category:

Data & Analytics

1 Downloads

Preview:

Click to see full reader

Transcript

Rで連続データを離散化

#51 Tokyo.R 2015/10/10

ニフティ株式会社

伊藤 徹郎 (@tetsuroito)

食欲の秋、ハロウィンですね

最近運動不足気味

自己紹介

ありがたいご恵贈の数々

近況

みなさんの素晴らしい 成果によって

日々助けられてます

ありがとうございます

データ分析よくあるパターン 1. WindowsのGUIアプリやWebサービスの管理画面 2. Windows上でのプログラミング 3. Linux上でのコマンド操作 4. Linux上でのプログラミング 5. DBとかKVSとかを自前で用意する 6. Hiveとか、最近だとMPP 7. Hadoop/Sparkなどの環境下でのプログラミング

上記2,3のギャップを埋める書籍です。

コマンドラインでの記述がメインですが、 Rも関連したコマンドラインの紹介もあります

ggplot2の話もいっぱい

もうこの会では何度も紹介されてきた名著

Rの基礎から可視化、データ加工、分析、 パッケージ作成までを網羅した1冊!

現在、第3版!

最新版はさらに内容がよくなっているそうです! もう説明は不要ですよね? Tokyo.Rテキストシリーズで採用しても良さそう!

よくあるデータ分析の手法 (多変量解析、機械学習)の解説書ではなく 適切な分析計画の立案、データ収集・蓄積、 データ加工やデータ変換などの前処理、 その後の分析手法の適用、活用までを 幅広く解説したall in oneの書籍

本日のLTはこちらから 「連続データの離散化」の箇所を紹介します

データの離散化のメリット

データ記述の簡略

データ及びその処理結果に対する理解向上

多くの数値属性を含むデータ処理の実行

データ離散化の手法の分類

・・・・・・・・・

・・・・・・・・・

・・・・・・・・・

トップダウンアプローチ ボトムアップアプローチ

・・・・・・・・・

全データを1区間からスタート 逐次的に分割

・・・・・・・・・

・・・・・・・・・

複数区間からスタート 必要に応じて区間を併合

連続データの離散化手法

教師データなし 教師データあり

トップダウン

等間隔区間による 離散化(EWD) 等頻度区間による 離散化(EFD)など

エントロピーを用いた 離散化

(CAIM,CACC,Aeva) 最小記述長原理による 離散化(MDLP)など

ボトムアップ k-meansなど カイマージ、カイ2など

k-meansは割愛します

連続データ離散化を実現するRパッケージ

discretization パッケージ

infotheo パッケージ

>install.packages("infotheo",quiet=TRUE) >install.packages("discretization",quiet=TRUE)

等間隔区間による離散化irisデータで試してみる

分割数はnbins引数で指定可能

等頻度区間による離散化irisデータで試してみる

分割数はnbins引数で指定可能

引数を変更

カイマージによる離散化カイマージとは‥

χ二乗検定を用いて分割点を決定するもの

具体的には‥属性を離散化して隣接する区間で各クラスの確率に 有意な違いはないと判断されたら2区間を併合する

discretization パッケージchiM関数で実行可能

カイマージによる離散化irisデータで試してみる

情報エントロピーを用いた離散化

おそらく、5分で説明するには時間が足らない と思うので、知りたい方は書籍を読んでください

最小記述長原理を用いた離散化

http://d.hatena.ne.jp/sfchaos/20131208/p1

もしくは著者のブログをチェック!

Enjoy!

top related