Top Banner
Weka を用いた機械学習入門 佐藤 琢磨 廣安 知之 日和 悟 2014 10 23 IS Report No. 2015111203 Report Medical Information System Laboratory
14

20160307 weka

Feb 14, 2017

Download

Documents

PhạmTuyền
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: 20160307 weka

Wekaを用いた機械学習入門   

佐藤 琢磨 廣安 知之 日和 悟   

2014年 10月 23日   

IS Report No. 2015111203   

ReportMedical Information  System Laboratory  

Page 2: 20160307 weka

Abstract

全世界のデータ量は 1日にエキサバイト単位で増加している.そのため,これらのビッグデータをも

とに誰もがコーディングを必要とせず,機械学習やデータマイニングを行うソフトウェアであるWeka

(Weka:Waikato Environment for Knowledge Analysis)が注目を集めている.本稿ではこのニュー

ジーランドのWaikato大学が開発を行ったWekaの導入方法,操作方法に関して述べる.なお本稿は

「フリーソフトではじめる機械学習入門」(森北出版株式会社)1) ) を参考に作成している.

Page 3: 20160307 weka

目 次

第 1章 Wekaの導入 . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

第 2章 Wekaを用いた機械学習 . . . . . . . . . . . . . . . . . . . . . . 4

2.1 データセットの読み込み . . . . . . . . . . . . . . . . . . . . . . 5

2.2 識別器の選択とパラメータ設定 . . . . . . . . . . . . . . . . . . . 6

2.3 識別器における学習と識別 . . . . . . . . . . . . . . . . . . . . . 8

第 3章 付録 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

3.1 特徴量空間のプロット . . . . . . . . . . . . . . . . . . . . . . . 10

3.2 パッケージの追加 . . . . . . . . . . . . . . . . . . . . . . . . . 10

Page 4: 20160307 weka

第 1章 Wekaの導入

WekaはWaikato大学で開発されGPL(General Public License)ライセンスで公開されている.GPL

ライセンスとはプログラムの実行,改良,再頒布は自由であり,再頒布する際にその再頒布物もGPL

ライセンスでなければならないというライセンスのことである.以下にWekaのインストール方法を

示す.

step.1 以下のサイトにアクセスしDownloadをクリック

http://www.cs.waikato.ac.nz/ml/weka/

Fig. 1.1 Wekaの入手先(自作)

step.2 各プラットホームに応じたファイルをダウンロードしインストールする

Fig. 1.2 Wekaのダウンロード(自作)

2

Page 5: 20160307 weka

第 1 章 Wekaの導入

step.3 Wekaを起動すると以下のウィンドウが表示される

Fig. 1.3 Wekaの起動(自作)

また日本語の特徴量名をもつデータセットを用いる際は,文字化けを防ぐためにエンコードを変更

する必要がある.この手順を以下に示す.

step.4 Wekaインストールディレクトリ内のRunWeka.iniをテキストエディタで開く

step.5 32行目の fileEncoding=Cp1252を fileEncoding=utf-8に変更する

Fig. 1.4 エンコードの変更(自作)

3

Page 6: 20160307 weka

第 2章 Wekaを用いた機械学習

本稿ではWekaを用いた機械学習について説明する.教師あり学習は学習フェーズと識別フェーズ

の 2種類のフェーズから成り立つ.学習フェーズとは識別器をデータセットにフィットさせるフェー

ズであり,識別フェーズはデータセットにフィットさせた識別器をもとに未知のデータを識別させる

フェーズである.Wekaではこれらのフェーズを同時に実行することが可能である.以下にWekaを用

いた教師あり学習とクロスバリデーションを用いた識別率の算出手順を示す.またデータセットには

Weka3.7に付属の iris.arffを用いる.なおこのデータセットはアヤメの花の分類をするものでWeka

がインストールされたディレクトリ内の dataディレクトリに保存されている.このデータセットの特

徴量は sepal length:がく片の長さ [cm],sepal width:がく片の幅 [cm],petal length:花弁の長さ [cm],

petal width:花弁の幅 [cm]であり,Iris Setosa ,Iris Versicolour,Iris Virginicaの 3クラスのラベル

が付けられている.

Fig. 2.1 教師あり学習の流れ(自作)

4

Page 7: 20160307 weka

2.1データセットの読み込み 第 2 章 Wekaを用いた機械学習

2.1 データセットの読み込み

step.1 Wekaを起動しウィンドウを表示させ,Explorerを選択

Fig. 2.2 Explorerの起動(自作)

step.2 Open fileから iris.arffを選択 (csvでも可)

Fig. 2.3 データセットの読み込みボタン(自作)

5

Page 8: 20160307 weka

2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習

2.2 識別器の選択とパラメータ設定

以下に識別器の選択と各識別器のパラメータの設定方法に関して述べる.本稿では識別器に決定木

を用いるが,その他の識別器を用いる場合でも手順は同様である.

step.1 Classifyのタブを選択

Fig. 2.4 教師あり学習画面の表示(自作)

step.2 Classifierの Chooseから識別器を選択

• C4.5(決定木):trees¥J48

• サポートベクターマシン:functions¥LibSVM

• ベイジアンネットワーク:bayes¥BayesNet

Fig. 2.5 識別器の選択(自作)

6

Page 9: 20160307 weka

2.2識別器の選択とパラメータ設定 第 2 章 Wekaを用いた機械学習

step.3 Fig. 3.3の赤枠部分をクリックし識別器のパラメータ設定ウィンドウを表示させ,パラメー

タを変更

 

Fig. 2.6 パラメータの設定(自作)

step.4 Moreをクリックすると識別器に関する参考文献やパラメータの説明を見ることができる 

Fig. 2.7 パラメータ設定ウィンドウにおける参考文献,パラメータの表示(自作)

7

Page 10: 20160307 weka

2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習

2.3 識別器における学習と識別

step.1 Test optionsから Cross-Validationを選択し,Folds数を入力する 

Fig. 2.8 Cross-Validationの設定(自作)

step.2 Startをクリックするとクロスバリデーションによる学習と識別が行われ結果が表示される

 

Fig. 2.9 識別結果の表示(自作)

8

Page 11: 20160307 weka

2.3識別器における学習と識別 第 2 章 Wekaを用いた機械学習

また iris.arffデータセット識別の結果は以下のようになる.

Table. 2.1 各被験者の動作数

Class Precison[%]  Recall[%] F-Measure[%]

Iris Setosa 100 98.0 99.0

Iris Versicolour 94.0 94.0 94.0

Iris Virginica 94.1 96.0 95.0

識別器を決定木としている場合,学習された決定木を表示させることができる.

step.3 赤枠部分を右クリックし,Visualize treeを選択

 

Fig. 2.10 決定木の表示(自作)

9

Page 12: 20160307 weka

第 3章 付録

3.1 特徴量空間のプロット

Weka3.7以降ではVisualoze 3Dのタブを選択すると特徴量空間をプロットすることができる.

Fig. 3.1 特徴量空間プロットの作成(自作)

3.2 パッケージの追加

step.1 Wekaを起動し,Toolsタブの Packege managerを選択

Fig. 3.2 Packege manageの起動(自作)

10

Page 13: 20160307 weka

3.2パッケージの追加 第 3 章 付録

step.2 パッケージを選択してインストールする

Fig. 3.3 パッケージのインストール(自作)

11

Page 14: 20160307 weka

参考文献

1) 荒木雅弘. フリーソフトではじめる機械学習. 森北出版株式会社, 2015.

12