Top Banner
第2回 「はじめてのパターン認識」読書会 2013/07/02(火) @otanet
19

はじパタ2nd 20130702 otanet

Jun 25, 2015

Download

Documents

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: はじパタ2nd 20130702 otanet

第2回 「はじめてのパターン認識」読書会

2013/07/02(火)

@otanet

Page 2: はじパタ2nd 20130702 otanet

自己紹介(@otanet)

• 背景: 2008年まで環境問題(廃棄物)を研究。

-産業廃棄物の不法投棄の実証分析

-最終処分場の跡地利用の環境評価

-用いた手法:ゲーム理論、統計解析

• 現在:不動産賃貸のFC本部にてWebのKPIの集計業務に従事(6月30日に退職、転職活動中)

• スタンス:統計解析をパターン認識・機械学習に応用して、幅広い分析のできるマーケターとして活躍したい。

2

Page 3: はじパタ2nd 20130702 otanet

本日の担当箇所(2章前半 19:55~20:25)

第2章 識別規則と学習法の概要

まえがき

2.1 識別規則と学習法の分類

2.2 汎化能力

3

Page 4: はじパタ2nd 20130702 otanet

まえがき

4

パターン認識の流れ(P2 図1.1より)

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

10円

50円

100円

500円

識別不能

10円玉

50円玉

100円玉

500円玉

-

特徴抽出

識別対象

識別規則

入力データとそのクラスの照合・対応づけ

Page 5: はじパタ2nd 20130702 otanet

まえがき(2章)

・微妙に異なる100円玉の特徴ベクトル=学習データ

・100円玉(新しい、古い、怪しい)⇔本物の100円玉:正しく識別すること=汎化能力 5

100円玉の場合(P8)と学習データ、汎化能力について

入力データとそのクラスの照合・対応づけ

100円玉

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

-

-

100円

-

-

様々な100円玉

-

-

-

特徴抽出

識別対象

識別規則

10円玉

50円玉

100円玉

500円玉

-

入力パターン 識別部 特徴抽出部 出力

Page 6: はじパタ2nd 20130702 otanet

2.1 識別規則と学習法の分類

6

2.1.1 識別規則の構成法

-ベイズの最大事後確立法

-最近傍法(KNN法)

-パーセプトロン型学習回路・SVM

-決定木(CART、C4.5)

学習データセット

2.1.2 教師付き学習 2.1.4 教師なし学習

-パーセプトロン型学習回路・SVM -クラスタリング(自己組織型学習)

-決定木(CART、C4.5)

-形質導入学習(効率化)

Page 7: はじパタ2nd 20130702 otanet

2.1 識別規則と学習法の分類

7

2.1.1 識別規則の構成法

→4つ

2.1.2 教師付き学習

→線形識別関数、2クラスの場合、3つ以上のクラスの場合、学習データセットについて

2.1.3 教師付き学習と線形回帰

→2値の場合

2.1.4 教師なし学習

→すべてのデータ(クラスタリング)と一部のデータ(形質導入学習)

Page 8: はじパタ2nd 20130702 otanet

2.1.1 識別規則の構成法(概要)

8

(c) 関数値 パーセプトロン型学習回路

写像の実現方法

(d) 決定木 CART、C4.5

写像の実現方法

決定木の終端ノードでクラスを分類

方法 代表例

(a) 事後確率 ベイズ推定法

写像の実現方法 事後確率の最大のクラスに分類

(b) 距離 最近傍法

写像の実現方法

Page 9: はじパタ2nd 20130702 otanet

2.1.1 識別規則の構成法(概要)

9

(c) 関数値 パーセプトロン型学習回路

サポートベクトルマシン

R関数 nnet()

主な参照先 7章・8章

(d) 決定木 CART、C4.5

R関数 rpart()

主な参照先 11章

方法 代表例

(a) 事後確率 ベイズ推定法

R関数 -

主な参照先 3章・11章

(b) 距離 最近傍法

R関数 hclust()

主な参照先 5章

Page 10: はじパタ2nd 20130702 otanet

2.1.2 教師付き学習

10

Page 11: はじパタ2nd 20130702 otanet

例題2.1

11

Page 12: はじパタ2nd 20130702 otanet

例題2.1

• 詳しくはP76-P78の例題6.2、6.3を参照のこと。 12

Page 13: はじパタ2nd 20130702 otanet

2.1.2(続き)学習と学習データその1

• 学習データ:入力データとそのクラスを指定したデータ(=教師データ)を対にしたデータセットのこと。

13

識別クラス 特徴ベクトル

重さ

透過率

サイズ

穴の有無

-

-

100円

-

-

様々な100円玉

-

-

-

特徴抽出

識別対象

識別規則

10円玉

50円玉

100円玉

500円玉

-

入力パターン 識別部 特徴抽出部 出力

学習データ 教師データ

識別クラス 入力データ

Page 14: はじパタ2nd 20130702 otanet

2.1.2(続き)学習と学習データその2

14

Page 15: はじパタ2nd 20130702 otanet

2.1.2(続き)学習と学習データその3

15

Page 16: はじパタ2nd 20130702 otanet

2.1.3 教師付き学習と線形回帰

16

Page 17: はじパタ2nd 20130702 otanet

2.1.4 教師なし学習

2.1.4 教師なし学習(自己組織型学習)

・クラスタリング:入力データ間の距離や類似度、確率モデルに基づきクラスを自動生成

・形質導入学習:コスト削減のため、一部のデータのみ教師をつけて、そのほかは教師なしで学習を行う。

例)Webのテキストや画像・音楽データなど

17

Page 18: はじパタ2nd 20130702 otanet

参考文献一覧

1.平井(2003)「はじめてのパターン認識」 森北出版

2.石井他(1998)「わかりやすいパターン認識」

3.金編,金森・竹之内・村田著(2010)「Rで学ぶデータサイエンス 5 パターン認識」

4.金編,姜著(2010)「Rで学ぶデータサイエンス 3 ベイズ統計データ解析」

5.金著(2007)「Rによるデータサイエンス」

18

Page 19: はじパタ2nd 20130702 otanet

ご清聴ありがとうございました。

19