Top Banner
Наивный байесовский классификатор Дерево решений Случайный лес
40

Наивный байесовский классификатор. Дерево решений. Случайный лес.

Jan 07, 2017

Download

Data & Analytics

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Наивный байесовский классификатор

Дерево решений

Случайный лес

Page 2: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Наивный байесовский классификатор

,)(

)|()()|(

AP

HAPHPAHP kk

k

- априорная вероятность события - вероятность события при наступлении - вероятность наступления при истинности - полная вероятность события

)( kHP kH

)|( AHP k kH A

)(AP A

)|( kHAP AkH

Page 3: Наивный байесовский классификатор. Дерево решений. Случайный лес.

От теории к практике

Имеется 3 урны. В первой 3 белых шара и 1 черный, во второй — 2 белых шара и 3 черных, в третьей — 3 белых шара.

Некто подходит наугад к одной из урн и вынимает из нее 1 шар. Этот шар оказался белым.

Найдите апостериорные вероятности того, что шар вынут из 1-й, 2-й, 3-й урны.

Page 4: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Области применения байесовского классификатора

• Классификация документов • Оценка риска мошенничества в деятельности гос.огранов • Идентификации мошенничества при подаче жалоб в сфере страхования • Для ранжирования покупателей в маркетинге

Page 5: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Дерево решений

В начале множество - это обучающая выборка. 1. Выбирается признак, по которому

множество разбивается на подмножества.

2. Переходим к каждому подмножеству и проверяем, если оно состоит из элементов, принадлежащих одной категории, то этот узел дерева становится листом. В противном случае переходим к первому шагу.

Page 6: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Обучающие данные

Outlook Temperature Windy Class

Sunny Hot False Don't play

Sunny Hot True Don't play

Cloudy Hot False Play

Rainy Mild False Play

Rainy Cool False Play

Rainy Cool True Don't play

Cloudy Cool True Play

Sunny Mild False Don't play

Sunny Cool False Play

Rainy Mild False Play

Sunny Mild True Play

Cloudy Mild True Play

Cloudy Hot False Play

Rainy Mild True Don't play

Page 7: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем первый признак

Outlook

9/5

sunny

2/3

cloudy

4/0

rainy

3/2

Page 8: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем первый признак

Temperature

9/5

hot

2/2

mild

4/2

cool

3/1

Page 9: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем первый признак

Windy

9/5

TRUE

3/3

FALSE

6/2

Page 10: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем первый признак

Outlook

9/5

sunny

2/3

cloudy

4/0 => PLAY

rainy

3/2 Temperature

9/5

hot

2/2

mild

4/2

cool

3/1

Windy

9/5

TRUE

3/3

FALSE

6/2

Page 11: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем первый признак

Outlook

9/5

sunny

2/3

cloudy

4/0 => PLAY

rainy

3/2 Temperature

9/5

hot

2/2

mild

4/2

cool

3/1

Windy

9/5

TRUE

3/3

FALSE

6/2

Page 12: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем второй признак

Temperature

2/3

hot

0/2 => DON’T PLAY

mild

0/1 => DON’T PLAY

cool

1/0 => PLAY

Page 13: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем второй признак

Windy

2/3

TRUE

1/1

FALSE

1/2

Page 14: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем второй признак

Temperature

2/3

hot

0/2 => DON’T PLAY

mild

0/1 => DON’T PLAY

cool

1/0 => PLAY

Windy

2/3

TRUE

1/1

FALSE

1/2

Page 15: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем второй признак

Temperature

2/3

hot

0/2 => DON’T PLAY

mild

0/1 => DON’T PLAY

cool

1/0 => PLAY

Windy

2/3

TRUE

1/1

FALSE

1/2

Page 16: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем третий признак

Temperature

3/2

hot

0/0

mild

2/1

cool

1/1

Page 17: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем третий признак

Windy

3/2

TRUE

0/2 => DON’T PLAY

FALSE

3/0 => PLAY

Page 18: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем третий признак

Temperature

3/2

hot

0/0

mild

2/1

cool

1/1

Windy

3/2

TRUE

0/2 => DON’T PLAY

FALSE

3/0 => PLAY

Page 19: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Процедура построения дерева решений Выбираем третий признак

Temperature

3/2

hot

0/0

mild

2/1

cool

1/1

Windy

3/2

TRUE

0/2 => DON’T PLAY

FALSE

3/0 => PLAY

Page 20: Наивный байесовский классификатор. Дерево решений. Случайный лес.
Page 21: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Область применения деревьев решений

• Банковское дело

• Промышленность. Контроль за качеством

продукции, испытания без разрушений

• Медицина

• Молекулярная биология

Page 22: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Случайный лес

1.Выбирается случайное подмножество из обучающей выборки данных.

2.Для каждого подмножества строится своё дерево решений.

Page 23: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Практическое применение

Page 24: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Оценка качества классификации

Точность системы – это доля документов, действительно принадлежащих данной категории, относительно всех документов, которые система отнесла к этой категории.

Полнота системы – это доля найденных

классификатором документов, принадлежащих категории, относительно всех документов этой категории в тестовой выборке.

Page 25: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Пример вычисления F-меры

Тестовые данные (10 сообщений):

• 6 спам

• 4 не спам

Что выдал классификатор:

• 2 спам. На самом деле: 1 спам и 1 не спам

• 8 не спам. На самом деле: 3 спам и 5 не спам

Page 26: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Категория Спам

)__(1 спамьнодействителкоторыйТочность

Page 27: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Категория Спам

2

1

)____(2

)__(1

спамкаквыдалторклассификакоторые

спамьнодействителкоторыйТочность

Page 28: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Категория Спам

)__(1

2

1

)____(2

)__(1

спамьнодействителкоторыйПолнота

спамкаквыдалторклассификакоторые

спамьнодействителкоторыйТочность

Page 29: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Категория Спам

4

1

)_____(4

)__(1

2

1

)____(2

)__(1

выданыбытьдолжныидеалевкоторые

спамьнодействителкоторыйПолнота

спамкаквыдалторклассификакоторые

спамьнодействителкоторыйТочность

Page 30: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Категория Спам

3

1

4

1

2

14

1*

2

1*2

**2

мераF

ПолнотаТочность

ПолнотаТочностьмераF

Page 31: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Недообучение и переобучение

Обучающая кривая:

• зависимость ошибки модели от объёма на данных, использованных для обучения

• зависимость ошибки от объёма на тестовых данных

Page 32: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Недообучение и переобучение (продолжение)

Модель: • Недообучена – не смогла отобразить

существенные зависимости

• Хорошо обучена

• Переобучена – воспроизводит не только существенные зависимости, но и случайные отклонения, свойственные только обучающим данным

Page 33: Наивный байесовский классификатор. Дерево решений. Случайный лес.
Page 34: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Подготовка обучающей выборки

Наивный байесовский классификатор

Page 35: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Сравнительный анализ алгоритмов Наивный байесовский классификатор

Случайный лес

Дерево решений

Page 36: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Сравнение времени выполнения

Page 37: Наивный байесовский классификатор. Дерево решений. Случайный лес.

+ Обработка отсутствующих значений + Обучение и классификация сводятся к простым математическим операциям над вероятностями признаков + Обучение проводится инкрементно — Предположение независимости признаков — Решается только задача классификации

Достоинства и недостатки байесовского классификатора

Page 38: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Достоинства и недостатки деревьев решений

+ Интуитивно понятная и легко интерпретируемая классификационная модель + Не требует подготовки данных + Быстрый процесс обучения — Построение оптимального дерева решений — NP-полная задача — Абсолютно не способен к экстраполяции

Page 39: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Достоинства и недостатки случайного леса

+ Не чувствительность к масштабированию значений признаков + Возможность распараллелить + Высокая масштабируемость — Сложная интерпретация модели — Большой размер получающихся моделей — Классификация занимает большее количество времени

Page 40: Наивный байесовский классификатор. Дерево решений. Случайный лес.

Выводы

Рассмотренные алгоритмы являются неплохой альтернативой, в тех случаях когда надоедает подстраивать абстрактные веса и коэффициенты в других алгоритмах классификации либо когда приходится обрабатывать данные со смешанными (категориальными и числовыми) атрибутами.