Top Banner
Статистическое сравнение классификаторов на множестве наборов данных Влад Шахуро Факультет ВМК МГУ им. М.В.Ломоносова Лаборатория КГиМ Семинар Компьютерное зрение 29 октября 2012 г.
30

Classifier evaluation and comparison

May 11, 2015

Download

Education

Anton Konushin
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Classifier evaluation and comparison

Статистическое сравнение классификаторов намножестве наборов данных

Влад Шахуро

Факультет ВМК МГУ им. М.В.ЛомоносоваЛаборатория КГиМ

Семинар «Компьютерное зрение»

29 октября 2012 г.

Page 2: Classifier evaluation and comparison

1

Постановка задачи

Дано k обученных классификаторов, протестированныхна N наборов данных. Пусть cji — оценка качества j-гоклассификатора на i-м наборе данных. Предполагается, чтооценки качества классификаторов достаточно надёжны.

Требуется определить по значениям cji , являются лирезультаты классификаторов статистически различными и,в случае k > 2, определить, какие именно классификаторыотличаются по качеству.

Page 3: Classifier evaluation and comparison

2

Проверка гипотез

X = (X1, . . . , Xn) - данные (выборка)F — совокупность априори допустимых распределений XFX — неизвестное истинное распределение данных, FX ∈ FF0 ⊂ F — выделенное множество функций распределения

Задача проверки гипотез: необходимо по данным X проверитьсправедливость утверждения H0 : FX ∈ F0. H0 называетсянулевой гипотезой. Утверждение H1 : FX ∈ F\F0 называетсяальтернативной гипотезой.

Правило, согласно которому мы, наблюдая X, принимаемрешение принять гипотезу H0 как истинную либо принятьальтернативную гипотезу H1, называется статистическимкритерием.

Page 4: Classifier evaluation and comparison

3

Проверка гипотез (продолжение)

P(H1|H0) = α — вероятность ошибки I рода или уровеньзначимости (significance level) критерия

P(H0|H1) = β — вероятность ошибки II рода, 1− β —мощность критерия

На практике обычно стараются выбрать наиболее мощныйкритерий при заданном значении ошибки первого рода.

Page 5: Classifier evaluation and comparison

4

Проверка гипотез (продолжение)

В случае сравнения классификаторов в качестве нулевойгипотезы выступает предположение о том, что всеклассификаторы в некотором роде эквивалентны, в качествеальтернативной гипотезы — предположение о том, что хотя быдва некоторых классификатора неэквивалентны.

Критерии, включающие в себя расчёт параметроввероятностного распределения признака, называютсяпараметрическими.

Критерии, основанные на оперировании частотами и рангами,называются непараметрическими.

Page 6: Classifier evaluation and comparison

5

Сравнение двух классификаторов

Простейший способ сравнения множества классификаторов —выделить все возможные пары классификаторов и сравниватькаждую пару классификаторов выбранным критерием.

Page 7: Classifier evaluation and comparison

6

Парный критерий Стьюдента

Пусть c1i , c

2i — результаты двух классификаторов на i-м из N

наборов данных и di = c2i − c1

i — их разница.

Статистика t = d/σd распределена по закону Стьюдентас N − 1 степенью свободы. Здесь d — среднее арифметическоеразниц результатов, а σd — стандартная ошибка.

t ∼ t(N − 1)

Page 8: Classifier evaluation and comparison

7

Парный критерий Стьюдента (продолжение)

Недостатки критерия:— Не работает на несоизмеримых наборах данных,

отвечающих различным проблемам. Можно решить,поделив разницу на среднее значение качестваdi =

c2i−c1i(c1i +c2i )/2

— Требует, чтобы k был достаточно большим (≥ 30).В противном случае выборка должна быть взятаиз нормального распределения. Любопытно, что все тестына нормальное распределение недостаточно мощныпри таких размерах выборки

— Чувствителен к выбросам

Page 9: Classifier evaluation and comparison

8

Критерий УилкинсонаПроранжируем di по возрастанию модулей. Посчитаем суммырангов результатов на наборах данных, на которых одинклассификатор показал результат лучше другого.

R+ =∑di>0

rank(di) +1

2

∑di=0

rank(di)

R− =∑di<0

rank(di) +1

2

∑di=0

rank(di)

Введём статистику T = min(R+, R−). Для T при N < 25существуют таблицы точных критических значений,при больших N статистика

z =T − 1

4N(N + 1)√124N(N + 1)(2N + 1)

имеет примерно нормальное распределение.

Page 10: Classifier evaluation and comparison

9

Критерий Уилкинсона (продолжение)

Особенности критерия:— Работает на несоизмеримых наборах данных— Устойчив к выбросам— Не требует предположений о характере распределения

результатов классификаторов— Если выполняются условия для критерия Стьюдента,

то критерий Уилкинсона менее мощен

Page 11: Classifier evaluation and comparison

10

Критерий знаков

Посчитаем количество наборов данных, на которых одинклассификатор превосходит второй. Если гипотезаэквивалентности классификаторов верна, то каждыйклассификатор должен выиграть примерно N/2 раз на Nнаборах данных. Количество побед является случайнойвеличиной, распределённой по биномиальному закону.

При больших N количество побед при условии верностигипотезы распределено по нормальному закону N(N/2,

√N/2).

Тогда для проверки гипотезы эквивалентности можноиспользовать z-тест: если количество побед по меньшей мереравно N/2 +

√N , алгоритм значительно превосходит другой

алгоритм с ошибкой предсказания 5%.

Page 12: Classifier evaluation and comparison

11

Критерий знаков (продолжение)

Особенности критерия:— Применим к любым наборам данных, не требует

ни соизмеримости сложности данных, ни нормальностирезультатов

— Намного слабее критерия Уилкинсона, не отвергаетнулевую гипотезу до тех пор, пока исследуемый алгоритмне превосходит значительно второй алгоритм

Page 13: Classifier evaluation and comparison

12

Сравнение множества классификаторов

Приведенные ранее критерии не были созданы специально дляисследования множества случайный величин. В силу того, чтодля проверки нулевой гипотезы нужно сделать k(k−1)

2сравнений, определённая доля нулевых гипотез отвергаетсяиз-за погрешностей и случайностей.

В статистике существуют методы, специально предназначенныедля тестирования эквивалентности многих случайных величин.

Page 14: Classifier evaluation and comparison

13

ANOVA

В случае множественного сравнения классификаторов выборкаподелена на k групп с N наблюдений в каждой группе.

σ2bg =

N

k − 1

k∑j=1

(cj − c)2

σ2wg =

1

k(N − 1)

k∑j=1

N∑i=1

(cji − cj)2

σ2bg — межгрупповая дисперсия, σ2

wg — внутригрупповаядисперсия

F =σ2bg

σ2wg

∼ F (k − 1, k(N − 1))

Page 15: Classifier evaluation and comparison

14

ANOVA (продолжение)

Для попарного сравнения классификаторов используетсястатистика

T =

√N(ci − cj)√

2σ2wg

∼ t(k(N − 1))

Необходимые условия для теста:— Выборки должны быть взяты из нормального

распределения— Равенство дисперсий результатов каждого классификатора

Page 16: Classifier evaluation and comparison

15

Тест Фридмана

Тест Фридмана является непараметрическим аналогом ANOVAс повторными измерениями.Пусть rji — ранг j-го алгоритма на i-м наборе данных,Rj = 1

N

∑i r

ji - средний ранг j-го алгоритма. Если верна

гипотеза об эквивалентности алгоритмов, их средние рангитакже должны быть равны.

Page 17: Classifier evaluation and comparison

16

Тест Фридмана (продолжение)

Введём статистику Фридмана

χ2F =

12N

k(k + 1)

∑j

R2j −

k(k + 1)2

4

χ2F ∼ χ2(k − 1), k > 5, N > 10

Статистика Фридмана косервативна (т.е. стремитсяк недооценке). Можно ввести более надежную статистику

FF =(N − 1)χ2

F

N(k − 1)− χ2F

FF ∼ F (k − 1, (k − 1)(N − 1))

Page 18: Classifier evaluation and comparison

17

Тест Фридмана (продолжение)

Если тест Фридмана отвергает нулевую гипотезу, можно ввестистатистику для сравнения i-го и j-го классификаторов:

z =(Ri −Rj)√

k(k+1)6N

Статистика z имеет нормальное распределение. Значение zиспользуется для определения соответствующей вероятности(p-value) и её последующего сравнения с вероятностью αошибки I рода.

Page 19: Classifier evaluation and comparison

18

Корректировки вероятностей ошибок

В самом простом случае каждая гипотеза, соответствующаяпаре классификаторов, тестируется независимо от всехостальных гипотез. Более хорошие результаты даёттестирование гипотез в совокупности.

Будем контролировать ошибку на семействе гипотез(family-wise error) — вероятность совершить хотя бы однуошибку I рода при сравнении множества пар.

Page 20: Classifier evaluation and comparison

19

Процедуры Nemenyi и Хольма

Nemenyi: значение ошибки α делится на количествопроизведённых сравнений классификаторов m = k(k−1)

2

Хольм-Бонферрони: пусть p1, . . . , pm — упорядоченныевероятности (p-values) и H1, . . . ,Hm — соответствующиеим гипотезы. Процедура Хольма отвергает гипотезыH1, . . . ,Hi−1, если i — минимальное целое число, для котороговыполнено неравенство pi > α/(m− i+ 1).

Page 21: Classifier evaluation and comparison

20

Процедура Бергманна и Хоммеля

Множество индексов I ⊆ {1, . . . ,m} называетсяисчерпывающим (exhaustive), если в точности все гипотезыHj , j ∈ I, могут быть верными.

Рассмотрим это определение для трёх классификаторов.H1 : C1 ∼ C2, H2 : C2 ∼ C3, H3 : C3 ∼ C1

Из 23 возможных сочетаний гипотез исчерпывающимиявляются следующие:— Все гипотезы верны— H1 верна, H2 и H3 неверны— H2 верна, H1 и H3 неверны— H3 верна, H1 и H2 неверны— Все гипотезы неверны

Page 22: Classifier evaluation and comparison

21

Процедура Бергманна и Хоммеля (продолжение)

function obtainExhaustive(C = {c1, . . . , ck}):let E = ∅E = E ∪ {all possible pairwise comparisons using C}if E == ∅:

return Efor all possible divisions of C into C1 & C2, ck ∈ C2 and C1 6= ∅:E1 = obtainExhaustive(C1)E2 = obtainExhaustive(C2)foreach family of hypotheses e1 of E1:

foreach family of hypotheses e2 of E2:E = E ∪ (e1 ∪ e2)

return E

Процедура Бергманна и Хоммеля: отвергнуть гипотезу Hj ,если j 6∈ A

A =⋃{I : I − exhaustive, min{pi : i ∈ I} > α/|I|}

Page 23: Classifier evaluation and comparison

22

Статическая процедура Шеффера

Пусть p1, . . . , pm — упорядоченные вероятности (p-values) иH1, . . . ,Hm — соответствующие им гипотезы. Процедураотвергает гипотезы H1, . . . ,Hi−1, если i — минимальное целоечисло, для которого выполнено неравенство pi > α/ti, где ti —максимальное число гипотез, которые могут быть верны,при условии, что какая-то i− 1 гипотеза неверна. ti ∈ S(k), гдеS(k) — набор чисел возможных верных гипотез приk сравниваемых классификаторов.

S(k) =

k⋃j=1

{C2j + x : x ∈ S(k − j)

}

Page 24: Classifier evaluation and comparison

23

Сравнение критериев

Будем сравнивать мощности критериев косвенно черезследующие параметры:— Количество отвергнутых нулевых гипотез— Среднее значение статистики критерия (average p-value,

APV)Чем меньше значение APV, тем больше вероятностьотвергнуть нулевую гипотезу на заданном уровне доверия

— Вопроизводимость результатов — вероятность того, чтодва эксперимента на одной и той же паре алгоритмовдадут одинаковый результат (отвергнут или примутнулевую гипотезу):

R(p) = 1− 2var(p) = 1− 2

∑i(pi − p)n− 1

Page 25: Classifier evaluation and comparison

24

Сравнение критериев (продолжение)

При сравнении двух классификаторов сэмплированиепроизводится из нескольких наборов данных так, чтовероятность выбрать i-й набор данных пропорциональна1/(1 + e−kdi), где di — разница точности классификаторовна этом наборе данных, а k — смещённость.

Page 26: Classifier evaluation and comparison

25

Сравнение парных критериев

Слева: k и APV, справа: k и количество отвергнутых нулевыхгипотез

Page 27: Classifier evaluation and comparison

26

Сравнение множественных критериев

Слева: k, APV и R(p), справа: k и количество отвергнутыхнулевых гипотез

Page 28: Classifier evaluation and comparison

27

Сравнение процедур корректировки

Page 29: Classifier evaluation and comparison

28

Резюме

— При сравнении классификаторов на реальных данныхнепараметрические критерии более предпочтительны,т.к. они накладывают меньшие ограничения на выборкурезультатов

— Для сравнения большого количества классификаторовстоит пользоваться специализированными критериями,например, тестом Фридмана

— Для попарного сравнения классификаторов после того, какотвергнута нулевая гипотеза, стоит пользоватьсякорректировками (post hoc tests), учитывающимизависимость гипотез друг от друга

Page 30: Classifier evaluation and comparison

29

Список материалов

Demsar. Statistical Comparison of Classifiers over Multiple DataSets. JMLR 6 (2006).

Garcıa, Herrera. An Extension on «Statistical Comparisonof Classifiers over Multiple Data Sets» for all PairwiseComparisons. JMLR 9 (2008).

Ивченко, Медведев. Введение в математическую статистику.

http://statmaster.sdu.dk/courses/st111/module11/index.html

http://ru.wikipedia.org/wiki/F-тест