Top Banner
Оценка систем текстового поиска Игорь Кураленок Яндекс, СПбГУ
83

Оценка систем текстового поиска

Jan 01, 2016

Download

Documents

Оценка систем текстового поиска. Игорь Кураленок Яндекс, СПбГУ. Чему верить?. Верить Методы оценки Известные исследования Факты, подтвержденные статистикой Принять к сведенью ( по желанию ) Выводы о качестве того или иного эксперимента - PowerPoint PPT Presentation
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Оценка систем текстового поиска

Оценка систем текстового поиска

Игорь Кураленок

Яндекс, СПбГУ

Page 2: Оценка систем текстового поиска

Чему верить?

Верить Методы оценки Известные исследования Факты, подтвержденные статистикой

Принять к сведенью (по желанию) Выводы о качестве того или иного эксперимента Модель того как все на самом деле и как все

взаимосвязано

Page 3: Оценка систем текстового поиска

План

Как люди это делают Как уменьшить количество работы Анализ и обоснование оценки Как (возможно ли?) сделать оценку

статистически корректной Работа в условиях неполных и/или неточных

данных Как еще можно оценить систему текстового

поиска?

Page 4: Оценка систем текстового поиска

План

Как люди это делают Как уменьшить количество работы Анализ и обоснование оценки Как (возможно ли?) сделать оценку

статистически корректной Работа в условиях неполных и/или неточных

данных Как еще можно оценить систему текстового

поиска?

Page 5: Оценка систем текстового поиска

Немного истории

Кренфилдские эксперименты (1966) появление пулинга (1975) Text REtrieval Conference (TREC) (1992) Исследования основ оценки на базе (TREC) (1998-

2001-…) NII Test Collection for IR Systems (NTCIR) (1999) Cross Language Evaluations Forum (CLEF) (2000) Российский семинар по оценке Методов

Информационного Поиска (РОМИП) (2003)

Page 6: Оценка систем текстового поиска

Классическая (Cranfield) процедура оценки Составим список запросов и ограничим коллекцию

документов Для каждой пары запрос/документ выставим

экспертную оценку «релевантности» Будем рассматривать ответ системы не как

последовательность документов, а как множество/последовательность оценок релевантности

На полученной последовательности/множестве оценок релевантности построим метрики

Page 7: Оценка систем текстового поиска

Множественные оценкиРелевантен Не

релевантен

В ответе

Не в ответе

Page 8: Оценка систем текстового поиска

Отсечение на уровне

Уровень меняется в зависимости от запроса

Информация

Оценки на последовательностях

Page 9: Оценка систем текстового поиска

Усреднение

МикроусреднениеСоставляем общую таблицу релевантности

и по ней считаем метрики на множестве

МакроусреднениеУсредняем значения метрик на отдельных

запросах

Page 10: Оценка систем текстового поиска

График Precision/Recall (по запросу)

Page 11: Оценка систем текстового поиска

Интегральные метрики

Средняя точность (AP & MAP)

Page 12: Оценка систем текстового поиска

11-точечный график TREC Значения полноты от 0 до 1 с шагом

0.5 Интерполяция точности

если , то

если , то

Микроусреднение одинаковых уровней полноты разных запросов

Page 13: Оценка систем текстового поиска

Многомерная модель релевантности(S. Mizzaro)Информационная потребность: Неосознанная ИП (RIN) Осознанная ИП (PIN) Сформулированная ИП (EIN) Запрос (Q)

Документ Множество нужных документов

(DS) Документ (D) Представление (MD) Профайл (P)

Контекст: тематика, задача, атрибуты пользователя (языки, терпение)

Время

Page 14: Оценка систем текстового поиска

Виды релевантности

Системная релевантность = Запрос + Профайл + * Когнитивная релевантность (пертенентность) =

Неосозная ИП + Документ + * Тематическая релевантность = * + Тема + (Задача?)

+ *

Page 15: Оценка систем текстового поиска

Шкалы релевантности

Позволяет получить больше информации о мнении пользователя

Иногда улучшает согласованность оценок

Позволяет провести оценку на разных уровнях «требовательности пользователя»

Усложняет процедуру построения оценки

Не позволяет использовать классические метрики (делая результаты непонятными слушателям)

Порождает проблему взаимоотношения оценок

Page 16: Оценка систем текстового поиска

Шкала оценки РОМИП

Соответствует Скорее соответствует Возможно соответствует Не соответствует Не может быть оценен

Page 17: Оценка систем текстового поиска

Оценки для не бинарного случая релевантности

Page 18: Оценка систем текстового поиска

Normalized Discounted Cumulated Gain (K. Jarvelin, J. Kekalainen)

Page 19: Оценка систем текстового поиска

План

Как люди это делают Как уменьшить количество работы Анализ и обоснование оценки Как (возможно ли?) сделать оценку

статистически корректной Работа в условиях неполных и/или неточных

данных Как еще можно оценить систему текстового

поиска?

Page 20: Оценка систем текстового поиска

Пулинг

Для каждого запроса: Собрать результаты систем участников глубины A Выбрать из полученных результатов B первых Удалить дубликаты Проставить оценки релевантности Не оцененные документы считать нерелевантными Оценить весь ответ системы (с глубиной А)

Page 21: Оценка систем текстового поиска

Исследование распределения релевантных документов по разным глубинам пула (J. Zobel,98)

Page 22: Оценка систем текстового поиска

Исследование распределения релевантных документов при изменении числа участников (J. Zobel,98)

Page 23: Оценка систем текстового поиска

Сложности, связанные с пулингом Взаимное усиление систем Недооценка систем, не участвовавших

в оценке Получаемая оценка – оценка снизу

Page 24: Оценка систем текстового поиска

Альтернативы пулингу(G. Cormack, C. Palmer, C. Clarke)

Попросить асессоров любыми способами искать релевантные документы (ISJ)

Случайный выбор документов для оценки (Random)

Move-to-front пулинг

Page 25: Оценка систем текстового поиска

Найдено релевантных

Page 26: Оценка систем текстового поиска

Корреляция AP

Page 27: Оценка систем текстового поиска

План

Как люди это делают Как уменьшить количество работы Анализ и обоснование оценки Как (возможно ли?) сделать оценку

статистически корректной Работа в условиях неполных и/или неточных

данных Как еще можно оценить систему текстового

поиска?

Page 28: Оценка систем текстового поиска

Анализ и обоснование классической модели Стабильность метрик Зависимость результатов от набора

экспертов Информация (по Шеннону),

содержащаяся в метриках

Page 29: Оценка систем текстового поиска

Стабильность оценок(C. Buckley, E. Voorhees)

Цели: Как изменяется стабильность ранжирования при

изменении данных на известных метриках Какие минимальные требования к данным для того,

чтобы метрики оставались стабильными

Page 30: Оценка систем текстового поиска

Стабильность метрик к изменению количества запросов

Page 31: Оценка систем текстового поиска

Стабильность метрик к изменению количества запросов

Page 32: Оценка систем текстового поиска

Стабильность метрик к изменению уровня значимости

Page 33: Оценка систем текстового поиска

Стабильность метрик к изменению уровня значимости (50 запросов)

Page 34: Оценка систем текстового поиска

Стабильность метрик к изменению уровня значимости (25 запросов)

Page 35: Оценка систем текстового поиска

Зависимость результатов от состава экспертной группы (E. Voorhees, 98) Асессоры часто не соглашаются в своих

оценках

Влияет ли это несогласие на финальное ранжирование?

Page 36: Оценка систем текстового поиска

Зависимость результатов от состава экспертной группы

Page 37: Оценка систем текстового поиска

Зависимость результатов от состава экспертной группы

Page 38: Оценка систем текстового поиска

Информация, содержащаяся в известных метриках (J.Aslam, E. Yilmaz, V. Pavlu)

Используя Метод Максимальной Энтропии вычисляем распределение вероятностей релевантности по ответу поисковой системы, исходя из информации о количестве релевантных документов и значения метрики

Восстанавливаем распределение точности по разным уровням полноты

Сравниваем полученный график с наблюдаемым

Page 39: Оценка систем текстового поиска

Метод Максимальной Энтропии в вычислении вероятности релевантности

Page 40: Оценка систем текстового поиска

Распределение точности построенные на разных метриках

Page 41: Оценка систем текстового поиска

Среднеквадратичное отклонение теоретических графиков от наблюдаемых

Page 42: Оценка систем текстового поиска

План

Как люди это делают Как уменьшить количество работы Анализ и обоснование оценки Как (возможно ли?) сделать оценку

статистически корректной Работа в условиях неполных и/или неточных

данных Как еще можно оценить систему текстового

поиска?

Page 43: Оценка систем текстового поиска

Известные подходы к оценке

Органолептический Аналитический Косвенная оценка

Интерактивная оценкаРешение более общей задачи

Кренфилдская оценка

Page 44: Оценка систем текстового поиска

Требования к оценке

Повторяемость Интерпретируемость Переносимость Низкая стоимость

Page 45: Оценка систем текстового поиска

Что значат кренфилдские оценки с точки зрения пользователя?(A. Turpin, F. Scholer)

Возьмем пользвательскую задачу Попытаемся решить ее с помощью

систем разной эффективности Проанализируем корреляцию между

системной и пользовательской эффективностью

Page 46: Оценка систем текстового поиска

Постановка эксперимента

Сформируем ответы с заданными значениями MAP Попросим пользователя найти первый релевантный

документ по каждому из представленных запросов

Page 47: Оценка систем текстового поиска

Корреляция пользовательской и системной эффективности

Page 48: Оценка систем текстового поиска

Сессии, где не нашли релевантного документа

Page 49: Оценка систем текстового поиска

Почему так получилось?

Система состоит не только из алгоритма ранжирования

При высоких уровнях точности на первый план выходит «быстродействие» пользователя

Релевантность с точки зрения пользователя отличала от эталонной, по которой мы проводили «настройку»

Page 50: Оценка систем текстового поиска

«Правильная» оценка с точки зрения статистики Определение границ задачи (определение

границ совокупности) Разработка способа создания

репрезентативной выборки Построение оценки по выборке Несмещенные оценки распределены

нормально (позволяет вычислить доверительные интервалы)

Page 51: Оценка систем текстового поиска

Создание коллекции документов

В большинстве случаев невозможно создать репрезентативную выборку:

Проблемы с копирайтом Большие объемы данных Связность Изменчивость

Доступная коллекция хоть как-то относящаяся к реальным данным

Page 52: Оценка систем текстового поиска

Выборка ИП

Мы должны сформировать выборку информационных потребностей а не запросов

ИП должно быть достаточно для того, чтобы доверительные интервалы были достаточно малы, для разделения систем, участвующих в оценке

Набор ИП должен быть минимально смещен относительно случайной выборки из множества ИП пользователей вашей системы

Page 53: Оценка систем текстового поиска

Создание коллекции запросов

Ресурсы оценки ограничены Запрос должен оценивать только тот, кто его создал В коллекция должна содержать ответ на запрос Хочется проводить оценку для n систем сразу (обобщение

аудитории)

Запросы создаются часто от балды

Page 54: Оценка систем текстового поиска

Чем отличается академическая оценка от индустриальной (Андреас Раубер)

Академическая: Работает когда нет окончательного

понимания о пользовательских задачах

Оценивает «разумность» поведения хотя бы для какого-то пользователя

Позволяет исследовать различные варианты методологии и их объективные свойства

Минимизирует затраты на проведение эксперимента

Не представляет практического интереса с точки зрения применения в качестве объективных данных (обратная связь,сравнение эффективности в коммерческих целях, …)

Индустриальная: Пользовательские задачи

строго определены рамками интерфейса

Необходима оценка того, как система работает для множества пользователей (зависит от целей системы)

Бюджет и доступные для исследования данные значительно богаче

Должна отражать объективную реальность

Page 55: Оценка систем текстового поиска

Как проводить оценку своей системыС помощью коллекции Оценки смещены, но

смещение случайно Ограничен набор

метрик Доступны

результаты конкурентных подходов

Самостоятельно Только

статистически правильно

Необходима переоценка конкурентных подходов

Page 56: Оценка систем текстового поиска

Кто оценивает релевантность?

Автор информационной потребности:

Разбирается в области поиска ровно настолько сколько может знать человек породивший такой запрос

Имеет четко выраженное представление о том, что хочет найти

Может построить несколько вариантов запроса с одной и той же информационной потребностью

Обученный асессор: Имеет более четкое

представление о качестве документа

Формирует согласованные оценки

Может обрабатывать любой запрос

Page 57: Оценка систем текстового поиска

Как создать «правильную» выборку ИП? Набрать случайных запросов от

пользователей Восстановить по ним наиболее

частотные ИП Обобщить ИП и «объяснить» асессору

что подходит к запросу, а что нет

Page 58: Оценка систем текстового поиска

Многомерная модель релевантности(S. Mizzaro)Информационная потребность: Неосознанная ИП (RIN) Осознанная ИП (PIN) Сформулированная ИП (EIN) Запрос (Q)

Документ Множество нужных документов

(DS) Документ (D) Представление (MD) Профайл (P)

Контекст: тематика, задача, атрибуты пользователя (языки, терпение)

Время

Page 59: Оценка систем текстового поиска

Преобразование запроса

Запрос –> Поле информационных потребностей

Поле ИП преобразуем вПолное описаниеВыбор представителя (случайный?)Выбор подмножества

Page 60: Оценка систем текстового поиска

Как создать «правильную» выборку документов в сети Ограничиться сильно связным

сегментом сети Работать со всем интернетом

Page 61: Оценка систем текстового поиска

Что еще нам мешает применять кренфилдскую модель оценки Оценки на маленьких коллекция становятся

все менее интересны На больших коллекциях (например сеть)

«хвост» пулинга слишком велик Документы/запросы изменяются и коллекция

быстро устаревает Мы вынуждены сравнивать абсолютные

значения метрик, наблюдаемые на разных коллекциях

Page 62: Оценка систем текстового поиска

Что можно с этим поделать

Разработать более стабильные к изменению оценок метрики

Обеспечить малые границы изменения абсолютных значений метрикБольшая согласованность оценок

релевантностиНаучиться оценивать репрезентативную

выборку запросов

Page 63: Оценка систем текстового поиска

Уменьшить разногласия асессоров Создать эталонного пользователя

(коллективный разум), который скажет что такое ошибки

Построить четкие правила оценки для известных эталонному пользователю случаев

Обучить асессора этим правилам до оценки

Смещены ли полученные оценки?

Page 64: Оценка систем текстового поиска

Полезно ли перекрытие для повышения качества оценки?

Page 65: Оценка систем текстового поиска

Оценка в уловиях неполных или неточных данных Оценки быстро устаревают Релевантные документы исчезают Все классические метрики при этом

стремятся к нулю по абсолютному значению и не сохраняют порядок ранжирования систем

Page 66: Оценка систем текстового поиска

BPref(C. Buckley, E. Voorhees)

Возьмем полное множество оценки Начнем последовательно выкидывать оценки

релевантных документов Посчитаем что будет происходить с

ранжированием систем и абсолютными значениями метрик

Page 67: Оценка систем текстового поиска

Корреляция метрик на полных данных

Page 68: Оценка систем текстового поиска

Корреляция BPref c MAP на полных данных

Page 69: Оценка систем текстового поиска

Изменения в абсолютных значениях при ухудшении данных

Page 70: Оценка систем текстового поиска

Изменение ранжирования при ухудшении данных

Page 71: Оценка систем текстового поиска

Изменение ранжирования при изменении множества документов

Page 72: Оценка систем текстового поиска

Induced Average Precision

Выкинем все неизвестные документы из выдачи по каждому запросу

Посчитаем MAP на основе полученных данных

Page 73: Оценка систем текстового поиска

Inferred Average Precision

Любой документ выдачи принадлежит одному из трех множеств: Оцененных Неоцененных, но содержащихся в пуле Не вошедших в пул

Попробуем предсказать вероятность релевантности документа на основе его положения в выдаче и данных о принадлежности к одному из множеств

Page 74: Оценка систем текстового поиска

Ожидание точности на уровне к:

Если документ не попал в пул –> нерелевантен

Inferred Average Precision

Page 75: Оценка систем текстового поиска

Корреляция ранжирований

Page 76: Оценка систем текстового поиска

Среднеквадратичное отклонение

Page 77: Оценка систем текстового поиска

Отклонение абсолютного значения

Page 78: Оценка систем текстового поиска

Можно ли обойтись без оценки релевантности(I. Soboroff, C. Nicholas, P. Cahan)

Асессоры не всегда согласны друг с другом Набор экспертов не влияет (>0.938 T) на

порядок ранжирования систем

Можно попытаться смоделировать

оценку релевантности

Page 79: Оценка систем текстового поиска

Модель случайной оценки

Известен процент релевантных документов в пуле по запросу и его сигма

Смоделируем нормальным распределением число релевантных на запрос

Случайно выберем полученное количество документов из пула

Будем считать что выбранные документы релевантны

Page 80: Оценка систем текстового поиска

Результаты

Полные пулы С дублями

Мелкие пулы По реальным количествам релевантных документов

Page 81: Оценка систем текстового поиска

Можно ли оценить системы с помощью данных о кликах?(T. Joachims)

Клики говорят о сравнительной релевантности документов: Будем представлять пользователю систему с

рандомными ответами и считать клики Получились одинаковые результаты для разных

систем из чего сделано предположение о «смещенности» данных в зависимости от качества

Сольем результаты в один серп, тогда зависимости от качества удастся избежать

Page 82: Оценка систем текстового поиска

Сравнение результатов

Google vs. MSN

Google vs. Random

MSN vs. Random

Клики 77%/63% 85%/18% 91%/12%

Релевантность 0.81/0.72 0.65/0.09 0.71/0.04

Page 83: Оценка систем текстового поиска

Куда двигать оценку?

Неполные данные с уровнями релевантности Взаимоотношение поведения пользователя и

оценок релевантности Предварительная оценка Переносимость абсолютных результатов Связи между разными видами оценки Создание статистически «правильных

коллекций»