Top Banner
YaC, Москва, 19 сентября 2011 года Старший разработчик Андрей Плахов Поисковая технология «Спектр»
59

Поисковая технология "Спектр". Андрей Плахов, Яндекс

Nov 11, 2014

Download

Technology

yaevents

Андрей Плахов, Яндекс

Закончил с отличием механико-математический факультет МГУ в 2002 году. Защитил кандидатскую диссертацию по программированию в Институте прикладной математики им. Келдыша РАН. В Яндексе – три года, всё это время занимается повышением качества веб-поиска. Автор поискового релиза «Спектр». До Яндекса в течение семи лет делал компьютерные видеоигры. Внерабочие интересы: P-NP проблема, квантовые вычисления, структурная лингвистика, системная биология, рисование слонов шариковой ручкой.

Тема доклада
Поисковая технология «Спектр».

Тезисы
Большое количество запросов, отправленных в поиск Яндекса, формулируются неоднозначно. Например, по запросу [наполеон] кто-то хочет найти французского императора, а кто-то – рецепт торта. А задавая вопрос [пицца], человек может искать и ресторан с доставкой на дом, и рецепты, и даже фотографии пиццы. В основе работы «Спектра» лежит статистика поисковых запросов. Система исследует запросы всех пользователей Яндекса и выделяет в них различные объекты. Далее объекты распределяются по категориям: имена людей, названия фильмов и книг, города, модели автомобилей и т.д. «Спектр» учитывает, в какую категорию попадает объект, что обычно люди про него спрашивают, что пишут в интернете, и оценивает, какой процент людей ищут этот объект с каждой из возможных целей. Результаты поиска по многозначным запросам ранжируются с помощью вероятностной модели восприятия страницы результатов, при этом максимизируемой характеристикой является вероятность того, что пользователь получит нужный ему ответ.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Поисковая технология "Спектр". Андрей Плахов, Яндекс

YaC, Москва, 19 сентября 2011 года

Старший разработчик Андрей Плахов

Поисковая технология «Спектр»

Page 2: Поисковая технология "Спектр". Андрей Плахов, Яндекс
Page 3: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Немного истории

Page 4: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Немного истории

Page 5: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Немного истории

Page 6: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Немного истории

Page 7: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что такое «хороший поиск»?

Наивный подход

Page 8: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что такое «хороший поиск»?

Наивный подход

Находить больше правильных ответов

Page 9: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что такое «хороший поиск»?

Наивный подход

Находить больше правильных ответов

Показывать их выше

Page 10: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что такое «хороший поиск»?

Discounted cumulative gain (DCG)

pRelj – вероятность того,

что j-й результат релевантен

poswj – вес j-й позиции

Page 11: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что такое «хороший поиск»?

Discounted cumulative gain (DCG)

Проблема: как правильно

выбрать веса poswj?

Page 12: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 13: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 14: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 15: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 16: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 17: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 18: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 19: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Как пользователи

просматривают выдачу?

Старт:

j=1

Смотрим на j-й результат

Есть ответ!

Продолжаем?

Ответ не найден j:=j+1

pRelj 1-pRelj

pContinue 1-pContinue

Page 20: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Основная метрика Яндекса:

pFound

MatrixNet отлично строит выдачу,

максимизирующую pFound

Page 21: Поисковая технология "Спектр". Андрей Плахов, Яндекс
Page 22: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Основная метрика Яндекса:

pFound

Проблема: максимум достигается,

когда топ однороден

Page 23: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Неоднозначные запросы

[МГУ] Фото главного здания?

Приемная комиссия?

Список факультетов?

История?

Что и в каких пропорциях

показывать?

Page 24: Поисковая технология "Спектр". Андрей Плахов, Яндекс

[Ягуар] – автомобиль? Животное? Напиток?

10 результатов об автомобилях хорошо выглядят на метриках, но устраивают далеко не всех Что бы ещё показать?

Неоднозначные запросы

Page 25: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Что же такое «Спектр» Метод, используемый поиском

Яндекса

на неоднозначных запросах:

[МГУ]

[Иоанн Павел II]

[Черепахи]

[Аспирин]

[Ягуар]

Запущен в конце 2010 года

Работает на 15-20% запросов к Яндексу

Page 26: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Метрика качества: wide

pFound

Wi – процент i-той поисковой потребности

pfoundi – вероятность найти ответ на i-тую потребность

Проблема: максимум, когда топ однороден

Page 27: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Метрика качества: wide

pFound

Wi – процент i-той поисковой потребности

pfoundi – вероятность найти ответ на i-тую потребность

Проблема: максимум, когда топ однороден

Page 28: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Метрика качества: wide

pFound

Wi – процент i-той поисковой потребности

pfoundi – вероятность найти ответ на i-тую потребность

Проблема: откуда мы узнаем потребности?

Page 29: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

Их миллиарды!

Page 30: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

Их миллиарды! И вот лишь некоторые примеры:

[как сделать мотоцикл из двух зажигалок]

Page 31: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

Их миллиарды! И вот лишь некоторые примеры:

[как сделать мотоцикл из двух зажигалок]

[ресторан в темноте]

Page 32: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

Их миллиарды! И вот лишь некоторые примеры:

[как сделать мотоцикл из двух зажигалок]

[ресторан в темноте]

[взрыв в индии сегодня]

Page 33: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

Их миллиарды! И вот лишь некоторые примеры:

[как сделать мотоцикл из двух зажигалок]

[ресторан в темноте]

[взрыв в индии сегодня]

[оральный секс у летучих мышей]

Page 34: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов

[как сделать мотоцикл из двух зажигалок]

[ресторан в темноте]

[взрыв в индии сегодня]

[оральный секс у летучих мышей]

[изменения в ст 290 ук рф]

Их миллиарды! И вот лишь некоторые примеры:

Page 35: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Поток запросов: примеры

турбаза старый замок алтай

турбаза старый замок астрахань

турбаза старый замок на телецком

турбаза старый замок святогорск

турбаза старый замок телецкое

турбаза старый замок телецкое озеро

турбаза старый замок телецкое адрес

турбаза старый замок телецкое телефон

Page 36: Поисковая технология "Спектр". Андрей Плахов, Яндекс

audi a8 4.2 quattro расход топлива

audi a8 4.2 quattro расход

audi a8 4.2 quattro киев

audi a8 4.2 quattro цены

audi a8 4.2 quattro комплектация

audi a8 4.2 quattro комплектация 2003

audi a8 4.2 quattro обзор

audi a8 4.2 quattro отзывы владельцев

audi a8 4.2 quattro характеристики

Поток запросов: примеры

Page 37: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Используем лог запросов, и узнаем,

какие потребности есть у пользователей!

Увы, не всѐ так просто…

Итак, что будем делать?

Page 38: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Используем лог запросов, и узнаем,

какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»

Итак, что будем делать?

Page 39: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Используем лог запросов, и узнаем,

какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»

Они отличаются не только весами

Итак, что будем делать?

Page 40: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Используем лог запросов, и узнаем,

какие потребности есть у пользователей!

Увы, не всѐ так просто…

Не все уточнения – «потребности»

Они отличаются не только весами

Разные уточнения – но одна и та же

потребность

Итак, что будем делать?

Page 41: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Зачем нам «семантика»?

Не все расширения полезны

[москва] и [москва тула]

[минута] и [минута славы]

[время] и [время намаза]

[юбки] и [юбки порно]

Page 42: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Зачем нам «семантика»?

Не все расширения полезны

[москва] и [москва тула]

[минута] и [минута славы]

[время] и [время намаза]

[юбки] и [юбки порно]

Нужно отобрать «правильные» расширения

Page 43: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Использование семантики

Сосредоточимся на запросах о том, что нам понятно

Фильмы

Книги

Люди

Гаджеты

Автомобили

Болезни и лекарства

Будем распознавать объекты этих категорий.

Для каждой из них - свои поисковые потребности.

Page 44: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Технология «Спектр»

Page 45: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Технология «Спектр»

выясняем, в какие категории попадает запрос

Page 46: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Технология «Спектр»

выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие смысл для этих категорий

Page 47: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Технология «Спектр»

выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие смысл для этих категорий

назначаем им веса

Page 48: Поисковая технология "Спектр". Андрей Плахов, Яндекс

выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие смысл для этих категорий

назначаем им веса

получаем лучшие документы для каждой потребности

Технология «Спектр»

Page 49: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Технология «Спектр»

выясняем, в какие категории попадает запрос

объединяем поисковые потребности, имеющие смысл для этих категорий

назначаем им веса

получаем лучшие документы для каждой потребности

формируем выдачу, максимизирующую wide pFound

Page 50: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Но всѐ сложнее содержательные сложности

Сложности классификации

Неклассифицированные запросы

Непонятные результаты

Геолокальность

Временная зависимость

Опасные ответы

…и многие, многие другие

Н

Page 51: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Обрабатывать миллиарды запросов, классифицировать, устанавливать взаимосвязи

Получать ответы по всем поисковым потребностям

(не задавая 15 запросов вместо одного)

На каждый запрос решать

по NP-полной задаче

• ѐ

…и многие, многие другие

И ещѐ сложнее технологические сложности

Page 52: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Хорошие новости Меньше популярных запросов без кликов

CTR отдельных результатов растѐт

Page 53: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Хорошие новости: подсветка поисковых потребностей в снипетах

Page 54: Поисковая технология "Спектр". Андрей Плахов, Яндекс

И ещѐ сложнее Простыми методами давно уже не обойтись

Page 55: Поисковая технология "Спектр". Андрей Плахов, Яндекс

И ещѐ сложнее Простыми методами давно уже не обойтись

Нам нужно:

больше знать об окружающем мире

Page 56: Поисковая технология "Спектр". Андрей Плахов, Яндекс

И ещѐ сложнее Простыми методами давно уже не обойтись

Нам нужно:

больше знать об окружающем мире

лучше понимать пользовательские сессии

Page 57: Поисковая технология "Спектр". Андрей Плахов, Яндекс

И ещѐ сложнее Простыми методами давно уже не обойтись

Нам нужно:

больше знать об окружающем мире

лучше понимать пользовательские сессии

лучше понимать естественные языки

Page 58: Поисковая технология "Спектр". Андрей Плахов, Яндекс

И мы с этим

справимся!

Page 59: Поисковая технология "Спектр". Андрей Плахов, Яндекс

Старший разработчик

[email protected]

Андрей Плахов