Top Banner
RuSSIR 2010 Russian Summer School in Information Retrieval 13-18 сентября 2010 Воронеж Как это было…
39

Russir 2010 final

Dec 23, 2014

Download

Documents

yaevents

 
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Russir 2010 final

RuSSIR 2010Russian Summer School in Information Retrieval

13-18 сентября 2010 Воронеж

Как это было…

Page 2: Russir 2010 final

Немного истории

• Школы проводятся совместно с РОМИП

• Школы поддерживаются и спонсируются разными компаниями

• RuSSIR 2007 Екатеринбург • RuSSIR 2008 Таганрог• RuSSIR 2009 Петрозаводск

Page 3: Russir 2010 final

Немного статистики

• Воронежский Государственный университет

• 5 курсов, 2 спонсорские лекции• Конференция молодых ученых (10 докладов)(4 лучшие получили публикацию в ВАК)

• Все курсы по-английски• 9 часов 45 минут занятий в день (с перерывами)• Всего около 110 человек • Конкурс: примерно 2 человека на место

Page 4: Russir 2010 final

Курс

• Web Data Mining (WDM)

• Ricardo Baeza-Yates, Yahoo! Research Barcelona, Spain

Page 5: Russir 2010 final

Что можно майнить? • Контент: текст и

мультимедиа• Структура: анализ ссылок и

графов• Поведение, использование:

логи, запросы• Веб в научном плане новая

среда, много перспектив, много всего неисследованного, широкое поле для деятельности…

• НО в докладе не всегда новая информация

Web Data Mining

Веб – отражение общества.Например, количество ссылок между доменами стран сильно коррелирует с объемами торговых отношений между странами.

Page 6: Russir 2010 final

Crawling

Общая задача

• Найти последовательность запросов на скачивание страниц, которая– Оптимизирует объем, качество и свежесть документов– Работает ограниченное время– Не перегружает хосты– Оптимально использует имеющуюся пропускную способность• Рассчитывается на лету

Page 7: Russir 2010 final

Crawling

Эвристики• Проход в ширину • Упорядочивание по рангу:– PageRank• Упорядочивание по размеру• Использование– Частичных данные– Временных данные• Трудно оценить качество

Page 8: Russir 2010 final

Heavy Long Tail

Удаление запросов, заданных небольшим

количеством пользователей

Query Log Mining

• Лог запросов к AOL’у (август 2006 г.)• Данные as is => личные данные• Установление личности пользователей (запросы + «желтые страницы»)

• SCANDAL

ONLINE?

Page 9: Russir 2010 final

Background: Как разделить секрет среди n человек, чтобы любые k человек могли узнать секрет, а k-1 не могли? Решение: метод полинома k-1 степени

Наивный подход (token-based hashing) восстановим по частотам

• Запрос q кодируется полиномом k-1 степени fq

• Когда пользователь ui вводит запрос q, в лог пишется (ui , fq (ui ))• Если больше, чем k пользователей ввели запрос q, запрос может быть расшифрован.

•Online фильтрация

Query Log MiningАнонимизация данных

Page 10: Russir 2010 final

Graph Mining

Реальные графы не похожи на случайныеЗаконы построения:- Степенной закон- Лог-нормальное распределение- Preferential attachment- «Деньги к деньгам» (rich get richer)

• Prestige• Centrality• Co-citation• PageRank (+ enhancements)• HITS

Page 11: Russir 2010 final

Цели борьбы с поисковым спамом:Не дать спаму влиять на ранжирование, сохранив при этом: – Релевантность – Свежесть – Полноту

What is in the Web?• Information

• Porn

Get rich now now now!!!+On-line casinos + Free movies + Cheap

software + Buy a MBA diploma +Prescription - free drugs + V!-4-gra +

Spam

Фокусироваться только на двух типах:1)Спам, который неоправданно высоко ранжируется2) Спам, на который «съедает» системные ресурсы

Supporters

Изменение масштаба анализа позволяет обнаружить спам-сеть

Page 12: Russir 2010 final

Курс

• Multimedia Information Retrieval (MMIR)

• Stefan Rüger, The Open University

Page 13: Russir 2010 final

Поиск по мультимедиа

Почему бы не заполнить все эти клеточки?

Запрос может быть любого типа

Можем исходить из – метаданных – содержимого Но лучше - объединить

Page 14: Russir 2010 final

Автоматическое аннотирование изображений

ВодаЗданиеГородЗакатАтмосфера

Можно аннотировать

– видео

– музыку

(жанр, муз. инструменты)

Page 15: Russir 2010 final

Идентификация по отпечатку

Фингерпринтинг: Быстрый Надежный Однозначный Устойчивый

Page 16: Russir 2010 final

Извлечение признаков

Изображения: – гистограмма цвета– текстура

Звук: – пики спектрограммы– тембр– ритмический рисунок

Page 17: Russir 2010 final

Реализация: признаки и расстояния

Как это работает:– запрос

– фичи запроса

– сравнение хешей с БД

– минимизация расстояния

– …

– PROFIT!БД хешей фичФункция расстоянияНепосильный объем вычислений

при росте размерности пространства

Page 18: Russir 2010 final

• Distributed Information Retrieval (DIR)

• Fabio Crestani & Ilya Markov, University of Lugano

Курс

Page 19: Russir 2010 final

Распределенный поиск

Распределенный поиск - это система, которая позволяет искать информацию, рассредоточенную по различным ресурсам.Ресурс = коллекция документов + поисковый движок.

Зачем нужен распределенный поиск?• глубинный веб: в сети много ценной информации, недоступной для обхода поисковыми роботами• сохраняются авторские права, права доступа• документы всегда актуальны• поиск оптимизирован под структуру данных (видео, картинки, блоги, новости, etc.)

Page 20: Russir 2010 final

Архитектура распределенного поиска

Общая коллекция

Распределенные индексы

Централизованный индекс

Гибрид: индексируем индексы

P2P

Обход робота

Сбор метаданныхБрокер

Общий индекс для

всех ресурсов

У каждого ресурса

свой собственный

индекс

Page 21: Russir 2010 final

Общая схема работы («брокер»)

• Поиск ресурсов: нужно найти ресурсы, подходящие для объединения (есть свой поиск, поддерживают протокол связи и т.д.).• Описание ресурсов: необходимо получить информацию о каждом ресурсе с помощью его поискового движка.• Выбор ресурсов: когда запрос задан, поисковая система выбирает подходящие ресурсы для поиска внутри них.• Синтез результатов: результаты поиска, полученные из каждого из выбранных ресурсов, объединяются в единый ранжированный список, возвращаемый пользователю. • Представление результатов: в конечном итоге результаты должны быть показаны пользователю в полном и понятном виде.

•Открытые ресурсы: предоставляют доступ к документам, индексу и отвечают на запросы•«Черные ящики»: задаем запрос и получаем ответ

• слияние результатов• «хочу ещё!»• вкладки (tabbed)• side-by-side

Page 22: Russir 2010 final

Приложения распределенного поиска

1. Вертикальный поиск: поиск по коллекциям документов из определенной области или медиафайлам разных типов: новости, путешествия, погода, картинки, музыка, видео… Можно использовать слова-маркеры для определения области.

Для выбора типа вертикального поиска можно использовать:• классификацию (показываем или нет по решению классификатора):

факторы по запросам, логам запросов, лексике;• вероятностный подход (у каждого вертикального поиска есть

вероятность).

Page 23: Russir 2010 final

2. Поиск по блогам: считаем «ресурсом» каждый блог в отдельности. Можем считать, что «блог = большой документ» или «блог = много постов». Собираем метаданные: время публикации, ссылки (посты ссылаются друг на друга их содержание связано; чем больше входящих ссылок, тем авторитетнее пост), авторство, комментарии, etc.

3. Экспертный поиск: документы имеют неравный вес в зависимости от авторства.

4. Персональный поиск: нужно найти среди личных файлов и документов пользователя наиболее релевантные запросу (возможно, документы разных типов).

Приложения распределенного поиска

Page 24: Russir 2010 final

Лекция

NLP@ Google overviewMulti-Sentence Compression

• Katja FilippovaGoogle Inc

Page 25: Russir 2010 final

По этим фразам строится граф:• вершины = токены U {Start, End}• рёбра графа обозначают соседство токенов в фразах

Сжатой фразой называется любой путь в графе от Start до End.

На вход алгоритм получает кластер сходных фраз, например:1. Hillary Clinton wanted to visit China last month but postponed her plans till Monday last week.2. Hillary Clinton paid a visit to the People’s Republic of China on Monday.3. The wife of a former U.S. president Bill Clinton Hillary Clinton visited China last Monday.4. Last week the Secretary of State Ms. Clinton visited Chinese officials.

Page 26: Russir 2010 final

Слова из фразы в граф добавляются за три шага:• однозначные не-стоп-слова – сливаются с существующей вершиной или создают новую• неоднозначные не-стоп-слова – склеиваются по максимуму покрытия• стоп-слова – склеиваются, если есть пересечение в их контекстах

Полученный граф допускает циклы, однако каждое исходное предложение в нём представлено путём без циклов.

S last

Hillary

to

week

Clinton

visited

paid

Chinese Officials

Clinton

Monday

of

wanted

Month

till

China

E

Ms

visit

the

1

2

3

4

last

on

Page 27: Russir 2010 final

U Vfreq(e)

freq(v)freq(u)

В графе строятся k кратчайших путей, при этом:• Пути короче 8 вершин отбрасываются• Пути, не проходящие через глагол, отбрасываются• Длина пути нормализуется на число вершин пути

Путь в графе, обладающий наименьшим весом – искомый!

Page 28: Russir 2010 final

System Gram-2 Gram-1 Gram-0 Avg. Len.

Baseline (EN) 21% 15% 65% 8 / 28

Shortest path (EN) 52% 16% 32% 10 / 28

Shortest path++ (EN) 64% 13% 23% 12 / 28

Baseline (ES) 12% 15% 74% 8 / 35

Shortest path (ES) 58% 21% 21% 10 / 35

Shortest path++ (ES) 50% 21% 29% 12 / 35

System Info-2 Info-1 Info-0 Avg. Len.

Baseline (EN) 18% 10% 73% 8 / 28

Shortest path (EN) 36% 33% 31% 10 / 28

Shortest path++ (EN) 52% 32% 16% 12 / 28

Baseline (ES) 9% 19% 72% 8 / 35

Shortest path (ES) 23% 26% 51% 10 / 35

Shortest path++ (ES) 40% 40% 20% 12 / 35

Использовались 80 английских и 40 испанских новостных кластеровВыбиралось первое предложение каждого документа

Результаты оценки асессорами:

Page 29: Russir 2010 final

Лекция

Расширения поисковых запросов

• Алексей Сокирко, Евгений СоловьёвЯндекс

Page 30: Russir 2010 final

• Введение: отношение «синонимии» в запросах

• Общий дизайн поисковых расширений

• Словоизменение и словообразование

• Транслитерация и акронимы

• Machine learning в поисковых расширениях

Page 31: Russir 2010 final

Популярные классы синонимии

• Словоизменение (слон → слоны, бежал → бежать)

• Словообразование (лемма → лемматизировать)

• Транслитерация (Bosch → Бош, Яндекс → Yandex)

• Акронимы (Российская Федерация → РФ)

• Орфоварианты (мильон → миллион, colour → color)

• Неточные синонимы (сотовый → мобильный телефон)

Page 32: Russir 2010 final

Лингвистическая модель Общие факторы

Дополнительные факторы

Open Source словари +Ручная разметкаРасширение запроса

Machine Learning

Page 33: Russir 2010 final

Конференция молодых ученых

Приняты без публикации:

• Разметка обучающего множества для Марковской модели максимальной энтропии, используемой в задаче извлечения собственных имен из текста. Глазова М.А., Санкт-Петербургский Государственный Университет, Санкт-Петербург, Россия

• Извлечение информации о глагольной сочетаемости на основе коллекции текстовКочеткова Н. А. Литвинов М. И., МИЭМ, Москва, Россия

• Усовершенствование метода пополнения морфологического словаря, Черненьков Д.М., Гугл / МИЭМ, Москва, Россия

• Текстовые классификаторы. Математические модели, Юрий Басов, Рамблер/МГУ, Москва, Россия

Page 34: Russir 2010 final

• Link Graph Analysis for Adult Images ClassificationEvgeny Kharitonov et al., Яндекс, МФТИ, Москва, Россия

• Unsupervised Query Segmentation Using Click Data and Dictionaries InformationJulia Kiseleva, CПбГУ, Санкт-Петербург, Россия

• Could we automatically reproduce semantic relations of an Information Retrieval thesaurus? Alexander Panchenko, Center for Natural Language Processing, Catholic University of Louvain, Лувен-ля-Нёв, Бельгия

• Tapping Into Sociological Lexicons for Sentiment Polarity ClassificationYelena Mejova, University of Iowa, Iowa City, IA, USA

• Прогнозирование Загруженности Автомобильных Дорог Пупырев Сергей, Пронченков Александр, УрГУ, Екатеринбург

• Прогнозирование пробок на улицах по известным данным о скорости автомобилей Гуда С.А., Рябов Д.С., Южный федеральный университет, Ростов-на-Дону, Россия

Page 35: Russir 2010 final
Page 36: Russir 2010 final
Page 37: Russir 2010 final
Page 38: Russir 2010 final
Page 39: Russir 2010 final

Материалы

• Видеозаписи лекций скоро появятся

• Презентации вы можете почитать уже сейчас

http://romip.ru/russir2010/program.html