Top Banner
Санкт-Петербург, 20 июня 2011 года Татьяна Ландо Information Extraction
33

Information Extraction Overview

Jan 14, 2015

Download

Education

NLPseminar

 
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Information Extraction Overview

Санкт-Петербург, 20 июня 2011 года

Татьяна Ландо

Information Extraction

Page 2: Information Extraction Overview

Начнем с начала :)

В этом докладе:

NLP = Natural Language Processing

Page 3: Information Extraction Overview

Natural Language Processing — Научно-практическая область, занимающаяся

обработкой естественного языка, т.е. обычных текстов устных или письменных.

— Включает:— синтез и распознавание речи— поиск по текстам (да-да, Яндекс, Google…)— автоматические переводчики— и многое другое

Page 4: Information Extraction Overview

Information Extraction

— Одна из областей NLP и Information Retrieval — Извлечение структурированной информации из

неструктурированного текста (в большей степени)— Основная часть посвящена объектам, их отношениям и

свойствам в текстах.— Состоит из:

— Named Entity Extraction— Coreference resolution— Fact Extraction (Relationship Extraction)

— Содержит чертовски много лингвистики ;)

Page 5: Information Extraction Overview

Named Entity Recognition (NER)— Извлечение объектов (именованных сущностей),

т.е. имен, названий, иногда дат, промежутков времени и т.д.

Популярный блогер и основатель антикоррупционного проекта <org>"РосПил"</org> <person>Алексей Навальный </person> фигурирует в уголовном деле как советник губернатора <org>Кировской области</org> <person> Никиты Белых </person>.

Page 6: Information Extraction Overview

Coreference resolution— Попытка понять, что несколько извлеченных NE

обозначают один объект. — Разрешение анафоры (связывание местоимений)

До 2007 года Алексей Навальный был заместителем председателя московского отделения партии "Яблоко" , но из партии его исключили за национализм.

— Обычно ограничиваются поиском текстовых синонимов:

Яндекс – Yandex

ВТБ – Внешторгбанк

НАТО – Североатлантический союз

Page 7: Information Extraction Overview

Fact/Relation Extraction

— Извлечение информации об отношениях между объектами или о значениях параметров.

Популярный блогер и основатель антикоррупционного проекта "РосПил" Алексей Навальный фигурирует в уголовном деле как советник губернатора Кировской области Никиты Белых.

person position org

Алексей Навальный основатель РосПил

Никита Белых губернатор Кировская область

Page 8: Information Extraction Overview

Что извлекают?Information Extraction

— Объекты из текстов (только NER)

— События и детали: дата, время, место проведения, название

— Мнения и отзывы: объект оценки и тональность

— Контактные данные с веб-страниц: email, skype, телефон, факс, адрес, …

— Объявления: объект, предлагаемое действие (покупка, продажа, …), …

— Другую специфическую информацию, например структуры белков из медицинских статей

Page 9: Information Extraction Overview

первичная обработка текстаInformation Extraction

На входе: текст на естественном языке

Текст анализируется на всех лингвистических уровнях:

— лексическом— морфологическом— синтаксическом— семантическом

Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов.

Page 10: Information Extraction Overview

первичная обработка текстаInformation Extraction

Определение словарной формы слов и нормализация других объектов (числа, даты)

текст

токенизация / графематика

лемматизация/нормализация

частичный синтаксический

разбор

Выявление связей между словами, объединение слов в неразрывные группы

Разбиение текста на абзацы, предложения, слова.

Page 11: Information Extraction Overview

Дальше, самое интересноеInformation Extraction

— Выделение объектов и определение типов (NER):

Иван Петров –> ФИО3 апреля 1975 года –> датадиректор по маркетингу –> должностьООО «Рога и копыта» -> компания

— Установление связей между объектами (Factes)

Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад.

Page 12: Information Extraction Overview

Information Extraction

Вице-губернатор Новосибирской области Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м жилья. В ответ на вопрос председателя строительного комитета облсовета Александра Савельева, занимающего пост генерального директора компании «КПД-Газстрой», руководитель профильного департамента обладминистрации сообщил, что за государственный счет будет построено около 10 % заявленных площадей.

Пример

FIO

FIOpost

postpost

comp

comp

datenumber

number

geo

Page 13: Information Extraction Overview

Как извлекают?Information Extraction

— по онтологиям (NER)

— опираясь на правила

— опираясь на статистики

Page 14: Information Extraction Overview

Наверное, сначала нужно поговорить про онтологии…

ОнтологииInformation Extraction

Page 15: Information Extraction Overview

Онтологии

— «концептуальные словари»

— структуры в которых описываются некоторые понятия и/или объекты, отношения между ними, их характеристики

— вообще-то это философский термин

Это:

Page 16: Information Extraction Overview

Онтологии

— универсальные, описывают вообще все

— отраслевые, по предметным областям

— узкоспециализированные, под конкретную задачу

— онтологии объектов (база данных)

— онтологии концептов

Бывают

Page 17: Information Extraction Overview

Онтологии

— Wikipedia, Dbpedia

— Imdb

— CrunchBase

— SUMO

— DOLCE

Примеры

Page 18: Information Extraction Overview

ОнтологииInformation Extraction—

Используют онтологии объектов

Используют открытые источники, сливают их в одну онтологию объектов с типами и свойствами. Например, «препарируют» википедию

по тексту готовят гипотезы, опираясь на контексты и имеющиеся списки объектов (т.е. свою онтологию)

разрешают неоднозначность опираясь на связи между объектами сразу по всему тексту

Page 19: Information Extraction Overview

ОнтологииInformation Extraction—

получается высокая точность NER, нет случайных NE

снятие омонимии тоже происходит с высокой точностью

низкая полнота: извлекается только то, что есть в онтологии

странная обновляемость, нужно либо добавлять объекты руками, либо строить процедуру автоматического обновления

Page 20: Information Extraction Overview

ОнтологииInformation Extraction—

зависит от наличия внешних ресурсов, поэтому подход используется только для английского

хорошо использовать для закрытых классов, например географические названия

хорошо использовать в областях, где оперативно пополняются источники, например кинобазы

может использовать или не использовать лингвистическую информацию, т.е. подходить для любого «стиля» текста

Page 21: Information Extraction Overview

Машинное обучение:Information Extraction

— извлекается как можно больше лингвистической информации о словах

— размечается обучающее множество, на нем обучается система

— запускается на корпусе, получаются результаты

Page 22: Information Extraction Overview

Машинное обучение:Information Extraction

— не требует большого количества ручного труда по написанию правил

— не требует заранее подготовленной онтологии— систему легко перенастроить под другие «стили»

языка, например перейти от СМИ-текстов к сообщениям в твиттере

— не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид)

— процедуры можно делать итеративными: простые правила -> факты –> более сложные правилат.е. правила можно извлекать автоматически

Page 23: Information Extraction Overview

Машинное обучение:Information Extraction

— Недостаточно развиты инструменты для автоматической обработки, трудно получить лингвистические фичи(хорошо применимо для английского)

— Требуется большой обучающий корпус, правильно и полностью размеченный

— Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно»

Page 24: Information Extraction Overview

Rule-basedInformation Extraction

— использует полный или частичный синтаксический анализ

— онтология категорий, т.е. указывается какие сущности могут обладать какими параметрами, например: компания – стоимость

— NER основанный на контекстах и внутренних структурах, контексты (шаблоны) составляются руками лингвистов

Page 25: Information Extraction Overview

Rule-based NERInformation Extraction

— для фио: есть словарь имен, правила согласования имен, отчеств, фамилий, типовые окончания для отчеств и фамилий

— для дат: словарь названий месяцев, шаблоны построения дат

— для компаний: стоят в специфических контекстах, иногда упоминаются в кавычках, имеют специфические части (ООО, ЗАО,… )

Page 26: Information Extraction Overview

Rule-based factsInformation Extraction

— шаблоны поверх NER— в шаблонах записываются отношения, в которых

могут находиться разные объекты, лингвистическая информация, которая может указывать на связь, конкретные слова, которые обозначают конкретные связи.

Владимир Ресин назначен и.о. мэра Москвы

person (им.п.) назначен post(тв.п.) org(р.п.)

Page 27: Information Extraction Overview

Что же выбрать?Information Extraction

— Начиналось все с шаблонов— Сейчас в моде онтологии и машинное обучение— Выбор подхода определяется конкретной задачей — А будущее все равно за гибридными системами.

Page 28: Information Extraction Overview

ПродуктыInformation Extraction

— Тэгирование новостных сообщений или сообщений в блогах. (NER)

— Мониторинг новостей по персоне, компании, продукту (NER)

— Мониторинг отношения прессы/блоггеров к событию, продукту (Facts)

— Автоматическое составление календаря будущих событий с заполнением полей когда, где… (Facts)

— Фильтры для поиска, использование в кластеризации, и в других задачах

— Придумайте сами ;)

Page 29: Information Extraction Overview

ТенденцииInformation Extraction

— много систем для английского языка—много онтологий, много лингв. инструментов—простая морфология – проще настраивать

машинное обучение—большой рынок

— NER гораздо больше чем NER + Facts—крупные новостные сайты, тематические

блоги— Мнения по твиттеру, блогам… тоже на английском

Page 30: Information Extraction Overview

Кто это делает?Information Extraction

— OpenCalais – самый известный англоязычный ресурс

— Gate – платформа позволяющая делать Fact Extraction с помощью машинного обучения и с помощью шаблонов

— Сотни стартапов по всему миру делают IE для английского языка

— Яндекс :)— Ашманов, RCO и пр делают это с русским

Page 31: Information Extraction Overview

где почитать?Information Extraction

Text Mining, Information and Fact Extraction Marie-Francine Moens (Katholieke Universiteit Leuven) http://romip.ru/russir2008/program.html#tmife

Материалы конференции «Диалог» http://dialog-21.ru

Статьи в Википедии

И еще…

Page 32: Information Extraction Overview

Семинар Natural Language Processing

http://mathlingvo.ru/nlpseminar

Page 33: Information Extraction Overview

Спасибо!