Top Banner
Автоматическое извлечение фактов из текста На примере газетных статей Татьяна Ландо ООО «Идеограф»
40

Fact Extraction (ideograph)

Dec 05, 2014

Download

Documents

NLPseminar

 
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Fact Extraction (ideograph)

Автоматическое извлечение фактов из текста

На примере газетных статей

Татьяна Ландо ООО «Идеограф»

Page 2: Fact Extraction (ideograph)

Что это такое?

• Fact extraction (text mining) – автоматическое извлечение из текстов новой, заранее неизвестной информации, для построения фактов.

• Примеры фактов:– Установление связей между объектами– Установление свойств объектов– Установление значений параметров

Page 3: Fact Extraction (ideograph)

Зачем это надо?

• Сокращение трудоемкости при обработке текстов в конкретной предметной области. Популярная область применения:– Медицина, биотехнологии.

• Может применяться в: – Поддержка систем принятия решений– Экспертные системы– Базы знаний– Системы документооборота

Page 4: Fact Extraction (ideograph)

Пример: текст

«Евросеть», крупнейшая розничная компания СНГ, объявляет о назначении на пост Вице-президента по маркетингу и рекламе компании Андрея Рукавишникова. Оборот компании «Евросеть», в 2006 году составил 4,62 млрд. долларов.

Page 5: Fact Extraction (ideograph)

Пример: факты

1. отношения между объектамиАндрей Рукавишников - вице-президент по

маркетингу и рекламе компании «Евросеть».

2. свойства объектов«Евросеть» - крупнейшая розничная компания СНГ

3. значение параметровОборот компании «Евросеть» - 4,62 млрд.

долларов за 2006 год.

Page 6: Fact Extraction (ideograph)

Формулировка задачи

• Извлекать факты из газетных текстов.

(Создать базу данных фактов)

• На данном этапе стоят задачи:– Отождествлять имена собственные:

Андрей Рукавишников => человек

«Евросеть» => компания

– Устанавливать связи между ними вице-президент по маркетингу и рекламе =>

=> занимаемая должность

Page 7: Fact Extraction (ideograph)

Существующие проекты

• Яндекс.Новости – пресс-портреты. http://news.yandex.ru/people/

• RCO Fact Extractor http://rco.ru

• Интегрум http://www.integrum.ru/

Page 8: Fact Extraction (ideograph)

Зачем еще одна система?

• Существующие системы построены практически без использования лингвистических технологий.

• Применение лингвистики может– обогатить результаты – сделать их более качественными– придать системе гибкость и расширяемость

Добавляем лингвистику!

Page 9: Fact Extraction (ideograph)

определения

Термин – компонент тройки, т.е.единица

релевантная для системы, в нашем случае:

Имя человека, Название компании, Должность

Элементарный факт -

полностью заполненная тройка

(Человек, Компания, Должность)

должность

компания

человек

Page 10: Fact Extraction (ideograph)

Этапы обработки текста(для любой системы)

• Первичная обработка текста (структурирование)

• Извлечение фактов, с использованием образцов (паттернов)

• Интерпретация результатов

Page 11: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 12: Fact Extraction (ideograph)

Первичная обработка текста

Обязательные компоненты– Токенизация

• Разбивка текста на слова.

– Лемматизация (Нормализация)• приведение слова к начальной (нормальной)

форме

Дополнительные компоненты– Частичный синтаксический анализ– Идентификация терминов

Page 13: Fact Extraction (ideograph)

Токенизация

- Разбивка текста на слова. Маркеры:

- Пунктуация- Пробелы- Цифры

Проблемы:- Дефисное написание Связь-Банк- Использование пунктуации и цифр в именах

собственных заявочный комитет "Сочи-2014"

Page 14: Fact Extraction (ideograph)

Лемматизация

Приведение слова к начальной (нормальной) форме

Основная проблема:- Морфологическая неоднозначность

директора – ед.ч. Р.п. или мн.ч. Им.п

- Способы решения:- Статистический (частотный) - Учет синтаксической информации

Page 15: Fact Extraction (ideograph)

Частичный синтаксический анализ

Частичный разбор предложения, установление грамматических связей между словами

Функции:• Снятие морфологической неоднозначности• Первичная идентификация терминов

Метод:особый формализм для описания естественно-языковых грамматик: AGFL

Page 16: Fact Extraction (ideograph)

AGFLAffix grammar over the finite latticeРаспространяется под свободной

лицензией (GNU GPL)

уже подтверждена перспективность использования (на материале других европейских языков) для представления естественного языка в NLP технологиях

http://www.agfl.cs.ru.nl/links.html (примеры)

Page 17: Fact Extraction (ideograph)

AGFL

Гибкость и устойчивость системы:• работает не только с предложениями, но и

с «сегментами» текста

• может обрабатывать грамматически неверные или неполные предложения

• разрешение неоднозначности за счет сочетания признаков слов.

Page 18: Fact Extraction (ideograph)

AGFL• Двухуровневая контекстно-свободная

порождающая формальная грамматика– Морфология– Синтаксис

• дополнена решеткой признаков с конечным числом значений.

• Признаки:– грамматические категории, – лексико-грамматические разряды частей речи, – любые необходимые формальные характеристики

Page 19: Fact Extraction (ideograph)

AGFL: морфологический модуль

• задается анализ основных частей речи (существительных, глаголов, прилагательных и наречий).

• использует лексикон основ, для которых указаны основные классификационные категории частей речи: – характеристика рода и одушевленности

существительных, – лексико-грамматический разряд прилагательных– схема управления глаголов и т. д.

• дополнительно используется модуль деривации

Page 20: Fact Extraction (ideograph)

AGFL: морфологический модуль

• результат работы – приписанная форме слова частеречная

характеристика и набор значений морфологических категорий(многозначный – в случае омонимии форм )

• встроен в синтаксический модуль– учет локального синтаксического контекста для

снятия омонимии• наличие предлогов • соответствия между значениями грамматических категорий

словоформа пути в конструкции в пути получит не 5 интерпретаций в роли существительного а 2 – П.п. ед.ч. и В.п. мн.ч.

Page 21: Fact Extraction (ideograph)

AGFL: синтаксический модуль

• частотные конструкции словосочетаний,

• частотные схемы построения простых предложений

• отдельные осложняющие конструкции в простом предложении – ряды – причастные обороты – деепричастные обороты

Page 22: Fact Extraction (ideograph)

AGFL: примерДиректора интерпретации:

– Р.п. ед.ч., В.п. ед.ч., Им.п. мн.ч.

В заседании приняли(мн.ч) участие директора(мн.ч) крупнейших компаний Петербурга

Он был назначен на должность (управляет Р.п.) директора(Р.п.) по маркетингу.

Вчера совет акционеров снял(требует В.п.) с должности директора(В.п.) по инвестициям.

Page 23: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 24: Fact Extraction (ideograph)

Идентификация терминов

На основе синтаксических зависимостей между словами делается вывод о том, обозначает ли эта конструкция один термин.

Для имен собственных учитываются так же пунктуация и заглавные буквы, написание латиницей

Page 25: Fact Extraction (ideograph)

Идентификация терминов

1. Поиск опорного элемента• Предикаты

• назначить

• Маркеры классов• Господин• Компания• Должность

2. Наличие в словаре или онтологии

3. Паттерны / регулярные выражения

Page 26: Fact Extraction (ideograph)

Идентификация терминов: пример

Новым директором по финансам и управлению в российском подразделении компании T-Systems назначен Игорь Чупалов

директор по NP(dat)

компания CompanyName

назначен PersonName(Nom)

Page 27: Fact Extraction (ideograph)

Построение элементарных фактов

В реальности: почти неотделимо от предыдущего этапа.

Полный элементарный факт в одном предложении

• Особый предикат • Отсутствие предиката• Особый маркер (временной, глагол

говорения)

Page 28: Fact Extraction (ideograph)

Построение элементарных фактов

• Особый предикат Новым директором по финансам и управлению в российском

подразделении компании T-Systems назначен Игорь Чупалов

• Отсутствие предиката С 1 октября 2007 г. Джонатан Спарроу– генеральный директор Nokia

Siemens Networks в России

• Особый маркер (время, глагол говорения)Президент компании «Евросеть» Алексей Чуйкин отметил: <…>

Page 29: Fact Extraction (ideograph)

Построение элементарных фактов

Сложные ситуации:В предложении содержится неполный факт.

В 1995 году возглавлял отдел маркетинга в компании Rothmans. (Решение: Учет всего абзаца)

В предложении содержится более одного факта.

Ранее г-н Шенделл работал на позиции вице-президента по продажам, а г-н Имс – старшего вице-президента Best Buy (Решение пока не найдено)

Page 30: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 31: Fact Extraction (ideograph)

Проверка корректности

• Осуществляется с помощью онтологии.

• Онтология – формализация некоторой области знаний с помощью концептуальной схемы.

• Иерархия понятий (объектов) и заданные отношения между ними.

• Подробнее через неделю

Page 32: Fact Extraction (ideograph)

Проверка корректности

С января Donald Ims директор Best Buy.– Donald Ims, Best Buy: человек vs компания?

…годовой оборот Best Buy превышает…

Онтология: у компании есть признак «оборот» => Best Buy - компания

C января Х директор компании

=> Donald Ims – человек

Page 33: Fact Extraction (ideograph)

Запись в базу данных

• Запись фактов в базу данных (RDF?)

• Организация поиска по базе данных

должность

штат

компаниячеловек

оборот

Page 34: Fact Extraction (ideograph)

Использованные технологии

• Разработана специальная платформа Ideolog:– Является системой логического вывода, – Полностью создана на основе платформы

Java– Имеет классический набор встроенных

предикатов, который подойдет для решения любых задач логического вывода.

Page 35: Fact Extraction (ideograph)

Использованные технологии

• Ideolog – имеет расширение для работы с

типизированными структурами (TFS). – является полностью расширяемой и может

быть дополнена модулями для решения новых задач

– имеет простой механизм пополнения встроенными предикатами, типами данных и т.п.

– имеет удобную и наглядную графическую среду

Page 36: Fact Extraction (ideograph)

Использованные технологии

Page 37: Fact Extraction (ideograph)

Отличия от остальных систем

• Использование формальной грамматики: – Для снятия морфологической омонимии– Для идентификации терминов

• Использование онтологии

• Не использование статистики и машинного обучения

(планируется на дальнейших стадиях)

Page 38: Fact Extraction (ideograph)

Достоинства

• Работает для отдельных текстов (не нужен массив для составления статистики)

• Легко расширить элементарный факт, подключив, например, учет размера штата или местонахождения компании,

• Есть решение, позволяющее автоматически расширять онтологию (в разработке)

Page 39: Fact Extraction (ideograph)

Спасибо за внимание!

[email protected]

Page 40: Fact Extraction (ideograph)

Полезные ссылки

• http://ideograph.ru ООО «Идеограф»

• http://www.cs.ru.nl/agfl AGFL• http://www.w3.org/TR/owl-features Онтологии и

язык OWL• http://people.ischool.berkeley.edu/~hearst/text-m

ining.html - Статья Марти Херста об извлечении фактов

• http://filebox.vt.edu/users/wfan/text_mining.html Коллекция ссылок по информационному поиску и извлечению фактов