Извлечение знаний и фактов из текстов

Извлечение знаний и фактов из текстов

Н.В.Лукашевич[email protected]

АНО Центр информационных исследований

МГУ им. М.В.Ломоносова Научно-исследовательскийвычислительный центр

http://www.srcc.msu.su/

Задачи извлечения: извлечение знаний

(Knowledge acquisition)• Классическая проблема искусственного интеллекта – bottleneck

• Новая предметная область– Сущности, понятия– Отношения (синонимы, родовидовые отношения,

часть-целое)– Закономерности

• Источники получения знаний– Эксперты– Данные – Data mining– Тексты

• Результат: терм. словарь, тезаурус, онтология

Задачи извлечения: извлечение фактов

• Information extraction• Извлечение конкретных сущностей:

– персон, должностей, организаций; – ссылок на литературу;– упоминаний генов или белков и т.п.

• Извлечение отношений между конкретными сущностями:– место работы, телефон, покупки, слияния и

поглощения– Взаимодействие белков

• Накопление базы фактов

План презентации

• Извлечение знаний о предметной области: термины

• Извлечение информации: конкретные сущности

• Извлечение знаний и информации: отношения

Извлечение знаний из текстов: основные этапы

• 1) формирование текстового корпуса – мегабайты, гигабайты текстов

• 2) Работа автоматических процедур• 3) Возможно, работа экспертов по проверке,

отбору извлеченной информации• 4) Результат:

– Список терминов предметной области

– Онтология

– Тезаурус

Извлечение терминов из текстов

• Сущности, понятия • Понятия – категории мышления• - > в текстах - термины• Термин - слово (или сочетание слов),

являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п.

• -> Задача автоматического извлечения терминов

Пример: Проект терминологического словаря

• Сфера государственного финансового контроля

- Договор со Счетной Палатой РФ• Имеется проект словаря,

предоставленный специалистами СП,– Род экспертизы

• Предметная область - на стыке нескольких областей: экономика, право, бухгалтерский учет

• Срок исполнения – 4 месяца (невозможно без компьютерных технологий)

Финансовый контроль: самые частотные многословные выражения

• Федеральный бюджет• Российская Федерация• Счетная палата• Федеральный закон• Общая сумма• Средства федерального бюджета• Областной бюджет• Денежные средства• Использование средств• Заработная плата• Минфин России• Бюджетные средства• Налоговый орган

Критерии для извлечения терминологических

словосочетаний• Лингвистические критерии:

– однословные, именные группы (прил.+сущ., сущ+сущ. в род. падеже и т.п.)

• Статистические критерии– частотность, взаимная встречаемость …

• Лексические критерии– Списки стоп-слов: каждый, другой, оценки

(красивый, плохой), география, имена и фамилии людей…

(PAIRS) Естественный метод – сборка пар слов (возможно с предлогами), а затем упорядочивание их в соответствиис убывающей частотностью

(PAIRS.MI) «mutual information» отношения вероятности

совместной встречаемости двух слов в некотором текстовом окне к произведению вероятностей встречаемости каждого слова

Отбор словосочетаний - 1

)(*5.0

)()( )(

FrightFleft

aFreqN

aFreqaMI

Отбор словосочетаний - 2 (PAIRS.LL) оптимизация функции максимального правдоподобия (log-likelihood) в предположении о биномиальном характере функции распределения совместной встречаемости слов

loglike = a * log(a+1) + b * log(b+1) + c * log(c+1) + d * log(d+1) - (a+b) * log(a+b+1) - (a+c) * log(a+c+1) - (b+d) * log(b+d+1) - (c+d) * log(c+d+1) + (a+b+c+d) * log(a+b+c+d+1)

a - частота данного словосочетания (пары),b - суммарная частота других (отличных от данной) пар с той же самой левой леммой,c - суммарная частота других пар с той же самой правой леммой,d - суммарная частота пар, отличных от данной и не попадающих в категории (b) и (c)


(C-VALUE) К. Frantzi и S. Ananiadou введена метрика C-Value, поощряющая отбор словосочетаний большей длины, которые не входят в состав других словосочетаний

aTb bfreq

aTPa

вложеннееслиafreqa

)()(

12log

,)(2log

Value(a)-C

a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, Ta – множество словосочетаний, которые содержат a,

P(Ta) – количество словосочетаний, содержащих a.

A+N согласованные прилагательное + существительное

N+N существительное + существительное в род. падеже

A+A+N согласованные прилагательное + прилагательное + существительное

N+A+N существительное + согласованное прилагательное + существительное в род.падеже


Словарь сочетаемости (30000 входов):A(-)+N(-)=G(-) важная проблемаA(+)+N(-)=G(+) внешнеполитическая деятельность А(-)+N(+)=N(+) (G=N) вчерашняя продажа

(OLDTERMS-- и OLDTERMS++)

Collocations

Col

loca

tions

/ G

oodP

hras

es,

%

50

60

70

80

90

100

110

0 200 400 600 800 1000 1200 1400 1600 1800 2000

PAIRS

PAIRS.LOG-LIKE

PAIRS.MI

OLDTERM--

OLDTERM++

Оценка эффективности нахождения коротких терминологических словосочетаний

Опыт извлечения терминов

• Общественно-политический тезаурус– 1994-1997– 250 тысяч терминологических словосочетаний– Прекращено из-за слишком больших трудозатрат

• Авиа-Онтология• Терминологический словарь Счетной палаты• Онтология по естественным наукам и технологиям• Проблема: большое количество словосочетаний, для

которых трудно принять решение – субъективность экспертов

• Использовать новые принципы: – анализ компонентной структуры словосочетания, – сравнение с другими извлеченными словосочетаниями, – с уже имеющимися ресурсами

План презентации

• Извлечение знаний о предметной области: термины

• Извлечение информации: конкретные сущности

• Извлечение знаний и информации: отношения

Тестирование систем извлечения информации

• Конференция MUC - Message Understanding Conference (1987-1997)

• MUC-1 (87), MUC-2 (89) Военно-морские операции

• MUC-3 (91), MUC-4 (92) Террористическая деятельность

• MUC-5 (93) Совместные предприятия

• MUC-6 (95) Назначения и отставки

• MUC-7 (97) Запуски космических кораблей и ракет

MUC-7.Запуски

• Запущенный_аппарат• Боевая_часть• Дата_запуска• Место_запуска• Тип_задания (военный, гражданский)• Назначение_запуска (тестирование,

доставка..)• Статус_запуска (удачный, неудачный,

выполняется, планируется)

Методы оценки

• Полнота (R)= Число правильных ответов/ общее возможное число правильных ответов

• Точность (P)= Число правильных ответов/Число порожденных ответов

• F1-мера= 2RP/(R+P)

• Максимальный результат MUC: F1= 0.6 (!)

• ACL 2007: 0.64

• Результаты российских групп – 0.9 (?!)

Методы автоматического извлечения информации

Системы машинного обучения• опора на статистические (вероятностные) методы• необходим размеченный корпус для «обучения»

системы

• Системы, основанные на знаниях• опора на языки описания правил-шаблонов (и

действий)• правила пишутся экспертами; процесс написания

правил может занимать много времени

• Лучшие системы конференции MUC – системы, основанные на знаниях

Выбор методов• Использование методов, основанных на знаниях

– Имеются словари, списки слов

– Имеются инженеры по знаниям

– Мало размеченных данных

– Нужно максимально возможное качество

• Использование методов, основанных на машинном обучении– Нет словарных ресурсов

– Нет инженеров по знаниям

– Размеченных данных много и получение их дешево

– Достаточно иметь хорошее (?) качество извлечения

• Комбинированные подходы

Основные этапы извлечения информации

• Графематика (токенизация)– Разбиение сложных слов (?)

• Морфологический анализ– Определение части речи

– Определение грамматических характеристик

• Лексический анализ– Сопоставление со словарями

– Разрешение лексической многозначности

• Синтаксический анализ– Частичный анализ, шаблоны

• Предметный анализ– Анализ референциальных ссылок

– Слияние извлеченных фактов

Извлечение именованных сущностей

• Особенности

– Большое количество разных

– Постоянно появляются новые сущности

– Нет строгих правил именования (маргарин “I Can’t Believe It’s Not Butter”)

• Примеры– Люди

– Организации

– Предприятия

– Места

– Марки товаров

Извлечение имен: достигнутые результаты

• Wall Street Journal

• Системы, основанные на знаниях– MUC-6 – F=96.4– MUC-7 – F=93.7

• Системы машинного обучения (HMM)– MUC-6 – F=93– MUC-7 – F=90.4

Извлечение имен на основе знаний - 1

• Словарь имен• Словарь частей имен• Правила и шаблоны:

– Большие буквы– Использование внутренней структуры

(ООО)– Проверка по корпусу

• Michigan State – название университета,

• New York State – название штата

• Результат: список правил

Извлечение имен на основе знаний. Скорость

разработки• Исходные данные

– 5000 названий компаний и сокращений– 1000 имен и фамилий людей– 20000 географических названий

• Итеративная разработка правил• Время разработки: 2-3 недели• Число правил: около 100• Качество извлечения: 85-90%

Ontosminer: примеры правил

Синицына (в девичестве Орлова) Арландина Семеновна является менеджером картеля «Лига Охраны Перелетных Птиц».

{Family}

({FormerFam})?

{Upper}

{Patr}

Он поступил в Московский университет дружбы народов и отучился там 4 года.

{AdjNPupper}

{Lookup.majorType == “edu", Lookup.NMB == "sg"}

{GenNP}

({GenNP})?

Примеры соответствующих фрагментов текста

Шаблон на языке Jape (Cunningham et al. 2000)

Извлечение имен: Марковские модели

• Моделируется конечный автомат• Марковский процесс - будущее» процесса не

зависит от «прошлого» при известном «настоящем».

• Переходы вероятностные• Получение вероятностных оценок на основе

размеченного корпуса• В момент обработки нового имени – выбор

наиболее вероятного пути

Машинное обучение извлечению имен: сколько

нужно данных• BBN

– 30000 слов – F 81

– 1.2 млн.слов – F91

• MITRE

– 250K слов – F 79

– 750K слов – F 86

– 1.2 млн слов – F 87

• 1.2.млн. слов – 1800 газетных статей

• Последовательность разметки тоже важна

• Linguistic Data Consortium – источник данных

Извлечение имен: проблема кореференции

• Текст: множество разных именований одной и той же сущности:– William H. Gates, Mr. Gates, Bill Gates– Местоимения– Сокращения– Именные группы (владелец Microsoft)

• MUC-6:

• P=0.72, R-0.63 – подмножество сущностей в единственном числе

Вторичное распознавание и связывание

кореферентных наименований объектов Иной путь был у нефтяной компании «Сибнефть». Она была образована в 1995 г. на основе ряда предприятий советской нефтяной промышленности. В течение нескольких лет Борис Березовский с Романом Абрамовичем скупили на приватизационных конкурсах контрольный пакет акций компании. По данным Счетной палаты, при продаже компании государству был нанесен ущерб в размере 2,7 млрд. долларов. Об этом заявил глава СП Сергей Степашин.К «черному золоту» будущий владелец «Сибнефти» имел опосредованное отношение. Учась в институте, Р. Абрамович создал кооператив «Уют», изготавливающий игрушки из полимеров. Лишь в середине 90-х он занялся торговлей нефтью через швейцарскую компанию RUNICOM.Среди финансовых аналитиков «Сибнефть» при Абрамовиче считалась крайне эффективной компанией.

Разрешение кореферентности

• Полезная информация

– Синтаксический тип: имя, именная группа, местоимение

– Одушевленность

– Тип сущности

– Род и число

• Должно быть соответствие по этим характеристикам

• Расстояние просмотра:– Именованная сущность – весь текст

– Именная группа – фрагмент текста

– Местоимение – 1-2 предложения, редко проходит через границу абзаца

Полезные правила (компания RCO)

• - Референт может употребляться дважды в одном предложении только в составе двух разных пропозиций – базовой и осложняющей (должна стоять хотя бы одна запятая)

• - Возможный референт слова при своем последнем упоминании не должен входить в состав группы однородных членов предложения (Сидоров столкнулся с Ивановым и Петровым в дверях, после чего ему не удалось избежать разговора).

• - При наличии нескольких потенциальных референтов слову более естественно иметь того референта, который употреблялся в теме предшествующего предложения, нежели в реме – фокус внимания – (Иванов познакомился с Петровым в прошлом году. Тогда он впервые участвовал в выставке)

• Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием (Компания обанкротилась, после чего акционеры МММ тщетно пытались вернуть свои деньги )

• RCO: на практике эти правила часто безболезненно нарушаются

Извлечение отношений

• Шаблоны

– Инженерный подход vs. машинное обучение

– База: последовательность слов и/или результаты частичного синтаксического анализа

– Инженерный подход: высокая точность, низкая полнота

• Извлечение шаблонов– Имеется множество сущностей с известными отношениями

– Пример, штаб-квартиры компаний

– В текстовом корпусе находятся предложения, в которых упоминаются эти пары сущностей.

– Формируются наиболее вероятные шаблоны

Синтаксический анализ в системах извлечения

знаний• Применяется для узкого анализа основных

сущностей• Грамматики с конечным числом состояний• Предложные группы выделяются только по

отношению к «важным» глаголам• Выделяются наречия времени и места,

остальные игнорируются• Применение полного синтаксического анализа

– медленно, много ошибок

– Проблема с длинными предложениями

Слияние частичных описаний

• Лингвистический анализ проводится в рамках отдельного предложения

• Необходимость собирания частичных описаний, полученных из разных предложений

• The bank was the target of the attack… The lobby was completely destroyed

• Определение специальных правил слияния, основанных на сопоставлении слотов фрейма

Качество извлечения информации: новые данные

• ACE – Automatic Content Extraction• Точность (Accuracy) - 2006• Сущности – 90-98%• Атрибуты – 80%• Факты – 60-70%• События – 50-60%• В хорошо известных областях• Для новых задач - ниже

Заключение• Извлечение терминов

– Критерии: статистический, синтаксический, лексический (стоп-слова)

– Оценка: трудно принять решение

– Нужны дополнительные критерии: анализ компонентов, сравнение с уже введенными терминами

• Извлечение именованных сущностей

– Два подхода

– Достигнуты высокие показатели обнаружения

– Проблема кореференции – определения тождества имен

Заключение-2

• Извлечение отношений и событий– Важно: переводит информацию из

неструктурированного текста в структуры базы данных

– Результаты пока невысокие– Постоянно предлагаются новые подходы

(комбинированные методы, учет структуры текстов и др.)

Извлечение знаний и фактов из текстов

Documents

n oldterms

bill gates microsoft

ananiadou c value

information extraction

michigan state

data mining

new york state

mi mutual information