Top Banner
Извлечение знаний и фактов из текстов Н.В.Лукашевич [email protected] АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр
41

Извлечение знаний и фактов из текстов

Dec 23, 2014

Download

Documents

4 декабря 2007
Лукашевич Н.В
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Извлечение знаний и фактов из текстов

Извлечение знаний и фактов из текстов

Н.В.Лукашевич[email protected]

АНО Центр информационных исследований

МГУ им. М.В.Ломоносова Научно-исследовательскийвычислительный центр

Page 2: Извлечение знаний и фактов из текстов

Задачи извлечения: извлечение знаний

(Knowledge acquisition)• Классическая проблема искусственного интеллекта – bottleneck

• Новая предметная область– Сущности, понятия– Отношения (синонимы, родовидовые отношения,

часть-целое)– Закономерности

• Источники получения знаний– Эксперты– Данные – Data mining– Тексты

• Результат: терм. словарь, тезаурус, онтология

Page 3: Извлечение знаний и фактов из текстов

Задачи извлечения: извлечение фактов

• Information extraction• Извлечение конкретных сущностей:

– персон, должностей, организаций; – ссылок на литературу;– упоминаний генов или белков и т.п.

• Извлечение отношений между конкретными сущностями:– место работы, телефон, покупки, слияния и

поглощения– Взаимодействие белков

• Накопление базы фактов

Page 4: Извлечение знаний и фактов из текстов

План презентации

• Извлечение знаний о предметной области: термины

• Извлечение информации: конкретные сущности

• Извлечение знаний и информации: отношения

Page 5: Извлечение знаний и фактов из текстов

Извлечение знаний из текстов: основные этапы

• 1) формирование текстового корпуса – мегабайты, гигабайты текстов

• 2) Работа автоматических процедур• 3) Возможно, работа экспертов по проверке,

отбору извлеченной информации• 4) Результат:

– Список терминов предметной области

– Онтология

– Тезаурус

Page 6: Извлечение знаний и фактов из текстов

Извлечение терминов из текстов

• Сущности, понятия • Понятия – категории мышления• - > в текстах - термины• Термин - слово (или сочетание слов),

являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п.

• -> Задача автоматического извлечения терминов

Page 7: Извлечение знаний и фактов из текстов

Пример: Проект терминологического словаря

• Сфера государственного финансового контроля

- Договор со Счетной Палатой РФ• Имеется проект словаря,

предоставленный специалистами СП,– Род экспертизы

• Предметная область - на стыке нескольких областей: экономика, право, бухгалтерский учет

• Срок исполнения – 4 месяца (невозможно без компьютерных технологий)

Page 8: Извлечение знаний и фактов из текстов

Финансовый контроль: самые частотные многословные выражения

• Федеральный бюджет• Российская Федерация• Счетная палата• Федеральный закон• Общая сумма• Средства федерального бюджета• Областной бюджет• Денежные средства• Использование средств• Заработная плата• Минфин России• Бюджетные средства• Налоговый орган

Page 9: Извлечение знаний и фактов из текстов

Критерии для извлечения терминологических

словосочетаний• Лингвистические критерии:

– однословные, именные группы (прил.+сущ., сущ+сущ. в род. падеже и т.п.)

• Статистические критерии– частотность, взаимная встречаемость …

• Лексические критерии– Списки стоп-слов: каждый, другой, оценки

(красивый, плохой), география, имена и фамилии людей…

Page 10: Извлечение знаний и фактов из текстов

(PAIRS) Естественный метод – сборка пар слов (возможно с предлогами), а затем упорядочивание их в соответствиис убывающей частотностью

(PAIRS.MI) «mutual information» отношения вероятности

совместной встречаемости двух слов в некотором текстовом окне к произведению вероятностей встречаемости каждого слова

Отбор словосочетаний - 1

)(*5.0

)()( )(

FrightFleft

aFreqN

aFreqaMI

Page 11: Извлечение знаний и фактов из текстов

Отбор словосочетаний - 2 (PAIRS.LL) оптимизация функции максимального правдоподобия (log-likelihood) в предположении о биномиальном характере функции распределения совместной встречаемости слов

loglike = a * log(a+1) + b * log(b+1) + c * log(c+1) + d * log(d+1) - (a+b) * log(a+b+1) - (a+c) * log(a+c+1) - (b+d) * log(b+d+1) - (c+d) * log(c+d+1) + (a+b+c+d) * log(a+b+c+d+1)

a - частота данного словосочетания (пары),b - суммарная частота других (отличных от данной) пар с той же самой левой леммой,c - суммарная частота других пар с той же самой правой леммой,d - суммарная частота пар, отличных от данной и не попадающих в категории (b) и (c)

Page 12: Извлечение знаний и фактов из текстов

Отбор словосочетаний - 3

(C-VALUE) К. Frantzi и S. Ananiadou введена метрика C-Value, поощряющая отбор словосочетаний большей длины, которые не входят в состав других словосочетаний

aTb bfreq

aTPa

вложеннееслиafreqa

)()(

12log

,)(2log

Value(a)-C

a – кандидат в термины, |a| - длина словосочетания, измеряемая в количестве слов, freq(a) – частотность a, Ta – множество словосочетаний, которые содержат a,

P(Ta) – количество словосочетаний, содержащих a.

Page 13: Извлечение знаний и фактов из текстов

A+N согласованные прилагательное + существительное

N+N существительное + существительное в род. падеже

A+A+N согласованные прилагательное + прилагательное + существительное

N+A+N существительное + согласованное прилагательное + существительное в род.падеже

Отбор словосочетаний - 4

Словарь сочетаемости (30000 входов):A(-)+N(-)=G(-) важная проблемаA(+)+N(-)=G(+) внешнеполитическая деятельность А(-)+N(+)=N(+) (G=N) вчерашняя продажа

(OLDTERMS-- и OLDTERMS++)

Page 14: Извлечение знаний и фактов из текстов

Collocations

Col

loca

tions

/ G

oodP

hras

es,

%

50

60

70

80

90

100

110

0 200 400 600 800 1000 1200 1400 1600 1800 2000

PAIRS

PAIRS.LOG-LIKE

PAIRS.MI

OLDTERM--

OLDTERM++

Оценка эффективности нахождения коротких терминологических словосочетаний

Page 15: Извлечение знаний и фактов из текстов

Опыт извлечения терминов

• Общественно-политический тезаурус– 1994-1997– 250 тысяч терминологических словосочетаний– Прекращено из-за слишком больших трудозатрат

• Авиа-Онтология• Терминологический словарь Счетной палаты• Онтология по естественным наукам и технологиям• Проблема: большое количество словосочетаний, для

которых трудно принять решение – субъективность экспертов

• Использовать новые принципы: – анализ компонентной структуры словосочетания, – сравнение с другими извлеченными словосочетаниями, – с уже имеющимися ресурсами

Page 16: Извлечение знаний и фактов из текстов

План презентации

• Извлечение знаний о предметной области: термины

• Извлечение информации: конкретные сущности

• Извлечение знаний и информации: отношения

Page 17: Извлечение знаний и фактов из текстов

Тестирование систем извлечения информации

• Конференция MUC - Message Understanding Conference (1987-1997)

• MUC-1 (87), MUC-2 (89) Военно-морские операции

• MUC-3 (91), MUC-4 (92) Террористическая деятельность

• MUC-5 (93) Совместные предприятия

• MUC-6 (95) Назначения и отставки

• MUC-7 (97) Запуски космических кораблей и ракет

Page 18: Извлечение знаний и фактов из текстов

MUC-7.Запуски

• Запущенный_аппарат• Боевая_часть• Дата_запуска• Место_запуска• Тип_задания (военный, гражданский)• Назначение_запуска (тестирование,

доставка..)• Статус_запуска (удачный, неудачный,

выполняется, планируется)

Page 19: Извлечение знаний и фактов из текстов

Методы оценки

• Полнота (R)= Число правильных ответов/ общее возможное число правильных ответов

• Точность (P)= Число правильных ответов/Число порожденных ответов

• F1-мера= 2RP/(R+P)

• Максимальный результат MUC: F1= 0.6 (!)

• ACL 2007: 0.64

• Результаты российских групп – 0.9 (?!)

Page 20: Извлечение знаний и фактов из текстов

Методы автоматического извлечения информации

Системы машинного обучения• опора на статистические (вероятностные) методы• необходим размеченный корпус для «обучения»

системы

• Системы, основанные на знаниях• опора на языки описания правил-шаблонов (и

действий)• правила пишутся экспертами; процесс написания

правил может занимать много времени

• Лучшие системы конференции MUC – системы, основанные на знаниях

Page 21: Извлечение знаний и фактов из текстов

Выбор методов• Использование методов, основанных на знаниях

– Имеются словари, списки слов

– Имеются инженеры по знаниям

– Мало размеченных данных

– Нужно максимально возможное качество

• Использование методов, основанных на машинном обучении– Нет словарных ресурсов

– Нет инженеров по знаниям

– Размеченных данных много и получение их дешево

– Достаточно иметь хорошее (?) качество извлечения

• Комбинированные подходы

Page 22: Извлечение знаний и фактов из текстов

Основные этапы извлечения информации

• Графематика (токенизация)– Разбиение сложных слов (?)

• Морфологический анализ– Определение части речи

– Определение грамматических характеристик

• Лексический анализ– Сопоставление со словарями

– Разрешение лексической многозначности

• Синтаксический анализ– Частичный анализ, шаблоны

• Предметный анализ– Анализ референциальных ссылок

– Слияние извлеченных фактов

Page 23: Извлечение знаний и фактов из текстов

Извлечение именованных сущностей

• Особенности

– Большое количество разных

– Постоянно появляются новые сущности

– Нет строгих правил именования (маргарин “I Can’t Believe It’s Not Butter”)

• Примеры– Люди

– Организации

– Предприятия

– Места

– Марки товаров

Page 24: Извлечение знаний и фактов из текстов

Извлечение имен: достигнутые результаты

• Wall Street Journal

• Системы, основанные на знаниях– MUC-6 – F=96.4– MUC-7 – F=93.7

• Системы машинного обучения (HMM)– MUC-6 – F=93– MUC-7 – F=90.4

Page 25: Извлечение знаний и фактов из текстов

Извлечение имен на основе знаний - 1

• Словарь имен• Словарь частей имен• Правила и шаблоны:

– Большие буквы– Использование внутренней структуры

(ООО)– Проверка по корпусу

• Michigan State – название университета,

• New York State – название штата

• Результат: список правил

Page 26: Извлечение знаний и фактов из текстов

Извлечение имен на основе знаний. Скорость

разработки• Исходные данные

– 5000 названий компаний и сокращений– 1000 имен и фамилий людей– 20000 географических названий

• Итеративная разработка правил• Время разработки: 2-3 недели• Число правил: около 100• Качество извлечения: 85-90%

Page 27: Извлечение знаний и фактов из текстов

Ontosminer: примеры правил

Синицына (в девичестве Орлова) Арландина Семеновна является менеджером картеля «Лига Охраны Перелетных Птиц».

{Family}

({FormerFam})?

{Upper}

{Patr}

Он поступил в Московский университет дружбы народов и отучился там 4 года.

{AdjNPupper}

{Lookup.majorType == “edu", Lookup.NMB == "sg"}

{GenNP}

({GenNP})?

Примеры соответствующих фрагментов текста

Шаблон на языке Jape (Cunningham et al. 2000)

Page 28: Извлечение знаний и фактов из текстов

Извлечение имен: Марковские модели

• Моделируется конечный автомат• Марковский процесс - будущее» процесса не

зависит от «прошлого» при известном «настоящем».

• Переходы вероятностные• Получение вероятностных оценок на основе

размеченного корпуса• В момент обработки нового имени – выбор

наиболее вероятного пути

Page 29: Извлечение знаний и фактов из текстов
Page 30: Извлечение знаний и фактов из текстов

Машинное обучение извлечению имен: сколько

нужно данных• BBN

– 30000 слов – F 81

– 1.2 млн.слов – F91

• MITRE

– 250K слов – F 79

– 750K слов – F 86

– 1.2 млн слов – F 87

• 1.2.млн. слов – 1800 газетных статей

• Последовательность разметки тоже важна

• Linguistic Data Consortium – источник данных

Page 31: Извлечение знаний и фактов из текстов
Page 32: Извлечение знаний и фактов из текстов

Извлечение имен: проблема кореференции

• Текст: множество разных именований одной и той же сущности:– William H. Gates, Mr. Gates, Bill Gates– Местоимения– Сокращения– Именные группы (владелец Microsoft)

• MUC-6:

• P=0.72, R-0.63 – подмножество сущностей в единственном числе

Page 33: Извлечение знаний и фактов из текстов

Вторичное распознавание и связывание

кореферентных наименований объектов Иной путь был у нефтяной компании «Сибнефть». Она была образована в 1995 г. на основе ряда предприятий советской нефтяной промышленности. В течение нескольких лет Борис Березовский с Романом Абрамовичем скупили на приватизационных конкурсах контрольный пакет акций компании. По данным Счетной палаты, при продаже компании государству был нанесен ущерб в размере 2,7 млрд. долларов. Об этом заявил глава СП Сергей Степашин.К «черному золоту» будущий владелец «Сибнефти» имел опосредованное отношение. Учась в институте, Р. Абрамович создал кооператив «Уют», изготавливающий игрушки из полимеров. Лишь в середине 90-х он занялся торговлей нефтью через швейцарскую компанию RUNICOM.Среди финансовых аналитиков «Сибнефть» при Абрамовиче считалась крайне эффективной компанией.

Page 34: Извлечение знаний и фактов из текстов

Разрешение кореферентности

• Полезная информация

– Синтаксический тип: имя, именная группа, местоимение

– Одушевленность

– Тип сущности

– Род и число

• Должно быть соответствие по этим характеристикам

• Расстояние просмотра:– Именованная сущность – весь текст

– Именная группа – фрагмент текста

– Местоимение – 1-2 предложения, редко проходит через границу абзаца

Page 35: Извлечение знаний и фактов из текстов

Полезные правила (компания RCO)

• -  Референт может употребляться дважды в одном предложении только в составе двух разных пропозиций – базовой и осложняющей (должна стоять хотя бы одна запятая)

• - Возможный референт слова при своем последнем упоминании не должен входить в состав группы однородных членов предложения (Сидоров столкнулся с Ивановым и Петровым в дверях, после чего ему не удалось избежать разговора).

• -   При наличии нескольких потенциальных референтов слову более естественно иметь того референта, который употреблялся в теме предшествующего предложения, нежели в реме – фокус внимания – (Иванов познакомился с Петровым в прошлом году. Тогда он впервые участвовал в выставке)

• Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием (Компания обанкротилась, после чего акционеры МММ тщетно пытались вернуть свои деньги )

• RCO: на практике эти правила часто безболезненно нарушаются

Page 36: Извлечение знаний и фактов из текстов

Извлечение отношений

• Шаблоны

– Инженерный подход vs. машинное обучение

– База: последовательность слов и/или результаты частичного синтаксического анализа

– Инженерный подход: высокая точность, низкая полнота

• Извлечение шаблонов– Имеется множество сущностей с известными отношениями

– Пример, штаб-квартиры компаний

– В текстовом корпусе находятся предложения, в которых упоминаются эти пары сущностей.

– Формируются наиболее вероятные шаблоны

Page 37: Извлечение знаний и фактов из текстов

Синтаксический анализ в системах извлечения

знаний• Применяется для узкого анализа основных

сущностей• Грамматики с конечным числом состояний• Предложные группы выделяются только по

отношению к «важным» глаголам• Выделяются наречия времени и места,

остальные игнорируются• Применение полного синтаксического анализа

– медленно, много ошибок

– Проблема с длинными предложениями

Page 38: Извлечение знаний и фактов из текстов

Слияние частичных описаний

• Лингвистический анализ проводится в рамках отдельного предложения

• Необходимость собирания частичных описаний, полученных из разных предложений

• The bank was the target of the attack… The lobby was completely destroyed

• Определение специальных правил слияния, основанных на сопоставлении слотов фрейма

Page 39: Извлечение знаний и фактов из текстов

Качество извлечения информации: новые данные

• ACE – Automatic Content Extraction• Точность (Accuracy) - 2006• Сущности – 90-98%• Атрибуты – 80%• Факты – 60-70%• События – 50-60%• В хорошо известных областях• Для новых задач - ниже

Page 40: Извлечение знаний и фактов из текстов

Заключение• Извлечение терминов

– Критерии: статистический, синтаксический, лексический (стоп-слова)

– Оценка: трудно принять решение

– Нужны дополнительные критерии: анализ компонентов, сравнение с уже введенными терминами

• Извлечение именованных сущностей

– Два подхода

– Достигнуты высокие показатели обнаружения

– Проблема кореференции – определения тождества имен

Page 41: Извлечение знаний и фактов из текстов

Заключение-2

• Извлечение отношений и событий– Важно: переводит информацию из

неструктурированного текста в структуры базы данных

– Результаты пока невысокие– Постоянно предлагаются новые подходы

(комбинированные методы, учет структуры текстов и др.)