Top Banner
© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. Обработка текстов на естественном языке Александр Уланов Лекция 7. Извлечение отношений из текстов
25

Обработка текстов на естественном языке: Извлечение отношений из текстов

Jan 18, 2015

Download

Documents

CS Center

Лекция посвящена задачам извлечения отношений из текстов. Отношение – это тройка вида «субъект-отношение-объект». Например, «часть-целое», «кто купил какую компанию» и пр. Рассмотрены основные полуавтоматические подходы: DIPRE, Snowball, KnowItAll, TextRunner. Они основаны на автоматическом поиске паттернов для отношений в текстах и последующим переиспользованием этих паттернов для поиска новых отношений. Приводится сравнение данных подходов с точки зрения количества параметров, типов извлекаемых отношений и пр. Также внимание уделено и подходам на базе обучения с учителем. Они сравниваются при помощи размеченного набора данных.
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Обработка текстов на естественном языке Александр Уланов

Лекция 7. Извлечение отношений из текстов

Page 2: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 2

Оглавление курса

1. Введение. Слова, фразы, предложения, наборы текстов

2. Статистики, языковые модели

3. Классификация текстов

4. Практика I

5. Кластеризация текстов

6. Разбор текстов по частям речи. Поиск именных сущностей

7. Извлечение отношений из текстов

8. Практика II

9. Поиск дубликатов в тексте

10. Анализ мнений

11. Введение в статистический машинный перевод

12. Практика III

Литература

• Chris Manning and Hinrich Schuetze. Foundations of Statistical Natural Language Processing, MIT Press, 1999

• Philipp Koehn. Statistical Machine Translation, Cambridge Univ. Press, 2010

• Научные статьи по теме (ссылки на слайдах), видеолекции Stanford и Coursera (Manning)

Page 3: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 3

Оглавление

Введение

Паттерны

Полуавтоматический подход

Обучение с учителем

Page 4: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 4

Извлечение отношений

Основные задачи

Мы рассматривали поиск коллокаций, именных сущностей, синтаксическую разметку

предложения. Все это можно использовать для извлечения более сложной

информации – отношений (более точно – семантических отношений).

Пример

• Zoltav Resources Inc., дочерняя структура компании Аркадия Абрамовича, купила

британскую компанию Vostok Energy

Применение

• Ответы на вопросы (question answering)

– Кому принадлежит Vostok Energy?

• Составление или пополнение существующих БД или онтологий

– Извлечение именных сущностей решает задачу разметки классов сущностей

• В биоинформатике (в текстах статей) – поиск белков, которые взаимодействуют между собой

– protein Z binds with protein W

• Дальнейшая аналитика

Page 5: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 5

Типы отношений

Популярные типы отношений

• Онтологические

– Часть-целое, экземпляры, синонимомы, классы, атрибуты

– Wikipedia, DBPedia, WordNet

• Связанные с именными сущностями

– Работает-в, родился-в

– БД людей, компаний и т.д.

– Hoovers

• События

– Назначен на, купил

• Медицинские

– Причина-болезнь, болезнь-лечение, белок-реакция

– UMLS (Unified Medical Language System), MeSH (Medical Subject Headings Thesaurus)

Page 6: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 6

Инфобоксы Википедии

• HP Type-Of Публичная компания

• HP Motto Create Amazing

• HP Founded-In 1939

• HP Founded-By Билл Хьюлетт

• HP Founded-By Дэвид Паккард

• HP Located-In USA, California, Palo Alto

• …

http://www.wikipedia.org/

Page 7: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 7

Типы отношений Automatic Content Extraction

Extraction, Automatic Content. "Evaluation Plan (ACE08)." Proceedings of the ACE (2008): 1-3.

Page 8: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 8

133 типа сущностей и 54 типа отношений

Unified Medical Language System (UMLS)

Сущность Отношение Сущность

Приобретённая патология Результат Поведение

Активность Is-A События

Возврастная группа Is-A Группа

Лабораторный тест Диагностирование Болезнь

Орган Location-Of Болезнь

Лекарство Лечит Болезнь

Анатомическая структура Часть Организм

... ... ...

Примеры экземпляров отношений: Типы отношений:

Page 9: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 9

Подходы к извлечению отношений

Основные подходы

• Обучение без учителя

– извлечение любых типов отношений, валидация по статистике

• Обучение с частичным привлечением учителя

– Бутстрэппинг по паттернам или примерам пар объектов

• Обучение с учителем

– нужен размеченный корпус данных и остроумные признаки

Page 10: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 10

Полуавтоматический подход [Hearst 1992]

Классический подход

1. Составить список известных пар слов, которые состоят в интересуемом отношении

– Виктор Воропаев/ЧТЗ, Олег Дерипаска/РУСАЛ

2. Найти в текстах все упоминания этих пар одновременно в одном предложении

– Виктор Воропаев назначен генеральным директором ЧТЗ

– Олег Дерипаска возглавляет РУСАЛ

3. Обобщить среднюю часть текста между этими парами

– ИМЯ «назначить, генеральный, директор» КОМПАНИЯ

– ИМЯ «возглавлять» КОМПАНИЯ

4. Применить полученные паттерны к тексту, чтобы найти новые пары слов. Перейти к пункту № 2

– Оценить надежность паттернов по количеству правильных и неправильных извлечений

– Банк России с 24 июня 2013 года возглавляет Эльвира Сахипзадовна Набиуллина

Hearst, Marti A. "Automatic acquisition of hyponyms from large text corpora."Proceedings of the 14th conference on Computational linguistics-Volume 2. Association for

Computational Linguistics, 1992.

Page 11: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 11

Паттерны для извлечения отношений

«часть-целое» (гипонимы и гиперонимы)

• Предлагается обобщение подхода

Паттерн Пример текстового фрагмента

such NP as { NP , } * { ( or | and ) } NP … works by such authors as Herrick, Goldsmith, and Shakespeare

NP { , NP } * { , } ( or | and ) other NP … bruises, wounds, broken bones or other injures …

… temples, treasuries, and other important civic buildings ..

NP { , } including { NP , } * { or | and } NP … all common-law countries, including Canada and England …

NP { , } especially { NP , } * { or | and } NP … most European countries, especially France, England, and Spain

NP such as { NP , } * ( or | and ) NP … bow lute such as Bambara ndang …

Hearst, Marti A. "Automatic acquisition of hyponyms from large text corpora."Proceedings of the

14th conference on Computational linguistics-Volume 2. Association for Computational

Linguistics, 1992.

Page 12: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 12

Dual Iterative Pattern Expansion (DIPRE) [Brin

1999] Особенности подхода

• Извлечение из веб-страниц

• Регулярные выражения для именных сущностей (Название книги/Автор)

– Автор [A-Z][A-Za-z .,&]5;30[A-Za-z.].

– Книга [A-Z0-9][A-Za-z0-9 .,:'#!?;&]4;45[A-Za-z0-9?!]

• Вид паттрена

– (author, title, order, url, prefix, middle, suffix)

– Order – 0/1 – что стоит сначала Автор/Название

– Prefix, suffix – 10 символов до/после первой/последней сущности

– Middle – текст между сущностями

• Группировка паттернов по middle и наидлиннейшим суффиксам и префиксам

• Надежность паттерна

– Кол-во встреч с правильной парой Название книги/Автор

Brin, Sergey. "Extracting patterns and relations from the world wide web." The World Wide Web

and Databases. Springer Berlin Heidelberg, 1999. 172-183.

Page 13: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 13

Snowball [Agischtein, Gravano 2000]

Особенности подхода

• Используется распознавание именных сущностей (ORGANIZATION/LOCATION)

• Вид паттрена

– <left, tag1, middle, tag2, right>

– left, middle, right – вектора левого, среднего и правого контекста (число – значимость токена)

• <{<the, 0.2>}, LOCATION, {<-, 0.5>, <based, 0.5>}, ORGANIZATION, {}>.

• Группировка паттернов

– 𝑀𝑎𝑡𝑐ℎ 𝑡𝑝, 𝑡𝑠 = 𝑙𝑝𝑙𝑠 +𝑚𝑝𝑚𝑠 + 𝑟𝑝𝑟𝑠 ≤ 𝜏

– Простая кластеризация паттернов по порогу близости

• Надежность паттерна и извлеченного отношения

– 𝐶𝑜𝑛𝑓 𝑝𝑎𝑡𝑡𝑒𝑟𝑛 =𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠

𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠+𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒_𝑚𝑎𝑡𝑐ℎ𝑒𝑠

– 𝐶𝑜𝑛𝑓 𝑡𝑢𝑝𝑙𝑒 = 1 − 1 − 𝐶𝑜𝑛𝑓 𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑖 ∙ 𝑀𝑎𝑡𝑐ℎ(𝑐𝑜𝑛𝑡𝑒𝑥𝑡𝑖 , 𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑖)𝑝𝑎𝑡𝑡𝑒𝑟𝑛𝑠

– 𝐶𝑜𝑛𝑓 … = 𝐶𝑜𝑛𝑓𝑛𝑒𝑤 ∙ 0.5 + 𝐶𝑜𝑛𝑓𝑜𝑙𝑑 ∙ (1 − 0.5)

Agichtein, Eugene, and Luis Gravano. "Snowball: Extracting relations from large plain-text collections." Proceedings of the fifth ACM conference on Digital libraries. ACM, 2000.

Паттерн может быть поматчен

с текстом не точно

Page 14: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 14

KnowItAll [Etzioni et al. 2005]

Особенности подхода

• Используется разпознавание частей речи

• Вид паттернов

• Один проход

• Надежность паттерна и извлеченного отношения

– Запрос на встречаемость данного (данных) объектов вместе с данным паттерном и отдельно

• Надежность отношения (𝜙) – Байесовский классификатор (корректное/некорректное отношение)

– Признак 0 или 1 – надежность паттерна больше порога

Etzioni, Oren, et al. "Unsupervised named-entity extraction from the web: An experimental study." Artificial Intelligence 165.1 (2005): 91-134.

“Liege is a city”

“Liege”

Page 15: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 15

TextRunner [Banko et al. 2007]

Особенности подхода

• Создается классификатор для определения наличия отношений вообще 𝑒𝑖 , 𝑟𝑖𝑗 , 𝑒𝑗

– Автоматическая размета подкорпуса для тренировки

• При помощи дерева зависимости определяется, есть ли зависимость между именными

группами (noun phrase)

• Признаки классификации: последовательности частей речи между в 𝑟𝑖𝑗, количество токенов,

стопвордов, является ли 𝑒𝑖 именной сущностью, части речи слева/справа от 𝑒𝑖 , 𝑒𝑗

• Один проход

– Отношение – текст между именными фразами

• Группировка паттернов по 𝑟𝑖𝑗 с нормализацией

– was originally developed by was developed by

• Надежность паттерна

– Кол-во предолжений, в которых он встретился

Banko, Michele, et al. "Open Information Extraction from the Web." IJCAI. Vol. 7. 2007.

Page 16: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 16

ReVerb [Fader et al. 2011]

Особенности подхода

• Развитие идеи TextRunner

• Для каждого глагола в предложении ищется

наидлиннейшая последовательность по паттерну

• Для каждой найденной по паттерну фразы определяются

ближайшие именные группы слева и справа

• Фраза-отношение валидируется лексически по следующей

коллекции

– Из 500 млн предложений извлечены фразы по

паттернам

– Из них оставляют те, которые от 20 раз использовались

с разными аргументами

• Классификатор для вычисления доверия к извлеченной

тройке 𝑒𝑖 , 𝑟𝑖𝑗, 𝑒𝑗 (логистическая регрессия)

– На основе вручную размеченных 1000 примеров Fader, Anthony, Stephen Soderland, and Oren Etzioni. "Identifying relations for open information extraction." Proceedings

of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics,

2011.

Page 17: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 17

Сравнение полуавтоматических подходов

A SURVEY ON RELATION EXTRACTION Nguyen Bach & Sameer Badaskar Language Technologies Institute Carnegie Mellon University

DIPRE Snowball KnowItAll TextRunner ReVerb

Начальные примеры Да Да Да Нет Да

Задан тип отношения Да Да Да Нет Нет

Использование NLP Нет РИС (NER) ЧР (POS) ЧР, NP chunker,

отношения

ЧР, NP chunker

Вид отношения бинарный бинарный Унарный,

бинарный

Бинарный Бинарный

Языкозависимость Нет Да Да Да Да

Извлечение отношений Точно по

паттерну

Приближен

но по

паттерну

Классифика

тор (Байес)

Самообучаю-

щийся

классификатор

Классификатор

с учителем

Кол-во входных

параметров

2 9 >=4 нет нет

Page 18: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 18

Обучение с учителем

Основные подходы

• Стандартный – классификация по набору признаков

– Проблема - придумать остроумные признаки

• Использование строкового ядра (string kernel, Lodhi 2002*) в классификаторе

– Строковое ядро – функция близости строк в многомерном пространстве всевозможных

подстрок

– Ядро с мешком слов

– Ядро с синтаксическими деревьями или деревьями зависимостей

*Lodhi, Huma, et al. "Text classification using string kernels." The Journal of Machine Learning

Research 2 (2002): 419-444.

Page 19: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 19

Обучение с учителем с использованием ядра

Lodhi, Huma, et al. "Text classification using string kernels." The Journal of Machine Learning Research 2 (2002): 419-444.

Контекст Текст отношения Контекст Сущность1 Сущность2

Контекст Текст отношения Контекст Сущность3 Сущность4

Размеченный пример отношения (м.б. отрицательный пример)

Кандидат

𝐾 𝑥, 𝑦 𝐾 𝑥, 𝑦 𝐾 𝑥, 𝑦

SVM, kNN

Page 20: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 20

Обучение с учителем

Основные подходы

• Zelenko et al. 2003

– Синтаксические деревья вместе с текстом (синтаксические группы частей речи)

– Задачи: организация/место, человек/место работы

– Ядро на основе дерева в SVM на 3-7% лучше, чем стандартный подход

• Culotta & Sorensen 2004; Bunescu & Mooney 2005

– Деревья зависимостей вместе с текстом и типом сущности

– Задача ACE 2003, 5 типов отношений

• Kambhatla 2004; Zhou et. al 2005

– Около 40 признаков: слова, части речи, тип сущностей, кол-во и расположение фраз,

зависимости, список сущностей, слова-триггеры

– Задача ACE 2003, 24 типов отношений

• Kambhatla 49 классов MaxEnt, Zhou 43 класса (включая несимметричные) SVM

Page 21: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 21

Сравнение подходов к извлечению

отношений с учителем на ACE 2003

Zhang, Min, et al. "A composite kernel to extract relations between entities with both flat and structured features." Proceedings of the 21st International Conference on Computational

Linguistics and the 44th annual meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2006.

Метод P R F1

Составное ядро (Zhang et al. 2006) 77.3 (64.9) 65.6 (51.2) 70.9 (57.2)

SVM с признаками (Zhou et al. 2005) 77.2 (63.1) 60.7 (49.5) 68.0 (55.5)

MaxEnt с признаками (Kambhatla 2004) (63.5) (45.2) (52.8)

Строковое ядро по кратчайшему пути в

дереве зависимостей (Bunescu & Mooney

2005)

65.5 43.8 52.5

Строковое ядро по дереву зависимостей

(Culotta & Sorensen 2004)

67.1 35.0 45.8

*Для 5 основных типов отношений (для всех 24)

Page 22: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 22

Что еще бывает?

Несимметричные отношения

• Каждому направлению – свой классификатор

Многовалентные отношения

• Рассматриваются попарные варианты

• Semantic role labeling (CoNLL 2005, Senseval-3, SemEval 2007 & 2010)

Отношения из Википедии для семантической паутины (Semantic Web)

• DBPedia, Freebase, Yago, ...

Анализ статей по биоинформатике

• protein Z binds with protein W

• Gene G with mutation M leads to malignancy L

• BioNLP Shared Task 2011

Page 23: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 23

Извлечение отношение и NLP

Sentence splitter Tokenizer

NER

Support

entities

Events

Triggers

Разбивка на предложения Токенизация

Именованные сущности

Определение частей речи

Разрешение ссылок,

неоднозначности

Чанкинг

Извлечение отношений

Глубокий разбор

Извлечение

событий

Page 24: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 24

Заключение

Введение

Паттерны

Полуавтоматический подход

Машинное обучение

Page 25: Обработка текстов на естественном языке: Извлечение отношений из текстов

© Copyright 2013 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice. 25

Спасибо!

[email protected]