Top Banner
Методы интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
24

Методы интеграции разнородных онтологий

Dec 20, 2014

Download

Documents

Панасенко Алексей
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Методы интеграции разнородных онтологий

Методы интеграции разнородных онтологий

Панасенко Алексей, 525 группаНаучный руководитель Большакова Е.И.

Page 2: Методы интеграции разнородных онтологий

2

Понятие онтологии

Онтология — это точная спецификация концептуализации. (Т. Грубер)

Концептуализация — это структура реальности, рассматриваемая независимо от словаря предметной области и конкретной ситуации.

Page 3: Методы интеграции разнородных онтологий

3

Пример онтологии

Классификация вин– Вино

• Красное вино– Красное бургундское– …

• Белое вино– Белое бургундское– …

• Розовое вино– …

Page 4: Методы интеграции разнородных онтологий

4

Применение онтологий

• Информационный поиск (Information retrieval)– Обеспечение концептуального

индексирования

• Семантический Веб (Semantic Web)– Автоматизация «интеллектуальных» задач

обработки значения ресурсов сети

Page 5: Методы интеграции разнородных онтологий

5

Информационный поиск

Индексирование по

набору слов• Избыточность

• Независимость слов

• Многозначность слов

Концептуальное

индексирование• Синонимы объединены

• Есть связи между понятиями

• Многозначные слова разнесены по разным понятиям

Page 6: Методы интеграции разнородных онтологий

6

Semantic Web

Основные концепции

• Расширяемый язык разметки XML.

• RDF – формат описания ресурсов.

• Формализация и обработка знаний на основе онтологического подхода.

Page 7: Методы интеграции разнородных онтологий

7

Существующие проекты

• Автоматическое получение знаний– KnowItAll– TextRunner

• Ручное получение знаний– WordNet, Cyc, OpenCyc – построение экспертами– Freebase – построение сообществом– Semantic Wikipedia – добавление семантических

ссылок в существующие статьи

• Получение знаний из структурированных данных

Page 8: Методы интеграции разнородных онтологий

8

YAGO

• Авторы – Fabian M. Suchanek, Gerhard Weikum

• Автоматическое получение знаний из WordNet и Wikipedia

• 1.7 миллиона сущностей

• 15 миллионов фактов

• Совместимость с RDFS

Page 9: Методы интеграции разнородных онтологий

9

Особенности YAGO

• Используются данные из панелей информации (infoboxes) Wikipedia

• Используется таксономия WordNet

• Используются различные методики контроля качества

• Вводятся n-арные отношения

Page 10: Методы интеграции разнородных онтологий

10

N-арные отношения

RDFSGrammyAward prize

elvisGetsGrammyElvis winner

elvisGetsGrammy1921 year

elvisGetsGrammy

YAGO#1 : Elvis hasWonPrize

GrammyAward#2 : #1 inYear 1967

Системавоспринимает:

Elvis hasWonPrizeGrammyAward inYear1967

Page 11: Методы интеграции разнородных онтологий

11

Контроль качества

• Проверка на уникальность – добиваемся единственности всех сущностей и фактов

• Проверка на соответствие типу – добиваемся наличия у всех сущностей классов и удовлетворения всеми сущностями ограничений своих классов

Page 12: Методы интеграции разнородных онтологий

12

Проверка на уникальность

• Проверка перенаправления – для каждой сущности в Wikipedia текст ссылки в панели информации может отличаться от названия статьи, на которую она ссылается.

• Удаление повторяющихся фактов и сущностей. Более точный факт необходимо оставить, менее точный – удалить.

Page 13: Методы интеграции разнородных онтологий

13

Проверка на соответствие типу

• Редуцирующая проверка – если сущности невозможно сопоставить класс, то такую сущность необходимо исключить из онтологии.

• Индуцирующая проверка – если из имеющихся данных о сущности можно вывести какой-либо факт, то его необходимо включить в онтологию.

Page 14: Методы интеграции разнородных онтологий

14

Эвристики YAGO

Для автоматизации слияния онтологий

используются следующие эвристики:

• Эвристики определения типа

• Эвристики определения сущностей

• Эвристики определения категории

Page 15: Методы интеграции разнородных онтологий

15

Эвристики определения типа

• Категории Wikipedia объединены в ацикличный ориентированный граф, но используются только листья этого графа.

• Каждый synset WordNet становится классом онтологии, за исключением известных персон/мест

Synset – группа синонимов и синонимичных словосочетаний

Page 16: Методы интеграции разнородных онтологий

16

Связь synset и категорий

• Каждую категорию разбивают на пре-модификатор, основу и пост-модификатор.

• Ищется лучший synset для пре-модификатора и основы. Если нашли – то наша категория – подкласс этого класса.

Page 17: Методы интеграции разнородных онтологий

17

Связь synset и категорий 2

• Если synset не найден – то ищем лучший synset только для основы.

• Лучший synset – тот, к которому сам WordNet относит слово с максимальной вероятностью.

• Существует ограниченное число исключений – например слово capital (столица) WordNet с максимальной вероятностью принимает как финансовый термин

Page 18: Методы интеграции разнородных онтологий

18

Пример связи категории и synset

American people in JapanПре-модификатор Основа Пост-модификатор

Основу привели в форму единственного числа

American person

Данному словосочетанию не соответствует ни

один synset. Значит ищем synset только для

основы.

Person – synset person/human, и значит

American people in Japan – подкласс person/human

Page 19: Методы интеграции разнородных онтологий

19

Эвристики определения сущностей

• Активное использование списков синонимов из WordNet

• Использование перенаправлений Wikipedia

• Определение имен собственных – Эйнштейн означает то же, что и Альберт Эйнштейн

Page 20: Методы интеграции разнородных онтологий

20

Эвристики определения категории

• Использование категорий Wikipedia – если статья имеет категорию «Реки Германии», то сущность isLocated Германия

• Эвристики определения категории могут быть не слишком строгими – лишние факты будут отброшены

Page 21: Методы интеграции разнородных онтологий

21

Русскоязычный вариант

• Исходные онтологии– Русская Wikipedia– Онтология научных терминов НИВЦ МГУ

• 55 000 сущностей• 200 000 фактов• 140 000 синонимов

• Цель – дополнить онтологию НИВЦ МГУ данными из Wikipedia, сохранив преимущества экспертной классификации

Page 22: Методы интеграции разнородных онтологий

22

Технические аспекты

• Онтология НИВЦ – база данных dBase• Русская Wikipedia – html-код• Результат – XML-схема онтологии в

формате RDFS• Провести полное тестирование

результирующей онтологии не представляется возможным, необходима система выборочного тестирования

Page 23: Методы интеграции разнородных онтологий

23

Особенности эвристик

• Выборка идет не по всем категориям Wikipedia

• Более сложный лексический анализ при определении класса категории Wikipedia

• Нет вероятностей соответствия слова разным synset

Page 24: Методы интеграции разнородных онтологий

24

Спасибо за внимание

Вопросы?