Top Banner
49

извлечение объектов и фактов из текстов

Dec 16, 2014

Download

Documents

Yandex

 
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: извлечение объектов и фактов из текстов
Page 2: извлечение объектов и фактов из текстов

Татьяна Ландо Менеджер лингвистических проектов

Извлечение из текстов объектов и фактов (Text mining)

Page 3: извлечение объектов и фактов из текстов

3

Natural Language Processing

•  Автоматическая обработка естественного языка

•  Искусственный интеллект

•  Тест Тьюринга

Page 4: извлечение объектов и фактов из текстов

4

Page 5: извлечение объектов и фактов из текстов

5

Natural Language Processing

•  Поиск (текстовый) / Information Retrieval (IR) •  Извлечение фактов / Information Extraction (IE) •  Диалоговые системы и Question Answering •  Синтез и распознавание речи •  Оценка тональности отзывов •  Кластеризация и классификация текстов •  …

Page 6: извлечение объектов и фактов из текстов

6

Text Mining • Извлечение структурированной информации из неструктурированного текста

• Основная часть посвящена объектам, их отношениям и свойствам в текстах

• Состоит из: –  Named Entity Recognition (NER) извлечение именованных сущностей / объектов

–  Co-reference resolution Разрешение кореференции

–  Information Extraction (IE) Извлечение фактов

Page 7: извлечение объектов и фактов из текстов

7

Named Entity Recognition (NER)

• Извлечение именованных сущностей Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где он объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ему часть своей популярности, сообщает justmedia.ru.

Page 8: извлечение объектов и фактов из текстов

8

Кореференция: анафора

• Разрешение анафоры: поиск разных выражений указывающих на одну сущность

Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где ОН объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ЕМУ часть СВОЕЙ популярности, сообщает justmedia.ru.

Page 9: извлечение объектов и фактов из текстов

9

Кореференция: “синонимы”

Разнообразные способы называния одного и того же • Транслитерация: Yandex – Яндекс • Аббревиация: ВТБ – Внешторгбанк – Банк Внешней Торговли

• Синонимы: больница – госпиталь • Словообразование: Москва – московский • Графические: авто кредит - автокредит

Page 10: извлечение объектов и фактов из текстов

10

Information Extraction

•  Извлечение информации об отношениях между объектами или о значениях параметров.

Популярный блогер и основатель антикоррупционного проекта "РосПил" Алексей Навальный фигурирует в уголовном деле как советник губернатора Кировской области Никиты Белых.

person position org

Алексей Навальный основатель РосПил

Никита Белых губернатор Кировская область

Page 11: извлечение объектов и фактов из текстов

11

Что извлекают?

Объекты: •  даты •  адреса •  телефоны •  ФИО •  название товара •  компании •  … Факты:

-  События -  Мнения и отзывы -  Контактные данные -  Объявления -  …

Page 12: извлечение объектов и фактов из текстов

12

Теперь поговорим о технологиях

Page 13: извлечение объектов и фактов из текстов

13

Первичная обработка текста На входе: текст на естественном языке Текст анализируется на всех лингвистических уровнях: •  лексическом •  морфологическом •  синтаксическом •  Семантическом

Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов.

Page 14: извлечение объектов и фактов из текстов

14

Первичная обработка текста

Определение словарной формы слов и нормализация других объектов (числа, даты) Разбиение текста на абзацы, предложения, слова. Выявление связей между словами, объединение слов в неразрывные группы

текст

токенизация / графематика

лемматизация/ нормализация

частичный синтаксический

разбор Снятие ом

онимии

Page 15: извлечение объектов и фактов из текстов

15

Графематика

Разбиение текста на слова и предложения Яндекс.Маркет — сервис сравнения характеристик товаров и их цен Скоро начнется осенняя серия игр "Что? Где? Когда?".

Page 16: извлечение объектов и фактов из текстов

16

Морфология

• Бывает словарная и автоматическая • Еще бывает:

– Part-of-Speech Tagging – Стемминг

стекло: Стекло – существительное в ед.ч, им.п./вин.п Стекать – глагол в прош. вр., ед.ч, сред. род

Page 17: извлечение объектов и фактов из текстов

17

Синтаксис

• Бывает полный или частичный

• Они оба ошибаются, полный чаще

Page 18: извлечение объектов и фактов из текстов

18

Снятие омонимии

• Снятие разнообразных неоднозначностей:

• Морфологическая: Молоко стекло со стола

• Синтаксическая: Он видел их семью своими глазами

• «Объектная»: Михаил Задорнов: «20% российских семей могут себе позволить ипотеку»

Page 19: извлечение объектов и фактов из текстов

19

Information Extraction Выделение объектов и определение типов (NER): •  Иван Петров –> ФИО

•  3 апреля 1975 года –> дата

•  директор по маркетингу –> должность

•  ООО «Рога и копыта» -> компания

Установление связей между объектами (Factes) Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад.

Page 20: извлечение объектов и фактов из текстов

20

Пример

Вице-губернатор Новосибирской области Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м

жилья. В ответ на вопрос председателя строительного комитета облсовета Александра Савельева, занимающего пост генерального

директора компании «КПД-Газстрой», руководитель профильного департамента обладминистрации сообщил, что за

государственный счет будет построено около 10 % заявленных площадей.

FIO  

FIO  

post  

post  

post  comp  

comp  

date  

number  

number  

geo  

Page 21: извлечение объектов и фактов из текстов

21

Как извлекают?

• по онтологиям • опираясь на правила (Rule-based) • опираясь на машинное обучение (ML )

Page 22: извлечение объектов и фактов из текстов

Наверное, сначала нужно поговорить про онтологии…

Page 23: извлечение объектов и фактов из текстов

23

Онтологии

• «концептуальные словари»

•  структуры в которых описываются некоторые понятия и/или объекты, отношения между ними, их характеристики

• вообще-то это философский термин

Page 24: извлечение объектов и фактов из текстов

24

Онтологии

Бывают: •  универсальные, описывают вообще все • отраслевые, по предметным областям •  узкоспециализированные, под конкретную задачу

• онтологии объектов (база данных) • онтологии концептов (понятий)

Page 25: извлечение объектов и фактов из текстов

25

Онтологии

Примеры:

• Wikipedia, Dbpedia •  Imdb, Кинопоиск • CrunchBase • SUMO • DOLCE

Page 26: извлечение объектов и фактов из текстов

26

IE с помощью онтологий

• Используют онтологии объектов • Используют открытые источники, сливают их в одну онтологию объектов с типами и свойствами. Например, «препарируют» википедию

• по тексту готовят гипотезы, опираясь на контексты и имеющиеся списки объектов (т.е. свою онтологию)

• разрешают неоднозначность опираясь на связи между объектами сразу по всему тексту

Page 27: извлечение объектов и фактов из текстов

27

Разметим предложение Википедией

Президент РФ Владимир Путин считает, что высказывания в ЕС по поводу решения Киева приостановить процесс интеграции с Евросоюзом оказывают давление на Украину

http://ru.wikipedia.org/wiki/Президент …/wiki/Президент_Российской_Федерации …/wiki/Россия …/wiki/Владимир …/wiki/Владимир_Путин .../wiki/Высказывание …/wiki/В …/wiki/Европейский_союз …/wiki/По …wiki/Решение …wiki/Киев …/wiki/Процесс …/wiki/Интеграция …/wiki/С …/wiki/Европейский_союз …/wiki/Давление …/wiki/На …/wiki/Украина

Page 28: извлечение объектов и фактов из текстов

28

IE с помощью онтологий

• получается высокая точность NER, нет случайных NE

•  снятие омонимии тоже происходит с высокой точностью

• низкая полнота: извлекается только то, что есть в онтологии

•  странная обновляемость, нужно либо добавлять объекты руками, либо строить процедуру автоматического обновления

Page 29: извлечение объектов и фактов из текстов

29

IE с помощью онтологий

•  зависит от наличия внешних ресурсов, поэтому подход используется только для английского

•  хорошо использовать для закрытых классов, например географические названия

•  хорошо использовать в областях, где оперативно пополняются источники, например кинобазы

• может использовать или не использовать лингвистическую информацию, т.е. подходить для любого «стиля» текста

Page 30: извлечение объектов и фактов из текстов

30

Машинное обучение:

•  Методы построения алгоритмов, способных обучаться

• Дается обучающая выборка – набор данных, где объектам приписаны свойства. Характеристики, классы и т.п.

• Нужно определить зависимость, т.е. написать алгоритм, который для каждого нового объекта выдаст максимально точный ответ

Page 31: извлечение объектов и фактов из текстов

31

Машинное обучение: пример

Девочки: • Мария Иванова • Дарья Петрова • Екатерина Сидорова

Мальчики: • Иван Пупкин • Алексей Уткин • Егор Иванов

Надо определить мальчик или девочка: • Олег Бойко • Ангелина Алексеева

Page 32: извлечение объектов и фактов из текстов

32

Машинное обучение:

•  извлекается как можно больше лингвистической информации о словах

•  размечается обучающее множество, на нем обучается система

•  запускается на корпусе, получаются результаты

Page 33: извлечение объектов и фактов из текстов

33

Машинное обучение:

•  не требует большого количества ручного труда по написанию правил

•  не требует заранее подготовленной онтологии •  систему легко перенастроить под другие «стили» языка, например перейти от СМИ-текстов к сообщениям в твиттере

•  не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид)

•  процедуры можно делать итеративными: простые правила -> факты –> более сложные правила т.е. правила можно извлекать автоматически

Page 34: извлечение объектов и фактов из текстов

34

Машинное обучение:

•  Недостаточно развиты инструменты для автоматической обработки, трудно получить лингвистические фичи (хорошо применимо для английского)

•  Требуется большой обучающий корпус, правильно и полностью размеченный

•  Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно»

Page 35: извлечение объектов и фактов из текстов

35

Rule-based подход

• использует полный или частичный синтаксический анализ

• онтология категорий, т.е. указывается какие сущности могут обладать какими параметрами, например: компания – стоимость

• NER основанный на контекстах и внутренних структурах, контексты (шаблоны) составляются руками лингвистов

Page 36: извлечение объектов и фактов из текстов

36

Rule-based NER

• для фио: есть словарь имен, правила согласования имен, отчеств, фамилий, типовые окончания для отчеств и фамилий

• для дат: словарь названий месяцев, шаблоны построения дат

• для компаний: стоят в специфических контекстах, иногда упоминаются в кавычках, имеют специфические части (ООО, ЗАО,… )

Page 37: извлечение объектов и фактов из текстов

37

Rule-based IE

• шаблоны поверх NER • в шаблонах записываются отношения, в которых могут находиться разные объекты, лингвистическая информация, которая может указывать на связь, конкретные слова, которые обозначают конкретные связи.

Владимир Ресин назначен и.о. мэра Москвы person (им.п.) назначен post(тв.п.) org(р.п.)

Page 38: извлечение объектов и фактов из текстов

38

Что же выбрать?

• Начиналось все с шаблонов • Сейчас в моде онтологии и машинное обучение

• Выбор подхода определяется конкретной задачей

• А будущее все равно за гибридными системами.

Page 39: извлечение объектов и фактов из текстов

39

Зачем все это?

•  Тэгирование новостных сообщений или сообщений в блогах. (NER)

•  Мониторинг новостей по персоне, компании, продукту (NER)

•  Мониторинг отношения прессы/блоггеров к событию, продукту (Facts)

•  Автоматическое составление календаря будущих событий с заполнением полей когда, где… (Facts)

•  Фильтры для поиска, использование в кластеризации, и в других задачах

•  Придумайте сами ;)

Page 40: извлечение объектов и фактов из текстов

40

Тенденции

•  много систем для английского языка •  много онтологий, много лингв. инструментов •  простая морфология – проще настраивать машинное обучение

•  большой рынок •  NER гораздо больше чем NER + Facts •  крупные новостные сайты, тематические блоги •  Мнения по твиттеру, блогам… тоже на английском

Page 41: извлечение объектов и фактов из текстов

41

Компании

•  OpenCalais – самый известный англоязычный ресурс

•  Сотни стартапов по всему миру делают IE для английского языка

•  Яндекс :) •  Google •  Ашманов, RCO и пр делают это с русским

Page 42: извлечение объектов и фактов из текстов

42

Как мы делаем это в Яндексе?

• Машинное обучение • Онтологии • Инструмент для Rule-based подхода: Томита-парсер

Page 43: извлечение объектов и фактов из текстов

Извлечение фактов в почте

Page 44: извлечение объектов и фактов из текстов

Карты

Ул. Юных Ленинцев

Чулочно-носочные изделия

Page 45: извлечение объектов и фактов из текстов

Новости

Page 46: извлечение объектов и фактов из текстов

Поиск

Page 47: извлечение объектов и фактов из текстов

Поиск

Page 48: извлечение объектов и фактов из текстов

Яндекс.Работа

Page 49: извлечение объектов и фактов из текстов

Татьяна Ландо

Менеджер проектов

Отдел лингвистических технологий

Спасибо!