Top Banner
Лукьяненко Светлана Извлечение коллокаций из текста «Retrieving Collocations from Text : Xtract» by Frank Smadja
36

Лукьяненко. Извлечение коллокаций из текста

Apr 16, 2017

Download

Education

Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Лукьяненко. Извлечение коллокаций из текста

Лукьяненко Светлана

Извлечение коллокаций из текста

«Retrieving Collocations from Text : Xtract» by Frank Smadja

Page 2: Лукьяненко. Извлечение коллокаций из текста

Что такое коллокация?

❖ Существует множество определений для понятия коллокация

❖ Они зависят от решаемой задачи

❖ Автор приводит такое определение:

Коллокация - повторяющаяся комбинация слов, которые встречаются вместе чаще, чем ожидалось случайно.

2

Page 3: Лукьяненко. Извлечение коллокаций из текста

Некоторые особенности❖ Коллокации чаще всего невозможно дословно перевести на другой язык, так как их смысл не складывается из смыслов отдельных слов

льет как из ведра — it’s raining cats and dogs

❖ Коллокации могут быть понятны только профессионалам, для людей других профессий они могут иметь совершенного другое значение

настоящее время, линейное программирование

3

Page 4: Лукьяненко. Извлечение коллокаций из текста

Типы коллокаций❖ Rigid noun phrases (жесткие именные фразы) — непрерывная последовательность слов, часто терминыОбмен валют, дизъюнктивная нормальная форма

❖ Predicative relations (предикативные отношения) — пара слов, связанных определенным синтаксическим отношениемПринять + решение: принять важное решение, принять решение об отмене лекции

❖ Phrasal templates (шаблонные фразы) — идиоматические фразы, содержащие один или несколько слотовВероятность осадков *ЧИСЛО* процентов

4

Page 5: Лукьяненко. Извлечение коллокаций из текста

Xtract

❖ Программный продукт разработан автором статьи для извлечения коллокаций из коллекций текстов

❖ Разрабатывался как инструмент обработки текстовых данных для использования в задачах генерации текста, автоматического перевода и др.

❖ Реализован с помощью стандартных C-Unix библиотек

5

Page 6: Лукьяненко. Извлечение коллокаций из текста

Стадии работы Xtract1. Выделение пар слов и отбор наиболее устойчивых из них на основе статистической информации

2. Выделение устойчивых n-грамм и создание шаблонных фраз на основе биграмм

3. Установление синтаксических отношений для биграмм

2 и 3 стадии выполняются независимо на основе данных, полученных на 1 стадии.

6

Page 7: Лукьяненко. Извлечение коллокаций из текста

Извлечение биграмм — 1 стадия

Вход: корпус текстов с указанием частей речи каждого слова

Выход: список биграмм со статистической информацией❖ Текст рассматривается по предложениям❖ Расстояние между словами, которые формируют возможную пару, не больше 5

7

Page 8: Лукьяненко. Извлечение коллокаций из текста

1.1 шаг — Отбор предложений

Вход: - размеченный корпус - слово w (для которого мы ищем все возможные коллокации)

Выход: все предложения, содержащие w❖ Происходит разделение корпуса на предложения и выборка тех, где встречается заданное слово

8

Page 9: Лукьяненко. Извлечение коллокаций из текста

1.2 шаг — Выделение биграмм

Вход: предложения, содержащие w

Выход: список биграмм (w, wi) с указанием частот❖ Из предложений выделяются пары слов, расстояние между которыми не больше 5

freq — общая частота встречаемостиpj — частота появления wi на позиции j относительно слова w

9

Page 10: Лукьяненко. Извлечение коллокаций из текста

1.3 шаг — Отбор устойчивых биграмм

Вход: список биграмм (w, wi) с частотами

Выход: устойчивые биграммы (w, wi) со статистической информацией о том:

- насколько часто слова употребляются вместе (strength)

- существует ли определенная позиция для wi в окрестности w (spread)

10

Page 11: Лукьяненко. Извлечение коллокаций из текста

1.3 шаг — вычисление strength

1) На основе всех значений freqi вычисляем среднюю частоту F и стандартное отклонение от нее σ.

2) Для каждого wi вычисляем ki - устойчивость (strength) пары слов:

11

Page 12: Лукьяненко. Извлечение коллокаций из текста

1.3 шаг — вычисление spread1) На основе всех pij подсчитываем среднюю частоту Pi

2) Для каждого wi вычисляем Ui - размах (spread) биграммы:

❖ Если Ui мала, то wi может встречаться почти в любой позиции вокруг w

❖ Иначе, wi может встречаться только в одной (нескольких) определенной позиции вокруг w

12

Page 13: Лукьяненко. Извлечение коллокаций из текста

Условия отбора биграмм

Устойчивая биграмма отвечает следующим требованиям:

1. достаточная частотность:

2. позиция wi относительно w практически всегда одинакова:

3. если есть несколько возможных позиций wi, то выбирается лучшая из них :

❖ k0, U0 и k1 - экспериментально подбираемые пороги отсечения

13

Page 14: Лукьяненко. Извлечение коллокаций из текста

Пример результата 1 стадии

14

Page 15: Лукьяненко. Извлечение коллокаций из текста

От биграмм к n-граммам — 2 стадия

Вход: биграммы (w, wi) со статистической информацией

Выход: n-граммы и шаблонные фразы

❖ Рассматриваем все вхождения биграммы в текст, анализируем распределение (частоту) и части речи окружающих слов

❖ Отфильтровываем недопустимые

15

Page 16: Лукьяненко. Извлечение коллокаций из текста

2.1 шаг — Выявление согласований

Вход: - пара слов - расстояние между ними

Выход: предложения, в которых заданная пара слов встречается на указанном расстоянии

Пример: для пары takeover-thwart c дистанцией 2

Under the recapitalization plan it proposed to thwart the takeover.

16

Page 17: Лукьяненко. Извлечение коллокаций из текста

2.2 шаг — Сбор информации

Вход: результат работы 1 шага

Выход: добавляем к результату список биграмм с указанием частоты встречаемости, расстояния между словами и частей речи

❖ Результат похож на таблицу, которую получили на 2 шаге 1 стадии

❖ Учитываются все позиции вокруг w в рамках одного предложения

17

Page 18: Лукьяненко. Извлечение коллокаций из текста

2.3 шаг — АнализВход: - список биграмм с частотами и частями речи

- предложения, содержащие биграмму

Выход: список устойчивых n-грамм и шаблонных фраз

❖ Для каждого слова предложения вычисляется частота его употребления в определенной позиции

❖ Для каждой позиции i относительно w анализируем распределение слов и отбираем такие слова, что:

P( ) — вероятность употребление слова w0 в позиции iT — экспериментально подбираемый порог отсечения

18

Page 19: Лукьяненко. Извлечение коллокаций из текста

Пример отбора n-граммы❖ Отбираем те слова, которые встречаются на одной и той же позиции относительно w в разных предложениях

19

Page 20: Лукьяненко. Извлечение коллокаций из текста

Пример создания шаблона❖ Учитывая части речи, получаем шаблон

«The NYSE’s composite index of all its listed common stocks *VERB* *NUMBER* to *NUMBER*»

20

Page 21: Лукьяненко. Извлечение коллокаций из текста

Пример результата 2 стадии

21

Page 22: Лукьяненко. Извлечение коллокаций из текста

Добавление синтаксической информации — 3 стадия

Вход: биграммы (w, wi) со статистической информацией (выход 1 стадии)

Выход: отобранные биграммы с указанием типа синтаксических отношений

❖ Мы уже знаем, что make употребляется с decision. Теперь определяем, связанны ли они синтаксически. 

22

Page 23: Лукьяненко. Извлечение коллокаций из текста

3.1 шаг — Отбор предложений

Вход: - пара слов с расстоянием между ними - корпус текстов с указанными частями речи

Выход: - рассматриваемая пара слов - список предложений, где она встречаются.

❖ Аналогично 1 шагу 2 стадии.

23

Page 24: Лукьяненко. Извлечение коллокаций из текста

3.2 шаг — Определение типов отношений

Вход: выход шага 3.1

Выход: предложения с указанием типов отношений для каждой пары слов

❖ Рассматриваются 4 типа отношений:

VO — verb-object NA — noun-adjective

SV — verb-subject NN — noun-noun

24

Page 25: Лукьяненко. Извлечение коллокаций из текста

Пример разбора предложения❖ Предложение, из которого извлечены биграммы: "Wall

Street faced a major test with stock traders returning to action for the first time since last week's epic selloff and investors awaited signs of life from the 5-year-old bull market."

25

Page 26: Лукьяненко. Извлечение коллокаций из текста

3.3 шаг — Разметка предложений

Вход: выход шага 3.2

Выход: - биграмма - предложения с указанием типа отношений для w и wi

❖ Тип отношения, установленный для биграммы (w, wi) на предыдущем шаге, приписывается всему предложению

❖ Если не установлен, то помечаем меткой U26

Page 27: Лукьяненко. Извлечение коллокаций из текста

3.3 шаг — Пример результата

27

Page 28: Лукьяненко. Извлечение коллокаций из текста

3.4 шаг — Отбор и разметка коллокаций

Вход: предложения с меткой отношения в биграмме

Выход: коллокации с меткой отношения

❖ Для каждой биграммы (w, wi) анализируем распределение меток и отбираем такие метки, для которых:

P( ) — вероятность употребления метки t в позиции i

Т — экспериментально подобранный порог отсечения

28

Page 29: Лукьяненко. Извлечение коллокаций из текста

Пример результата 3 стадии

29

Page 30: Лукьяненко. Извлечение коллокаций из текста

Примеры результатов

30

Результат — файл с записями по каждой коллокации, в записи 4 строки:

1. биграмма с дистанциейsales fell -1 steps take 1

2. коллокация и ее частота 158……. sales fell …….158 75……. take steps TO VB…….75

3. метка коллокацииTAG: SV TAG: VO

4. пример предложения с коллокацией New home sales fell 2.7 percent in February following an 8.6 percent drop in January the Commerce Department reported. Officials also are hopeful that individual nations particularly West Germany and Japan will take steps to stimulate their own economies.

Page 31: Лукьяненко. Извлечение коллокаций из текста

Статистика применения

Корпус — 10 млн слов. (новости фондовых рынков)

Словоформ — около 60000.

Xtract эффективно работает только с теми словами, которые встречаются достаточно часто.

Из всех словоформ примерно 8000 встретились>= 50 раз.

Извлечено коллокаций — 15000.

31

Page 32: Лукьяненко. Извлечение коллокаций из текста

Оценка качества работы❖ Работу 3 стадии сравниваем с результатами работы профессионального лексикографа и оцениваем точность и полноту результатов.

32

Page 33: Лукьяненко. Извлечение коллокаций из текста

Описание экспериментаВход — 4000 случайных коллокаций после 1 стадии работы Xtract.

Эти коллокации были размечены экспертом:

Плохие (N) — 60%

Хорошие (Y) — 20%

Сомнительные (YY) — 20%

И программой (Xtract 3 стадия):

Класс T — все, у которых определен тип связи

Класс U — те, для которых тип связи не определен

33

Page 34: Лукьяненко. Извлечение коллокаций из текста

Результат эксперимента

(YY + Y) — коллокации, отобранный лексикографом, как хорошие.

Из них 94% отобраны Xtact в Т => Полнота — 94%

Т — коллокации, которые программа считает хорошими.

Из них 80% отобраны в (Y + YY) => Точность — 80%

34

Page 35: Лукьяненко. Извлечение коллокаций из текста

Влияние корпуса на результаты

A. Размер корпуса и частота встречаемости слов

Для хорошей работы Xtract значимые слова должны встречаться в корпусе достаточно большое число раз (желательно больше 50, а лучше 100 раз).

B. Стилистика и тематика текстов

Если тематика корпуса узкая, то будут хорошо отбираться коллокации по теме.

Если нужны общеупотребимые коллокации, то необходим большой и разнообразный корпус.

35

Page 36: Лукьяненко. Извлечение коллокаций из текста

Спасибо за внимание!