Лукьяненко. Извлечение коллокаций из текста

Лукьяненко Светлана

Извлечение коллокаций из текста

«Retrieving Collocations from Text : Xtract» by Frank Smadja

Что такое коллокация?

❖ Существует множество определений для понятия коллокация

❖ Они зависят от решаемой задачи

❖ Автор приводит такое определение:

Коллокация - повторяющаяся комбинация слов, которые встречаются вместе чаще, чем ожидалось случайно.

2

Некоторые особенности❖ Коллокации чаще всего невозможно дословно перевести на другой язык, так как их смысл не складывается из смыслов отдельных слов

льет как из ведра — it’s raining cats and dogs

❖ Коллокации могут быть понятны только профессионалам, для людей других профессий они могут иметь совершенного другое значение

настоящее время, линейное программирование

3

Типы коллокаций❖ Rigid noun phrases (жесткие именные фразы) — непрерывная последовательность слов, часто терминыОбмен валют, дизъюнктивная нормальная форма

❖ Predicative relations (предикативные отношения) — пара слов, связанных определенным синтаксическим отношениемПринять + решение: принять важное решение, принять решение об отмене лекции

❖ Phrasal templates (шаблонные фразы) — идиоматические фразы, содержащие один или несколько слотовВероятность осадков *ЧИСЛО* процентов

4

Xtract

❖ Программный продукт разработан автором статьи для извлечения коллокаций из коллекций текстов

❖ Разрабатывался как инструмент обработки текстовых данных для использования в задачах генерации текста, автоматического перевода и др.

❖ Реализован с помощью стандартных C-Unix библиотек

5

Стадии работы Xtract1. Выделение пар слов и отбор наиболее устойчивых из них на основе статистической информации

2. Выделение устойчивых n-грамм и создание шаблонных фраз на основе биграмм

3. Установление синтаксических отношений для биграмм

2 и 3 стадии выполняются независимо на основе данных, полученных на 1 стадии.

6

Извлечение биграмм — 1 стадия

Вход: корпус текстов с указанием частей речи каждого слова

Выход: список биграмм со статистической информацией❖ Текст рассматривается по предложениям❖ Расстояние между словами, которые формируют возможную пару, не больше 5

7

1.1 шаг — Отбор предложений

Вход: - размеченный корпус - слово w (для которого мы ищем все возможные коллокации)

Выход: все предложения, содержащие w❖ Происходит разделение корпуса на предложения и выборка тех, где встречается заданное слово

8

1.2 шаг — Выделение биграмм

Вход: предложения, содержащие w

Выход: список биграмм (w, wi) с указанием частот❖ Из предложений выделяются пары слов, расстояние между которыми не больше 5

freq — общая частота встречаемостиpj — частота появления wi на позиции j относительно слова w

9

1.3 шаг — Отбор устойчивых биграмм

Вход: список биграмм (w, wi) с частотами

Выход: устойчивые биграммы (w, wi) со статистической информацией о том:

- насколько часто слова употребляются вместе (strength)

- существует ли определенная позиция для wi в окрестности w (spread)

10

1.3 шаг — вычисление strength

1) На основе всех значений freqi вычисляем среднюю частоту F и стандартное отклонение от нее σ.

2) Для каждого wi вычисляем ki - устойчивость (strength) пары слов:

11

1.3 шаг — вычисление spread1) На основе всех pij подсчитываем среднюю частоту Pi

2) Для каждого wi вычисляем Ui - размах (spread) биграммы:

❖ Если Ui мала, то wi может встречаться почти в любой позиции вокруг w

❖ Иначе, wi может встречаться только в одной (нескольких) определенной позиции вокруг w

12

Условия отбора биграмм

Устойчивая биграмма отвечает следующим требованиям:

1. достаточная частотность:

2. позиция wi относительно w практически всегда одинакова:

3. если есть несколько возможных позиций wi, то выбирается лучшая из них :

❖ k0, U0 и k1 - экспериментально подбираемые пороги отсечения

13

Пример результата 1 стадии

14

От биграмм к n-граммам — 2 стадия

Вход: биграммы (w, wi) со статистической информацией

Выход: n-граммы и шаблонные фразы

❖ Рассматриваем все вхождения биграммы в текст, анализируем распределение (частоту) и части речи окружающих слов

❖ Отфильтровываем недопустимые

15

2.1 шаг — Выявление согласований

Вход: - пара слов - расстояние между ними

Выход: предложения, в которых заданная пара слов встречается на указанном расстоянии

Пример: для пары takeover-thwart c дистанцией 2

Under the recapitalization plan it proposed to thwart the takeover.

16

2.2 шаг — Сбор информации

Вход: результат работы 1 шага

Выход: добавляем к результату список биграмм с указанием частоты встречаемости, расстояния между словами и частей речи

❖ Результат похож на таблицу, которую получили на 2 шаге 1 стадии

❖ Учитываются все позиции вокруг w в рамках одного предложения

17

2.3 шаг — АнализВход: - список биграмм с частотами и частями речи

- предложения, содержащие биграмму

Выход: список устойчивых n-грамм и шаблонных фраз

❖ Для каждого слова предложения вычисляется частота его употребления в определенной позиции

❖ Для каждой позиции i относительно w анализируем распределение слов и отбираем такие слова, что:

P( ) — вероятность употребление слова w0 в позиции iT — экспериментально подбираемый порог отсечения

18

Пример отбора n-граммы❖ Отбираем те слова, которые встречаются на одной и той же позиции относительно w в разных предложениях

19

Пример создания шаблона❖ Учитывая части речи, получаем шаблон

«The NYSE’s composite index of all its listed common stocks *VERB* *NUMBER* to *NUMBER*»

20


21

Добавление синтаксической информации — 3 стадия

Вход: биграммы (w, wi) со статистической информацией (выход 1 стадии)

Выход: отобранные биграммы с указанием типа синтаксических отношений

❖ Мы уже знаем, что make употребляется с decision. Теперь определяем, связанны ли они синтаксически.

22

3.1 шаг — Отбор предложений

Вход: - пара слов с расстоянием между ними - корпус текстов с указанными частями речи

Выход: - рассматриваемая пара слов - список предложений, где она встречаются.

❖ Аналогично 1 шагу 2 стадии.

23

3.2 шаг — Определение типов отношений

Вход: выход шага 3.1

Выход: предложения с указанием типов отношений для каждой пары слов

❖ Рассматриваются 4 типа отношений:

VO — verb-object NA — noun-adjective

SV — verb-subject NN — noun-noun

24

Пример разбора предложения❖ Предложение, из которого извлечены биграммы: "Wall

Street faced a major test with stock traders returning to action for the first time since last week's epic selloff and investors awaited signs of life from the 5-year-old bull market."

25

3.3 шаг — Разметка предложений

Вход: выход шага 3.2

Выход: - биграмма - предложения с указанием типа отношений для w и wi

❖ Тип отношения, установленный для биграммы (w, wi) на предыдущем шаге, приписывается всему предложению

❖ Если не установлен, то помечаем меткой U26

3.3 шаг — Пример результата

27

3.4 шаг — Отбор и разметка коллокаций

Вход: предложения с меткой отношения в биграмме

Выход: коллокации с меткой отношения

❖ Для каждой биграммы (w, wi) анализируем распределение меток и отбираем такие метки, для которых:

P( ) — вероятность употребления метки t в позиции i

Т — экспериментально подобранный порог отсечения

28


29

Примеры результатов

30

Результат — файл с записями по каждой коллокации, в записи 4 строки:

1. биграмма с дистанциейsales fell -1 steps take 1

2. коллокация и ее частота 158……. sales fell …….158 75……. take steps TO VB…….75

3. метка коллокацииTAG: SV TAG: VO

4. пример предложения с коллокацией New home sales fell 2.7 percent in February following an 8.6 percent drop in January the Commerce Department reported. Officials also are hopeful that individual nations particularly West Germany and Japan will take steps to stimulate their own economies.

Статистика применения

Корпус — 10 млн слов. (новости фондовых рынков)

Словоформ — около 60000.

Xtract эффективно работает только с теми словами, которые встречаются достаточно часто.

Из всех словоформ примерно 8000 встретились>= 50 раз.

Извлечено коллокаций — 15000.

31

Оценка качества работы❖ Работу 3 стадии сравниваем с результатами работы профессионального лексикографа и оцениваем точность и полноту результатов.

32

Описание экспериментаВход — 4000 случайных коллокаций после 1 стадии работы Xtract.

Эти коллокации были размечены экспертом:

Плохие (N) — 60%

Хорошие (Y) — 20%

Сомнительные (YY) — 20%

И программой (Xtract 3 стадия):

Класс T — все, у которых определен тип связи

Класс U — те, для которых тип связи не определен

33

Результат эксперимента

(YY + Y) — коллокации, отобранный лексикографом, как хорошие.

Из них 94% отобраны Xtact в Т => Полнота — 94%

Т — коллокации, которые программа считает хорошими.

Из них 80% отобраны в (Y + YY) => Точность — 80%

34

Влияние корпуса на результаты

A. Размер корпуса и частота встречаемости слов

Для хорошей работы Xtract значимые слова должны встречаться в корпусе достаточно большое число раз (желательно больше 50, а лучше 100 раз).

B. Стилистика и тематика текстов

Если тематика корпуса узкая, то будут хорошо отбираться коллокации по теме.

Если нужны общеупотребимые коллокации, то необходим большой и разнообразный корпус.

35

Спасибо за внимание!

Лукьяненко. Извлечение коллокаций из текста

Education