Top Banner
Автоматический переводчик ПроМТ Уфлянд Елена ООО «ПроМТ» www.translate.ru
30

Promt

Jul 12, 2015

Download

Documents

NLPseminar
Welcome message from author
This document is posted to help you gain knowledge. Please leave a comment to let me know what you think about it! Share it to your friends and learn new things together.
Transcript
Page 1: Promt

Автоматический переводчик

ПроМТ

Уфлянд Елена

ООО «ПроМТ»

www.translate.ru

Page 2: Promt

2 составляющие автоматического переводчика:

• Программа

• Словарь

• Программа использует информацию из словаря при обработке текста

Page 3: Promt

1.ПРОГРАММА

Page 4: Promt

Типы систем перевода

• TRANSFER • INTERLINGUA

Page 5: Promt

Система типа

TRANSFER

Предложение на языке входа

Структура для языка входа

Структура для языка выхода

Предложение на языке выхода

анализ

TRANSFER

синтез

Page 6: Promt

Система типа

INTERLINGUA

Предложение на языке входа

Метаструктура для языка входа ==

Метаструктура для языка выхода

Предложение на языке выхода

анализ

синтез

Основная проблема – разработка метаязыка

Page 7: Promt

• ПроМТ – система типа TRANSFER, НО:

• вместо последовательного TRANSFER’a

• – • иерархически взаимосвязанные

TRANSFER’ы для разных единиц перевода

Page 8: Promt

Уровни, выделяемые в системе:

1. Уровень лексических единиц2. Уровень групп3. Уровень простых предложений4. Уровень сложных предложений

• Процессы связаны и взаимодействуют иерархически

• Для алгоритмов разных уровней используются разные формальные методы

Page 9: Promt

TRANSFER на морфологическом уровне

• входная морф. инф. выходная морф. инф.

TRANSFER на уровне групп

• Основа – формальные сетевые грамматики

• При анализе соединение синтаксических единиц в группы структура в терминах непосредственных составляющих синтез лексических единиц с наследуемыми значениями морф. признаков

TRANSFER на уровне предложений

• Основа – фреймовые предикатные структуры

• Глагол – главный элемент• Валентности глагола

определяют заполнение фрейма

• Каждому типу фреймов соответствует некоторый закон преобразования в выходной фрейм и оформление актантов

• + Анализ сложных предложений

– в случае формирования согласования времен и правильного перевода союзов.

Page 10: Promt

• Задача системы -- получение результата при

произвольных входных данных• (в том числе и для текстов, которые не являются

правильными для грамматики, с которой работает система)

• Процесс перевода – процесс с "объектно-ориентированной" организацией, основанной на

иерархии обрабатываемых компонентов

предложения

• Гарантирует устойчивость системы.

Page 11: Promt

2.СЛОВАРЬ

Page 12: Promt

3 уровня словарей:

Генеральный словарь • Состоит из более 130000 статей, постоянно

пополняется и совершенствуется

Специализированные словари• Около 50 шт., различные тематики (бизнес,

компьютеры, юридический, по нефти и газу и т.д.)

Пользовательские словари• Вспомогательные, открыты для редактирования

пользователю

Page 13: Promt

• Словарные статья содержит информацию о слове на языке входа:

парадигма слова на входном языке и слов-переводов на выходном языке,

грамматические характеристики слова на входном языке и слов-переводов на выходном языке (род для существительного, переходность для глагола и т.п.),

Семантика слова на входном языке и слов-переводов на выходном языке ,

информация о сочетаемости с другими словами

• Статья – это набор признаков, с помощью которых кодируется эта информация.

• Программа использует эти признаки при анализе текста.

Page 14: Promt

Морфологическое описание

• Практически уникальное по полноте

• 800 типов словоизменений для русского языка• 300 типов словоизменений для немецкого и французского

языков• 250 типов словоизменений для английского языка

• Множество окончаний для каждого языка хранится в виде древесных структур: эффективный способ хранения и морфологического анализа.

разработана экспертная система для создателя словаря (почти полная автоматизация процедуры выделения основы и определения типа словоизменения при заведении новых слов)

Page 15: Promt

Активные• Отбираются самые частотные• Не более 2х одновременно, если нет специальных

ограничений• Учитываются в процессе перевода

Неактивные• Прочие переводы• Хранятся в словаре, но в процессе перевода не

учитываются

Переводы

Page 16: Promt

Признаки

Собственно признаки • Содержат информацию обо всем слове целиком или о

слове, как об определенной части речи

Модификаторы• Содержат информацию о конкретном переводе слова

• Все признаки используются программой для интерпретации предложений в тексте.

Page 17: Promt

Вид статьи в словаре

Page 18: Promt
Page 19: Promt
Page 20: Promt

Примеры использования признаков

• Table (перевод этого существительного после предлога at = за + N (тв. падеж)

• The boy writes a letter at his table• * Мальчик пишет письмо в своем столе.

• Мальчик пишет письмо за своим столом.

• Tea (семантика «вещество»)• I'd like some tea• * Я хотел бы некоторый чай.

• Я хотел бы немного чая.

• Teacher (женский род для перевода «учительница»)• Mary is my first teacher.• * Мэри – мой первый учитель.

• Мэри – моя первая учительница.

Page 21: Promt

Статьи:

Однословные Обороты (фразеологизированные или частотные

словосочетания)

Примеры:

• ice age

• * Ледяной возраст• Ледниковый период

• cover point

• Have I covered your point?

• * Я покрыл Ваш пункт?• Я ответил на Ваш вопрос?

Page 22: Promt

3.Проблема снятия

«омонимии»

Page 23: Promt

• Проблема особенно актуальна для перевода с английского языка

• Для ее разрешения используются:

Информация из словаря (признаки)

Прочая информация: О тематике текста (подключение специализированного

словаря)

О типе текста (подключение правил перевода для разных типов текстов)

О языковом варианте текста (подключение правил перевода для BrE/AmE)

Page 24: Promt

Примеры использования признаков

1. Terminal (для перевода «неизлечимо больной» – «одушевленный» субъект; для существительного – высокая вероятность числа в постпозиции)

• terminal phase• предельная фаза• terminal patient

• неизлечимо больной пациент

• terminal 1• терминал 1

2. Leave (для разных переводов – разная семантика объекта : «одушевленный/местность»)

• He has left me forever

• Он оставил меня навсегда• He has left Moscow forever• Он уехал из Москвы навсегда

Page 25: Promt

Пример использования специализированных тематических

словарей

• Bay (переводы в генеральном словаре – «бухта», «гнедой», в специализированном словаре «Кулинария» – «лавр», «лавровый»)

• bay soup• * гнедой суп

• лавровый суп

• add some bay• * добавьте некоторый залив• добавьте немного лавра

Page 26: Promt

Пример использования правил перевода для различных типов документов

• Снятие «омонимии» глагол/существительное при обработке текстов рецептов

• Place cracked wheat in bowl• * Место раздробило пшеницу в миске• Поместите дробленую пшеницу в миску

Page 27: Promt

Пример использования правил перевода для BrE и AmE

• Public school (разные переводы в BrE и AmE)• In the USA and Canada a public school is elementary or secondary school,

that is administered by state and local officials. • В США и Канаде государственная школа - начальная или средняя

школа, которой управляют государственные официальные лица и местные государственные служащие.

• In England, Wales, Northern Ireland and some other countries a public school is private or 'independent', fee-paying school.

• В Англии, Уэльсе, Северной Ирландии и некоторых других странах частная школа - частная или 'независимая', платная школа.

Page 28: Promt

4.Тестирование

изменений

Page 29: Promt

• Важной особенность системы ПроМТ является возможность

тестирования любых вносимых изменений (как в словарь, так и в программу).

• Тестирование производится на репрезентативной, пополняемой базе текстов.

В базе представлены тексты• самых различных тематик (политика, медицина, техника и т.д.)

• следующих жанров: публицистика, научно-популярные и научные статьи.

• Размер базы – около 18 Мб• Источник текстов для базы – Интернет.

Page 30: Promt

ВСЕ.

Спасибо, что пришли…… без помидоров.

8)