Г— ---------------------------------------- (Г 1 у 1 т 11/Ж1 1 в*ч11'"^ п « *5$М 0202-2400 структурная | и прикладная 1 лингвистика 1 !»««*«• В** «• •» « «««« *•« 1 1
Г— ----------------------------------------
(Г 1 у 1 т 11/Ж1 1 в*ч 11'"̂ п «*5$М 0202-2400
структурная |и прикладная 1лингвистика 1
! » « « * « • В** «• •» ««««« *•«
1 1
ЛЕНИНГРАДСКИЙ ОРДЕНА ЛЕНИНА И ОРДЕНА ТРУДОВОГО КРАСНОГО ЗНАМЕНИ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени А. А. ЖДАНОВА
СТРУКТУРНАЯ И ПРИКЛАДНАЯ ЛИНГВИСТИКА
Межвузовский сборник
В ы п у с к !
Филологический факультет СПбГУ К а ф е д р а
математической лингвистики
С. Л Ф а
ИЗДАТЕЛЬСТВОЛЕНИНГРАДСКОГО УНИВЕРСИТЕТА ЛЕНИНГРАД, 1978
Печатается по постановлениюРедакционно-издательского совета Ленинградского университета
Сборник «Структурная и прикладная лингвистика» содержит статьи, охватывающие широкий круг проблем современной теоретической и прикладной лингвистики. На материале русского, английского, немецкого и других языков рассматриваются актуальные вопросы семантики предложения, теории синтаксиса, проблемы изучения связного текста. Сборник содержит ряд статей, посвященных применению математических методов в языкознании, исследованию статистических закономерностей как современных, так и древних текстов. Значительное место занимают материалы по проблемам лингвистического обеспечения автоматизированных информационных систем и систем управления, по вопросам научно-технической лексикографии.
Сборник рассчитан на филологов, специалистов по общему языкознанию, прикладной лингвистике и информатике.
Отв. редактор проф. А. С. Герд.
Издательство Ленинградского университета. 1978 г.
ОТ РЕДАКТОРА
Среди различных общих: проблей структурной, прикладной и математической лингвистики в последние годы все более' отчетливо намечается поворот к собственно прикладной лингвистике, к комплексным программным проблемам лингвистического обеспечения автоматизированных информационно-поисковых систем и систем управления (ИПС, АСУ, ОАСУ), к проблематике оптимизации различных звеньев автоматической обработки текста, моделирования искусственных форм интеллекта* автоматического распознавания речи.
Современная прикладная лингвистика все более очерчивается как теория и практика автоматической обработки текстов научно-технических и текстов деловых документов, как практическое лингвистическое направление, связанное с переработкой текстов в ЭВМ с обязательным последующим- промышленным и производственным освоением и корректировкой полученных результатов.
Решение именно этих более общих проблем требует дальнейшего изучения языка научной и технической литературы, деловых документов, вопросов стандартизации и унификации терминологии, теории научно-технической лексикографии, типологии научно-технических словарей, разработки различных видов алгоритмов индексирования и автоматического анализа текстов и математического обеспечения решаемых задач.
В аспекте общелингвистическом большинство этих вопросо» связано прежде всего с дальнейшей разработкой проблем семантики, синтаксиса, лексикографии, формальных грамматик.
3
Первый выпуск сборника «Структурная и прикладная лингвистика» содержит статьи, написанные учеными кафедры математической лингвистики Ленинградского университета, а также и других вузов.
В I разделе сборника рассматриваются вопросы преимущественно теоретического характера, связанные с разработкой актуальных проблем семантики, синтаксиса, связного текста и психолингвистики. Во II разделе ряд статей посвящен применению статистических методов к синхроническим и диахроническим фактам языка, в III разделе освещаются различные вопросы собственно прикладной лингвистики (научно-техническая лексикография, создание информационно-поисковых тезаурусов, лингвистические проблемы создания информационных систем разного типа, программированное обучение языку).
Н. Д. КРЕМНЕВА
О МЕТОДИЧЕСКОМ АСПЕКТЕ РАБОТЫ С ПАРАЛЛЕЛЬНЫМИ ТЕКСТАМИ
Сопоставительное изучение грамматических микросистем ведется как в структурно-типологическом плане,1 так и в плане функционирования (индуктивно-характерологический тип работ).2 В исследованиях второго рода практикуется несколько способов сопоставительного анализа: работа с одноязычными текстами разного функционального стиля, не тождественными по смыслу; работа с разноязычными текстами одного и того же функционального стиля, не тождественными по смыслу; тесты, проводимые с носителями языка на пересказ текста; тесты, предусматривающие пересказ иностранного текста на языке носителей, и др.
По сравнению с перечисленными способами сопоставления обращение к п а р а л л е л ь н ы м т е к с т а м является более экономичным (сравнительно с трудоемким тестированием), более надежным (сравнительно с работой над не тождественными по смыслу текстами) и более целенаправленным (сравнительно с работой над текстами разного стиля). Подобно любому другому исследованию, работа сопоставительного характера может осуществляться применительно к задачам как анализа (грамматика восприятия), так и синтеза (грамматика порождения). При условии, что внимание исследователя межъязыковых соответствий сосредоточено на проблемах анализа, основной результат должен выражаться: а) в установлении для каждого из языков некоторого перечня функциональных инвариантов и б) в расшифровке многозначных языковых форм, т. е. омонимичных (относительно выделенных инвариантов) средств выражения. Предположим, что в русский перечень инвариантов вошли значения настоящего конкретного действия (Нк),
1 См., например: Т и п о л о г и я каузативных конструкций. Л., 1969.2 См., например: Г и н з б у р г Р. С., X и д е к е л ь С. С. Сопоставитель
ное изучение языков и практика преподавания. Самарканд, 1970.
146
настоящего обычного, повторяющегося действия (Но), будущего и прошедшего конкретного процесса (Бк и Пк). Все эти- значения могут быть выражены одной и той же формой — формой настоящего времени несовершенного вида, например: «Профилактический осмотр производится два раза? в год» (Но);. «З авер ш аетс я строительство второго корпуса» (Нк); «В будущем квартале цех переходит на новую технологию» (Бк); «В годы войны он р аб о тает корреспондентом, а затем — редактором»- (Пк.). Таким образом, форма настоящего времени несовершенного вида представляет 4 омонима с точки зрения предложенного описания видо-временной информации.
В случае, когда исследование ориентировано на проблемы; с и н т е з а , основная задача состоит: а) в установлении длякаждого из языков такого числа перечней языковых вариаций,, которое соответствует количеству выделенных для данного языка инвариантов (т. е. имеются в виду списки синонимичных относительно данного инварианта средств выражения; например:, значение Бк в испанском языке может быть передано с помощью 6 форм: Ри1иго 31шр1е, СопсНсюпа1 З1гпр1е, Ргезеп1е,. Ргезегбе бе БиЬрпБуо, а также личной формой глагола гг в Ргезеп1е или 1треНес1о плюс предлог «а» плюс инфинитив;: таким образом, с точки зрения предложенного инварианта эти 6 форм представляют собой перечень синонимов),, и б) в формировании ограничений, накладываемых на функционирование вариаций (синонимов) нормами употребления. Ограничения в функционировании вариаций могут быть сформулированы в виде трех групп правил, согласно которым: 1) из синонимического ряда, соответствующего данному инварианту, исключаются единицы, н е д о п у с т и м ы е в условиях данного контекста (правила строятся на выделении типов контекста), — речь идет о< соотношении языковой нормы с нормой речи; 2) из синонимического ряда соответствий, допустимых данным контекстом!, выбираются те, употребление которых обусловлено; н р и в ы ч- н ыми у с т а н о в к а м и , людей, говорящих на данном языке (путем статистических наблюдений над частотностью вариантов, реализующих данный инвариант) — речь идет о факторе «предпочтения»,3 проявляемого на уровне языка; 3) из синонимического ряда соответствий с одинаковой степенью предпочтения на уровне языка выбираются те, которые поддерживают п р и в ы ч н о е (для речи на данном языке) р а с п р е д е л е н и е этих соответствий в связном тексте (путем статистических наблюдений над очередностью и интервалами в употреблении вариантов, реализующих данный инвариант) — в данном- случае имеет место предпочтение на уровне речи.
3 Об опыте включения этого фактора в синтаксическую модель анализа! см.: Ц е й т и н Г. С. Методы синтаксического анализа, использующие предпочтение языковых конструкций, — В- кн,: Международный семинар по машинному переводу. М., 1975. .
10' 147
Что касается разработки правил первой группы, то по этому вопросу имеется обширная литература (главным образом учебная),4 так что обращение к параллельным текстам носит преимущественно контрольный характер. Например, значение Бк в придаточном предложении времени может быть передано на испанском языке только с помощью Ргезеп1е бе ЗиЬщпбуо, а в некоторых придаточных дополнительных — либо формой СопсИсюпа1 51тр1е, либо описательной конструкцией с глаголом 1Г в 1трегГес1о.
Построение правил второй и третьей групп, на первый взгляд, никак не связано с сопоставлением, поскольку речь идет о выявлении автономных закономерностей, упорядочивающих текст каждого конкретного языка в отдельности.5 Тем не менее для правил второй группы необходимо иметь в виду следующее: преподавательская и переводческая практика накопила по данному вопросу большой опыт, ценность которого уже вполне осознана,6 однако трудно отыскать изложение соответствующего конкретного материала. С учетом этого обстоятельства изучение параллельных текстов представляется если не единственным, то, во всяком случае, самым действенным способом выявления языковых фактов указанного типа. Например, видовое значение повторности действия может быть передано на испанский язык либо чисто лексическим способом (бе пиеуо 'снова’), либо лексико-грамматическим (глагол уо1уег плюс предлог «а» плюс инфинитив), но второй способ предпочтительнее (но грубым подсчетам в пропорции 4: 1). Правила третьей группы также целесообразно строить с привлечением иноязычных текстовых аналогов, так как при этом размежевание закономерностей, общих для сравниваемых текстов, и закономерностей локального свойства происходит в наиболее корректных условиях. То, что в испанских текстах на 27 личных глагольных форм приходится 21 неличная, 29 отглагольных существительных и 3 —4 именных сказуемых (подсчет также очень приблизительный), представляется их локальным свойством. Однако то, что и в испанских, и в русских текстах практически не встречается употребление трех и более неличных форм подряд (при отсутствии между ними сочинительной связи), заставляет предположить проявление некоей универсалии.
Из всей проблематики, касающейся функционирования личных видо-временных форм в русском и испанском языках, освещается следующий аспект: использование видо-временных форм
4 См., например: А р у т ю н о в а Н. Д. Трудности перевода с испанско- •го языка на русский. М., 1965.
5 П и о т р о в с к и й Р. Г., Т у р ы г и н а Л. А. Антиномия «язык — речь» •и статистическая интерпретация нормы языка. — В кн.: Статистика речи и автоматический анализ текста. Л., 1971.
6 См., например: Г а к В. Г. Русский язык в сопоставлении с французским. М., 1975.
448
русского глагола при формировании содержательных выводов из текста (на материале сравнения с испанским языком). Таким образом, 1) описание данных форм ограничивается распознаванием их значений; 2) испанский язык не является ни входным, ни выходным объектом сопоставления, а выступает лишь в роли инструмента для более глубокого изучения фактов русского языка; 3) под содержательными выводами понимаются выводы, представляющиеся существенными для функционирования информационно-логической системы типа «запрос — ответ».7 Это значит, что задача распознавания значений, заключенных в анализируемой форме, в свою очередь сводится к распознаванию возможностей для извлечения содержательных выводов из речевой ситуации реализованной с помощью данной формы. Так, например, из сообщения Е1 сПгеНог Ьа рГап!еасГо !а сиезВбп бе . .. ‘Директор поставил вопрос о . . . ’ следует: «На момент речи этот вопрос ме снят с повестки дня» (благодаря форме Рге1егИо РегГес(о).
К началу сопоставительного анализа в перечень видо-временных значений, предлагаемых для внутренней структуры русских нехудожественных текстов, в числе других входили: Ног Нс (настоящее потенциальное, настоящее свойства), Нк, Пд (прошедшее конкретного факта, аорист), Нр (прошедшее результативное, перфект). В испанский перечень, кроме этих значений, вошли еще ряд «кандидатов» в инварианты, среди которых остановимся на Нп (настоящее продолженное) — глагол' е${аг в Ргезеп{е плюс герундий, Пи (прошедшее итоговое) — глагол ез1аг в Рге1егйо 51гпр1е плюс герундий или же форма Рге^егИо 31гпр]е и Пн (прошедшее начинательное) — глаголы ропегзе и есЬагзе плюс предлог «а» плюс инфинитив или же форма Рге^егИо $1шр1е.
Рассмотрим типы содержательных выводов для какого-то одного инварианта, например Пд. На этапе I было выделено три типа выводов. Первый тип связан с возможностью констатации существования всех компонентов ситуации. Например, из сообщения: В 1959 го д у в Ж е н е в е сост оялась кон ф ер ен ц и я п а зд р а в о о х р а н е н и ю следуют выводы: сущ ест вовала Ж е н е в а , с у щ ест вовала к он ф ерен ц и я , сущ ест вовало зд р а в о о х р а н е н и е и т. д.. Временное значение инварианта определяет «план прошедшего».
Второй тип выводов связан с возможностью замены каждого из компонентов ситуации соответствующим «квантором» единственности: по кр а й н ей м е р е одн аж ды и м ела место к о н ф ер ен ция; по кра й н ей м ер е в одн ом месте и м ел а место к о н ф ер ен ц и я ; по кра й н ей м е р е о д н а кон ф ерен ц и я б ы л а п о свя щ ен а з д р а в о -
7 И л ь и н Г. М., Л е й к и н а Б. М., Н и к и т и н а Т. Н., О т к у п щ и к о в а М. И., Ф и т и а л о в С. Я. Лингвистический подход к задаче построения информационной системы. М., 1971.
149
охранению и -т. д. Временное значение инварианта определяет «план прошедшего», а видовое (при отсутствии специального показателя кратности) указывает на единичность действия. Третий тип выводов связан с наличием в инварианте информации >о начале и конце действия: конференции не было какое-то вр емя до 1959 года и какое-то время после него. Здесь также существенны и временное и видовое значение инварианта.
Рассмотрим дополнительный материал, полученный в ходе систематизации испанских параллелей, или версий. Первое, что обратило на себя внимание, — довольно распространенное г(в обоих языках) выделение того или иного компонента высказывания при помощи предикативной конструкции (Е га еп е1 1959 сиапёо секЬго... и «Это в Женеве в 1959 году состоялась...» ). Так был выявлен еще один тип выводов, связанный с возможностью обобщения каждого из компонентов высказывания путем введения родо-видовых понятий: «Женева — это город, в котором в 1959 году состоялась конференция», 1959 год — это да та конференции, состоявшейся в Женеве», «Конференция — это мероприятие.. .» и т. д. Сами по, себе эти выводы существенны, «днако инвариант Пд никакой роли в их формировании не яграет. Сравним: Ж енева — это город, гд е было (есть, будет) много музеев.
Вторым типом версий, также распространенным в обоих •языках, является добавление глаголов мочь, уметь, удаваться :{«В мае экспедиция вернулась в город»— Еп е1 тауо рийо ое- .шг а Мозсй). Отсюда была выведена возможность формирования следствия с неким признаком «успеха» в осуществлении упомянутого действия: «В 1959 году в Женеве смогла состояться (удалось провести). ..» . Ведущую роль в формировании этого типа выводов играет видовое значение инварианта — информация о свершившемся факте. Тем не менее, видимо, нецелесообразно учитывать данный признак в строящемся варианте грамматики, принимая во внимание, что его информативная ^функция сводится скорее к актуализации сообщения, чем к содержательной стороне, поскольку этот вывод представляется не чем иным, как «усиленным» вариантом самого сообщения. И, •наконец, еще одно р е ше н и е — понимать инвариант Пд как информацию не об отсутствии перфектного значения, а только ю допустимости его отсутствия, поскольку различение безуслов- шой и возможной результативности требует последующего «знания» и потому представляется неосуществимым на внешнем •уровне: если Пр (Конференция проведена) означает ‘цель высказывания -— обратить внимание на результат действия’, то из •Пд Конференция была проведена (состоялась) следует ‘возмож- (но, что цель высказывания — обратить внимание на результат’ .
Таким образом, при формировании перечня инвариантов роль основного дифференциального признака выполняют наборы содержательных выводов, а сами наборы корректируются с
.150
помощью изучения иноязычных версий одного и того же текста. В ходе наблюдений над функционированием видо-временных форм в русско-испанских параллельных текстах наметились следующие выводы.
I. Значение продолженности, длительности с равной частотой либо передается на русский язык (лексическими средствами), либо игнорируется: «Аналогичные научные коллективысоздаются в Чехословакии и Венгрии» — Зе ез1ап сгеапйо. ог§апоз сгепШшоз зппПагез еп СНесоз1оVа^и^а у Нипдпа, но «В ГДР и Болгарии создаются государственные службы социального прогнозирования» — Тап1о еп 1а КБА сото еп Ви1- §апа, е1 Ез1ас1о о г^ ат га з е т с ю з бе ргеушюп зоаа1. Учитывая отсутствие грамматических показателей продолженности в русском языке, а также практическую «несущественность» данного значения для содержательных выводов, приходим к решению не включать его в перечень русских инвариантов.
И. Значение подытоженное™ находит в русском языке регулярную аналогию в типе словообразования (ограничительный способ действия: проработать, постоять). На этом основании было бы логично включить данное значение в грамматику внутренней структуры, если бы не два убедительных контрдовода: отсутствие последовательного отражения этого значения при переводе в обоих направлениях («Три месяца шли эксперименты» — Е1 ехрептеп!о йш д Дез тезез, но «В таких условиях группа проработала сорок восемь дней»— Е1 §гиро 1гаЬа]аЬа аз1 48 (Паз) и сомнения в практической значимости содержательных выводов из этого значения (с позиций поставленной задачи). В итоге значение подытоженное™ также признается избыточным.
III. Значение начинательности в испанском языке имеет два (помимо лексического) способа выражения: лексико-грамматический (Еп1опсез зе ризтегоп а ехр1огаг ге^юпез уестоз — «Тогда начали разведку прилегающих районов») и грамматический (Ба гасНо НаЫд а 1аз 10 — «Радиопередачи начались в 10 часов»). В русском языке также наблюдаем регулярную аналогию; а) в типе словообразования (начинательный способ действия: заговорить, поплыть) и б) в описательной конструкции с глаголом стать («Расходы стали увеличиваться» — Ёоз §аз1оз епгрегагоп а сгееег). Учитывая наличие в обоих языках грамматического или полуграмматического оформления данного значения, существенность данного значения для содержательных выводов и интересы экономного представления информации, следует ввести это значение в перечень элементов, описывающих внутреннюю структуру русских нехудожественных текстов (т. е. в инвентарь грамматических средств глубинного синтаксиса). Кроме того, такое же решение (теперь уже в целях •соблюдения принципа единообразия в оформлении функциональных аналогий) предлагается принять и в отношении двух
других фазовых глаголов: продолжать и кончать, несмотря на их более низкую встречаемость и отсутствие в русском языке нелексических показателей данных значений.
IV. Формальное различение значений Но и Нс достаточно затруднено как в'русском языке, так и в испанском, так как для этого требуется обращение к широкому контексту, в данное время не предусматриваемое. Сравним: По утрам эти больные хорошо едят (зная о том, что больных кормят каждый день, мы интерпретируем эту фразу как каждое утро все имеющиеся в наличии больные хорошо едят, т. е. как Но) и По утрам больные хорошо встречают гостей (зная о том, что гости приходят не всегда утром и приходят не ко всем, интерпретируем эту фразу как если к кому-то из больных по утрам приходят гости, то эти больные встречают гостей хорошо, т. е. Нс). Учитывая это обстоятельство, а также явную близость содержательных выводов из обоих значений (указание на кратность действия), предлагается для первичной модели внутренней структуры описанного типа ограничиться только одним значением, а именно Но, понимая регулярность действия либо как относительную (Нс), либо как абсолютную (собственно Но) в зависимости от предыдущего значения.
В результате получаем скорректированный фрагмент русского перечня инвариантов: Но, Нк, Пд, Пр, Пн, Пп. (прошедшее продолжения), По (прошедшее окончания).
152