Российская академия наук Институт русского языка им. В. В. Виноградова
Национальный корпус русского языка: 2006–2008 Новые результаты и перспективы
Санкт-Петербург «НЕСТОР–ИСТОРИЯ» 2009
НКРЯ верстка4.indd 1
22/06/2009 17:53
УДК 811.161.1 ББК 81.411.2 Издание подготовлено в Институте русского языка им. В. В. Виноградова РАН и осуществлено совместно Институтом русского языка и Институтом лингвистических исследований РАН в рамках Программы фундаментальных исследований Секции языка и литературы ОИФН РАН «Текст во взаимодействии с социокультурной средой» Утверждено к печати Институтом русского языка им. В. В. Виноградова РАН Рецензенты д. ф. н. Л. П. Крысин, к. ф. н. А. А. Пичхадзе Редакционная коллегия В. А. Плунгян, Е. В. Рахилина, Т. И. Резникова Национальный корпус русского языка: 2006–2009. Новые результаты и перспективы / Отв. ред. В. А. Плунгян. – СПб.: Нестор-История, 2009. — 502 с.
ISBN 978-5-98187-327-0
В настоящем сборнике подводится итог второго этапа создания Национального корпуса русского языка (www.ruscorpora.ru) — современной и широко востребованной информационно-справочной системы по русскому языку на основе представительного электронного собрания текстов. Корпус, открытый для свободного доступа в Интернете в 2004 г., в период с 2006 по 2008 гг. был значительно увеличен в объеме и усовершенствован, в его состав вошли новые подкорпуса (поэтических текстов, устной речи и ряд других), появились новые возможности поиска и обработки данных. Все эти изменения, а также перспективы дальнейшего развития НКРЯ подробно описаны в статьях сборника. Специальный раздел посвящен использованию Корпуса при обучении русскому языку и литературе. В заключительной части сборника дается характеристика ряда других корпусов и корпусных проектов, представляющих интерес для специалистов и всех интересующихся современными технологиями в изучении языков.
9 785981 873270
© Коллектив авторов, 2009 © Институт русского языка
им. В. В. Виноградова, 2009 © Издательство «Нестор-История», 2009
Содержание Е. В. Рахилина. Корпус как творческий проект. . . . . .
7
I. Хронологические срезы русского язык а в формате НКРЯ С . О . Савчук. Корпус текстов первой половины XX века: текущее состояние и перспективы . . . . . . . . 27 С. А. Оскольская. Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие . . . 46 С. О. Савчук, Д. В. Сичинава. Корпус русских текстов xviii века в составе НКРЯ: проблемы и перспективы . . 52 II. Особые типы текстов в составе НКРЯ Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава. Поэтический корпус в рамках НКРЯ: общая структура и перспективы использования . . . . 71 А. Б. Летучий. Диалектный корпус: состав и особенности разметки . . . . . . . . . . . . 114 Е. А. Гришина, С. О. Савчук. Корпус устных текстов в НКРЯ: состав и структура . . . . . . . . . . . 129
НКРЯ верстка4.indd 3
22/06/2009 17:47
III. Новые проекты в рамк ах НКРЯ Е. А. Гришина. Корпус «История русского ударения» . . . 150 Е. А. Гришина. Мультимедийный русский корпус (МУРКО): проблемы аннотации . . . . . . . . . 175 IV. Семантика в НКРЯ Е. В. Рахилина, Г. И. Кустова, О. Н. Ляшевская, Т. И. Резникова, О. Ю. Шеманаева. Задачи и принципы семантической разметки лексики в НКРЯ. . . . . . . . . . . . . . . 215 А. А. Кретов. Анализ семантических помет в НКРЯ. . . . 240 Г. И. Кустова, С. Ю. Толдова. НКРЯ: семантические фильтры для разрешения многозначности глаголов . . 258 V. Техническое обеспечение корпусных задач А. А. Аброскин. Поиск по корпусу: проблемы и методы их решения . . . . . . . . . . . . . 277 А. И. Зобнин, А. В. Сахарова. Универсальная система разметки текста ObjectATE . . . . . . . . . . . 283 И. А. Пильщиков, А. С. Старостин. Основные проблемы автоматизации базовых процедур ритмикосинтаксического анализа силлаботонических текстов . . . . . . . . . . . . . 298 VI. Перспективы использования НКРЯ в различных областях Образование С. О. Савчук, Д. В. Сичинава. Обучающий корпус русского языка и его использование в преподавательской практике . . . . . . . . . 317 Н. Р. Добрушина. Корпусные методики обучения русскому языку . . . . . . . . . . . . . . . 335 Наука М. Д. Воейкова. Проблемы использования подкорпуса устной разговорной речи (на примере анализа русских диминутивов) . . . .
НКРЯ верстка4.indd 4
353
22/06/2009 18:02
Е. В. Падучева. НКРЯ как ресурс при исследовании предметной соотнесенности имен . . . . . . . . 374 Д. О. Добровольский. Корпус параллельных текстов в исследовании культурно-специфичной лексики . . 383 VII. НКРЯ и другие корпуса Т. И. Резникова. Славянская корпусная лингвистика: современное состояние ресурсов . . . . . . . . 402 Б. В. Орехов. Параллельный корпус переводов «Слова о полку Игореве»: итоги и перспективы . . . 462 А. В. Костыркин. Корпус японской разговорной речи . . . 474
НКРЯ верстка4.indd 5
22/06/2009 17:47
НКРЯ верстка4.indd 6
22/06/2009 17:47
Е. В. Рахилина
Корпус как творческий проект
Введение ациональный корпус русского языка был открыт для свободно го доступа в интернете 29 апре ля 2004 года — с тех пор прошло 5 с половиной лет, для интернетпроекта это много. Закончились два этапа работы над корпусом в рамках особой исследовательской программы Российской акаде мии наук: этап 2003–2005, который освещен в сборнике «Нацио нальный корпус русского языка 2003–2005» и этап 2006–2008. О результатах второго этапа подробно рассказано в этом сборнике. Даже из оглавления видно, что с Корпусом связана большая и всё более разнообразная деятельность, несомненно, интересная для раз ных областей лингвистики. Но публикации, касающиеся отдельных фрагментов работы над Корпусом, всё же не могут дать представле ния о проекте в целом, его развитии, общих задачах и перспективах, его, если можно так сказать, «философии». Восполнить этот пробел мы и попробуем в настоящей статье. Национальный корпус русского языка был открыт для свободного доступа в интернете 29 апреля 2004 года — с тех пор прошло 5 с половиной лет, для интернет-проекта это много. Закончились два этапа работы над корпусом в рамках особой исследователь ской прог раммы Российской академии наук: этап 2003–2005, который освещен в сборнике «Национальный корпус русско го языка 2003–2005» и этап 2006–2008. О результатах второго этапа подробно рассказано в этом сборнике. Даже из ог лавления видно, что с Корпусом связана большая и всё более разнообразная дея тельность, несомненно, интересная для разных областей лингвистики. Но публи кации, касающиеся отдельных фрагмен тов работы над Корпусом, всё же не могут
НКРЯ верстка4.indd 7
22/06/2009 17:47
8
Е. В. Рахилина
Преж де всего, напомним, что первый этап работы был нацелен на создание корпуса как такового: нужно было собрать как можно больше текстов, сделать корпус представительным и организовать по имеющимся текстам хотя бы самый простой поиск. Все усилия разработчиков были направлены именно на это. Имелось в виду, что главной задачей является «канонический» сбалансированный стомиллионный корпус современного русского языка, хронологи ческие границы которого задавались периодом с 50-х годов xx ве ка по настоящее время. Дополнительно предполагался корпус xix и первой половины xx века в качестве, так сказать, диахронической составляющей. Все другие разработки, касающиеся диалектного корпуса, корпуса устных текстов, параллельного корпуса и проч. на первом этапе представлялись как экспериментальные, они соз давали задел на будущее. Сами эти корпуса в то время либо отсут ствовали, либо были очень малы, но активно обсуждались принци пы их формирования, их структура, поисковые возможности и т.п. Кроме того, в рамках нкря развивались еще два самостоятельных больших корпусных проекта: корпус xi–xiv вв. и синтаксически размеченный корпус современного русского языка. Работа над пер вым частично отражена в статье А. И. Зобнина и А. В. Сахаровой в настоящем сборнике; о втором проекте можно прочитать в [Ап ресян и др. 2005], а воспользоваться этим подкорпусом и изучить принятую в нем систему разметки можно теперь непосредственно на сайте нкря (http://ruscorpora.ru/search-syntax.html). Задачи первого этапа удалось выполнить почти все; собствен но, тогда сил не хватило только на систематический сбор текстов первой половины xx века, поэтому данная часть работы завер шается только сейчас. В остальном, к 2005 году Национальный корпус русского языка действительно существовал в довольно со лидном объеме: 100 млн словоупотреблений, как и планировалось, для современного русского языка и более 20 млн словоупотребле ний — для (в основном художественных) текстов xix века. На этих текстовых массивах уже тогда работал морфологический анализ и пилотный проект семантической разметки. Кроме того, был соз дан значительный по объему (более 4 млн словоупотреблений) корпус со снятой вручную грамматической омонимией, который давал возможность высокоточной выдачи результатов по запросам,
НКРЯ верстка4.indd 8
22/06/2009 17:47
Корпус как творческий проект
9
учитывающим грамматические характеристики лексем. Казалось бы — что еще нужно? Но нужно еще очень многое. Ведь совокупность существующих на русском языке текстов очень значительна как в пространстве, так и во времени. В Национальном корпусе нужно отражать и все хронологические срезы языка, и все его региональные, социальные и прочие варианты, а вариативность по этим параметрам в русском языке, как известно, достаточно велика. Полноценное отражение такой вариативности — это первая задача. В некоторых случаях варианты превращаются почти что в от дельные подъяз ыки, для которых нужно строить свои подкорпуса со своей специально настроенной на них системой разметки. Игно рировать такие слои русского языка никак нельзя: чем сложнее они устроены, тем больше их значимость для системы в целом. Значит, это вторая задача. Третья задача неожиданно обнаружилась непосредственно во время работы над Корпусом. Разработчики и разметчики труди лись с таким энтузиазмом, что объем ы корпуса росли стремитель но — и уже к концу первого этапа старые технологии не могли справиться с ними. Корпус стал работать медленно и с перебоями, отказываясь «отвечать» на сложные запросы. Понадобилось его «техническое перевооружение». Четвертая задача — популяризация Корпуса. К 2005 году ос новными его пользователями оставались иностранные слависты, которые, во-первых, уже привыкли к работе с корпусами других европейских языков, а во-вторых, получили огромный открытый ресурс, позволяющий относительно объективно оценивать пра вильность или распространенность тех или иных форм или конст рукций русского языка, не прибегая к трудоемкой «человеческой» экспертизе. Между тем, конечно, Корпус нужен в России и делался преж де всего для русскоязычных пользователей — и лингвистов, и не только лингвистов. Например, для нового поколения учащих ся компьютерные продукты уже не менее привычны, чем книги, и если мы хотим сохранить интерес к русскому языку в следующих поколениях, нужно думать об этом сегодня. Но для того, чтобы Кор пус стал доступен широкому кругу пользователей — от школьников и школьных учителей до любителей русского языка в любой точке
НКРЯ верстка4.indd 9
22/06/2009 17:47
10
Е. В. Рахилина
нашей страны — нужна большая работа. Это, с одной стороны, рабо та просветительская, а с другой — техническая: оснащение Корпуса разнообразными пользовательскими инструкциями, подкорпусами с упрощенной (или, наоборот, со сложной специальной) разметкой, введение поисковых настроек, которые бы облегчали его исполь зование, и т.п. И, наконец, пятая задача — широкое использование корпуса для построения на его базе новых лингвистических продуктов: новых словарей и новых грамматических описаний. То есть, собственно, то, для чего всякий корпус и создается. Вот эти пять задач и описывают программу развития Нацио нального корпуса русского языка. Теперь по порядку о том, как они решались в 2006 – 2 008 годах и что предполагается в этом плане делать дальше. 2. Пополнение Корпуса Итак, речь идет о хронологических (2.1), пространственных (2.2) и социальных (2.3) срезах. Что здесь сделано — и что еще предсто ит сделать? 2.1. В период 2006 – 2 008 г г. в Инс титуте русского языка им. В. В. Виноградова совместно с Казанским государственным университетом начата работа по созданию подкорпуса xviii века (см. подробнее статью С. О. Савчук и Д. В. Сичинавы в настоящем сборнике). Таким образом, с учетом корпуса xix века (см. статью С. А. Оскольской), корпуса первой половины xx века (см. статью С. О. Савчук) и основного корпуса в перспективе речь идет об охва те фактически всего периода существования современного русского литературного языка. Создание и обработка обширной (более двух миллионов словоупотреблений) коллекции текстов xviii века — это важный шаг, потребовавший значительных усилий, потому что в этой временной зоне разметчики сталкиваются с существенно более высокой вариативностью по сравнению со стандартным ли тературным языком, и доля их ручного труда сопоставима с обра боткой диалектных текстов. Но и результаты этой работы заметны: благодаря ей уже сейчас в нкря есть возможность мониторинга изменений лексической семантики и синтаксиса. Например, если прослеживать примеры хронологически, видно, что прилагатель ное противный именно на этом отрезке времени начало менять
НКРЯ верстка4.indd 10
22/06/2009 17:47
Корпус как творческий проект
11
свою семантику с ‘противоположный’ (противный берег) на ‘имею щий отрицательную оценку’ (противный мальчишка). Теперь о том, что еще хотелось бы сделать. Во-первых, следовало бы пополнить Корпус текстами первой половины xviii века. Пока в Корпусе присутствуют за небольши ми исключениями только тексты второй половины — их несколько легче обрабатывать и они доступнее в электронном виде, поэтому начали с них. Добавление более ранних текстов придаст закончен ность нашей коллекции литературных текстов и, как мы надеемся, вдохновит историков языка на «встречное» движение — создание близких по времени корпусов позднего среднерусского периода xvi–xvii вв. Во-вторых, конечно, в ближайшие годы нужно пополнить и ос новной корпус, который «остановился» на 2005 г., так что нужна сбалансированная подборка и более поздних текстов, скажем, до 2010 г. Но объем основного корпуса при этом, видимо, должен ос таться старым — 100 млн словоупотреблений. Один из возможных вариантов решения этой проблемы — удалить из Корпуса какое-то количество набранных ранее текстов и с этой целью образовать Банк Корпуса, в котором хранились бы (и были доступны) все «лиш ние» тексты. В-третьих, нужно продолжать работу по созданию качествен но сбалансированных коллекций по всем периодам. Действитель но, когда работа только начиналась, баланс соблюдался условно. Например, понятно, что и для периода xix века, и для большей части xx-го художественная литература более доступна, чем пуб лицистика, а тем более частная переписка и другие маргиналь ные жанры. Естественно, что акцент делался на как можно более полный охват художественной литературы. Но в условиях, когда срез устной речи отсутствует полностью, и публицистика, и эпи столярный или дневниковый жанр оказываются крайне важны для корпуса, потому что они отражают несколько другой — по сравнению с литературно-художественными текстами — вариант языка, более близкий к повседневному разговорному языку того времени. Значит, нужно и дальше искать, обрабатывать и вводить в Корпус новые тексты этих жанров для соответствующих времен ных периодов.
НКРЯ верстка4.indd 11
22/06/2009 17:47
12
Е. В. Рахилина
2.2. Если не считать диалектного подкорпуса, то пространственные срезы русского языка пока представлены в нкря только в периодике основного корпуса, где есть региональные газеты, и в устном кор пусе — благодаря хрестоматиям (таким, как [Сергеева, Герд (ред.) 1998]). В перспективе, конечно, тут нужна большая работа прежде всего по сбору материала в разных регионах России, на постсовет ском пространстве, а также речи эмигрантов разных поколений1 : фрагменты таких текстов обязательно должны быть включены в Корпус. Что касается регионов России, то эта задача крайне насущная, и требует она не столько больших денег или усилий, сколько доб рой воли лингвистов в регионах: ведь не секрет, что в самых раз ных университетах (в Перми, Омске, Барнауле, Томске, Челябин ске и мн. др.) ведется сбор и коллекционирование устных текстов в рамках различных программ и проектов и просто студенческой практики. В отсутствие единого координационного центра эти тексты в лучшем случае выходят в виде хрестоматий, но оказыва ются недоступны электронно, обычно же — вкладываются в виде отдельных примеров в малотиражные монографии или диссерта ции, которые трудно получить уже не только в электронном, но и в бумажном виде, чаще всего же они просто теряются и пропа дают. Добрая воля соответствующих кафедр, лабораторий и самих исследователей регионального разговорного языка и просторе чия состояла бы в том, чтобы — параллельно с использованием в диссертациях, монографиях и хрестоматиях — эти материалы предоставлялись в Корпус, где бы они обрабатывались и станови лись общедоступными при поиске, в соответствии с законом об авторском праве, отдельными фрагментами — конечно, со всеми необходимыми ссылками, благодарностями и письменными обя зательствами о нераспространении целых текстов, как это приня то в нкря. Пока так сотрудничают с Корпусом Саратовский уни верситет — известная группа О. Б. Сиротининой, русская кафедра Хельсинкского университета (ее представляет Е. Ю. Протасова) и — пока, так сказать, в пилотном формате — Петербургский уни 1
Один из примеров такого собрания (и одновременно его анализа) — книга Е. Ю. Протасовой [2004].
НКРЯ верстка4.indd 12
22/06/2009 17:47
Корпус как творческий проект
13
верситет (М. В. Русакова и лаборатория А. С. Асиновского). Мы искренне благодарны этим коллективам и надеемся на то, что этот удачный опыт обретет последователей. 2.3. Теперь о работе над представлением в Корпусе социально значимых срезов русского языка. Наибольший объем работы за пе риод 2006–2008 гг. выполнен в области устных текстов — в резуль тате для русского языка фактически создан и функционирует пол ноценный (5,5 млн) подкорпус устной речи с особой системой раз метки (подробнее см. статью Е. А. Гришиной и С. О. Савчук в наст. сб.), в частности, отражающей гендерные различия говорящих, который по объему превосходит, например, японские аналоги (см. статью А. В. Костыркина). Причем, если японские тексты записаны в студийном формате, русские, в значительной своей части, собр а ны, говоря языком лингвистов, «в поле» — т.е. представляют собой живую спонтанную речь и, тем самым, с лингвистической точки зрения, обладают повышенной ценностью (в Корпус включены как прежние, ранее собранные различными исследователями и уже опубликованные записи устной речи жителей Москвы, С.-Петер бурга и других городов, так и записи, полученные непосредственно составителями Корпуса). Другой особенностью этого подкорпуса является коллекция кинофильмов, вручную и с большой степенью подробности расшифрованных группой Е. А. Гришиной. Аналоги корпусному кино-проекту нам неизвестны. Но, конечно — и об этом мы только что говорили в предыдущем разделе — устный подкорпус, для качественных и количественных характеристик которого зада на такая высокая планка, не должен стоять на месте, и мы надеемся на его продолжение и развитие (см. 3.1). Другой важный проект — это тексты электронной коммуника ции. Здесь работа только начинается и требует больших затрат, потому что интернет-тексты создаются с нарушением орфографи ческой и грамматической правильности, содержат большую вариа тивность и фактически нуждаются в особом словаре. Но лингвис тически это очень важный пласт языка, потому что именно здесь происходят инновационные процессы, причем несколько иные, чем в разговорной речи. Во-первых, среди электронных текстов много узкоспециальных, со своей терминологией: форумы автолюбите лей, футбольных фанатов и т.п. Во-вторых, это, хоть и особые, но
НКРЯ верстка4.indd 13
22/06/2009 17:47
14
Е. В. Рахилина
все-таки п и с ь м е н н ы е тексты, а значит, в них вырабатываются свои правила письма — и в области орфографии, и в области орга низации дискурса. Будут ли эти правила затем влиять на общелите ратурную речь? Или, может быть, уже влияют? Все это нуж дается в скорейшем изучении, но для квалифицированного ответа на та кие вопросы нужен современный и достоверный источник данных, которым должен быть постоянно пополняемый корпус с итоговым объемом не менее 5 млн словоупотреблений. 3. Специа льные подкорпуса: устный и медиа-, диалектный, поэтический, акцентологический, параллельный 3.1. Устный подкорпус. Подкорпус в Корпусе выделяется тогда, ко гда ему соответствует не просто особая коллекция текстов, связан ных общими свойствами (например, временными рамками), но и особая система помет. Теперь так устроен корпус устных текстов: в процессе развития в период 2006–2008 гг. он выделился в отдель ный ресурс, хотя еще и остается «похож» на основной корпус. Если всё будет развиваться так, как мы сегодня планируем, в ближайшем будущем его ждут большие перемены, которые вначале коснутся только его фрагмента — киноколлекции. Она перерастет в Мульти медийный русский корпус, или МуРКо, и обретет звуковой и видео ряд (подробнее об этом проекте см. статью Е. А. Гришиной «Мульти медийный русский корпус (мурко): проблемы аннотации»). С точ ки зрения всей программы развития Корпуса, это был бы важный результат, поскольку для его достижения неизбежно потребуется внедрение и отработка новых технологий. Ведь звуковая и видеодо рожки — это не просто механическое расширение объема Корпуса, а прежде всего возможность соотнести речевой или видеофрагмент с его письменной записью, организовать по ним поиск. Если «испы тание» пилотного проекта пройдет успешно, затем, так сказать, по следам устного корпуса, те же технические решения можно будет применять и к другим фрагментам нкря — например, в добавлении звуковой дорожки остро нуждается диалектный подкорпус. 3.2. Диалектный подкорпус. Диалектный подкорпус представ ляется как часть Национального корпуса русского языка — но, ко нечно, особая часть. Он очень маленький — в 100 с лишним раз меньше нкря, но он требует гораздо более сложной разметки (см.
НКРЯ верстка4.indd 14
22/06/2009 17:47
Корпус как творческий проект
15
статью А. Б. Летучего в настоящем сборнике) и более трудоемкой ручной обработки, чем обычные тексты. Корпус проектировался и создавался с ориентацией на, так сказать, рядовых пользователей корпуса, большинство из которых никогда в жизни не видело ни одного диалектного текста. В то время задачей было сделать своего рода «научную игрушку», которая наглядно демонстрировала бы разнообразие русского языка в его региональных вариантах. Корпус создавался при активном содействии диалектологов — преж де всего, Саратовской группы В. Е. Гольдина и специалистов из Московского государственного университета. Однако в массе своей диалектологи к этой идее относились с опаской (впрочем, как поначалу и держатели всех других типов уникальных тек стов — к Корпусу вообще): не окажется ли эта идея пустым и беспо лезным делом? Однако уже первая работающая версия диалектного корпуса породила огромный энтузиазм, и подкорпус стал получать «добровольные пожертвования» в виде электронных текстов, запи санных исследователями самых разных диалектологических цен тров России — Курска, С.-Петербурга, Волгограда и многих других. Одновременно пришло понимание, что этот проект полезно было бы перестроить так, чтобы он служил самим диалектологам — и как удобно организованный ресурс для учебного процесса, и как инст румент для исследовательской деятельности. Правда, тогда все тех нологические и организационные решения должны находиться под контролем заказчиков, потому что специалисту-диалектологу от Корпуса нужно гораздо больше, чем обычному пользователю. В ча стности, диалектологи хотели бы видеть здесь свои собственные фонетические записи текстов, а не только тот упрощенный вариант унифицированной орфографической транскрипции, который сей час делает возможным поиск одновременно по всему массиву раз нообразных диалектных текстов, — очевидно, что в Корпусе нужна и возможность поиска, и подлинная фонетическая запись. По-ви димому, для новых задач понадобится и уточнение транскрипции, есть мечта добавить звуковую дорожку — словом, обнаружилось, что этот проект чрезвычайно востребован и его необходимо раз вивать. Сейчас «перестройка» диалектного корпуса находится в стадии творческого обсуждения — мечтаний, споров, проб и даже, навер
НКРЯ верстка4.indd 15
22/06/2009 17:47
16
Е. В. Рахилина
ное, ошибок; постепенно эта работа войдет в общее русло — и мы все очень надеемся на ее успех. 3.3. Поэтический корпус. До 2005 года Национальный корпус рус ского языка говорил прозой, а между тем, русская литература и рус ский язык немыслимы без русской поэзии. Конечно, можно было бы «забыть», что стихи — это стихи, но разработчики пошли другим путем и за три года создали новый продукт: поэтический подкорпус с уникальной системой разметки и поиска (подробнее см. статью Е. А. Гришиной, К. М. Корчагина, В. А. Плунгяна и Д. В. Сичинавы в наст. сб.), аналогов которой, насколько нам известно, нет в мире (как нет и других поэтических корпусов). В настоящее время этот подкорпус охватывает xviii и xix век, а также некоторых поэтов начала xx века. Если говорить о разви тии — то для этого подкорпуса задача формулируется очень просто: увеличение объема, и мы надеемся охватить хотя бы классическую поэзию xx века (условно — до Бродского и Окуджавы), а в идеа ле включить всё, включая тексты популярных песен и рок-поэзию. (Правда, чем дальше, тем сложнее работа: уже поэты конца xix в. требуют более сложной обработки, чем авторы классических ямбов или хореев, — что уж говорить об авторах xx века!) Задач у такого корпуса очень много. Конечно, прежде всего он ориентирован на филологов, которые получают новый инструмент исследования поэтического языка и просто полную электронную коллекцию поэтических текстов (далеко не все из которых были легко доступны). Для преподавателей (даже школьных) — это воз можность мгновенно получить большое число примеров на раз ные типы стихотворного размера, а для исследователей-стихове дов — компактный и эффективный справочник по русской метрике, рифме, строфике и другим параметрам стиха. В целом же в рамках этого проекта речь идет не просто о сохранении русского языка или литературы, но о поддержании целого пласта, в общем, исчезающих культурных традиций. 3.4. Акцентологический подкорпус. Русское ударение подвиж но, но, как известно, в письменных текстах не ставится — поэтому по ним невозможно восстановить, как действительно был произ несен тот или иной текст. Конечно, есть правила, регламентирую щие расстановку ударений — и на основании этих правил в самом
НКРЯ верстка4.indd 16
22/06/2009 17:47
Корпус как творческий проект
17
начале работы над Корпусом была построена программа, которая ставит ударение автоматически, правда, только для подкорпуса со снятой омонимией. Но ведь, как известно, реальные говорящие правил не соблюдают — живой язык им диктует свои законы, в том числе и касающиеся ударений, и лингвистам хорошо известно, что схема ударения в слове может меняться. Именно поэтому так важно знать, какие именно отклонения от канонических правил реализу ются в сегодняшнем языке и существовали в его предшествующие периоды. Для современного русского языка установить это можно, акцен туируя вручную устные тексты. Для языка прошлых веков — ана лизируя поэтические строки, в которых метр основан на чередо вании ударных и безударных слогов в строке. По мере развития нкря, а с ним и двух новых подкорпусов — устного и поэтическо го — все более реальной становилась идея создания специального исторического акцентологического подкорпуса, объединяющего поэтический и устный подкорпус (преж де всего, кинотранскрип тов) с проставленным вручную ударением. Идея (как всегда, совер шенно нестандартная) принадлежит Е. А. Гришиной, она является организатором и главным исполнителем всего этого проекта (см. ее статью «Корпус “История русского ударения”» в наст. сб.). Сам проект только начался, но его первые результаты можно уже сейчас увидеть на сайте Корпуса. 3.5. Параллельный подкорпус. В том виде, в котором он сей час представлен в нкря, параллельный корпус начинался как со вместный проект ИРЯ им. В. В. Виноградова РАН и Воронежского государственного университета. К 2005 году в порядке экспери мента был обработан корпус переводов с русского на английский и с английского на русский объемом свыше полутора миллионов словоупотреблений (подробнее об этой работе см. [Добровольский и др. 2005]). Эти тексты имели совершенно другой формат пред ставления, чем тот, который был свойствен нкря в целом, поэтому они не могли быть размещены на том же сайте и не могли получить ту же разметку, что и остальные тексты Корпуса. В результате, при поддержке С. А. Шарова, которому мы очень благодарны за содей ствие, наш параллельный корпус был размещен на сайте универ ситета г. Лидс (Великобритания). Однако, как показала практика,
НКРЯ верстка4.indd 17
22/06/2009 17:47
18
Е. В. Рахилина
такое «дистантное» управление корпусом не очень удобно, и нашей мечтой было уговорить программистов компании «Яндекс» адап тировать этот ресурс к возможностям нашего сайта. Корпус рос и развивался, но мечта всё не сбывалась. Разработчики уже начали новый эксперимент: немецко-русский параллельный корпус, но и его приходилось отправлять в Англию. И вот, в этом году, в связи с общей технической перестройкой нкря, задача перевода параллельного корпуса на «Яндекс» нако нец-то была решена. При этом потребовался перерыв в его работе на полгода — зато теперь в английской составляющей корпуса ра ботает не только лексический, но и морфологический поиск, и при этом для запросов доступен весь тот материал, который был нако плен за прошедшие годы — более 7,5 млн. в англо-русской и свыше 1,5 млн. — в русско-английской части корпуса. Теперь, когда параллельный корпус сопряжен с основным, хо чется думать о его серьезном дальнейшем развитии. Востребован ность параллельных корпусов очень высока. Причем если англорусский и русско-английский корпуса, равно как и аналогичный немецко-русский ресурс, нужны преж де всего для оптимизации методик обучения иностранному языку, то — шире — выровнен ные тексты вообще могут и должны служить базой для различных типологических исследований. Поэтому, как отмечалось, напри мер, на последнем — x iv — съезде славистов, высока потребность в параллельных русско-славянских корпусах, в частности, ориен тированных на польский, чешский, болгарский, словенский и др. языки. Необходимость в подобных ресурсах есть даже для очень близких пар — таких, как русский и украинский или русский и бе лорусский. Другое направление развития параллельных корпусов связано с созданием многоязычных ресурсов. Зачастую они вклю чают в себя выровненные переводы одного художественного про изведения на различные языки. Над корпусами такого рода сегодня активно работают известные типологи многих стран (ср. проекты И. ван дер Ауверы в Бельгии, Т. Штольца в Германии, А. Барентсе на в Нидерландах и др.). Классическими объектами этой работы являются «Маленький принц», «Гарри Поттер» и «Алиса в стране чудес». В большинстве случаев результаты таких проектов не мо гут пока свободно распространяться, так как неограниченный ин
НКРЯ верстка4.indd 18
22/06/2009 17:47
Корпус как творческий проект
19
тернет-доступ к полному тексту произведения в настоящее время нарушает авторские права. Однако отработанные уже технологии нкря позволяют выдавать текст небольшими фрагментами, а зна чит, у нас есть принципиальная возможность сделать такой корпус общедоступным. Осталось ее реализовать. 4. «Техническое перевооружение» Корпуса История этого вопроса такова: в 2005 году, на следующий год по сле того, как была сдана и вывешена в интернете первая очередь Корпуса, который к тому времени как раз перевалил за стомиллион ный объем и был размечен не только морфологически, но и семан тически, мы впервые столкнулись с серьезными перебоями в его работе — происходило то, что на жаргоне программистов называ ется «корпус упал». Это проявлялось в том, что на сколько-нибудь сложные запросы (неоднословные, с участием морфологической, а тем более семантической информации) пользователь получал быстрый и лаконичный ответ о невозможности выдать результаты из-за нехватки памяти. Нужно было срочно менять формат пред ставления данных (переходить с html на xml), увеличивать объем и быстродействие сервера и вообще совершенствовать корпусные технологии — этап «технического перевооружения» был произве ден благодаря специалистам компании «Яндекс» (некоторые дета ли этого процесса изложены в статье А. А. Аброскина в настоящем сборнике), причем на это потребовалось довольно много усилий и времени: несмотря на то, что уже давно нет сбоев в функциони ровании сервера, работа над решением некоторых насущных задач все еще продолжается. Меж ду тем, благодаря такой «технической перестройке» в Кор пусе появилось много новых полезных функций — например, при поиске стало возможным учитывать знаки препинания (в том числе искать слово до или после запятой, точки или, скажем, вопроситель ного знака), а также учитывать регистр — заглавные или строчные буквы. Кроме того, наконец, разрешилась известная проблема kwicвыдачи. Дело в том, что в широко принятом в корпусной лингвис тике формате — так сказать, в корпусном стандарте — положено, чтобы у пользователя была возможность на запрос о слове видеть
НКРЯ верстка4.indd 19
22/06/2009 17:47
20
Е. В. Рахилина
его правый и левый контексты. Обычно для этого используется та кой вид страницы, при котором все выданные в ответ на запрос предложения центрируются, причем центральным (и зрительно выделенным) оказывается запрошенное слово, а его правый и ле вый контекст в каж дом предложении отделены от него дополни тельными пробелами. Таким образом, страница выдачи выглядит как столбик одинаковых слов, каждому из которых слева на некото ром расстоянии приписаны непосредственно предшествующие ему фрагменты контекста, а справа — следующие за ним слова. Пред ложения видны пользователю не целиком — удобство в том, чтобы сразу просматривать ближайший контекст, по которому к тому же можно производить сортировку. На сайте «Яндекса» нет возмож ности добиться выдачи в таком формате. Зато мы получили воз можность упорядочивать примеры, причем не только по правому и левому контексту (почти kwic-выдача!), да еще с учетом формы искомого слова, но и по автору, а главное — по хронологии, а это в разы сокращает труд лингвиста по мониторингу изменения тех или иных языковых характеристик во времени. Особая проблема — разработка и внедрение программы, позво ляющей снимать морфологическую омонимию в Корпусе на ос нове статистических методов. Эта программа была создана для Корпуса уже несколько лет назад (ее автор — А. В. Сокирко), и она тестировалась на нашем корпусе со снятой омонимией. Однако при ее тестировании выявился ряд существенных недочетов, кото рые, в частности, свидетельствовали об ошибках в тренировочном корпусе. Эти ошибки возникали и по случайным причинам (есте ственно, что, работая на массиве в несколько миллионов слово употреблений, разметчики не могут не ошибаться), так и в резуль тате некоторых системных сбоев (например, при смене программ обработки текстов). Поэтому в 2008 году было принято решение перенаправить те силы и средства, которые были предназначены для увеличения объ ема корпуса со снятой морфологической омонимией, на его правку и оптимизацию; в настоящее время программа А. В. Сокирко про ходит новое тестирование — причем отдельно создается ее вариант для современных текстов, и отдельно — для текстов xix и первой половины xx века. По результатам тестирования в ближайшее вре
НКРЯ верстка4.indd 20
22/06/2009 17:47
Корпус как творческий проект
21
мя будет принято решение об открытии корпусов со статистически снятой омонимией для каждого из этих периодов. Но, конечно, это еще не все: в техническом отношении Корпус пока еще нуждается в дальнейшей доработке. Нужно иметь возможность представлять на сайте статистику по каждому запросу, нужно совер шенствовать выдачу (вплоть до выгрузки ее в формат Excel), нужен английский (а может быть, и французский?) интерфейс и так далее, и так далее. И все это — для того, чтобы открыть возможности Кор пуса широкому пользователю. 5. Корпус — широкому пользователю У этой задачи есть два аспекта: первый — чисто просветительский, он связан с тем, чтобы как можно полнее и ярче донести информа цию об имеющемся ресурсе до максимального числа потребите лей. Второй — более сложный в исполнении: улучшить пользова тельский интерфейс и пользовательские характеристики Корпуса так, чтобы повысить его ценность как информационного продукта. Осознав эти две задачи, мы вели работу в обоих направлениях. Действительно, пока основная масса пользователей Корпуса — ученые-исследователи; огромный резерв здесь составляют препо даватели и учащиеся самых разных уровней — от школ до универ ситетов, подготовительных курсов, курсов усовершенствования или второго высшего образования. Значительный (более чем трех летний) опыт в этом отношении накопл ен на Отделении деловой и политической журналистики Высшей школы экономики в Москве, где Корпус фактически служит активным инструментом обучения грамматике, стилистике, культуре речи и всему комплексу дисци плин, связанных с русским языком (подробнее см. статью Н. Р. До брушиной в наст. сб.). На основе Корпуса создаются упражнения к занятиям, контрольные работы, по Корпусу даются домашние задания и курсовые работы, составляются методические пособия и вспомогательные словари. Не случайно именно отделение жур налистики ВШЭ стало базой для проведения семинаров совмест но с Институтом усовершенствования учителей в 2005–2006 гг., а затем двух общероссийских школ-семинаров по обучению Кор пусу — весной 2007 при поддержке ВШЭ и осенью 2008 годов при поддержке Министерства образования и науки РФ.
НКРЯ верстка4.indd 21
22/06/2009 17:47
22
Е. В. Рахилина
К работе первой Школы была приурочена Международная конфе ренция по использованию нкря, в которой приняли участие, с од ной стороны, слависты из Италии, Финляндии, Франции, США, Швейцарии и других стран, а с другой — русисты из самых разных городов России: Воронежа, Читы, Ульяновска, Новгорода и др. Ин терес к Корпусу постоянно растет — и среди лингвистов-исследова телей, и среди преподавателей русского языка. В августе 2008 года была организована обучающая Школа-семинар в Казани, в 2009 планируется такая же школа в Гродно. Конечно, разработчики чита ют лекции, доклады и организуют мастер-классы по Корпусу. Только за период с 2006 по 2008 гг. такие выступления прошли в универ ситетах Томска, Киева, Гродно, Алма-Аты, Вильнюса, Афин, Тромсе (Норвегия), Сеула, Нанта (Франция) и многих других, все это требу ет больших дополнительных усилий, но их все равно недостаточно. Нужен единый центр, который бы помогал организации обучения и аккумулировал все методические и исследовательские работы и проекты на базе Корпуса. В современных условиях это мог бы быть Интернет-портал, функционирующий при корпусном сайте; его разработка станет одной из главных задач на ближайшие годы. Меж ду тем портал нужен совсем не только для распростране ния информации о Корпусе (хотя это и важная задача) и даже не только для объединения лингвистов и преподавателей и обмена информацией между ними: сегодня портал нужен и самим разра ботчикам — для того, чтобы иметь обратную связь с пользователя ми и быстрее реагировать на новые потребности, которым должен отвечать Корпус. Пока портала нет — но некоторое, так сказать, «технологическое движение» ресурса к пользователю происходит и сейчас. В част ности, в 2007 году был открыт Обучающий подкорпус, ориенти рованный на школьников старших классов и их учителей. В нем на материале произведений школьной программы по литературе осуществлена разметка, учитывающая требования программы по русскому языку (подробнее об этом проекте см. статью С. О. Савчук и Д. В. Сичинавы в наст. сб.). В развитие Обучающего подкорпуса на сайте размещены инструкции по пользованию Корпусом, нача та работа по словообразовательной разметке. В непосредственном контакте с пользователями происходит и правка системы семанти
НКРЯ верстка4.indd 22
22/06/2009 17:47
Корпус как творческий проект
23
ческих помет (подробнее см. статью Е. В. Рахилиной, Г. И. Кустовой, О. Н. Ляшевской, Т. И. Резниковой и О. Ю. Шеманаевой), и работа над корпусным списком устойчивых сочетаний, и внедрение в Кор пус фильтров, частично снимающих семантическую омонимию (см. статью Г. И. Кустовой). В то же время, эти работы имеют и само стоятельную ценность: некоторые из них представляют собой лин гвистические продукты нового поколения. 6. Корпус и новые лингвистические продукты Действительно, главная задача, на которую в свое время ориенти ровались разработчики Корпуса, — это повышение точности и пред ставительности языкового материала в основных лингвистических продуктах, т.е. в словарных и грамматических описаниях; теперь наступило время, когда можно приступить к решению этой задачи. Важный вопрос — с чего начать? Если выбирать между длительны ми, трудоемкими и сложными проектами, как, например, много томный толковый словарь, и относительно «короткими» разработ ками, не требующими больших исследовательских коллективов, то начать целесообразнее с последних — именно на них лучше отра батывать технологии и практические решения. Следуя этой логике, мы приступили сначала к разработке нового частотного словаря русского языка, а также серии сочетаемостных словарей — словаря устойчивых оборотов, словаря сочетаемости неполнозначных глаголов с абстрактными именами (типа принять решение), словаря сочетаемости прилагательных и наречий высо кой степени (типа смертельная усталость / смертельно устал); запущены проекты еще нескольких сочетаемостных словарей. Та кая работа опирается на словарные базы данных Корпуса и может быть выполнена в довольно сжатые сроки. Оптимальный способ представления результатов здесь — компьютерные системы, а не традиционные бумажные издания, хотя в некоторых случаях бу мажные версии (например, для частотного словаря) тоже плани руются к выпуску. Особая задача — создание грамматических описаний, базирую щихся на корпусных данных; лингвисты во всем мире начинают сознавать важность разработки грамматик, которые ориентиру ются не на искусственно сконструированные примеры, а на сово
НКРЯ верстка4.indd 23
22/06/2009 17:47
24
Е. В. Рахилина
купность текстов, действительно порожденных носителями языка. «Существующим в языке», в соответствии с этой новой идеологией, должно признаваться в первую очередь то, что (надежно) засвиде тельствовано в корпусе данного языка, а не то, что вытекает из за висящих от весьма гибкой интуиции самого лингвиста суж дений о грамматической правильности (подробнее об этой проблеме см. [Плунгян 2008]). Важно, что в исследовательской среде Корпус постепенно стано вится, так сказать, стандартной материальной базой для работ по русистике. В частности, уже издано несколько сборников [Добр у шина (ред.) 2007, Мустайоки и др. (ред.) 2008], которые специаль но посвящены корпусным исследованиям в лексике и грамматике, ср. также монографию [Князев 2007] и др. В настоящем сборнике также публикуется несколько научных статей хорошо известных лингвистов, которые на разном материале (устного, параллельного, общего корпусов) иллюстрируют возможности приложения данных нкря к лингвистическому описанию (см. статьи М. Д. Воейковой, Д. О. Добровольского, Е. В. Падучевой). Понятно, что все это проб ные фрагменты и что усилия по созданию единого описания рус ского языка нужно объединять: сама по себе это слишком большая задача. Но раз в этой области уже происходят эксперименты, раз на этом пути есть успехи, значит, она будет решена. 7. Заключение Сборник, который открывает эта статья, очень разнородный — по тому что работа над Корпусом включает самые разные виды дея тельности. Нашей задачей здесь было представить проект как еди ный, показать, что его разные аспекты (и отражающие их разные разделы сборника) в конечном счете подчинены некоторой общей стратегии. Однако ни данная статья, ни даже сборник в целом, ви димо, не могут отразить главное, — то, что было вынесено в загла вие настоящей статьи: Корпус — это творческий проект. Невозмож но рассказать об энтузиазме совсем небольшой группы лингвистов, которые, по сути дела, отложив работу над статьями и книгами, спо рят на семинарах, снимают омонимию, собирают тексты, размеча ют, считают, придумывают… Приходят люди в Корпус заниматься разметкой, а где-нибудь через год они уже воплощают собственные
НКРЯ верстка4.indd 24
22/06/2009 17:47
Корпус как творческий проект
25
идеи и фактически управляют «своим» подкорпусом. Поэтому Кор пус — это не только интернет-продукт, но и творческое сообщество людей, которые работают вместе. Их творческий заряд и воплоща ется в структуре этой системы, так что сама она максимально (из существующих корпусов) приспособлена для творческого поиска пользователя. Полем для такого поиска является русский язык.
Литература Апресян Ю. Д., Богуславский И. М., Иомдин Б. Л., Иомдин Л. Л., Санников А. В., Санников В. З., Сизов В. Г., Цинман Л. Л. Синтак сически и семантически аннотированный корпус русского язы ка: современное состояние и перспективы // нкря 2003 – 2 005, с. 193 – 2 14. Добровольский Д. О., Кретов А. А., Шаров С. А. 2005. Корпус парал лельных текстов: архитектура и возможности исследования // нкря 2003 – 2 005, с. 263 – 2 96. Добрушина Н. Р. (ред.) Национальный корпус русского языка и про блемы гуманитарного образования. — М.: Теис, 2007. Князев Ю. П. Грамматическая семантика: Русский язык в типо логической перспективе. М.: Языки славянских культур, 2007. Мустайоки А., Копотев М. В., Бирюлин Л. А., Протасов а Е. Ю. (ред.) Инструментарий русистики: корпусные подходы. Slavica Helsingiensia 34. Хельсинки, 2008. Плунгян В. А. Корпус как инструмент и как идеология: о некоторых уроках современной корпусной лингвистики // Русский язык в научном освещении. 2008, № 2 (16). Протасова Е. Ю. Феннороссы: жизнь и употребление языка. СПб: «Златоуст», 2004. Сергеева Н. С., Герд А. С. (ред.) 1998. Русская разговорная речь ев ропейского Северо-Востока России. СПб: СПбГУ.
НКРЯ верстка4.indd 25
22/06/2009 17:47
I.
Хронологические срезы русского языка в формате НКРЯ
НКРЯ верстка4.indd 26
22/06/2009 17:47
С . О . Савчук
Корпус текстов первой половины XX века: текущее состояние и перспективы 1. ерв ая половина xx века — один из наименее изученных периодов в истории русского литературного языка. Несмотря на многочислен ные исследования языка советской эпохи, целостная и детальная картина языковой жизни еще не сло жилась, хотя бы потому, что многие тексты (эмигрировавших, ре прессированных и запрещенных авторов) стали доступны только в конце 80-х годов xx века. До сих пор нет единства мнений отно сительно хронологических границ этого периода в истории языка, его периодизации. Согласно традиции, идущей от С. И. Ожегова, в истории русско го языка первой половины xx века принято выделять дооктябрь ский и три послеоктябрьских периода. Первый период — до конца 20-х — начала 30-х годов; второй период — 3 0-е — самое начало 40-х годов; третий период — Великая Отечественная война 1941– 1945 годов и первые послевоенные годы1 . Первая половина ХХ века — один из наименее изученных периодов в истории русского литературного языка. Не смотря на многочисленные исследования языка совет ской эпохи, целостная и детальная картина языковой жизни еще не сложилась, хотя бы потому, что многие тексты (эмигрировавших, репрессированных и запре щенных авторов) стали доступны только в конце 80-х годов ХХ века. До сих пор нет единства мнений относи тельно хронологических границ этого периода в истории языка, его периодизации. Согласно традиции, идущей от С. И. Ожегова, в истории русского языка первой по ловины ХХ века принято выделять дооктябрьский и три послеоктябрьских периода. Согласно традиции, идущей от С. И. Ожегов а, в истории русского языка перв ой половины ХХ века принято выделять дооктябрьский и три послеоктябрьских периода. Первая половина ХХ века — один из наименее изученных периодов в истории русского литературного языка. Несмотря на многочис ленные исследования языка советской эпохи, целостная и детальная картина языковой жизни еще не сложилась, хотя бы потому, что многие тексты (эмигрировавших, репрессированных и запрещенных авторов) стали дос
1
Ожегов С.И. К вопросу об изменениях словарного состава в русском языке в советскую эпоху // Вопросы языкознания. 1953. № 2; Бельчиков Ю.А. Русский язык. ХХ век. М., 2003; Скворцов Л.И. Сергей Иванович Ожегов – человек и словарь. М., 2001.
НКРЯ верстка4.indd 27
22/06/2009 17:47
28
С . О . Савчук
Одни исследователи предлагают начинать отсчет дооктябрьского периода с 70-х2 или 90-х3 годов xix века, связывая общий вектор развития языка с процессом демократизации общественной жиз ни. Октябрьская революция при этом рассматривается как фактор, ускоривший эволюционные процессы4 . По мнению других иссле дователей, октябрьский переворот вызвал слом, разрушение старо го стандарта и замену его новым стандартом, продержавшимся до конца советского строя, то есть до 90-х годов xx в.5 Как представляется, создание современного корпуса текстов первой половины xx века будет способствовать формированию бо лее объективной картины происходивших в языке данного перио да процессов и уточнению научных представлений, сложившихся в истории литературного языка. Этот корпус по своему типу относится к историческим, или диа хроническим корпусам. Достижения компьютерной лингвистики в области создания диахронических корпусов значительно усту пают успехам в конструировании корпусов современных текстов, что объясняется преж де всего трудоемкостью процесса перевода старых текстов в электронную форму и значительными материаль ными затратами6 . В этих условиях описание конкретного опыта разработки исторического корпуса, как кажется, может представ лять интерес для специалистов. 2
Грановская Л.М. Русский литературный язык в конце XIX и XX вв. М, 2005. Мещерский Н. А. История русского литературного языка. Л., 1981. 4 Поливанов Е.Д. Революция и литературные языки Союза ССР // За марксистское языкознание. М., 1931. С. 73-94; Селищев А.М. Язык революционной эпохи: Из наблюдений над русским языком последних лет. 1917 – 1926 // Селищев А.М. Труды по русскому языку. Т. 1. М., 2003. 5 Живов В.М. Язык и революция. Размышления над старой книгой А.М. Сели щева // Отечественные записки. 2005. №2. 6 Corpus Linguistics: Critical Concepts in Linguistics / Ed. By W. Tewbert & R. Krishnamurthy. V.I. L; NY: Routledge, 2006. P. 32-33; C. Onelli, D. Proietti, C. Seidenari, F. Tamburini. The DiaCORIS project: a diachronic corpus of written Italian // Proceedings of the 5th International Conference on Language Resources and Evaluation/ Genoa, 2006; Gau, M. The State of Historical Corpus Linguistics with Special Focus on the Russian Language. M.A. thesis, University of Regensburg, Institute for Slavonic Languages and Literatures, 2005; Xiao R.Z. Diachronic corpora // Xiao R.Z. Well-known and influential corpora: A survey. In Lüdeling A., Kytö M., McEnery A. (eds.) Corpus Linguistics: An International Handbook. Handbooks of Linguistics and Communication Science. Mouton de Gruyter, Berlin, Germany, 2007. 3
НКРЯ верстка4.indd 28
22/06/2009 17:47
Корпус текстов первой половины XX века
29
Корпус текстов первой половины xx века создавался в несколько иных условиях и с иными установками, чем основная часть НКРЯ7 . С самого начала, еще на стадии проектирования, был задан его объем, ограниченный 30 млн словоупотреблений, и стратегия по полнения состава8 , которая включала в себя следующие моменты: 1) Репрезентативность корпуса. 2) Сбалансированность состава текстов. 3) Высокие темпы пополнения корпуса. 4) Отработка технологии подготовки электронных версий текстов разных форматов. Репрезентативность состава корпуса обеспечивалась тем, что от бор текстов осуществлялся в соответствии с составленной заранее базой данных авторов, куда вошли писатели, принадлежащие к раз личным литературным направлениям (в том числе все писатели «первого ряда»), видные ученые, религиозные мыслители, деятели культуры, политики — представители различных партий и группи ровок и т.д. В корпусе представлены основные сферы коммуника ции — художественная, публицистическая, научная, официальноделовая, бытовая, церковно-богословская. Для каж дой из этих сфер была установлена доля относящихся к ней текстов в общем объеме корпуса, и подготовка текстовых ма териалов к размещению на сайте включала обязательный контроль над соблюдением пропорций. Для обеспечения скорости пополнения корпуса решено было в первую очередь обрабатывать готовые электронные версии тек стов (полученные из издательств и открытых электронных библио тек) с тем, чтобы сократить технологический цикл подготовки за счет сканирования и распознавания. И здесь следует отметить по ложительную тенденцию, характерную для русского сектора интер нета: быстрое пополнение отечественных электронных библиотек 7
Работа над корпусом велась в период 2006-2008 гг. в рамках программы ОИФН РАН «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» и при поддержке РГНФ (грант № 06-04-03817в). 8 Описание см. в работе Савчук С.О., Пискунова С.В. Опыт создания корпуса текстов первой половины XX века // Труды Международной конференции «Кор пусная лингвистика — 2006» 10–14 октября 2006 г. – СПб: Изд-во С.-Петербург ского университета, 2006. С. 356-360.
НКРЯ верстка4.indd 29
22/06/2009 17:47
30
С . О . Савчук
культурно значимыми текстами, значительно опережающее темпы подготовки текстов для аннотированного корпуса. Кроме того, за последние годы было создано немало электронных ресурсов по ис тории России, содержащих тексты, малодоступные для современно го читателя (архивные материалы, газеты, журналы и другие изда ния начала или 30 – 4 0-х годов прошлого века) и представляющие большой интерес для корпуса. Можно упомянуть сайты «СовЛит», «Старые газеты», «Хронос», «Открытая русская электронная биб лиотека», «Военная литература», ЭБ исторического факультета МГУ и др. Таким образом, в 2006 – 2 008 гг. подготовка текстов первой половины xx века в значительно большей степени, чем это предпо лагалось заранее, осуществлялась на основе электронных изданий, что позволило превысить первоначально запланированный объем корпуса9 . Вместе с тем была продолжена работа, начатая еще при под готовке корпуса второй половины xx века, по конвертации тек стов из различных форматов в формат XML. При формировании корпуса первой половины xx в. была освоена технология пере вода текстов из форматов .pdf, .tif, .jpg, .djvu, поскольку многие тексты (газеты, документы и пр.) представлены в электронных библиотеках в графических форматах. Кроме того, в электронных библиотеках обнаружился дефицит произведений литературы со циалистического реализма 30 – 5 0-х годов, представляющих инте рес для корпуса; электронные версии таких текстов приходится изготавливать путем сканирования и распознавания печатных изданий. Оптимальным же способом подготовки электронных версий рукописных текстов оказался компьютерный набор с по следующей корректурой. Несмотря на то, что хронологическая глубина корпуса первой половины xx века относительно невелика, его разработка потре бовала решения тех же задач, что и при формировании корпуса текстов xviii в. и xix в. Остановимся на этих задачах подробнее. 9
Основная работа по подготовке электронных версий текстов проведена коллективом разметчиков, среди которых следует отметить Е. Красильщикову, М. Русанову, Е.Н. Морозову, Е.Н. Ловлю. Организационную работу осуществляли С.В. Пискунова и автор этих строк.
НКРЯ верстка4.indd 30
22/06/2009 17:47
1. Состав и структура корпуса Объем корпуса первой половины xx века в настоящее время со ставляет более 37 млн словоупотреблений. При отборе текстов для корпуса учитывалась уникальность этого периода в истории русской культуры и русского литературного языка: разнообразие стилей и языковых средств и их стремительная эволюция, раскол русской речевой стихии и параллельное существование двух язы ковых коллективов — «советского» и «эмигрантского», для которых характерны различные стилевые (отчасти даже собственно языко вые) установки. В корпусе представлены все основные сферы функционирова ния русского языка, а внутри каждой сферы мы стремились отра зить максимальное разнообразие течений общественной мысли и направлений литературного творчества. Прежде всего это каса ется художественной литературы и публицистики, так как именно в этих сферах общественно-речевой практики происходили самые значительные события, определившие развитие русского литера турного языка xx века. Рубеж xix и xx столетий (Серебряный век) — эпоха эстетиче ской революции в художественном сознании, период формирова ния и утверждения художественного сознания модернистского ти па, которое наряду с реалистическим стало определять литератур ный процесс xx столетия10 . Ведущие эстетические течения русского модернизма (символизм, акмеизм, имажинизм, футуризм) пред ставлены в корпусе прозой и публицистикой А. Белого, А. А. Блока, В. Я. Брюсова, К. Д. Бальмонта, З. Н. Гиппиус, Д.C. Мережковского, Вяч. И. Иванова, И. Ф. Анненского, Ф. К. Сологуба, Н. С. Гумилева, А. А. Ахматовой, Г. В. Иванова, О. Э. Мандельштама, М. А. Кузми на, А. Мариенгофа, Р. Ивнева, В. В. Маяковского, В. Каменского, В. Хлебникова, а также авторов, не причислявших себя к какойлибо группировке (А. М. Ремизова, В. В. Розанова, М. А. Волошина, В. Ф. Ходасевича, М. И. Цветаевой и др.). Реалистическое направле ние представлено творчеством М. Горького, И. А. Бунина, Л. Н. Ан дреева, В. Г. Короленко, И. А. Куприна, М. Алданова, Б. К. Зайцева, И. С. Шмелева, А. С. Новикова-Прибоя и др. 10
История русской литературы XX века (20-50-е годы): Литературный процесс. Учебное пособие. М.: МГУ, 2006. С. 7.
НКРЯ верстка4.indd 31
22/06/2009 17:47
32
С . О . Савчук
В послеоктябрьский период прежде единая национальная литера тура вынужденно разделилась на два потока — литературу метропо лии и диаспоры, развитие которых пошло разными путями. В мет рополии десятилетие интенсивных идейно-эстетических исканий (1920-е – 1932 гг.) сменилось эпохой директивного утверж дения в литературе единого господствующего стиля и единого художест венного метода — социалистического реализма, что привело к воз никновению третьего потока — «потаенной литературы» — произве дений, которые публиковались в 20-е годы, но перестали издаваться в 30 – 5 0-е годы и нашли путь к читателю только во время оттепели или в конце 80-х годов (М. А. Булгаков, Е. И. Замятин, А. П. Пла тонов, Л. И. Добычин, Б. Л. Пастернак, И. Э. Бабель, Ю. К. Олеша, Б. А. Пильняк и др.). В корпусе нашли отражение и многостилье прозы 20-х годов (А. Веселый, Вс. В. Иванов, В. М. Зензинов, А. С. Неверов, Л. Н. Сей фулина, М. М. Зощенко, В. Каверин, Б. А. Лавренев, Д. И. Хармс, В. Шкловский), и творчество писателей, продолжающих тради ции реализма (М. Горький, М. М. Пришвин, К. А. Федин, Л. М. Ле онов, Б. К. Паустовский, А. Н. Толстой, М. А. Шолохов), и советская литература (Ф. В. Гладков, Б. А. Лавренев, Б. Л. Горбатов, А. Гай дар, Н. Н. Ляшко, В. П. Катаев, А. С. Макаренко, Н. А. Островский, А. С. Серафимович, А. А. Фадеев, Д.А Фурманов, М. С. Шагинян, И. Эренбург), и «потаенная литература» 30 – 5 0-х годов (М. А. Бул гаков, Е. И. Замятин, А. П. Платонов, Л. И. Добычин, Б. Л. Пас тернак, И. Э. Бабель, Ю. К. Олеша, Б. А. Пильняк, К. К. Вагинов, М. М. Зощенко, С. Н. Клычков, С. Д. Кржижановский), и литера тура зарубежья — как творчество писателей старшего поколения (Д. С. Мережковский, З. Н. Гиппиус, И. А. Бунин, Р. Б. Гуль, В. Ф. Хо дасевич, И. С. Шмелев, Б. К. Зайцев, М. А. Осоргин, Г. В. Иванов, Вяч. И. Иванов и др.), так и произведения молодых авторов, при шедших в литературу уже в эмиграции (В. В. Набоков, Г. А. Газданов, Н. Н. Берберова). Учтено жанровое разнообразие художествен ной литературы: в корпус включены детская литература (В. А. Ка верин, А. С. Некрасов, В. Губарев, К. И. Чуковский, Л. И. Лагин, А. М. Волков, И. С. Соколов-Микитов, П. П. Бажов, Б. В. Шергин, Р. Штильмарк), фантастика (А. Р. Беляев, И. А. Ефремов, В. А. Об ручев, Я. Ларри), историческая и историко-биографическая проза
НКРЯ верстка4.indd 32
22/06/2009 17:47
Корпус текстов первой половины XX века
33
(С. Д. Мстиславский, П. П. Муратов, Б. А. Садовской, Ю. Н. Тынянов, О. Д. Форш, Г. И. Чулков, В. Ян), сатирическая и юмористическая проза (А. Т. Аверченко, И. Ильф и Е. Петров, П. С. Романов, Н. А. Тэф фи, С. Черный, Д. И. Хармс). П у б л и ц и с т и ч е с к и е т е к с т ы составляют в корпусе около 30%. Значимость этой сферы в структуре литературного языка на протяжении xix века неуклонно росла, что, по мнению В. В. Ви ноградова, было следствием процесса демократизации русского литературного языка, выражавшегося в продвижении разговорной стихии в книжные стили. К середине xix века «изящная словес ность», художественная речь перестает быть образцом литератур ной нормы, и «доминирующее положение постепенно занимают стили журнально-публицистической, газетной и научно-популяр ной речи»11 . Сферу публицистики в корпусе формируют газетно-журнальные тексты (около 13%) и мемуарно-биографическая литература (около 17%). Общественно-политические тексты отбирались таким обра зом, чтобы дать представление об острой партийной борьбе начала века и периода революций (Н. И. Бухарин, В. И. Ленин, А. В. Луна чарский, Г. В. Плеханов, И. В. Сталин, Л. Д. Троцкий, П. Н. Милюков, П. А. Новгородцев, Б. В. Савинков, П. А. Сорокин, И. Л. Солоневич, Н. С. Трубецкой, Н. В. Устрялов и др.). Газетные тексты («Прав да», «Известия», «Звезда», «Борьба», «Гудок», «Пионерская правда», «Культурная жизнь», «Ленинградский университет» и др.) отража ют изменения в стиле советской агитации и пропаганды в период 1922 – 1950 гг. Что касается мемуарно-биографических текстов, то они разнооб разны с точки зрения социальной, политической и профессиональ ной принадлежности их авторов. Больше всего в корпусе дневни ков и мемуаров писателей и журналистов (М. А. Алданов, И. Э. Ба бель, П. П. Бажов, П. Д. Боборыкин, В. В. Вишневский, В. А. Гиля ровский, Л. Я. Гинзбург, Б. К. Зайцев, Б. К. Лившиц, Ю. К. Олеша, М. М. Пришвин, М. И. Цветаева, В. Ф. Ходасевич, Л. К. Чуковская и мн. др.). Значительное место занимают воспоминания политиче 11
Виноградов В.В. Очерки по истории русского литературного языка xvii–xix веков. М., 1982. С. 423.
НКРЯ верстка4.indd 33
22/06/2009 17:47
34
С . О . Савчук
ских и военных деятелей (С. Ю. Витте, Л. М. Каганович, Н. И. Мах но, С. П. Мельгунов, Н. Н. Суханов, Л. Д. Троцкий, В. М. Чернов, П. Н. Врангель, А. И. Деникин, А. А. Игнатьев, П. Г. Курлов), деятелей искусства и культуры (Н. Ф. Балиев, С. М. Волконский, И. М. Дьяко нов, В. И. Мухина, И. Е. Репин, К. С. Станиславский, П. Н. Филонов, Ф. И. Шаляпин и др.), науки и техники (П. К. Козлов, А. Н. Крылов, Е. М. Мелетинский, И. И. Сикорский, А. С. Яковлев). У ч е б н о - н а у ч н ы е тексты составляет 18% в общем объеме кор пуса. Репрезентативность этой сферы достигается тем, что, с одной стороны, в корпусе собр аны тексты, относящиеся к разным облас тям знания. С другой стороны, тексты научной сферы неоднород ны по жанровой принадлежности: наряду с собственно научны ми статьями и монографиями в корпус включены учебные тексты (учебники и учебные пособия) и научно-популярная литература, возникновение и массовое распространение которой приходится как раз на первую половину xx века (популярные брошюры, худо жественно-познавательная литература и под.). Широко представлены гуманитарные науки, в несколько меньшей степени — естественные и прикладные науки: филология (М. М. Бах тин, П. М. Бицилли, В. В. Виноградов, М. О. Гершензон, Н. К. Гудзий, А. К. Дживелегов, В. Я. Пропп, Ю. Н. Тынянов, О. М. Фрейденберг, К. И. Чуковский, Л. В. Щерба, Л. П. Якубинский), история (А. В. Ар циховский, Ф. Ф. Зелинский, В. В. Зеньковский, Н. Г. Порфиридов, Е. В. Тарле), философия и культурология (Л. С. Аксельрод, Н. А. Бер дяев, С. Н. Булгаков, И. А. Ильин, Л. П. Карсавин, Н. О. Лосский, Н. К. Рерих, В. В. Розанов, Г. П. Федотов, П. А. Флоренский, Г. Фло ровский, С. Л. Франк, Л. И. Шестов, Н. С. Трубецкой), социология и право (П. А. Сорокин, Н. В. Устрялов, П. А. Новгородцев, А. Ф. Кони), психология (С. Л. Рубинштейн); математика (А. Н. Крылов), физика (П. Л. Капица), химия (А. Е. Арбузов, Н. Д. Зелинский), геология, гео графия (Д. Н. Анучин, А. Е. Ферсман), биология, медицина (В. М. Бех терев, Н. И. Вавилов, П. Б. Ганнушкин, В. Х. Кандинский, В. А. Гиля ровский, Ю. В. Каннабих, И. И. Мечников, И. П. Павлов, П. П. Семенов Тян-Шанский, И. В. Мичурин), техника (И. И. Сикорский, Н. А. Ры нин). Наблюдающийся в текущем составе корпуса перекос в сторону текстов гуманитарных наук имеет временный характер и будет уст ранен по мере пополнения корпуса новыми текстами.
НКРЯ верстка4.indd 34
22/06/2009 17:47
35
Корпус текстов первой половины XX века
О ф и ц и а л ь н о - д е л о в а я сфера (около 2%) представлена текста ми периода революций начала века, Великой Отечественной войны 1941 – 1945 гг. Наряду с партийными, правительственными, законо дательными, дипломатическими документами в корпусе присутст вует административная и канцелярская документация (протоколы, отчеты, приказы, донесения, докладные записки и т.д.). В сфере официально-деловой письменности после Октябрьской револю ции происходят значительные изменения, связанные с перестрой кой государственно-административного аппарата. Витиеватость и архаика, характерная для официального стиля конца xix века, сменяется аффектированностью и избыточной метафоричностью документов первых лет советской власти (принятой в агитационнопропагандистской литературе), а затем, в 30 – 5 0-е годы, на смену ей приходит нейтрализация и стандартизация официальной речи. Все эти особенности можно изучать на материале документов, со бранных в корпусе. Кроме того, в корпусе представлены также тексты, изначально не предназначенные для публикации: частные дневники, личная переписка, составляющие б ы т о в у ю с ф е р у (около 3%). Распределение текстов по сферам функционирования показано на диаграмме. официальноделовая 2%
церковнобогословская 2%
бытовая 3% художественная 45%
учебно-научная 18%
публицистическая 30%
НКРЯ верстка4.indd 35
22/06/2009 17:47
36
С . О . Савчук
По периодам создания тексты распределяются следующим образом: 1921 –1930 30%
1911 –1920 16%
1901 –1910 14% 1941 –1950 15%
1931 –1940 25%
2. Проблема орфографической вариативности Поскольку корпус первой половины xx-го века является частью Национального корпуса, тексты, включенные в него, должны быть переданы только средствами современной орфографии. Это влечет за собой проблему редактирования оригинала, связанную с орфо графической модернизацией текстов дореволюционных изданий. Редактирование текстов в нкря осуществляется в соответствии с эдиционными принципами, принятыми для изданий академи ческого типа или близких к ним (в том числе для филологических электронных библиотек), согласно которым электронная версия приводится в соответствие печатной. Таким образом, если воспро изводится современное издание текстов первой половины xx века, то орфография в нем соответствует правилам 1956 года; при вос произведении текстов, изданных до 1956 года, а также дореволюци онных и эмигрантских изданий в них сохраняются все особенности орфографических норм соответствующего периода, за иск люче нием тех изменений в графике, которые были внесены реформой 1918 года (исправляются только такие написания, которые могут быть восстановлены автоматически, например, ъ после твердого согласного в конце слова, i перед гласным и й и т. д.). Возникающая при этом множественность орфографических ва риантов передачи одного и того же слова или формы может пред ставлять интерес для специалистов, изучающих историю и совре
НКРЯ верстка4.indd 36
22/06/2009 17:47
Корпус текстов первой половины XX века
37
менное состояние орфографических норм, однако создает пробле мы при лингвистической аннотации текстов и поиске в корпусе. Решить эту проблему предлагается путем нормализации орфогра фии и расширения словаря за счет внесения в него вариантов, в том числе орфографических. Нормализация орфографии не означает ее унификацию в тек стах в соответствии с современными правилами. Ее назначение состоит не в том, чтобы исправить в тексте все отклонения от совре менных норм, а в том, чтобы снабдить все вариативные написания соответствующим нормативным вариантом. В процессе морфоло гической разметки разбирается нормативная форма, а набор грам матических признаков приписывается всему комплексу, так что на поисковый запрос выдаются контексты, содержащие запраши ваемое слово во всех вариантах написания, при этом оно отображе но на экране в том реальном виде, в котором представлено в тексте. Хотя эта операция требует дополнительных затрат труда лин гвиста-эксперта, они оправданы тем, что во-первых, на выходе сохраняется оригинальная орфография текста, во-вторых, обес печивается поиск всех орфографических вариантов слова по мор фологическим признакам (без этой операции найти в корпусе ус таревший вариант написания можно только при точном поиске), в-третьих, происходит пополнение словаря корпуса. В словаре формируются единицы (леммы), объединяющие словоформы не только в современных, но и в вариативных написаниях, со ответствующих нормам предшествующих периодов. Например, инфлюэнца = f,inan,nom,norm {инфлюэнца| инфлуэнца| инфлуен ца| инфлюэнция| инфлуэнция| инфлюенция}12 . Предполагается, что по мере пополнения состава таких единиц ручная обработка 12
Для наименования таких единиц предложен термин орфографическая лемма, или — шире — гиперлемма, если учесть, что такая единица может объединять не только орфографические, но и морфологические варианты. Аналогичное решение предложено разработчиками Чешского национального корпуса, см.: Kucˇera, K. Hyperlemma: A Concept Emerging from Lemmatizing Diachronic Corpora // Levická, J.; Garabík, R. (ed.). Computer Treatment of Slavic and East European Languages. Slovanské a východoeurópské jazyky v pocˇítacˇovom spracovaní. Bratislava: Slovak National Corpus, Slovak Academy of Sciences, 2007, s. 121–125; ср. также Meyer, R. The Regensburg Diachronic Corpus of Russian // Труды международной конференции «Корпусная лингвистика-2006». СПБ, 2006. С. 244.
НКРЯ верстка4.indd 37
22/06/2009 17:47
38
С . О . Савчук
текстов будет уменьшаться, и варианты будут опознаваться ав томатически. 3. Проблема грамматической вариативности Помимо орфографических вариантов корпус текстов первой по ловины xx века отличается повышенной степенью вариативности на других уровнях — морфологии, словообразования, синтаксиса. Морфологические варианты, которые в словаре корпуса, отражаю щем современную литературную норму, не опознаются как формы соответствующих слов и недоступны при поиске, предполагается включить в состав леммы, с тем чтобы они получали морфологи ческую аннотацию наряду со стандартными формами (как это сде лано для вариантных форм тв. п. сущ. жен. р. на -ой/-ою, -ей/-ею). Это касается прежде всего таких частотных случаев, как варианты слов с основами на –j-: сомненье/сомнение, уменье/умение, питанье/ питание и др. (такие формы, как на распутьи, в поместьи, в нетер пеньи и вовсе получают неправильные разборы, например <span title="распутья = acc,bastard,f,inan,pl,s |bastard,f,gen,inan,s,sg| bastard,f,inan, nom, pl,s"><em>распутьи), форм род. п. сущ. (грузинов, турков, сапогов, яблоков, грабель при норма тивных формах грузин, турок, сапог, яблок, граблей) и т.д. Словообразовательные, фонетические, лексические варианты (импровизованный, патентирование, гиероглифы, конфекты, шкап, двухкратный и под.) могут пополнить словарь в статусе самостоя тельных единиц. Однако эта гипотеза требует дальнейшей проверки на мате риале корпуса, которая позволит выяснить, насколько такое по полнение словаря будет способствовать уменьшению количества ошибочных разборов. Другой способ снижения шума, который в настоящее время тестируется программистами, — это обучение программы-парсера на подкорпусах однородных текстов (напри мер, устных, диалектных или xviii–xix вв.) и настройка таких про грамм на морфологическую разметку текстов определенного типа. По мнению специалистов, такая настройка позволит программе приписывать словоформе наиболее вероятные разборы.
НКРЯ верстка4.indd 38
22/06/2009 17:47
4. Расширение словаря Исторические корпуса содержат большое количество несловарных слов — единиц, не отраженных современными словарями и пото му не вошедших в словарь корпуса. Это архаизмы, историзмы, ок казионализмы и специфические для текстов первой половины xx века советизмы, не удержавшиеся в языке и перешедшие в разряд устаревших слов. В частности, официальные документы и публи цистика первой половины xx века дают многочисленные примеры образования разных категорий слов по продуктивным моделям: взаимоприспособление, благовоззрение, главноначальствующий, главноуправляющий, в противность последующим уверениям, не выборка номерного знака, доразборка частей, неприсылка снарядов; при обнаружении нерегистрации и несообщении в Горсовет, идея приравнения, с целью подыскания, факт получения и скрытия, неро димость северной почвы, незакономерность действий, неблагомыс ленность, неблагоидейность; предварилка (тюрьма предваритель ного заключения), Учредилка (учредительное собрание), потребилка (потребительская кооперация), генералка (генеральная репетиция), обогатилка (обогатительная фабрика), реалка (реальное училище), взрыв бензинки; полуукоризненно, к полуцирковому «Горячему серд цу», полусовдеповское временное правительство, полуброненосный фрегат, полуспособный, полуобщественный; архиправославная се мья, архикабинетный человек, архиполицейский и т.д. Большой интерес представляют окказионализмы: ее быстрого ворение все-таки не поспевает за богатствомыслием [Л. К. Чуков ская. Памяти Тамары Григорьевны Габбе]. Можно смело сказать, что опыт этой работы положил начало новой отрасли инженерии и искусства — статуестроению [В. И. Мухина. Автобиография]. Ни чего одиноче его вечной обступленности, обсмотренности, обслу шанности я не знала [М. И. Цветаева. Пленный дух (Моя встреча с Андреем Белым) (1934)]. …как новые биологи утверж дают всюд ность жизни, так и я убеж ден, что близкие мне люди находятся почти в равном числе во всякой среде [М. М. Пришвин. Дневники (1929)], Его Высокотоварищество Господин Пролетарий вышел от куда-то из трущобы и занял место Его Высокопревосходительства [М. М. Пришвин. Дневники (1917)]. Не помогло рапполепство. За упокой РАППа божия [Л. Гинзбург. Записные книжки. Воспомина ния. Эссе (1920 – 1943)].
НКРЯ верстка4.indd 39
22/06/2009 17:47
40
С . О . Савчук
Изучение этого материала позволит выявить активные способы по полнения словаря языка в изучаемую эпоху и, возможно, уточнить сложившиеся представления и разрушить стереотипы. В частности, на основании работ 20-х годов (С. И. Карцевский, А. М. Селищев, Е. Д. Поливанов) сложилось мнение, что обилие аббревиатур — ис ключительная особенность языка советской России. Однако рас ширение анализируемого материала показывает, что, во-первых, модель становится продуктивной еще до революции, в начале xx века, и, во-вторых, активно используется в 20-е годы не только в со ветской России, но и в речи эмиграции (Грановская 2005: 212–216, 252–256). Материалы корпуса подтверждают это наблюдение. Так, в дореволюционной служебной переписке встречаем: Гос. Дума, Мориском (Морская историческая комиссия), шифртелеграмма, комфлота, старлейт, каперанг, кавторанг, главарт, штафлот, наштафлот, натрадив, намобор, наоперу, главкомев (М. К. Бахирев, Отчет о действиях Морских сил Рижского залива 29 сентября — 7 ок тября 1917 г.). Многочисленные аббревиатуры из советской прессы 1920 – 1930-х годов (комчвансто, химопыты, спецгазометы, регсбор (регистрационный сбор), завдомы, партаппарат, комвуз, крайКК РКИ, наркомзем, колхозцентр, райколхозсоюз, трудкнижка, тех у чеба по техпропаганде, партполитработа, полевые культстаны, культбригада, агитпропг руппа, агитмашина и т. д.) соседствуют с аналогичными примерами из текстов, созданных за пределами России: главковерх, Главком, Командарм, командармдобр (Коман дующий Добровольческой армией), Донармия, Добрармия, ВСЮР (Вооруженные силы Юга России), ревком, эс-эры, совдеп, совдепия и т. д. Часть несловарных единиц, а именно тех, которые преодолели определенный порог частотности, целесообразно включить в сло варь корпуса. 5. Перспективы развития корпуса текстов первой половины xx века На ближайшее будущее разработчики корпуса ставят перед собой сле дующие задачи. Во-первых, планируется пополнение корпуса новыми текстами, пока недостаточно в нем представленными и прошедшими процесс соответствующей орфографической обработки. Прежде всего,
НКРЯ верстка4.indd 40
22/06/2009 17:47
Корпус текстов первой половины XX века
41
это касается текстов, относящихся к периоду 1900 – 1920-х гг. В кор пусе пока слабо отражена бурная философская, научная, литератур ная полемика начала века и 1920 – 1930-х годов (например, дискуссии о формализме, о реформе орфографии, о евразийстве, о фрейдизме, о «физическом идеализме», манифесты литературных школ и группи ровок и под.); ораторская практика эпохи революции и гражданской войны (вспомним, какое внимание уделяла советская власть агитации и пропаганде). Планируется расширить состав газетных и журнальных текстов, существенно пополнить естественнонаучными текстами науч ный раздел. Не следует забывать также о еще одной составной части корпуса первой половины xx века, которая формально является при надлежностью корпуса устной речи, транскриптов фильмов 30 – 4 0-х годов (около 150 тыс. словоупотреблений). Во-вторых, предполагается проанализировать состав несловар ных форм, выделенных в текстах первой половины xx в., произвести ручную лемматизацию орфографических вариантов и отобрать воз можных кандидатов для пополнения словаря корпуса. В настоящее время проанализирован список орфографических вариантов, подготовленный на основе списков, составляемых раз метчиками в процессе редактирования текстов. В нем около 600 слов. Большая часть вариантов (около 17%) связана с написанием иноязычных корней. Колебания отмечены в следующих типах орфо грамм: написания удвоенных согласных (аггрегат, аллюминиевый, пуддинг, диффракция, баттарея, веррсия, галлерея, корридор, кото рым соответствуют современные написания с одиночными соглас ными, и афект, амиак, брилиант, пресованный, геена, гутаперчевый, диференциация, которым по современным нормам соответствуют написания с удвоенными согласными); написания э и е: кафэ, канапэ, купэ, кабарэ, кашнэ, декольтэ, пенснэ, проэкт, траэктория (ср. совр. кафе, канапе, купе, кабаре, кашне, декольте, пенсне, проект, траек тория) и елоквенция, ерудиция, ефиопка (ср. элоквенция, эрудиция, эфиопка); дефисные написания (порт-плэд, виц-мундир, деми-сезо ны, колд-крем ср. портплед, вицмундир, демисезоны, кольдкрем); от дельные написания (ягдаш, эксплоатация, кибаб, конверзия ср. совр. ягдташ, эксплуатация, кебаб, конверсия). Немало колебаний в на писании иностранных имен собственных: Ботичелли, Савонаролла, Верлэн, Мадлэн, Фихтэ, Уот/Уольт Уитман, Массачузетс (ср. совр.
НКРЯ верстка4.indd 41
22/06/2009 17:47
42
С . О . Савчук
Боттичелли, Савонарола, Верлен, Мадлен, Фихте, Уолт Уитмен, Массачусетс и т.д.). Вторая по величине группа орфографических вариантов — на писание наречий: дефисное, которому соответствует современное раздельное (как-раз, бок-о-бок, друг-дружк у, на-бегу, на-днях, заграницу, на-нет ср. как раз, бок о бок, друг дружк у, на бегу, на днях, за границу, на нет) и современное слитное написание (во-время, на-вылет, на-готове, на-долго, по-долгу, ср. совр. вовремя, навы лет, наготове, надолго, подолгу); раздельное, которому соответст вует нормативное слитное (в повалк у, в роде, за панибрата, на ря ду, на веки ср. совр. вповалк у, вроде, запанибрата, наряду, навеки); слитное, которому соответствует современное дефисное (п овиди мому ср. по-видимому). Многочисленны колебания в написании сложных слов — суще ствительных и прилагательных: анти-национализм, архи-глупость, кино-театр, контр-разведка, контр-революция, пионер-отряд, ра дио-волна, пол-дорога, пол-победы, пол-фунта, пол часа, ВышнийВолочек, Нижний-Новгород; агро-технический, гидро-авиационный, древне-греческий, западно-европейский, мелко-буржуазный, сельскохозяйственный, светлорусый, темнобурый, яркозеленый и др.; ср. совр.: антинационализм, архиглупость, кинотеатр, контрразведка, контрреволюция, пионеротряд, радиоволна, полдорога, полпобеды, полфунта, полчаса, Вышний Волочок, Нижний Новгород; агротех нический, гидроавиационный, древнегреческий, западноевропейский, мелкобуржуазный, сельскохозяйственный, светло-русый, темно-бу рый, ярко-зеленый). Как видно из этих примеров, в ходе реформы 1956 года было зна чительно сокращено количество дефисных написаний в сложениях, что также коснулось и написания частиц бы(б), будто, ли(ль), же, то: следовало-бы, как-будто, однако-ж, опять-же, приведет-ли, тоесть, ср. следовало бы, как будто, однако ж, опять же, приведет ли, то есть и т.д. Довольно многочисленны варианты написания орфограмм в рус ских корнях, среди них: о или е после шипящих (жолудь, чорт, шопот, шолк, решотка вм. желудь, черт, шепот, шелк, решетка), и или ы после Ц (цыфра, цынга, панцырь вм. цифра, цинга, панцирь), удвоен ные согласные (белоруссы, черкесска вм. белорусы, черкеска), чередо
НКРЯ верстка4.indd 42
22/06/2009 17:47
Корпус текстов первой половины XX века
43
вание гласных в корне (возрасла, наростать, срощение, выравнять, пловучий, зорница вм. возросла, нарастать, сращение, выровнять, плавучий, зарница), глаголы итти, притти (совр. идти, придти). Вариативны написания суффиксов существительных (зрачёк, крю чёк, толчёк, волчёнок, ручёнки, семячек, масляница и др., ср. совр. зрачок, крючок, толчок, волчонок, ручонки, семечек, масленица), прилагательных (большевицких, дешовый, парчевый, серебрянный, смышленный ср. совр. большевистских, дешевый, парчовый, сереб ряный, смышленый), глаголов (заведывать, проповедывать, гарцо вать, танцовать ср. совр. заведовать, проповедовать, гарцевать, танцевать). Проведенный анализ позволит продолжить отбор орфографи ческих вариантов по всей диахронической части корпуса, которые затем будут внесены в состав соответствующих лемм, с тем чтобы обеспечить грамматический поиск по всем возможным способам орфографической передачи словоформ. Помимо теоретической значимости корпус текстов первой по ловины xx века имеет большое прикладное значение, прежде всего для лексикографии. Материалы корпуса активно используются при работе над новым изданием Большого академического словаря, до полняя материалы Большой словарной картотеки ИЛИ РАН. Корпус рассматривается как основной источник при создании Словаря рус ского языка первой половины xx века, проект которого готовится к обсуждению в ИЛИ РАН (Гердт 2008, 144–147). Все это свидетель ствует о своевременности создания этого лингвистического ресур са и его востребованности, открывает перспективы и вместе с тем уточняет направления его развития.
Литература Бельчиков Ю. А. Русский язык. xx век. М., 2003. Виноградов В. В. Очерки по истории русского литературного языка xvii–xix веков. М., 1982. С. 423. Гердт А. С. Национальный корпус русского языка — Слов арная картотека — Академический словарь // Труды Международной конференции «Корпусная лингвистика — 2 008». 6–10 октября
НКРЯ верстка4.indd 43
22/06/2009 17:47
44
С . О . Савчук
2008 г. — СПб: Изд-во С.-Петербургского университета, 2008. С. 143–147. Грановская Л. М. Русский литературный язык в конце xix и xx вв. М., 2005. Живов В. М. Язык и революция. Размышления над старой книгой А. М. Селищева // Отечественные записки. 2005. №2. История русской литературы xx века (20 – 5 0-е годы): Литератур ный процесс. Учебное пособие. М.: МГУ, 2006. Карцевский С. И. Язык, война и революция // Карцевский С. И. Из лингвистического наследия. Т. 1. М., 2000. Мещерский Н. А. История русского литературного языка. Л., 1981. Ожегов С. И. К вопросу об изменениях словарного состава в русском языке в советскую эпоху // Вопросы языкознания. 1953. № 2. Поливанов Е. Д. Революция и литературные языки Союза ССР // За марксистское языкознание. М., 1931. С. 73 – 9 4. Савчук С. О., Пискунова С. В. Опыт создания корпуса текстов пер вой половины xx века // Труды Международной конференции «Корпусная лингвистика — 2 006». 10–14 октября 2006 г. — СПб: Изд-во С.-Петербургского университета, 2006. С. 356–360. Селищев А. М. Язык революционной эпохи: Из наблюдений над рус ским языком последних лет. 1917 – 1926 // Селищев А. М. Труды по русскому языку. Т. 1. М., 2003. Скворцов Л. И. Сергей Иванович Ожегов — челов ек и слов арь. М., 2001. Corpus Linguistics: Critical Concepts in Linguistics. Ed. By W. Tewbert & R. Krishnamurthy. V.I. L; NY: Routledge, 2006. P. 32–33. Gau, M. The State of Historical Corpus Linguistics with Special Focus on the Russian Language. M. A. thesis, University of Regensburg, Institute for Slavonic Languages and Literatures, 2005. http://www. uni-r.de/Fakultaeten/phil_Fak_IV/Korpuslinguistik/meyer/PDF/ melanie.pdf. Kucˇera, K. Hyperlemma: A Concept Emerging from Lemmatizing Dia chronic Corpora // Levická, J.; Garabík, R. (ed.). Computer Treatment of Slavic and East European Languages. Slovanské a východoeurópské jazyky v pocˇítacˇovom spracovaní. Bratislava: Slovak National Corpus,
НКРЯ верстка4.indd 44
22/06/2009 17:47
Корпус текстов первой половины XX века
45
Slovak Academy of Sciences, 2007, pp. 121–125. Meyer, R. The Regensburg Diachronic Corpus of Russian // Труды меж дународной конференции «Корпусная лингвистика – 2 006». СПБ, 2006. С. 244. Onelli, C., Proietti, D., Seidenari, C., Tamburini, F. The DiaCORIS pro ject: a diachronic corpus of written Italian // Proceedings of the 5th International Conference on Language Resources and Evaluation. Genoa, 2006. Xiao R. Z. Diachronic corpora // Xiao R.Z. Well-known and influential corpora: A survey. In Lüdeling A., Kytö M., McEnery A. (eds.) Corpus Linguistics: An International Handbook. Handbooks of Linguistics and Communication Science. Mouton de Gruyter, Berlin, Germany, 2007. http://postgrad/xiaoz/papers/corpus%20survey.htm.
НКРЯ верстка4.indd 45
22/06/2009 17:47
С. А. Оскольская
Корпус письменных текстов XIX века: сферы употребления и жанровое разнообразие
Введение оличество текстов 19 века в НКРЯ составляет 26 млн словоупотреблений. Первоначальная задача насы щения корпуса материалом достигнута, и сложились условия для того, чтобы эти тексты оказались сбалансированы в жанровом отношении и с точки зрения сферы их употребления. Основное стилистическое деление, соблюдаемое в настоящий момент, предполагает разграничение между художественными и нехудожественными текстами. К пос ледним относятся публицистические, научные, обиходно-бытовые, церковно-богословские и официально-деловые тексты. Считается, что современный русский язык ведет свое начало от языка А.С. Пушкина, а возможно, и еще раньше — с конца 18 века. И действительно, два текста — 19 и 20 веков — будут одинаково дос тупны пониманию читателя 21 века, не считая отдельных, в основКоличество текстов 19 века в НКРЯ составляет 26 млн словоупотреблений. Первоначальная задача насыщения корпуса материалом достигнута, и сложились условия для того, чтобы эти тексты оказались сбалансированы в жанровом отношении и с точки зрения сферы их употребления. Основное стилистическое деление, соблюдаемое в настоящий момент, предполагает разграничение между художественными и нехудожественными текстами. К последним относятся публицистические, научные, обиходно-бытовые, церковно-богословские и официально-деловые тексты. Считается, что современный русский язык ведет свое начало от языка А.С. Пушкина, а возможно, и еще раньше с конца 18 века. И действительно, два текста 19 и 20 веков будут одинаково доступны пониманию читателя 21 века, не считая отдельных, в основном лексических, элементов (здесь имеются в виду в первую очередь устаревшие слова и выражения). В то же время текст начала 18 века гораздо труднее понимать неспециалисту, и обусловлено это не только лексическими, но и грамматическими особенностями и фактом еще не устоявшейся к
НКРЯ верстка4.indd 46
22/06/2009 17:47
Корпус письменных текстов XIX века
47
ном лексических, элементов (здесь имеются в виду в первую очередь устаревшие слова и выражения). В то же время текст начала 18 века гораздо труднее понимать неспециалисту, и обусловлено это не только лексическими, но и грамматическими особенностями и фактом еще не устоявшейся к тому времени нормы. Наличие в Национальном корпусе русского языка массива текстов 19 века позволяет прослеживать на протяжении двухсот лет развитие в русском языке того или иного явления, например, изменение в управлении какой-либо глагольной лексемы, развитие новых лексических значений, изменение грамматических характеристик слова (ср. колебания в роде у слов типа рояль и лебедь, склоняемость имен типа кофий-кофе, этапы освоения заимствований). Для таких наблюдений можно ранжировать тексты в поиске по приблизительному времени их создания. При этом правильное статистическое распределение ранних письменных текстов по жанрам и сферам употребления должно стремиться к тому, которое существовало в момент их создания. 2. Распределение текстов На данный момент в Национальном корпусе русского языка насчи тывается около 26 млн словоупотреблений в 1500 единицах текстов 19 века. Существенно, что единицы текстов могут значительно раз личаться по объему (ср. роман «Война и мир» Л.Н. Толстого и об разцы деловой переписки, состоящие порой из нескольких строк). Преобладающая часть художественных текстов была собрана еще в период с 2003 по 2005 гг. (около 20 млн словоупотреблений). Последние три года корпус 19 века пополнялся в основном учебнонаучной литературой и текстами публицистического и обиходнобытового характера1 . С 2006 по 2008 гг. собрано более 6 млн. словоупотреблений. Распределение текстов по сферам функционирования и по жанрам представлено в таблицах 1 и 2. 1
Сбор данных финансировался из проекта «Сбор и обработка данных в формате Национального корпуса русского языка», поддержанного программой Президиума РАН «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов» ИМЛИ 3ОИФ (руководитель проекта – М.Д. Воейкова, ИЛИ РАН).
НКРЯ верстка4.indd 47
22/06/2009 17:47
48
С. А. Оскольская
Та б л и ц а 1 .
Та б л и ц а 2 .
Сфера функциониро вания
% слово употреб лений
Жанр текста
% слово употреб лений
художественная
56,3 %
нежанровая проза
публицистика
24,4 %
историческая проза
8,7%
документальная проза
5,4%
учебно-научная обиходно-бытовая церковно-богословская официально-деловая
12 % 4,6 % 2 % 0,7 %
74%
драматургия
5,2%
юмор и сатира
2,7%
приключения
2,1%
фантастика детская
1% 0,6%
Как видно из приведенных данных, существует необходимость в увеличении доли обиходно-бытовых и официально-деловых тек стов. Понятно, однако, что и в момент создания процент таких текстов был существенно ниже, нежели процент художественных и публицистических произведений, составлявших основной круг чтения в 19 веке. Сравнение приведенных данных с данными 2005 г. (см. статью Н. Л. Дич в сборнике «Национальный корпус русского языка 2003–2005», с. 90) показывает, что соотношение текстов по сферам функционирования за последние три года выравнивалось в сторону сбалансированности: если в 2005 г. доля художественных текстов составляла 66%, то сейчас, три года спустя, она снизилась до 56,3%. Значительно (с 7,2% до 12%) повысилась доля учебно-научных текстов. Процентная же доля обиходно-бытовых и официально-деловых текстов повысилась незначительно (на 0,3 и 0,5 % соответственно). Основу нежанровой художественной прозы составляют романы (56% словоупотреблений), повести (19%), рассказы (12%) и очерки (10%). Учебно-научная сфера функционирования включает в себя тексты различных научных областей. Распределение научных текстов по тематике представлено в табл. 3.
НКРЯ верстка4.indd 48
22/06/2009 17:47
Корпус письменных текстов XIX века
49
Та б л и ц а 3 . Тематика текста
% слово употреблений
политология (политика и общественная жизнь) религиоведение
32%
естественные науки
17%
философия
13%
филология
10%
математика
5%
психология
3%
право
1%
15%
Многие политические тексты совмещают в себе черты научной и публицистической функциональной сфер, поэтому они и составляют столь значительную долю от общего числа научных текстов. Естественнонаучная область представлена монографиями, ста тьями и заметками по биологии (работы А. Я. Данилевского, Н. Е. Введенского, И. И. Мечникова и др.), географии и геологии (работы Д. Н. Анучина), медицине (работы Ф. Ф. Эрисмана), химии (работы Н. Д. Зелинского, А. М. Бутлерова) и физике (работы П. Н. Лебедева). Большая часть трудов по математике принадлежит перу П. Л. Чебышева и М. В. Остроградского. Среди авторов исторических работ можно назвать Н. М. Карам зина, В. Н. Татищева. Философия представлена трудами Л. М. Лопатина, Вл. Соловьева. Психология — работами В. М. Бехтерева. Правоведение — работами А. Ф. Кони. Публицистическая сфера функционирования представлена тру дами Л. Н. Толстого, К. Н. Леонтьева, Н. И. Новикова и других авторов. Самыми распространенными типами публицистических текстов оказываются мемуары (64%), статьи (23%) и очерки (8%). Обиходно-бытовую сферу функционирования составляют такие типы текстов, как переписка (например, переписка П. И. Чайков ского с Н. Ф. фон Мекк), дневники и записные книжки (например, дневник Д. М. Волконского 1812–1814 гг.) и различные записки и очерки.
НКРЯ верстка4.indd 49
22/06/2009 17:47
50
С. А. Оскольская
В церковно-богословскую сферу функционирования входят следу ющие типы текстов: беседа, житие, катехизис, молитва, поучение, проповедь и некоторые другие. Авторами большинства имеющих ся в корпусе церковно-богословских текстов — не считая, конечно, Священного писания — являются архиепископ Иннокентий, Игна тий Брянчанинов, Л. Н. Толстой. Официально-деловая сфера функционирования представлена различными приказами, докладами, манифестами, деловыми письмами и пр. 3. Источники текстов Часть текстов была предоставлена в электронном виде изда тельствами, в частности, издательствами «Наука» и «Нестор-Ис тория». Некоторые отсканированные тексты взяты из проекта «Эго-документ в литературно-письменной традиции 19 века» (руководитель В. Н. Калиновская, ИЛИ РАН), который проводится в рамках Программы фундаментальных исследований Секции языка и литературы ОИФН РАН «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов». Для большинства функциональных сфер необходимо отметить труднодоступность текстов 19 века. По сравнению с художественной литературой, крайне мало текстов научного, официальноделового или, например, обиходно-бытового характера переведено в электронный вид и выложено на сайтах в сети Интернет. Поэтому многие тексты приходится сканировать или фотографировать со старых изданий избранных трудов ученых 19 века и с книг, в которых опубликованы некоторые документы и другие архивные материалы. Так, например, благодаря сканированию книги «Бородино: Документальная хроника» (М.: «Российская политическая энциклопедия» (РОССПЭН), 2004) Национальный корпус пополнился документами, затрагивающими тему Бородинского сражения: приказами, докладами, отчетами, обзорами, деловыми письмами и пр. Несмотря на крайне небольшое количество нехудожественных текстов, опубликованных в сети Интернет, все-таки можно отметить несколько сайтов, послуживших источниками отдельных текстов. Речь идет о специализирующихся исторических и литературных сайтах, на которых опубликованы различные архивные мате-
НКРЯ верстка4.indd 50
22/06/2009 17:47
Корпус письменных текстов XIX века
51
риалы 18–20 вв.: Фундаментальная электронная библиотека «Русская литература и фольклор» (http://feb-web.ru/), сайт «Русские мемуары» (http://memoirs.ru), сайт «Восточная литература — библиотека текстов Средневековья», на котором собраны также многие российские документы 18 и 19 веков (http://www.vostlit.info/) и некоторые другие. Все тексты были вычитаны и проверены на наличие ошибок сканирования или набора и отформатированы по единым правилам. 4. Проблема старой орфографии Некоторые тексты попадали к нам в дореволюционной орфографии. Поскольку многие тексты были введены в Национальный корпус уже в новой орфографии, было принято решение переводить все тексты в современную орфографию в соответствии с реформой 1918 г. Так, в конце слов убраны все знаки Ъ, буквы Ѣ, Ѳ, Ѵ, I заменены на Е, Ф, И, И соответственно. Старые окончания прилагательных, причастий и местоимений заменены на современные (-аго на -ого, -ыя на -ые и др. ). Приставки, заканчивающиеся на -з-, в соответствующих фонетических условиях вместо -з- получали -с-. Местоимения оне и ея заменялись на они и ее. Также были выполнены и некоторые другие изменения согласно реформе 1918 года. В текстах были оставлены те отклонения от правил, которые никак не отражены в реформах орфографии и являются скорее особенностью авторского стиля или времени, нежели проявлением нормы русского языка, если о таковой вообще можно говорить по отношению к 19 веку. Например, были оставлены такие формы, как генваря, повидимому или чорт. Безусловно, это затрудняет поиск (в некоторых случаях нахождение словоформы возможно только при поиске точных форм), однако позволяет сохранить особенности текста 19 века, которые могут быть важны при проведении различных лингвистических исследований. Предполагается, что в дальнейшем будет проведена модификация поисковой программы, что позволит учитывать при запросе различия в орфографии отдельных слов и производить их отбор как в старой, так и в новой орфографии, а при необходимости и совместный поиск.
НКРЯ верстка4.indd 51
22/06/2009 17:47
С. О. Савчук, Д. В. Сичинава
Корпус русских текстов xviii века в составе Национального корпуса русского языка: проблемы и перспективы
1
огическим продолжением работ по созданию диахро нического корпуса является расширение его состава за счет текстов xviii века. Формирование подкорпуса текстов xviii века начато в 2006 году в рамках со трудничества Казанского университета и Института русского языка им. В. В. Виноградова РАН. В 2006 г. был создан пилотный корпус [Савчук, Сичинава, Га рипов 2006], к настоящему времени его объем увеличен до 2 млн словоупотреблений, выровнен состав текстов, так что уже в нынеш нем виде корпус имеет самостоятельную ценность для историков языка и специалистов по культуре xviii века. Кроме того, сущест венное количество текстов xviii века (более 438 тыс.) содержит поэтический корпус (см. статью Е. А. Гришиной, К. М. Корчагина, В. А. Плунгяна и Д. В. Сичинавы в наст. сборнике). xviii век — период, когда литературная русская норма в са мых разных отношениях (орфография, фонетика, морфология, синтаксис) не устоялась. Это период перехода от литературного
Логическим продолжением работ по созданию диахронического корпуса является расширение его сос тав а за счет текс тов xviii века. Формиров ание подкорпуса текс тов xviii века начато в 2006 году в рамках сотрудничества Казанского университета и Института русского языка им. В. В. Виноградова РАН. В 2006 г. был создан пилотный корпус [Савчук, Сичинава, Га рипов 2006], к настоящему времени его объем увеличен до 2 млн словоупотреблений, выровнен сос тав текс тов, так что уже в нынешнем виде корпус имеет самос тоятельную ценность для историков языка и специалис тов по культуре xviii века. Кроме того, существенное количество текстов xviii века (более 438 тыс.) содержит поэти ческий корпус (см. статью Е. А. Гришиной, К. М. Корчагина, В. А. Плунгяна и Д. В. Сичинавы в наст. сборнике). xviii век — период, когда литературная русская норма в самых разных отношениях (ор фография, фонетика, морфология, синтаксис) не устоялась. Это период перехода от литературного языка, базирующегося на церковнославянском, к
1
Работа выполнена при поддержке РГНФ, грант № 06-04-03817в и № 07–04– 12147в («Большой корпус русского языка xviii в.»)
НКРЯ верстка4.indd 52
22/06/2009 17:47
Корпус русских текстов XVIII века
53
языка, базирующегося на церковнославянском, к языку нового типа, так или иначе отражающему собственно русскую языковую систему. История русского литературного языка xviii века пока разработана несколько меньше (по крайней мере, с чисто лин гвистической точки зрения), чем языка допетровского времени или следующего периода — языка xix в. (следует назвать моно графии Живов 1996, Живов 2004, Успенский 1985). Исследование литературного языка иногда, к сожалению, подменяется исследо ванием языка литературы — нескольких крупнейших писателей. А ведь особенные линии эволюции определяют нормы различных жанров этой эпохи: язык официально-деловых документов, пуб лицистики, проповедей, частной переписки и проч. Корпус, вклю чающий в себя тексты самых разных жанров, призван облегчить будущим исследователям задачу разностороннего исследования языка xviii века. В существующих работах по истории русского литературного языка принято выделять два [Горшков 1969] или три периода [Ви ноградов 1978, Винокур 1959], связанных с xviii веком: 1) Петровское время (конец xvii — первая треть xviii в.) — пери од «смешения и объединения — несколько механического — живой разговорной речи, славянизмов и европеизмов на основе государ ственно-делового языка» и формирования новых стилей «граждан ского посредственного наречия» и литературных стилей, занимаю щих «промежуточное положение между возвышенным славянским слогом и простой разговорной речью». 2) Ломоносовский период (40 – 5 0-е гг. — конец xviii в.) — период стилистической регламентации и нормализации нового русского литературного языка на основе теории трех стилей. 3) Карамзинский период (конец xviii — начало xix в.) — реорга низация литературного языка, выразившаяся в отмене жанровых ограничений, в создании «нового слога российского языка» — сред ней литературной нормы, близкой к разговорному языку образо ванного общества [Виноградов 1978]. В пилотный корпус текстов xviii века включены прозаические тексты, относящиеся в основном ко второму и третьему периоду и представляющие все сферы функционирования языка в разнооб разии жанровых разновидностей.
НКРЯ верстка4.indd 53
22/06/2009 17:47
54
С. О. Савчук, Д. В. Сичинава
Х у д о ж е с т в е н н а я с ф е р а предс тавлена проз аическими про изведениями писателей, оказавших заметное влияние на процесс формирования литературного языка: Н. М. Карамзин, И. А. Кры лов, Н. И. Новиков, А. А. Нартов, А. Н. Радищев, Д. И. Фонвизин, М. Д. Чулков. Стихотворные тексты 14 авторов (И. Ф. Богдановича, И. С. Баркова, Г. Р. Державина, И. И. Дмитриева, А. Д. Кантемира, И. А. Крылова, М. В. Ломоносова, А. П. Сумарокова, В. К. Тредиа ковского, И. И. Хемницера, М. М. Хераскова и др.) входят в состав поэтического корпуса. С ф е р а п у б л и ц и с т и к и представлена преж де всего сатири ческими статьями Н. И. Новикова в журналах «Трутень», «Пустоме ля», «Кошелек», «Живописец», полемикой Н. И. Новикова с Екатери ной ii, статьями и рецензиями И. А. Крылова, статьями и очерками на общественно-политические темы Д. И. Фонвизина, А. Н. Радище ва, философским трактатом Г. Сковороды, памфлетом М. М. Щерба това, мемуарами А. Т. Болотова, П. А. Левашова, Я. П. Шаховского. У ч е б н о - н а у ч н а я с ф е р а отражена в сочинениях А. Н. Ради щева из области экономики, права, истории, политики, в филоло гических сочинениях М. В. Ломоносова, Д. И. Фонвизина, Н. И. Но викова, в трудах историка В. Н. Татищева. Представлены научные трактаты, статьи, рецензии, инструкции, словари. О ф и ц и а л ь н о - д е л о в а я с ф е р а представлена жанрами зако нодательных, правовых, дипломатических и деловых документов (указ, манифест, воинский устав, проект, приказ, дипломатический договор, служебная записка, военное донесение, прошение, заве щание). Это прежде всего документы эпохи Петра i, Екатерины ii. Б ы т о в а я с ф е р а — это личные письма Н. М. Карамзина, А. Н. Радищева, Д. И. Фонвизина, И. Ф. Богдановича, А. А. Бора тынского (отца поэта), Н. А. Львова, Г. Сковороды, А. В. Суворова, дневники С. А. Порошина. Ц е р к о в н о - б о г о с л о в с к а я с ф е р а представлена в сочинени ях Платона (Левшина), Архиепископа Московского и Калужского, блестящего представителя духовного красноречия, и Феофана (Про коповича). Среди жанров — слово, поучение, катехизис, краткий учебник по закону Божию. Количественное распределение текстов по основным сферам функ ционирования и периодам создания представлено на диаграммах.
НКРЯ верстка4.indd 54
22/06/2009 17:47
55
Корпус русских текстов XVIII века церковно-богословская 19%
бытовая 5%
официально-деловая 11%
художественная 24%
публицистика 24% учебно-научная 17%
1700–1730 4% 1781–1799 37% 1731–1780 59%
Основная задача, которая ставилась на первом этапе создания пи лотного корпуса, заключалась в том, чтобы проверить возможность обработки и описания текстов, принадлежащих прошлым состоя ниям языка, с помощью средств, разработанных для аннотации современных текстов, с целью выявления гибкости системы раз метки и ее адаптивности к новому лингвистическому материалу. Эта задача была успешно решена, доказательством чему служит функционирующий корпус и исследования, выполненные на его основе [Cавчук 2006; Савчук, Гришина 2008]. Задачей второго этапа становится анализ проблем, возникших при формировании корпуса, с целью оптимизации процесса его создания и использования.
НКРЯ верстка4.indd 55
22/06/2009 17:47
1. Проблема выбора источников текстов Эту проблему приходится решать как создателям электронных библиотек, так и разработчикам корпусов. Однако в отличие от электронных библиотек, в которых можно разместить несколько вариантов/ редакций одного и того же текста (как это делается, на пример, в ФЭБе или в РВБ)2 , корпус включает единственную элек тронную версию, в связи с чем более остро стоит вопрос выбора источника и качества его редактирования. Необходимо разграничивать три типа источников. 1) Первичные источники — старопечатные книги и рукописные тексты, которые для введения в состав корпуса проходят полный цикл подготовки, включающий оцифровку, распознавание, кор ректуру и редактирование электронной версии. 2) Печатные издания (как дореволюционные, так и современ ные), электронные версии которых изготавливаются для корпуса. Цикл подготовки таких текстов отличается от первого случая тем, что приходится оценивать качество издания с точки зрения соответ ствия оригиналу и, если оно не единственное, выбирать наиболее авторитетное. 3) Электронные версии текстов, взятые из электронных библио тек. В данном случае процесс подготовки значительно упрощается и сводится к корректуре — сверке электронной версии с первоисточ ником или, в случае его недоступности, с авторитетным изданием и структурной разметке и редактированию электронной версии. Ресурсы электронных филологических библиотек (РВБ, ФЭБ, ImWerden), отличающиеся высокой культурой подготовки текстов и в первую очередь привлекавшиеся для формирования пилотного корпуса, оказались к настоящему времени практически исчерпан ными. Электронные версии из исторических и юридических биб лиотек (Библиотека, Военная, Восточная, Хронос и др.), к сожале нию, часто не отвечают стандартам качества подготовки текстов, установленным для корпуса, и нуждаются в серьезном редактиро вании. В связи с этим приходится искать источники в электронных библиотеках, хранящих книги в графических форматах или самим заниматься оцифровкой типографских изданий. 2 Об эдиционных принципах филологических электронных библиотек см., например, http://www.rvb.ru/about/principles.html, http://feb-web.ru/feb/feb/ about1.htm#L04
НКРЯ верстка4.indd 56
22/06/2009 17:47
2. Проблема редактирования текстов и орфографической унификации Специфика подкорпуса xviii века (а также xix-го и 1-й половины xx-го) как части Национального корпуса состоит в том, что тексты, включенные в него, должны быть переданы только средствами со временной орфографии, поскольку она лежит в основе всех средств грамматической разметки и поиска. В xx веке русская орфогра фия дваж ды подвергалась реформированию: реформа 1918 года изменила графику и унифицировала ряд написаний (окончания прилагательных, причастий, местоимений, приставки на –з и др.), реформой 1956 года были отрегулированы написания отдельных категорий слов и морфем. Поэтому проблема редактирования ори гинала, связанного с орфографической модернизацией текстов до революционных изданий, для корпуса xviii века стоит очень остро. При этом каж дый тип источников требует особого подхода. При подготовке источников первого типа в нкря приняты эди ционные принципы, общие для изданий академического типа или близких к ним, а также филологических электронных библиотек (например, рвб). Орфография оригинала подвергается умеренной модернизации — модернизируются только такие написания, кото рые могут быть восстановлены автоматически (например, ъ после твердого согласного в конце слова, i перед гласным и й; замена ѣ на е и т. д.). Особенности орфографии первоисточника, не отре гулированные реформой 1918 года, сохраняются (фелтьмаршал, салдаты, торелка и под.). При подготовке источников второго типа составители нкря придерживаются основного общего принципа: электронная вер сия должна соответствовать печатной. Однако если текст издавался несколько раз, отдельные издания могут сильно отличаться друг от друга. Для текстов xviii века эта проблема особенно актуальна, по скольку строгих правил, регламентирующих написание, в xviii веке не существовало. Поэтому при последующих изданиях этих текстов они, как правило, подвергались редактированию с позиций дейст вующих в момент публикации орфографических норм и правил. В отдельных случаях, когда текст освоен культурой и продолжает пе реиздаваться (и даже входит в школьную программу), этот процесс модернизации орфографии источника заходит очень далеко, так что, например, современные школьные издания повестей Н. М. Ка
НКРЯ верстка4.indd 57
22/06/2009 17:47
58
С. О. Савчук, Д. В. Сичинава
рамзина, басен И. А. Крылова, пьес Д. И. Фонвизина полностью со ответствуют действующим с 1956 года правилам орфографии. Сравним фрагмент текста «Юности честное зерцало», представлен ный в «Хрестоматии по русской литературе xviii века» (М.: Просве щение, 1979) и в издании xviii века3 . Когда им говорить с людьми, то должно им благочинно, учтиво, веж ливо, разумно, а не много говорить; потом слушать и других речи не перебивать, но дать все выговорить и потом мнение свое, что достойно, предъявить. Ежели случится дело и речь печальная, то надлежит при таких быть печальну и иметь сожаление. В радостном случае быть радостну и являть себе весела с веселыми. А в прямом деле и в постоянном быть постоянну, и других людей рассудков отнюдь не презирать и не отметать, но ежели чие мнение достойно и годно, то похвалять и в том соглашаться; ежели же кото рое сумнительно, в том себя оговорить, что в том ему рассуждать не достойно. А ежели в чем оспорить можно, то учинить с учтивостию и вежливыми словами, и дать свое рассуждение на то, для чего. А еже ли кто совету пожелает или что поверит, то надлежит советовать сколько можно и поверенное дело содержать тайно.
А вот как этот фрагмент выглядит в оригинале (курсивом отмечены орфографические расхождения между двумя фрагментами). 7. Когда имЪ говорїть с людми, то должно имЪ благочїнно, учтїво, вѣжлїво, разумно, а не много говорїть. потом слушать, и другїхЪ рѣчи неперебiвать, но дать все выговорїть и по томЪ мнѣнїе свое, что достоїно, предъявїть. Ежели случїтся дѣло и рѣчь печалная, то надлежїтЪ при такїх быть печалну, и имѣть сожалѣнїе. вЪ радост номЪ случае быть радостну, и являть себе весела сЪ веселыми. А вЪ прямомЪ дѣлѣ и вЪ постоянномЪ, быть постоянну, и другїхЪ людеи разсудковЪ отнюдь не презїрать и не отмѣтать. но еже ли чїе мнение достоїно и годно, то похвалять и вЪ томЪ соглашатца. еже ли же которое сумнїтелно, вЪ томЪ себя оговорїть, что вЪ томЪ ему разсуждать не достоїно. А еже ли вЪ чемЪ оспорїть можно, то учїнїть сЪ учтївостїю и вѣжлївыми словами, и дать свое разсужденїе на то, длячего. А ежели кто совѣту пожелаетЪ или что поверїтЪ, то надлежїтЪ совѣтовать сколко можно и повѣренное дѣло содержать таїно. 3 Юности честное зерцало или показанїе къ житеїскому обхождению. Соб ранное отъ разныхъ авторовъ. Напечатася повелѣнїемъ царскаго велїчества. В Санктпїтербурхѣ лѣта господня 1717 февраля 4 дня. — Факсимильное издание. М., 1976 (http://elibrary.karelia.ru)
НКРЯ верстка4.indd 58
22/06/2009 17:47
Корпус русских текстов XVIII века
59
Как видим, отличия меж ду двумя версиями текста значительны: в учебном издании произведены не только графические замены (ѣ на е, ї на и или й, Ъ на конце слов), но и в соответствии с совре менными орфографическими нормами унифицированы отдельные написания: буквы Ь для обозначения мягкости согласных в середи не слова (людми — людьми, печалну — печальну, сколко — сколько), приставки раз-/рас- (разсудков — рассудков, разсуждение — рассуж дение), окончаний глаголов (соглашатца — соглашаться), слитно го или раздельного написания предлогов, частиц (еже ли — ежели, длячего — для чего) и т.д. Поэтому при подготовке электронных версий опубликованных текстов большое внимание уделяется выбору авторитетного изда ния, и в дальнейшем электронная версия приводится в соответст вие с печатным оригиналом: если воспроизводится современное издание текстов xviii века, то орфография в нем будет соответст вовать правилам 1956 года; при воспроизведении дореволюцион ного издания в нем сохраняются все особенности орфографических норм соответствующего периода, за исключением тех изменений в графике, которые были внесены реформой 1918 года. Наконец, третий тип источников — тексты из электронных биб лиотек — требует оценки качества электронных версий и их соот ветствия оригиналу. Как показала практика, качество электронных версий, взятых из филологических библиотек (ФЭБ, РВБ, ImWerden) таково, что обычно не требует дополнительной корректуры, и пред варительная подготовка текста для включения в корпус сводится к техническому редактированию и структурной разметке текста. Электронные версии из исторических и юридических библиотек нуждаются в дополнительном редактировании и текстологической подготовке, поскольку тексты могут быть представлены в отрыв ках, с купюрами, в орфографии, модернизация которой проведена непоследовательно. Приведем в качестве примера результат сравнения орфографии небольшого фрагмента «Военного устава 1716 года (Раздел 3. Крат кое изображение процессов или судебных тяжеб)» из двух электрон ных библиотек.
НКРЯ верстка4.indd 59
22/06/2009 17:47
Орфограмма
1. Военно-исто рический про ект «Адъютант!»
2. Хрес тома тия по истории государс тва и права Рос сии / Ю. П. Ти тов. — М., 2002
Окончания прил., прич., мест. Р.ед. м-ср. -аго, -яго И.,В. ж. мн. -ыя, -iя
достойнаго некотораго высокаго разныя происходящия последующия государственныя целаго происходящия касающияся другаго которыя прочия разъискиваются разделяется разсуждаем
достойнаго некоторого высокого разные происходящие последующие государственные целаго происходящыя касающыяся другаго которые протчие разыскиваются розделяется разсуж даем
Слитно/раздельно/ через дефис
притом
при том
Двойные согласные Мягкость согласных
процессах обстоятельства начальства генеральной генеральном между между между Фельдмаршала причины причины прочия находятся
процесах обстоятельства началства генералной генералном междо между междо фелтьмаршала притчины притчины протчие находятца
Офицеров Фельдмаршала
офицеров фелтьмаршала
Приставки из-, воз-, раз-, роз-, низ-, без-, через-, чрез-
Прочие орфограммы в корне
Орфограммы в аффиксах Прописная/строчная
Перв ая электронная версия, опубликов анная на сайте http:// adjudant.ru, восходит к изданию xviii в.: «Военной устав с Ар тикулом военным, при котором приложены толкования, также
НКРЯ верстка4.indd 60
22/06/2009 17:47
Корпус русских текстов XVIII века
61
с кратким содержанием процессов, экзерцициею, церемониями, и должностьми полковых чинов». Вторым тиснением напечатан в Санктпетербурге. При Императорской Академии Наук 1748 го да». Модернизация орфографии произведена создателями сайта: «В интернет-версии по большей части сохранена орфография кни ги-источника. Для удобства чтения заменено написание отдельных слов в соответствии с современными правилами (например, пото муж — потому ж, отом— о том, и т.п.). В некоторых частях замене ны окончания (великаго — великого, оной — оный)». Вторая версия изготовлена по современному учебному изданию: Хрестоматия по истории государства и права России / Ю. П. Титов (М., 2002), следо вательно, унификация орфографии — дело рук автора-составителя и редакторов издания. Можно заметить, что в обоих изданиях модернизация орфогра фии проведена непоследовательно: непонятны принципы, по ко торым публикаторы в одних случаях предпочитают современный вариант написания, а в других — дореформенный (например, в пер вой версии избирается современный способ обозначения мягкости согласных внутри слова, написания отдельных корней, глаголов на -ся, но архаичный способ написания окончаний прилагатель ных, причастий, местоимений, отмененный реформой 1918 года). В целом электронная публикация на сайте «Адъютант!» кажется более привлекательной хотя бы потому, что в ней меньше внутри текстовых несоответствий, которыми изобилует второе издание (ср. достойнаго, другаго и высокого, некоторого; происходящие, го сударственные и происходящыя, касающыяся, междо и между, об стоятельства и началства). Однако модернизация графики и орфографии еще не снимает проблему орфографических вариантов, которая может быть реше на путем нормализации орфографии и будет рассмотрена в связи с общей проблемой вариативности. 3. Проблема лингвистической аннотации Другая важная проблема, которую приходится решать в связи с соз данием корпуса текстов xviii в., является специфически корпус ной и связана с л и н г в и с т и ч е с к о й а н н о т а ц и е й . Морфоло гическая разметка, в процессе которой выделяются словоформы
НКРЯ верстка4.indd 61
22/06/2009 17:47
62
С. О. Савчук, Д. В. Сичинава
и каж дой словоформе приписывается информация о ее лексемной принадлежности и о совокупности ее грамматических признаков, производится на основной части корпуса в автоматическом режиме с помощью специальных программ-парсеров, использующих встро енные морфологические словари. Программа порож дает все воз можные разборы словоформы, а в случае отсутствия словоформы в словаре строит гипотезы относительно ее лексемной принадлеж ности и предлагает гипотетические разборы [Ляшевская, Плунгян, Сичинава 2006: 117]. Гипотезы относительно грамматических характеристик отсут ствующих в словаре словоформ (в разборах они имеют помету bastard) могут быть правильными; вероятность правильных раз боров особенно высока в случае присутствия в составе этих слово форм современных аффиксов, например: <span title="самодержавство = bastard,dat,inan,n,s,sg"><em>само державству <span title="обосурманиться = act,bastard,indic,m,pf,praet,sg,v"> обосурманился <span title="гистория = bastard,f,inan,nom,s,sg"><em>Гистория
Однако чаще порождаемые программой гипотетические разборы являются ошибочными, что создает большое количество шума при поиске: <span title = "фортеций = acc,bastard,inan,m,pl,s|bastard,inan, loc, m, s, sg|bastard,inan,m,nom,pl,s"> <em>фортеции <span title = "тако = 0,anim,bastard,f,s|0,anim,bastard,m,s|0, bastard,inan,n,s|acc,bastard,inan,n,s,sg|bastard,inan,n,nom,s,sg"> <em>тако
поехал одоль по правую сторону <span title="одоливать = 2p,act,bastard,imper,pf,sg,v; одоля = bastard,f,gen,inan,pl,s| bastard,f,gen,inan,pl,s; одоль = acc,bastard,f, inan,s,sg|acc,bastard,inan,m,s,sg|adv,bastard| bastard,f,inan,nom,s,sg|bastard,inan,m,nom,s,sg"> <em>одоль
уже много тех эксемпелев (образов) есть <span title="эксемпелев = anim,bastard,famn,m,nom,s,sg; эксемпеле вый = a,bastard,brev,m,sg"><em>эксемпелев
НКРЯ верстка4.indd 62
22/06/2009 17:47
63
Корпус русских текстов XVIII века
Анализ грамматических разборов показал, что количество несло варных словоформ в текстах xviii в. превышает показатели, харак терные для письменных текстов, однако в сравнении с диалектны ми текстами и текстами электронной коммуникации, как видно из таблицы, эти различия невелики. Подкорпус
Объем подкорпуса
xviii xix xx-1 xx-2-публиц xx-2-худож xx-2-разг xx-2-электр xx-2-диал
1106403 23730265 25902512 40440252 35065938 4382391 1192121 138961
Количество нес ловарных словоформ 56695 7009531 2834806 1390433 747032 71644 83408 9045
Соотноше ние в % 5,1 % 2,9 % 3,2 % 3,4 % 2,1 % 1,6 % 6,9 % 6,5 %
Предварительный анализ вхож дений несловарных форм обнару жил, что около 45% из них представляют собственно новые лексемы, не включенные в словарь корпуса (архаизмы, историзмы, собст венные имена и производные от них), среди них весьма частотные; особо надо выделить наречия образа действия на –ко, из которых первые два можно толковать как морфологические варианты совре менных наречий: тако (297), всяко (101), инако (92); из имён соб ственных, например — Плиний (111), Васильевском (71). Характерны целые архаичные модели словообразования, например, церковно славянские по происхождению слова на благо- (отмечены 22 таких слова, не предусмотренные современными словарями, например, благополезный, благоутробно, благогласие) или продуктивная от рицательная модель на без- (безженство, безместный и особо за мечательное по семантике безотрицательно). Больше половины контекстов с несловарными формами выяв ляют различные варианты входящих в словарь слов — орфографи ческие (более 20%), морфологические (около 17%), словообразо вательные (14%), фонетические (около 3%). К частотным о р ф о г р а ф и ч е с к и м вариантам относятся: пола ты (56), толко (77), одново (3), ево (92), лутче (21), протчих (21), протчим (15), естли (10), однакож (55), зделать (27), денги (14),
НКРЯ верстка4.indd 63
22/06/2009 17:47
64
С. О. Савчук, Д. В. Сичинава
возмет (6), комисар (9), коммисия (3), домогатца (3), явятца(3), чинитца (4) и др. Особенно они свойственны нередким для xviii в. текстам со «свободной» орфографической установкой, например, в частной переписке или в отдельных публикациях вроде «Письма к другу, жительствующему в Тобольске» А. Н. Радищева. М о р ф о л о г и ч е с к и е варианты представляют собой формы слов (как входящих, так и не входящих в словарь корпуса), кото рые не соответствуют морфологическим нормам современного русского языка (но могут быть употребительны в современном просторечии, диалектах и т.д.): совестию, приязнию (ср. совестью, приязнью), клянуся, боялися (ср. клянусь, боя лись), хощу с церковно славянским чередованием (ср. хочу), произвесть (ср. произвести), вытараща, воспользуясь (ср. вытаращив, воспользовавшись), по сту (ср. по сто). С л о в о о б р а з о в а т е л ь н ы е варианты представляют собой ва рианты образования основ, отклоняющиеся от современных норм: разоренье (ср. разорение), авангардия (ср. авангард), супротивление (ср. сопротивление), канцелярный (ср. канцелярский), самодержав ство (ср. самодержавие), напротиву (ср. напротив), коллегиум (ср. коллегия); егеров (ср. егерей; подобная форма предполагает твёрдую основу — егер). Ф о н е т и ч е с к и е варианты отражают устаревшее произноше ние слов, в основном заимствованных: гистория, эсквадра, грано деры, провинциял-фискал, анбары. Таким образом, практика создания корпуса xviii в. подтверж да ет, что проблема совершенствования морфологической разметки текстов с большим количеством нестандартных форм является об щей для всех текстов, язык которых выходит за пределы современ ной письменной литературной нормы. Это касается и текстов xviiixix вв., и устной речи, и электронной коммуникации, и диалектных текстов. Решение этой проблемы следует искать, по крайней мере, в трех направлениях: 1) нормализация орфографии, 2) пополнение словаря корпуса, 3) обучение программ-парсеров на специфиче ском для каж дого корпуса текстовом материале. Различия между категориями текстов со значительными отк ло нениями от литературной нормы состоят в разной степени вариа тивности и разном соотношении типов вариантов. Поэтому для
НКРЯ верстка4.indd 64
22/06/2009 17:47
Корпус русских текстов XVIII века
65
каждого корпуса должна избираться наиболее оптимальная такти ка работы, учитывающая структуру несловарных единиц. В частно сти, для корпуса xviii в., характеризующегося высокой степенью орфографической вариативности, необходима (эффективна) ор фографическая нормализация на этапе предварительного техни ческого редактирования и структурной разметки текстов. При та ком способе каждому ненормативному написанию приписывается нормативная форма: естли{если*}, зделать{сделать*}, доволно{до вольно*} и т.д. В процессе морфологической разметки разбирается нормативная форма, а набор грамматических признаков припи сывается всему комплексу, так что при лексико-грамматическом поиске в корпусе на запрос по лемме будут выдаваться контексты, содержащие это слово во всех вариантах написания4 . Этот путь из бран для устных текстов и текстов электронной коммуникации, так что, например, в корпусе устных текстов на запрос «что» получа ем контексты с что, шо, чё5 . Здесь особую техническую сложность представляют собой колебания «слитное/раздельное написание», учитывая пословный характер принятой в Корпусе разметки. В слу чае с частотными слитными написаниями конкретных лексических единиц (когдаб, еслиж, включая падежные формы — чегож, чемуб) можно задать определённые правила и пополнить словарь, но это сложно сделать для текстов с «продуктивным» слитным написанием (аналогичная проблема стоит и для текстов современной электрон ной коммуникации и частной переписки, где встречаются похожие феномены «неграмотного» письма). Сюда относится уже упоми навшееся «Письмо другу…» Радищева6 , для которого характерно большое количество слитных написаний предлогов (при раздель ном написании слов вроде близ лежащий): …Кирасирской Ново троицкой Полк и Киевской пехотной заняли места наблиз лежащих улицах. Все было готово, тысящи зрителей назделанных для того возвышениях и толпа народа разсеяннаго повсем близ лежащим мес 4
Особенно актуальна эта технология для рукописных текстов, например, частных писем, орфография которых может быть весьма далека от нормативной. 5 См. статью Е. А. Гришиной и С. О. Савчук в наст. сборнике. 6 В автографах Радищева образцов орфографии вроде назделанных как будто не отмечено, так что в данном случае орфография, как можно предполагать, привнесена на стадии печати.
НКРЯ верстка4.indd 65
22/06/2009 17:47
66
С. О. Савчук, Д. В. Сичинава
там и кровлям ожидали с нетерпением зрети образ того, котораго предки их в живых ненавидели, а посмерти оплакивали. Пополнение словаря корпуса предполагает анализ несловарных словоформ и приписывание им грамматических признаков. Для ряда наиболее частотных словоформ, встречающихся и в текстах xix в., это уже сделано, и они опознаются и размечаются парсером как стандартные формы: <span title="токмо = adv,norm|norm,part">токмо <span title="кой = acc,apro,inan,norm,pl|apro,nom,norm,pl = r:rel,r:rel">кои <span title="оный = apro,dat,f,norm,sg|apro,f,gen,norm,sg|apro,f,i ns,norm,sg|apro,f,loc,norm,sg = r:dem,r:dem,r:dem,r:dem">оной <span <span title="нынешний = a,acc,anim,m,norm,plen,sg|a,gen,m,norm,p len,sg = der:adv,r:rel,t:time,der:adv,r:rel,t:time">нынешняго <span title="прочий = a,acc,inan,norm,pl,plen|a,nom,norm,pl,plen = r:rel,r:rel">прочия
Наибольшую сложность представляют морфологические формы, ос тавшиеся в наследство от старой морфологической системы — «мор фологические архаизмы». В современных текстах их можно встре тить только в виде застывших осколков в составе фразеологических оборотов (на босу ногу, на круги своя, темна вода во облацех), в то время как в текстах xix в. их круг достаточно широк [Дич 2005: 93]. В текстах xviii в., особенно относящихся к первой трети века, старые формы имеют еще более широкое распространение: при шед (краткое причастие от прийти), формы инфинитива на –ти (восприяти, зрети и под.), городы, домы (им.-вин. мн.), детем, лю дем, крестьяном (дат. мн.)7 . Все эти случаи должны быть включены в состав словаря с соответствующими грамматическими характе ристиками. В дальнейшем варианты — орфографические, морфологические, словообразовательные — могут быть объед инены в словаре с соот ветствующими стандартными формами и образовать словарную 7 Сложность состоит в том, что некоторые старые формы могут совпадать с современными, и тогда программа-парсер не опознает их как несловарные, а предлагает разборы исходя из нормативной грамматики. Ср.: Сей князь собою видом, как монстра span title=”монстр = acc,anim,m,norm,s,sg|anim,gen,m,nor m,s,sg = t:hum,r:concr,ev:neg,t:hum,r:concr,ev:neg»> монстра
НКРЯ верстка4.indd 66
22/06/2009 17:47
Корпус русских текстов XVIII века
67
единицу более высокого уровня — гиперлемму. Однако эта гипоте за требует дальнейшей проверки на материале корпуса. Проверка покажет, насколько такое пополнение словаря позволит уменьшить количество ошибочных разборов. Другой способ снижения шума, который в настоящее время опробуется программистами, — это обучение программы-парсера на подкорпусах однородных текстов (например, разговорных, xviiixix вв.) и настройка таких программ на морфологическую разметку текстов определенного типа. По мнению специалистов, такая на стройка позволит программе приписывать словоформе наиболее вероятные разборы. В заключение остановимся на задачах, которые ставят перед со бой разработчики корпуса текстов xviii в. на ближайшее будущее. Во-первых, это пополнение корпуса новыми текстами, подготов ка и включение в состав корпуса редких текстов (частных писем, деловой переписки и записей, старопечатных книг), прошедших процесс соответствующей орфографической обработки. Во-вторых, полный анализ несловарных форм, выделенных в текстах xviii в. (всего около 3000 словоформ), ручная лемматизация и пополне ние словаря корпуса. Задачей на отдаленную перспективу можно считать созда ние комплексного информационного ресурса, объединяющего электронную библиотеку оригиналов текстов, представленных в графических форматах, корпус текстов в старой орфографии, которые создаются в Казанском университете [Соловьев, Ахтя мов 2006], и корпус текстов в современной орфографии с иными поисковыми возможностями. Такой ресурс мог бы удовлетворить интересы специалистов разных профилей, изучающих культурное наследие xviii века.
НКРЯ верстка4.indd 67
22/06/2009 17:47
Литература Библиотека — Библиотека электронных ресурсов Исторического факультета МГУ им. М. В. Ломоносова [Электронный ресурс] http://www.hist.msu.ru/ER/index.html Виноградов В. В. Основные этапы истории русского языка // Вино градов В. В. Избранные труды. История русского литературного языка. — М., 1978. — С. 10–64. Винокур Г. О. История русского литературного языка: Русский лите ратурный язык в первой половине xviii в. // Избранные работы по русскому языку. — М., 1959. С. 111–137. Военная — Военная литература [Электронный ресурс] http://mili tera.lib.ru Восточная — Восточная литература [Электронный ресурс] http:// www.vostlit.info/haupt-Dateien/index-Dateien/H.phtml Горшков Н. И. История русского литературного языка. — М., 1969. Дич Н. Л. О текстах xix века в национальном корпусе русского языка // Национальный корпус русского языка: 2003 – 2 005. Результа ты и перспективы. М.: Индр ик, 2005. С. 89–93. Живов В. М. Язык и культура России xviii века. М.: Школа «Языки русской культуры», 1996. Живов В. М. Очерки исторической морфологии русского языка xviixviii веков. — М.: ЯСК, 2004. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // Националь ный корпус русского языка: 2003–2005. Результаты и перспек тивы. М.: Индрик, 2005. С. 111 – 134. Национальный корпус русского языка [Электронный ресурс]. — http://www.ruscorpora.ru РВБ — Российская виртуальная библиотека [Электронный ресурс] http://www.rvb.ru Савчук С. О., Сичинава Д. В., Гарипов И. И. Подкорпус текстов xviii века в составе Национального корпуса русского языка: из опыта работы. http://fccl.ksu.ru/issue_spec/docs/Savchuk_Sichinava_Ga ripov.doc Савчук С. О., Гришина Е. А. Вариантность в русском языке. Проект словаря // Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конфе
НКРЯ верстка4.indd 68
22/06/2009 17:47
Корпус русских текстов XVIII века
69
ренции «Диалог» (Бекасово, 4 – 8 июня 2008 г.). Вып. 7 (14). — М.: РГГУ, 2008. С. 466–474. Соловьев В. Д., Ахтямов Р. Б. Корпус русского языка xviii века: текущее состояние // Материалы международной научной конференции. Ижевск, 13 – 1 7 июля 2006 г. Ижевск, 2006. С. 156–160. Успенский Б. А. Из истории русского литературного языка xviii – начала xix века. — М., 1985. ФЭБ — Фундаментальная электронная библиотека «Русская лите ратура и фольклор» [Электронный ресурс] http://www.feb-web.ru Хронос — ХРОНОС [Электронный ресурс] http://hronos.km.ru ImWerden — ImWerden. http:// www.imwerden.de. Savchuk, Svetlana. Corpus-based Investigation of Language Change: the Case of RNC // Matthew Davies, Paul Rayson, Susan Hunston, Pernilla Danielsson (eds.) Proceedings of the Corpus Linguistics Conference CL2007 University of Birmingham, UK, 27 – 3 0 July 2007. http://ucrel.lancs.ac.uk/publications/CL2007/f inal/181/181_Paper. pdf
НКРЯ верстка4.indd 69
22/06/2009 17:47
II.
Особые типы текстов в составе НКРЯ
НКРЯ верстка4.indd 70
22/06/2009 17:47
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
Поэтический корпус в рамках Национального корпуса русского языка: общая структура и перспективы использования оэ тич ес кие текс ты инт е ресны не только специали стам по поэтике; это — один из важнейших источников для изучения языка в целом, как в синхронии, так и в диахронической ретроспективе и перспек тиве. Но, хотя особая роль этого типа текстов для общей теории язы ка никогда не оспаривалась (а в русской традиции особое внимание к ним поддерживается не только выдающимися художественными достоинствами русской поэзии и её особой значимостью в русской культуре в целом, но и авторитетом Р. О. Якобсона, Ю. М. Лотмана, В. Н. Топорова, М. Л. Гаспарова и других филологов), на практике далеко не всегда исследователи языка использовали этот материал в том объеме и с такой полнотой, как он того заслуживает. Отчасти это объясняется трудоемкостью обработки поэтических текстов Поэтические тексты интересны не только специалистам по поэтике; это — один из важ нейших источников ля изучения языка в целом, как в синхронии, так и в диахронической ретро спективе и перспективе. Но, хотя особая роль этого типа текстов для общей теории языка никогда не оспаривалась (а в русской традиции особое внимание к ним поддерживается не толь ко выдающимися художественными достоинст вами русской поэзии и её особой значимостью в русской культуре в целом, но и авторитетом Р. О. Якобсона, Ю. М. Лотмана, В. Н. Топорова, М. Л. Гаспарова и других филологов), на практи ке далеко не всегда исследователи языка исполь зовали этот материал в том объеме и с такой полнотой, как он того заслуживает. Отчасти это объясняется трудоемкостью обработки поэтических текстов и их неравномерной дос тупностью. Создатели Национального корпуса русского языка с самого начала понимали важ
НКРЯ верстка4.indd 71
22/06/2009 17:47
72
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
и их неравномерной доступнос тью. Создатели Национального корпуса русского языка с самого начала понимали важность при сутствия в нем представительного электронного массива поэтиче ских текстов, однако особая сложность разметки этих текстов была причиной того, что работа над поэтическим корпусом началась не сразу, а лишь после того, как основной корпус (прозаические ху дожественные и нехудожественные тексты), достигнув более ста миллионов словоупотреблений, уже прочно «стоял на ногах» и ос новные принципы метатекстовой и морфологической разметки стали более или менее ясны. Сложность создания корпуса поэтических текстов была также связана с тем, что с самого начала его составители ставили две за дачи, ни одной из которых не хотелось жертвовать в ущерб другой: этот корпус должен был обеспечивать как потребности исследова телей русского языка, так и потребности исследователей русской поэзии, в том числе стиховедов, заинтересованных в изучении фор мальных особенностей русского стиха — метрики, ритмики, ката лектики, рифмы, строфики и т. п. Последнее по существу означало создание некоторого предварительного варианта универсально го электронного метрического справочника по всей русской по эзии — ресурса, о создании которого мечтало не одно поколение стиховедов и отсутствие которого по-прежнему существенно тормо зит теоретические исследования русского стиха. (Добавим в скоб ках, что и в мировой практике, насколько нам известно, доступных аналогов таких электронных ресурсов пока не существует.) Конеч но, данная задача несколько выходила за рамки базовой корпусной деятельности, так как корпус предоставляет в основном средства для быстрого поиска примеров, а в случае поэтического корпуса речь шла о средствах для детальной формальной классификации самих текстов, т. е. стихотворений, — но тем привлекательней эта задача нам казалась, когда мы наконец приступили к ее решению. Кроме того, существенного противоречия с идеологией Националь ного корпуса русского языка здесь не было — ведь и в основном кор пусе для близких целей существует метатекстовая разметка, пусть и менее детальная, чем метрическая разметка поэтических текстов, принятая нами. В любом случае, русские поэтические тексты было бы нецелесообразно включать в Национальный корпус русского
НКРЯ верстка4.indd 72
22/06/2009 17:47
Поэтический корпус
73
языка «на общих основаниях», т. е. с точно той же системой размет ки, которая была разработана для прозаических текстов (художест венных и нехудожественных). Поэтому первым шагом в создании поэтического корпуса стала разработка детальной системы размет ки по формальным параметрам стиха — эта работа в каком-то смыс ле продолжается и в настоящее время, так как включение всё новых поэтических текстов неизбежно заставляет вносить в действующую разметку определенные коррективы. Интенсивная работа над поэтическим корпусом (далее просто Корпус) в рамках Национального корпуса русского языка началась в феврале 2006 г. В разработке общей концепции Корпуса и размет ке поэтических текстов активно участвовали все авторы настоящей статьи; в обсуж дении специальных терминов, описывающих от раженные в Корпусе основные параметры русского стиха, прини мали участие также Н. В. Перцов и Т. В. Скулачёва. Специальное программное обеспечение для проекта, позволившее автоматизи ровать существенную часть разметки поэтических текстов, было разработано А. Е. Поляковым и Т. А. Архангельским. Значительная работа по формированию и разметке текстов Корпуса на разных этапах была выполнена также Т. А. Архангельским, С. Ю. Белозёро вой, Н. К. Богомоловой, Д. А. Ивановой, Б. В. Ореховым, М. C. Ра чинской, Д. А. Эршлером и рядом других лиц. Предварительную подготовку электронных версий части текстов (сканирование и вы читку) обеспечили А. С. Кулёва и Е. Н. Ловля. Общее руководство проектом осуществляет В. А. Плунгян1 . Корпус был открыт для свободного доступа на сайте Националь ного корпуса русского языка (http://www.ruscorpora.ru/search-poetic. html) в декабре 2006 г. и в настоящее время находится в стадии активного пополнения и усовершенствования. На момент напи сания данной статьи (середина 2008 г.) Корпус включает в себя поэтические произведения 48 авторов, созданных в период от сере 1
Работа по созданию поэтического корпуса финансировалась в рамках проекта «Создание новых подкорпусов Национального корпуса русского языка» (руководитель В.А. Плунгян), входящего в программу ОИФН РАН «Русский язык, литература и фольклор в информационном обществе», а также гранта РГНФ 08-04-12127в «Создание информационной системы ‘Корпус русской поэзии’» (руководитель Н.В. Перцов).
НКРЯ верстка4.indd 73
22/06/2009 17:47
74
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
дины xviii до начала xx века (общим объемом ок. 2 млн словоупот реблений); в ближайшее время планируется расширить Корпус за счет поэтических текстов середины xx века и основного русского песенного фонда, а в последующем приступить к обработке совре менных русских поэтических текстов (созданных как в России, так и за ее пределами). Ниже в разделе 1 будет подробно описана принятая в настоящее время в Корпусе система «специальной» разметки (т. е. разметки, учитывающей параметры стиха). По всем этим параметрам в кор пусе возможен поиск (например, можно найти все строки трехстоп ного дактиля с женской клаузулой, все стихотворения, написанные дактилем с парной рифмовкой, все сонеты, написанные между 1820 и 1880 гг., и т. д., и т. п.). Не следует забывать, что наряду со «специ альной» разметкой в Корпусе, естественно, функционирует и основ ная, в целом совпадающая с разметкой прозаических текстов (тако вы ряд базовых параметров метаразметки, включающих сведения об авторе и дате создания текста, а также морфологическая2 и се мантическая разметка). С принципами основной разметки можно ознакомиться подробнее на сайте Национального корпуса, а также в сборнике статей [Плунгян (ред.) 2005]. В разделе 2 будут рассмот рены некоторые возможные способы использования поэтического корпуса для решения лингвистических задач, в разделе 3 — приме ры решения стиховедческих задач с помощью Корпуса. 2 Тексты поэтического корпуса получали морфологическую разметку в ав томатическом режиме, поэтому в настоящее время грамматическая омони мия в этих текстах не снята. Отметим, что коррекция грамматической раз метки поэтических текстов является нетривиальной задачей и требует от дельных усилий, так как эти тексты богаты грамматическими архаизмами, грамматическими инновациями и иного рода нестандартными формами. В частности, по-видимому, приходится признать предельно сложной (если вообще доступной) для поэтического текста возможность автоматического снятия грамматической омонимии и соответствующего построения статис тических моделей (что, в общем, не составляет принципиальной проблемы для подавляющего большинства прозаических текстов). Впрочем, некото рые — хотя и ограниченные — возможности автоматизации процесса снятия морфологической неоднозначности предоставляет акцентологическая разметка Корпуса, см. об этом статью Е.А.Гришиной об акцентологическом корпусе в настоящем сборнике.
НКРЯ верстка4.indd 74
22/06/2009 17:47
1. Принципы специа льной разметки поэтических текстов Охарактеризуем основные параметры специальной разметки по этических текстов, которые дополняют основную разметку тек ста — прежде всего, метаразметку. Напомним, что метаразметка (сокращение от «метатекстовая разметка»), как видно уже из её названия, относится ко всему тексту, и при задании поиска по ней ищутся целые тексты, из которых формируется подкорпус. Соответ ственно, большинство разбираемых ниже помет приписывается поэтическому тексту в целом. По ходу изложения приводится так же ряд помет, приписываемых тем или иным фрагментам текста (строкам, словам и т. п.). 1.1. Автор и сопутствующие параметры Указание автора текста в поэтическом корпусе обладает рядом особенностей по сравнению с основным корпусом. Преж де всего это связано с традицией обозначения автора стихотворного про изведения в случае сомнительной атрибуции. (Такая проблема, безусловно, стоит и для некоторых прозаических текстов, однако по ряду причин — возможно, в силу относительно меньшей полно ты представленности прозы xviii—xix вв. в Национальном корпу се — практически незаметна вне поэтического корпуса.) В принци пе, логически возможны несколько вариантов, каждый из которых реализован в Корпусе: • Произв едения с сомнительным авторс тв ом имеют помету dubium (это значительная часть текстов, публикуемых в соб рании М. Лермонтова, Ап. Григорьева и др. авторов, особенно раннего периода). • Произведения с коллективным авторством, когда лишь часть соавторов известна по именам, имеют обобщенную помету, обо значающую членов этого коллектива (напр., «Пушкин А. С. | ли цеисты» для стихотворения «Гауншильд и Энгельгард...»). Этот случай весьма редок. • В случае, когда оригинальное произведение народное, автор счи тается обобщенным (это характерно для некоторых песенных текстов, т. к. собственно фольклорный материал пока не вклю чается в Корпус систематически). • В случае, когда автор скрывается за инициалами и расшифров
НКРЯ верстка4.indd 75
22/06/2009 17:47
76
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
ка их либо неизвестна, либо они являются постоянным твор ческим псевдонимом поэта (как у К. Р. — вел. кн. Константина Конс тантиновича [Романов а]), в Корпусе указыв аются ини циалы. К этому случаю примыкает такой, когда псевдоним, под которым выступает автор, является постоянным и полностью заменяет собой настоящее имя в творческой деятельности (так, Андрей Белый не будет отмечен как Б. Н. Бугаев). • Наконец, в случае полной анонимности указывается, что автор неизвестен. Разумеется, это значение релевантно лишь для ав торских произведений — в случае условно народного текста по мета будет другой (см. выше). Важным расширением прив еденной выше классификации яв ляется реализуемое в Корпусе указание на переводной характер поэтического текста. В разные периоды существования русской поэтической традиции переводы то приближались к оригиналь ному творчеству поэта-переводчика, то отдалялись от него. Вос приятие перевода как оригинального текста наблюдалось в конце xviii — первой четверти xix века, когда, например, Н. И. Гнедичем была переведена «Илиада» (опубл. 1829 г.), являющаяся на тот мо мент наиболее объемным (вместе с «Телемахидой» В. К. Тредиа ковского) памятником русского гекзаметра — метра, долгое время являвшегося единственным образцом регулярного тонического стиха в русском стихосложении. В силу такого взаимопроникно вения переводного и оригинального творчества, Корпус по воз можности включает (хотя и в ограниченном объеме) переводные тексты. Для облегчения сравнительных исследований в Корпусе, кроме имени автора русского текста (= переводчика), указывается также автор оригинального текста (в принятом в академических изданиях формате) и язык, с которого был выполнен перевод3 . Это представляет потенциальный интерес для стиховедения; так, мет рический репертуар переводов из силлабо-тонической поэзии (анг лийской или немецкой), где обильно представлены трехсложные метры, а позже и дольники, иной, чем из силлабической (француз ской или польской), где господствует условная передача этих разме ров двусложными метрами, не говоря уже о переводах из античной 3 Определенный интерес здесь могут представлять случаи, когда перевод был осуществлен не с языка оригинала, а с другого перевода.
НКРЯ верстка4.indd 76
22/06/2009 17:47
Поэтический корпус
77
или восточной метрики специфическими условными «размерами» и «строфикой подлинника». Переводы ряда конкретных поэтов (на пример, П.-Ж. Беранже или Г. Гейне) имеют в русской традиции определённые стиховые особенности (не обязательно восходящие к оригиналу). Все эти наблюдения, в принципе известные стихове дам, поддаются уточнению на конкретном материале. 1.2. Название произведения Для поэтического текста всегда, кроме авторского названия (если оно есть)4 , указывается первая строка (incipit). Если произведение является частью более крупного текстового единства (цикла, ав торской книги стихов), определяются параметры цикл или книга соответственно. Для циклов стихотворных произведений фиксиру ется порядок произведения в цикле (в общем случае); для авторских книг стихов указывается год издания. 1.3. Дата написания произведения Дата определяется в формате гггг.мм.дд (месяц и день факультатив ны). Встроенность поэтического корпуса в основной не позволяет учитывать более тонкие случаи датировок текстов, принятые в ака демических изданиях (напр., «1914, », где первая дата — ав торская дата первой редакции произведения, а вторая — год изда ния окончательной редакции; или сомнительные датировки), — все подобные случаи недифференцированно считаются неточными да тировками и в таком виде фигурируют в Корпусе. В этом случае, как и во многих других, Корпус не претендует на то, чтобы заменять научные издания текстов, к которым исследователь по необходи мости должен обращаться — он лишь помогает быстро ориентиро ваться в большом массиве разнородных текстов для поиска нужной информации. 4 В ряде исключительных случаев авторские названия могут в разметке не сколько модифицироваться; таковы, в частности, развёрнутые названия од Ло моносова, которые в целях читаемости поисковой выдачи сокращаются (пол ный их вариант оставлен в тексте) или названия вида «Ему же» (с отсылкой к названию предыдущей эпиграммы или послания; так называются, в частности, многие послания Фета), которые, напротив, «раскрываются» («Великому князю Константину Константиновичу»).
НКРЯ верстка4.indd 77
22/06/2009 17:47
78
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава 1.4. Жанр
Естественным образом, поэтический корпус имеет свою систему жанров, отличающуюся от системы жанров художественной прозы. Основные жанры, выделяемые в Корпусе: стихотворение, поэма, пьеса, роман в стихах, кинофильм5 . Стихотворение, далее, мо жет иметь большое число дополнительных жанровых помет: ак ростих, баллада, басня, надпись, ода, пародия, песня, посвящение, послание, элегия, стихотворение в альбом, эпиграмма, эпитафия и др. Пьесы также делятся на трагедии, комедии, водевили и т. д. Из нестандартных «поджанров» стихотворных текстов отмечают ся «отрывок» (в случае незаконченного стихотворения или соот ветствующего авторского указания), «цикл» (если произведение является частью цикла) и «перевод» (в том числе и вольный). Что бы избежать многочисленных проблем, связанных с размытостью жанровых критериев, приписывание жанра тому или иному про изведению осуществляется, главным образом, на основе авторской экспликации его жанровой природы — например, как элегии поме чаются преимущественно те стихотворения xviii—xix вв., которые имеют авторский подзаголовок «элегия». Исключения составляют некоторые очевидные случаи, особенно характерные для поэзии классицизма (оды и послания xviii–начала xix вв., эпитафии, песни, акростихи и т. д.), когда жанровая принадлежность произведения имеет четкие формальные корреляты в самом стихотворном тексте. 1.5. Собственно стиховая разметка Одним из важнейших (и в настоящее время далеко не полностью изученных) параметров стиха является метр, поэтому метрической разметке в Корпусе уделено особое внимание; достаточно подроб ную разработку получают и другие формальные параметры стиха, тесно связанные с метром, — строфика, клаузула, рифма и др. Ниже каждый из этих параметров охарактеризован отдельно. 1.5.1. Метр В Корпусе определены все «стандартные» с и л л а б о - т о н и ч е с к и е 5 Сюда относятся все фильмы, основой которых послужили стихотворные драмы, например, «Собака на сене», «Гусарская баллада» и нек. др.
НКРЯ верстка4.indd 78
22/06/2009 17:47
Поэтический корпус
79
метры: ямб (Я; стопа 01), хорей (Х; 10), анапест (Ан; 001), амфиб рахий (Аф; 010), дактиль (Д; 100)6 . В Корпусе также предусмотрены специальные пометы для осо бых дополнительных типов силлабо-тонических метров: пеонов, пентонов и «гиперпентонов», которые, в общем случае, могут быть описаны через классический набор двух- и трехсложных метров. Пеоном называется метр на основе четырехсложных стоп. В за висимости от того, на какой слог приходится схемное ударение, раз личают пеон i (1000), ii (0100), iii (0010) или iv -й (0001). Строка двусложного метра может совпадать по форме с одним из пеонов, однако это остается фактом ритмики, а не метрики до тех пор, по ка всё стихотворение не написано таким образом; именно в этом случае в Корпусе указывается дополнительная помета «пеон N», где N — номер пеона. Другим типом силлабо-тонических метров являются метры с пятисложными стопами (пентоны; пятидольники в др. терми нологии). Пентоны, аналогично пеонам, могут иметь 5 вариантов в зависимости от расположения схемного ударения, но в Корпусе они представлены недифференцированно вследствие общей мар гинальности этой формы и частого смешения одних вариантов этой группы метров с другими7 . При всем сказанном, пентон iii довольно часто употребляется в поэзии xix в., особенно в творче стве А. Кольцова и его подражателей (не случайно другое назва ние этого варианта пентона — «кольцовский пятисложник»). В xx в. встречаются отдельные опыты использования других типов пен тона (в частности, у Г. Шенгели, Д. Андреева, Ю. Левитанского). В крайне редком случае, когда мы имеем дело с шестисложной (и более) стопой, стихотворение получает дополнительную поме ту гиперпентон. Опыты гиперпентонов единичны в русской поэзии (у того же Д. Андреева); часто этот метр смешивается с акцентным стихом, к которому тяготеет за счет увеличенных меж дуударных интервалов. В силлабо-тонических метрах могут наблюдаться перебои, т. е. отсутствие в некоторой стопе схемного ударения при наличии 6 «0» соответствует слабому месту стопы, «1» – сильному (о различии сильных и слабых мест подробнее см. ниже). 7 Примеры такого смешения приводятся, например, в [Квятковский 1966].
НКРЯ верстка4.indd 79
22/06/2009 17:47
80
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
в той же стопе сверхсхемного8 , как в оде А. Радищева «Вольность» (1783): «Престу´пник вла´сти, мно´ю да´нной! / Веща´й, злод´ей, мно´ю венча´нный...». В номенклатуре Корпуса принято, что перебои (если они не урегулированы) являются фактом ритма, а не метра, но в си лу их важности для восприятия стиха они отмечаются среди прочих так называемых «дополнительных параметров» стихотворения (см. ниже). Таким образом, единичный перебой может быть отмечен как признак, принципиальный для текста в целом. Несиллабо-тонические метры (с переменным слоговым объ емом меж дуиктовых интервалов) имеют помету т о н и ч е с к и й , вместе с которой указывается конкретный тип тонического метра: дольник (Дк), тактовик (Тк), акцентный стих (Ак), свободный стих (= верлибр; Вл), (стопный) логаэд (Л), гекзаметр (Гек) и пентаметр (Пен). Поскольку не все из этих терминов имеют в современном стиховедении единообразную трактовку, поясним, что имеется в виду (классификация тонических метров в основных чертах сов падает с той, что была предложена в работах М. Л. Гаспарова, напр. в [Гаспаров 2001]). Дольником называется метр, допускающий переменный между иктовый объем в 0 – 2 слога. В классической работе [Гаспаров 2001] предлагалось различать дольники «на трехсложной» (меж дуикто вые интервал 1 – 2 ) и «на двусложной» основах (меж дуиктовый интервал 0 – 1 ). В Корпусе эти два подтипа дольника объединены в один, обладающий «усредненной характеристикой» как первого, так и второго. Это обобщение оказалось необходимо, в частности, из-за наличия множества «переходных форм» меж ду первым и вто рым типом (см. подробнее также [Плунгян 2008]). Тем не менее сама возможность такой расширенной интерпретации следует из определения М. Л. Гаспаровым обоих этих типов как вариантов дольника. Вслед за М. Л. Гаспаровым мы относим гекзаметр к тонической метрике [Гаспаров 2001]. Русский гекзаметр — это шестииктный дольник с нулевой анакрусой, женской клаузулой и междуударны ми интервалами в 1 – 2 слога (в «расшатанных» гекзаметрах В. Жу ковского и А. Фета встречается и нулевой интервал). Пентаметр 8
Простое наличие сверхсхемного ударения в Корпусе специальным образом не отмечается.
НКРЯ верстка4.indd 80
22/06/2009 17:47
Поэтический корпус
81
употребляется практически только в элегическом дистихе. Он пред ставляет собой (вопреки названию) также 6-иктный дольник с ну левой анакрусой, но с мужским цезурным усечением после 3-го икта и мужской клаузулой. У гекзаметра и элегического дистиха (Гек6ж+Пен6м), как у наиболее семиотизированных метров, име ются т. н. «дериваты», т. е. метры, которые сохраняют с ними зна чительную формальную и семантическую общность, отличаясь при этом некоторыми параметрами [Гаспаров 1990]. Так, существует 6-иктный дольник с амфибрахической анакрусой (напр., «Циклоп» Н. Гнедича), 5-иктный дольник с нулевой анакрусой и женской клаузулой («Инвалид Горев» П. Катенина; генезису этого метра М. И. Шапир, именно его называвший «пентаметром», в своё вре мя посвятил объемную работу [Шапир 1994/2000]), и др. Такие тексты могут иметь помету «дериват гекзаметра», наряду с более конкретным указанием на их метрическую форму. Тактовик допускает переменные меж дуиктовые расстояния в 0 – 3 слога. Для акцентного стиха характерны неограниченные переменные междуиктовые расстояния. Разноиктный нерифмован ный акцентный стих по существу неотличим от свободного стиха,. Свободный стих (верлибр), тем самым, в Корпусе примыкает к тоническому стихосложению, так сказать, в «рабочем порядке»: к текстам, написанным свободным стихом, применяются те же ме тоды анализа, что и для тонических метров. Это позволяет авто матически фиксировать слоговый объем и количество иктов в по добных текстах, что представляется ценным для исследователя, так как создает базу для уточнения типологии форм свободного стиха9 . (Стопным) логаэдом называется метр, для которого характерно фиксированное расположение иктов и междуиктовых интервалов в строке (при этом в строке есть по крайней мере одна пара нерав ных интервалов, что отличает логаэды от регулярных силлабо-то нических размеров, пеонов и пентонов). Часто стопные логаэды выступают в регулярных сочетаниях с другими стопными логаэда ми или силлабо-тоническими метрами (как в имитациях античной лирики), образуя, таким образом, строчный логаэд. Под понятием стопного логаэда, таким образом, объед иняется потенциально от 9 Одна из таких типологий, выполненная задолго до начала работы над Корпусом, представлена, например, в книге [Орлицкий 2002].
НКРЯ верстка4.indd 81
22/06/2009 17:47
82
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
крытое множество метров; в Корпусе для каждого стопного логаэда приводится его метрическая формула и традиционное название (ес ли оно есть). Напр., стихотворение Ф. Сологуба «Не стоит ли кто за углом?..» получает разметку «логаэд 2*1*2*0» и формулу Л3м; звёз дочки означают ударные слоги, цифры в середине формулы — ме ждуударные интервалы, в начале — анакрусу, в конце — к лаузулу (если она постоянна). В случае «расшатанной» тонической метрики, т. е. тогда, ко гда стихотворение в целом написано одним тоническим метром, но имеет строки, которые не могут быть расценены как его рит мические варианты (например, тактовик в дольнике, акцент ный стих в тактовике и дольнике), присутствующие в стихотво рении метры указываются через запятую (например, «Аф, тони ческий | Дк, Тк» — данная запись означает, что в стихотворении имеются строки, написанные регулярным амфибрахием, а также строки тонических метров — дольника и тактовика). Отметим, что каж дой строке стихотворения, написанного тоническим метром, приписана ее ритмическая схема (Вхож´у я в те´мные хра ´мы — Дк3ж 1*1*2*1, Неожи´данный аквило´н — Дк3м 2*4*0). В ближайшем бу дущем это позволит организовать поиск по конкретным ритмиче ским формам строки, а не только по стихотворению в целом (со ответственно, подобные пометы будут «действовать» не на уровне метаразметки, а на уровне фрагментов текста). Отдельно рассматриваются с и л л а б и ч е с к и е м е т р ы (С), т. е. такие, мерой стиха в которых выступает непосредственно слог. В русской поэзии xvii — нач. xviii вв. до реформы ТредиаковскогоЛомоносова такие метры были крайне распространены (под поль ским влиянием), потом появлялись лишь спорадически. Известны позднейшие силлабические опыты С. Шервинского («Стихи об Ита лии»), А. Тарковского, А. Цветкова и др. авторов. В Корпусе в на стоящее время имеется небольшой массив ранней силлабической поэзии первой половины xviii в. (таких авторов, как А. Кантемир, ранний В. Тредиаковский). Перечисленные метры могут быть различным образом преобра зованы за счет т. н. цезурных эффектов. Напомним, что цезура — это «постоянный словораздел внутри строки, повторяющийся из сти ха в стих и облегчающий восприятие его ритма» [Гаспаров 2001].
НКРЯ верстка4.indd 82
22/06/2009 17:47
Поэтический корпус
83
Цезура становится метрическим фактором, когда на границе полу стиший, разделенных цезурой, слоги наращиваются (= цезурные наращения) либо, наоборот, усекаются (= цезурные усечения). Сам факт наличия цезурных эффектов отмечается как дополнительный параметр стихотворения; при это указывается «основной» метр, а формула с учетом цезурных эффектов фиксируется в поле «фор мула». Например, в девяностые годы xix в. вошел в моду четырех стопный ямб с цезурным наращением типа Я2ж~Я2жм, ранние образцы которого встречались еще у А. Сумарокова (первые опы ты у М. Лохвицкой, И. Анненского, Ф. Сологуба, З. Гиппиус и осо бенно у К. Бальмонта, которым наследуют И. Северянин и ранняя М. Цветаева; см. подробнее [Bailey 1971] и [Плунгян 2005]). Надо отметить, что цезурные эффекты наблюдаются далеко не только в силлабо-тонических стихотворениях: так, цезурное усечение яв ляется обязательным элементом элегического дистиха (в строке пентаметра)10 , встречается в некоторых дериватах гекзаметра [Гас паров 1990] и в некоторых типах дольника. В дальнейшем в Корпусе предполагается с помощью программ ных средств отмечать и регулярную цезуру, не сопровождающую ся метрическими эффектами на границах полустиший. Особенно важно это для тех размеров, в которых цезура становится фактом метра, а не ритма (александр ийский стих, цезурированный тип пя тистопного ямба, «классическая» русская силлабика xvii-xviii вв.). От всех перечисленных «регулярных» типов стиха в Корпусе отделен т. н. г е т е р о м е т р и ч е с к и й стих, который указывается в случае, если стихотворение написано нерегулярно чередующи мися строками различных силлабо-тонических метров, как дву сложных, так и трехсложных (может быть, с редкими вкрапления ми тонических строк). Такой тип устройства стихотворного текста в модернистской поэзии характерен, например, для В. Хлебникова и позднего А. Белого, но встречается также и у более ранних авто ров (например, у М. Лермонтова, Ф. Тютчева, А. Фета и Вяч. Ивано ва; ср. близкое понятие «гетероморфный стих» у Ю. Б. Орлицкого [2005]). Для каждого подобного текста эксплицитно указывается 10
Следует отметить интересный пример «переменных» цезурных эффектов в тоническом стихотворении Вяч. Иванова «Аттика и Гилея» (1908), обнаружен ный при работе над Корпусом.
НКРЯ верстка4.indd 83
22/06/2009 17:47
84
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
перечень метров, в нем встречающихся (напр., гетерометрия | Ан, Д, Х, Я). Пример гетерометрического стиха (Д. Самойлов): Х3ж : В первую неделю Д2ж : Остекленели Я2м : Глаза воды. Ан2ж : Во вторую неделю Д2ж : Закоченели Фактически под ярлыком гетерометрия в Корпусе объединяется целый спектр переходных метрических форм. Так, отрывок, приве денный в качестве примера, допускает, в принципе, и тоническую интерпретацию (Дк1,2ж,м с переменной анакрусой); большинство примеров гетерометрии из «коротких» (2 – 3 стопных) силлабо-тони ческих строк укладывается в формулу 2-иктного тактовика. Опре деленные подобным образом поздние тексты А. Белого стремятся, скорее, к свободному стиху, и гетерометрия в них возникает за счет малой длины строк (не случайно М. Л. Гаспаров [2001] определял подобные тексты А. Белого как «рифмованный свободный стих»). Применительно, в частности, к текстам В. Хлебникова М. Л. Гаспа ров первоначально предлагал говорить о так называемой «сверх микрополиметрии» (в отличие от просто «микрополиметрии» — не предсказуемого чередования не строк, а четверостиший разного метра, также широко представленного у Хлебникова или в т. н. «стихе Маяковского»), а М. И. Шапир [1997/2000] уже прямо ис пользовал для «версификационной структуры, в которой основным фактором ритма становится метрическая непредсказуемость каж дой следующей строки» слово «микрополиметрия», хотя подобная терминология, может быть, не совсем правомерно сближает этот тип текстов с «классической» полиметрией, которая имеет другую семиотику и прагматику. Впоследствии Гаспаров отказался от та кого сближения и назвал обсуж даемый тип стиха «смешанными метрами» [Гаспаров 2001: 134 – 135] и указал, что «термина для них пока нет». «Гетерометрия», как представляется, удачно заполняет эту лакуну. Формула гетерометрического стиха (параметр «формула», см. ниже) включает все метры, встречающиеся в стихотворении, пе
НКРЯ верстка4.indd 84
22/06/2009 17:47
Поэтический корпус
85
речисленные в алфавитном порядке. Например, для формулы при веденного отрывка — Ан2,Д2,Х3,Я2ж,м. Все перечисленные метры могут разными способами чередоваться в стихотворении. Естественным образом можно выделить регуляр ное и нерегулярное чередование, которые в Корпусе описываются по-разному. При этом существуют переходные формы, где глобаль ная регулярность сочетается с локальной нерегулярностью, и на оборот. В случае, когда наблюдается регулярное чередование разных сил лабо-тонических метров, параметр «метр» содержит все перечис ленные в алфавитном порядке через знак ‘+’ метры, участвующие в чередовании (представление об истинном порядке следования метров можно получить, обратившись к параметру «формула»). Случаи регулярного чередования различных метров называются строчными логаэдами [Гаспаров 2001]; в Корпусе предусмотрена возможность поиска по текстам такого типа, так как все они содер жат дополнительную помету «строчный логаэд». Отметим, что, вопреки распространенному заблуж дению, эле ментом строчного логаэда может быть не только силлабо-тониче ский, но и тонический и даже силлабический метр. Похожий круг явлений (с некоторыми оговорками) М. Л. Гаспаров объединял под названием расшатанного логаэда, однако в Корпусе это обозна чение не используется, так как объединяет по крайней мере три различных группы явлений: участие тонических метров в чередо вании с силлабо-тоническими и стопными логаэдами, единичные деформации схемы чередующегося стопного логаэда и смешанные виды чередований (см. ниже). Кроме регулярного чередования существует нерегулярное чере дование метров. Показателем нерегулярного чередования метров в Корпусе служит знак запятой (‘,’), через которую в алфавитном порядке перечисляются метры, встречающиеся в стихотворении. В Корпусе подобным образом оформляются несколько разно родных классов случаев: • Единичные отклонения от регулярного метра (напр., в массиве ямбов встречается отдельная хореическая строка). Для выде
НКРЯ верстка4.indd 85
22/06/2009 17:47
86
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
ления подобных случаев используется также дополнительная помета нарушения анакрусы. • Случаи (нерегулярной) переменной анакрусы (приписывается соответствующая дополнительная помета). Для силлабо-тони ки этот параметр используется в том случае, когда вступающие в чередование метры имеют одинаковое количество слогов в стопе — хорей и ямб, дактиль и анапест и т. д. (в противном случае, как правило, усматривается гетерометрия). Для тони ческих метров этот параметр является важным способом разгра ничения двух множеств тонических текстов — с постоянной или переменной анакрусой. Для гетерометрического стиха помета «переменная анакруса» не используется, так как переменный характер анакрусы является одним из необходимых условий его существования, возникая естественным образом при свободном чередовании метров разной природы. В случае, когда помета отсутствует и метр не гетерометрический, анакруса в стихотво рении постоянна. • Для тонических метров: присутствие в стихотворении строк, ритмически совпадающих с одним из силлабо-тонических мет ров (или с гекзаметром — наиболее семиотизированным тониче ским метром). Необходимо отметить, что подобные совпадения отмечаются только в том случае, если строки совпадают с пол ноударными формами известных силлабо-тонических метров11 . Это обстоятельство позволяет единообразно отображать число иктов в строке, не смешивая их со «стопностью» неполноудар ной ритмической формы некоторого силлабо-тонического мет ра (особенно это касается двусложных метров), в свою очередь, являющегося ритмической формой рассматриваемого тониче ского метра. Надо отметить, что во многих случаях (особенно в коротких тек стах) трудно установить границу меж ду переменной анакрусой и нарушением регулярной анакрусы. Для разрешения подобных конфликтов тексты, в которых отклонений от регулярности анак русы встречается меньше 25%, всегда получают помету «нарушения 11
Включая пеоны (= I Пе...IV Пе), которые в прочих случаях считаются рит мическими вариациями двусложных силлабо-тонических метров.
НКРЯ верстка4.indd 86
22/06/2009 17:47
Поэтический корпус
87
анакрусы». Подчеркнем техническую природу этого решения, тем не менее, широко распространенного в стиховедческой практике. Менее многочислен класс смешанных случаев, в которых наблю даются сочетания урегулированной и неурегулированной последо вательности метров. В качестве примера можно привести стихо творение И. Никитина «Песня бобыля» (1858), в нечетных строках которого наблюдается анапест, а в четных — свободное чередова ние хорея и амфибрахия (таким образом, формула стихотворения Ан2м+Аф2,Х3ж). В Корпусе чередования такого рода расценива ются как строчные логаэды. От различных типов чередований отделяется п о л и м е т р и я , т. е. ситуация, когда в произведении нерегулярно чередуются круп ные, метрически несоизмеримые строфические фрагменты. Ка ждый из таких фрагментов при этом описывается как отдельное произведение; при этом метрически несоизмеримые части произ ведения (= полиметрические фрагменты) разделяются знаком ‘#’, а всё произведение имеет дополнительную помету «полиметрия». В качестве примера приведем отрывок из «Песни радости» В. Бене диктова (перевод из Ф. Шиллера): Радость! Ты искра небес; ты божественна, Дочь Елисейских полей! Мы, упоенные, входим торжественно В область святыни твоей. Все, что разрознено светским дыханием, Вяжешь ты братства узлом; Люди там — братья, где ты над сознанием Легким повеешь крылом. Хор Всем — простертые объятья! Люди! Всех лобзаем вас. Там — над звездным сводом, братья, Должен быть отец у нас.
Метр этого текста будет описан как «Д # Х»; аналогично описывают ся остальные параметры произведения. Заметим, что полиметрия указывается не только в случае присутствия разных метров, но и в случае изменения других параметров стихотворения (стопности, строфики и т. д.). Напр., смена пятистопного ямба на четырехстоп
НКРЯ верстка4.indd 87
22/06/2009 17:47
88
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
ный будет обозначена как «5 # 4» (при сохранении всех прочих па раметров). С пометой полиметрия связана помета полиметрический фраг мент, обозначающая локальную (по сравнению с общим объемом произведения) вставку иной метрической структуры (например, «Песня девушек» в романе «Евгений Онегин» или «Стихи на добро детель Хлои» в поэме «Душенька» И. Богдановича). 1.5.2. Строфика и графическая строфика Строфа — это «группа стихов, объединенных каким-либо фор мальным признаком, повторяющимся периодически» [Гаспаров 2001]12 . Чаще всего таким признаком является рифма и/или клау зула, но могут быть использованы и другие параметры. Например, чередование клаузул не учитывается при определении строфики александрийского стиха, где это чередование существует в силу так называемого правила альтернанса [там же]: считается, что строфи ка александрийского стиха 2, а не 4, как можно было бы подумать, ориентируясь только на чередование клаузулы; точно так же в тек сте, написанном октавами при соблюдении правила альтернанса, с попеременным началом от мужского и женского стиха (как в «До мике в Коломне» Пушкина или у Л. Мея), параметр строфы имеет значение 8, а не 16. Если в стихотворении нет явно выраженного деления на строфы (т. е., например, имеется вольная или однородная клаузула и/или вольная рифмовка), то стихотворение считается астрофическим (помета «строфика 0»). В качестве значения параметра «строфика» для каж дого сти хотворного текста указывается длина строфы и ее традиционное обозначение (если оно существует): напр., «3 | терцина» или «8 | октава». 12
Данное определение строфы, возможно, не является формально безупречным (так, весьма темпераментная критика его содержится в работе [Шапир 2001/ 2000]), но для целей нашего изложения именно оно представляется наиболее простым и ясным. Заметим, впрочем, что в определение строфы, предлагаемое самим Шапиром, практически точно укладывается то, что называется в нашем корпусе «графической строфой»; параметры графической строфы в случае отличия от «периодической» строфики регулярно помечаются и доступны для поиска (см. ниже).
НКРЯ верстка4.indd 88
22/06/2009 17:47
Поэтический корпус
89
В Корпусе используются следующие терминологические обозна чения для строф: мон ос тих (целостное однострочное произведение, отличное от однострочного отрывка из гипотетически более крупного текста) алекс анд р ийс кий стих (Я6 с медианной цезурой и парной риф мовкой вида аа ББ вв ...) газ елл а (двустишия с рифмовкой аа ха ха ..., часто с редифом) нон а (9 строк вида абабаба вв) одич ес кая строф а (10 строк вида абаб ввгддг) окт ав а (8 строк вида абабаб вв) онег инс кая строф а (14 строк вида АбАб ВВгг Дее Д жж) сиц ил иан а (8 строк вида абабабаб) сон ет (14 строк вида абба абба ввг дгд или абба абба вггв дд или с иной схемой рифмовки); вен ок сон ет ов (совокупность 14-ти сонетов, последняя строка ка ждого из которых повторяется в первой строке следующего; из этих строк складывается 15-й сонет — магис трал). Поме та венок сонетов дается дополнительно при каждом сонете, входящем в венок (строфика: 14 | сонет | венок сонетов) деф орм ир ов анн ый сон ет (14 строк, воспроизводящих схему рифмовки сонета, но в нарушенном порядке, напр., абба бав ггв двдв) терц ин а (периоды из 3 строк вида аба бвб вгв г) триол ет (8 строк на две рифмы вида абаа абаб и др. схемами риф мовки; одинаковы строки 1,4,7 и 2,8) ронд ель (13 или 14 строк с рифмовкой абба абаб аббаа(б); одина ковы строки 1,7,13 и 2,8, (14)) ронд о (15 строк с рифмой аабба аббр ааббар, где р — рефрен; по рядок рифм нередко нарушается) руб аи (4 строки с рифмовкой ааха) балл ад а (8 строк рифмовки абаб бвбв или 10 строк рифмовки абабб ввгвг; последняя строка каж дой строфы повторяется как рефрен; три строфы на одни и те же рифмы; в зак люче нии баллады — полустрофа-посылка)13 . 13
Не путать с балладой как жанром эпического стихотворения (у Жуковского и далее); он помечается омонимичной пометой «баллада», но в поле «жанр».
НКРЯ верстка4.indd 89
22/06/2009 17:47
90
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
спенс ер ов а строф а (8 строк с рифмовкой абаббвбвв). сапф ич ес кая строф а (нерифмованный строчный логаэд из трех логаэдических строк вида 2*1*2*1*1 и четвертой зак лючи тельной строки 0*2*1, т. е. Д2ж). Пример (М. Волошин): Обнима´ет се´рдце поко´рность. Ти´хо... Мысли за´мира´ют. В сад´у масли´на Простира´ет ве´тви к слепо´му не´бу Же´стом рабы´ни...
алк еев а строф а (нерифмов анный строчный логаэд из двух строк вида 1*1*1*2*2, одной строки Я4ж и одной строки 0*2*2*1*1). Пример (С. Парнок): И впря´мь прекра´сен, ю´ноша стро´йный, ты: Два си´них со´лнца по´д бахромо´й ресниц, И ку´дри тё´мностру´йным ви´хрем, Ла´вра славн´ей, нежный ли´к венча´ют.
Строфы, образованные от традиционных строф, определяются как их дериваты. При этом получающиеся строфы должны сохранять существенное формальное сходство со своим прототипом. Дерива тивный характер строфики обозначается в дополнительных пара метрах произведения. Встречаются дериваты сонета, онегинской и одической строф, октавы, элегического дистиха. Для всех строф в дополнительных пометах фиксируется нали чие белой строки, т. е. регулярной нерифмующейся строки в схе ме со сложной рифмовкой (абаб х и т. п.). Список используемых в Корпусе строф открыт, и при обнаружении более редких типов, имеющих специальные терминологические обозначения, он по полняется. В случае, когда представлена регулярная или однократная ком бинация разных строф (напр., 4+3+2 — 4+3+2 — … или 4+3), строфика произведения определяется как сложная. В значитель ной части случаев это позволяет существенно упростить описа ние произведения. Особенно это касается песен, в которых куплет и припев (= рефрен) имеют разную строфическую структуру. При этом наличие рефрена отражается в дополнительных параметрах стихотворения. Там же отражается факт наличия редупликации, т. е. случай регулярного и предсказуемого совпадения либо одних
НКРЯ верстка4.indd 90
22/06/2009 17:47
Поэтический корпус
91
и тех же строк полностью («Я люблю кровавый бой, / Я рождён для службы царской! / Сабля, водка, конь гусарской — / С вами век мне золотой! / Я люблю кровавый бой, / Я рождён для службы царской!», где после каждого катрена повторяются первые две его строки), ли бо части строки, не содержащей рифмы («Слыхали ль вы за рощей глас ночной Слыхали ль вы? Встречали ль вы? Вздохнули ль вы?..»). В Корпусе предусмотрено описание нескольких типов нарушения регулярной строфики. Так, в дополнительных параметрах произве дения отражается факт наличия усеченной строки (т. е. более ко роткой, чаще всего финальной, строки без рифмы), как «Но если...» в стихотворении А. Пушкина «Ненастный день потух...». Холостая строка, т. е. одиночная, часто конечная строка, лишенная рифмы при наличии регулярной рифмовки, также отмечается в дополни тельных пометах. Там же отмечается наличие коды, т. е. одиночной заключительной строки сверх строфической схемы (пятая строка в стихотворении, написанном катренами; 15-я строка в сонете, чаще всего называющаяся кодой традиционно, и т. д.). Остальные случаи объединяются как нарушения строфики в дополнительных пометах к произведению (например, в пушкинском «Домике в Коломне», написанном октавами, кульминационная строфа, описывающая бегство «кухарки», содержит 7 строк). Отдельно описывается графическое членение стихотворения (с помощью пробельных строк и других приемов). Этот параметр, называемый «графическая строфика», становится особенно важ ным при обращении к свободному стиху, где графическая строфа (строфоид в данном контексте) является основным способом чле нения текста на отрезки более крупные, чем строки. Но и в других случаях несовпадение «структурной» и графической строфики мо жет быть важной формальной особенностью стиха. Он принимает следующие значения: • мнимая проза — случай типа «Песни о буревестнике» М. Горько го, многих текстов И. Эренбурга или М. Шкапской (в современ ной поэзии этот прием встречается чаще), когда в регулярном, в том числе рифмованном, стихе отсутствует графическая раз бивка на строки;
НКРЯ верстка4.indd 91
22/06/2009 17:47
92
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
• парцеллированная строфика имеет место, если строки регуляр ного стиха графически разбиты на меньшие отрезки (включая так наз. «лесенку»); • графическая строфика 0 указывается, если пробельные строки отсутствуют; • графическая строфика вида N или N+M указывается, если про бельные строки разбивают стихотворение на регулярные отрез ки, не совпадающие с собственно строфами; • вольная графическая строфика наблюдается, если пробельные строки есть, но их распределение нерегулярно. Если распределение пробельных строк совпадает с делением на обычные строфы (как в большинстве случаев), параметр «гра фическая строфика» не определяется. 1.5.3. Клаузула Клаузула — это «группа зак лючительных слогов в стихе, начиная с последнего ударного14 слога» [Квятковский 1966]. В Корпусе клау зулы обозначаются следующим образом: м — мужская (сир´ень; 0 послеударных слогов) ж — женская (сир´ени; 1 послеударный слог) д — дактилическая (сир´еневый; 2 послеударных слога) г — гипердактилическая (сир´еневая; 3 и более послеударных слога) Если чередование клаузул регулярное и на протяжении произведе ния не нарушается нигде, то в параметре «клаузула» указывается один цикл клаузулы (в общем случае строфа, но в случаях, когда соседние строфы имеют разную клаузулу в силу правила альтер нанса — две строфы). Выглядит это следующим образом: «клаузула регулярная | мддм» (или «ммжж», или «жжм жжжм», и т. п.) Если в чередованиях клаузул нет закономерности, клаузула все го произведения считается вольной и оформляется: «клаузула воль ная | ж, м» (или «г, д, ж, м» и т. п.). 14
Точнее, сильного – но случаи безударного последнего икта в русской поэзии маргинальны, хотя и существуют, порождая, в частности, некоторые типы разноударной рифмы (ср. наблюдения в [Шапир 1990/2000: 96-97] и [Гаспаров 2001: 70-72].
НКРЯ верстка4.indd 92
22/06/2009 17:47
Поэтический корпус
93
1.5.4. Рифма Если стихотворение нерифмованное, параметр «рифма» (в данном контексте эквивалентный понятию «схема рифмовки») принима ет значение 0. Если рифмовка регулярная, то указывается ее тип и схема, где рифмующиеся строки обозначаются русскими буквами по порядку с начала алфавита. При этом разным рифмам соответ ствуют разные буквы русского алфавита, напр., абба вгг вдд. Обо значение мужских строчными букв ами, а женских и (гипер)дакти лических — заглавными (по типу аБаБ) в Корпусе не практикуется, т.к. эта информация задается параметром «клаузула» (см. выше). Корпус использует стандартную номенклатуру схем рифмовки: мон ор им (одна рифма на всё стихотворение). пер ек рес тн ая | абаб или абабаб, и т. д. парн ая | аа тройн ая | ааа скольз ящ ая | абв абв или абвг абвг, и т. п. охв атн ая | абба четн ая | хаха неч етн ая | ахах зат ян ут ая | абааб или аббаб или аабаб, и т. п. (т. е. любая пя тистрочная строфа на две рифмы) • цепн ая | аабв ббгв ггде ддже или абав бвбг вгвд…, т. е. случай, когда рифма соединяет каж дую строфу со следующей (не толь ко попарно, как, например, в скользящей рифмовке). Подобная схема рифмовки наблюдается преж де всего в терцинах (аба бвб вгв…), но встречается также и в строфах другого строения. • Два случая нерегулярных рифм: ϲ ϲ спор ад ич ес кая (рифмуются только некоторые строки, при чем нерегулярным образом). ϲ ϲ вольн ая (используются разные виды рифмовки, но в нере гулярном чередовании).
• • • • • • • • •
Регулярная схема рифмовки, для которой не выработано специаль ное обозначение, определяется как «сложная»: • сложн ая | абабаб вввб или абаб вбв, и т. п.
НКРЯ верстка4.indd 93
22/06/2009 17:47
94
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
Именно этот тип в основном и обеспечивает разнообразие схем рифмовок в Корпусе. Кроме обозначения схемы рифмовки в Корпусе предусмотрена фиксация качества некоторых разновидностей рифм, имеющих «маркированное» употребление в русской поэзии: • При тавторифме внешний облик рифмующихся слов полностью совпадает (при регулярном полном совпадении строк или их начал усматривается редупликация; см. выше). • При омонимической рифме внешний облик рифмующихся слов совпадает, но отличаются их грамматические характеристики: дали V, praet., pl. ~ дали N, acc., pl. (как у Ф. Сологуба в стихотворении «Мне боги праведные дали...»). • Монотонная рифма повторяется во всех строфах стихотворения («Двадцать две рифмы» А. Сумарокова). Также этот параметр всегда определен для такой полутвердой формы, как газелла. • Внутренняя рифма отмечается при наличии регулярной внут ренней рифмы, т. е. рифмы, затрагивающей разделенные цезу рой полустишия; ср. «Но в заветной броне | он сидит на коне...». • Отмечается разноударная рифма типа я´рко ~ я´блоко. • При составной рифме со словом рифмуется сочетание знамена тельных слов, типа Полюстрова ~ полюсь, трава (Л. Мей). • Ассонансом (в узком смысле) называется рифма с совпадением ударных гласных и различием опорных согласных типа тебе ~ росе, сирени ~ метели. • Диссонансом — рифма с совпадением опорных согласных и раз личием ударных гласных типа ночь ~ туч, сирени ~ герани. • Корневая рифма — это рифма, предполагающая созвучие преду дарных звуков слова типа го´ре ~ го ´ло с ~ го´да и отсутствие или ослабление созвучия заударных. Такой тип рифмовки наиболее характерен для поэзии 1950 – 7 0-х гг. • Отмечается очень редкий случай начальной рифмы, т. е. такой, при которой рифмуются начальные слова строк, напр.: «Верили мы в неверное, / Мерили мир любовию...» (З. Гиппиус).
НКРЯ верстка4.indd 94
22/06/2009 17:47
Поэтический корпус
95
1.5.5. Мера стиха В Корпусе принимается, что тексты, относящиеся к разным систе мам стихосложения, имеют разные меры стихотворных строк. Для силлабической системы мерой строки выступает слог, для тонической — икт (сильное место в стихе, чаще всего совпадающее с ударением), для силлабо-тонической системы мерой выступает стопа, которую можно неформально определить как множество слогов с фиксированной позицией для икта15 . Независимо от характера мер стиха в Корпусе различаются три возможных случая организации их последовательности внутри сти хотворения: • Если все произведение написано с количественно постоянной мерой, то оно характеризуется числом мер в строке. Напр., сти хотворение А. Пушкина «Я помню чудное мгновенье…» имеет меру (стопность) — 4, сатиры А. Кантемира меру (число сло гов) — 13, а стихотворение А. Блока «Вхожу я в темные храмы...» меру (число иктов) — 3. • Если стихотворение написано постоянным N-мерным размером, но содержит строки, написанные M-мерным размером, количе ство которых мало по сравнению с длиной всего стихотворения, то это отмечается специальным образом. Напр., для четверости шия Пушкина «В нем пунша и войны кипит всегдашний жар, / На Марсовых полях он грозный был воитель, / Друзьям он вер ный друг, красавицам мучитель, / И всюду он гусар» мера (стоп ность) определяется как 6(3). Если в тексте (особенно в поэмах и длинных стихотворениях) встречается несколько подобных отклонений от «основной» меры N, то это оформляется в виде N(M,K). • Мера считается регулярной, если чередование строк, имеющих количественно разную меру, имеет закономерный характер. Напр., баллада В. Жуковского «Светлана» («Раз в крещенский вечерок/Девушки гадали…») имеет регулярную меру (стоп ность) 4+3. • Мера считается вольной, если стихотворение написано с коли 15 Более обстоятельно теория мер стиха изложена в первом разделе книги [Шапир 2000].
НКРЯ верстка4.indd 95
22/06/2009 17:47
96
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
чественно переменными мерами длиной N1,N2, ... Ni. Например, для стихотворения Пушкина «Погасло дневное светило...» мера (стопность) считается вольной (4,5,6); практически всегда воль ная мера наблюдается в свободном стихе. • Мера 0 указывается в тех (относительно редких в Корпусе) слу чаях, когда конкретное значение меры определить невозможно (недописанные отрывки и т. п.). 1.5.6. Формула Формула стихотворения представляет собой компактное обозна чение основных параметров стихотворения: метр, количество мер в строке и тип клаузулы. Формула позволяет быстро найти тексты, написанные одним размером, т. е. имеющие один и тот же метр и одинаковое количество мер в строке. Формула имеет следующий вид: метр, число мер, клаузула Например: Я5м — пятистопный ямб с мужской клаузулой. Если в тексте наблюдается регулярное чередование строк раз ных типов, то формула стихотворения представляет собой форму лы строк, соединенные знаком ‘+’, напр.: Я5м+Я3ж, Аф3ж+Ан2м и т. д. Если регулярного чередования нет, то формулы строк разделя ются запятой: Я5,6мж (= вольный ямб с регулярной клаузулой), Я5,6ж,м или Я3,Я5,Я6ж,м (= вольный ямб с вольной клаузулой), Ан4,Аф4ж,м и т. п. Сложные чередования клаузул отображаются в формуле в сокра щенном виде. Напр., Я5 с клаузулой жммж жжмм жмж мжм (сонет нестандартной схемы с начальной последовательностью клаузул жм) будет отображаться в формуле как Я5жм, а Ан4 с клаузулой мжжжжжжжжжм — Ан4мж...жм. Формула позволяет представить в обобщенном виде наиболее важные структурные параметры стихотворения, что во многих случаях может облегчить исследователю поиск необходимого ма териала. Формула указывается не только для стихотворения в целом (на уровне метаразметки), но и для всех строк. В ближайшей перспек
НКРЯ верстка4.indd 96
22/06/2009 17:47
Поэтический корпус
97
тиве эта информация будет доступна для поиска (иными словами, пользователь сможет получить все строки Я5, а не все стихотворе ния, где такие строки есть — пусть даже наряду с Я4 или Х5). 1.5.7. Зона рифмовки В рифмованных произведениях в Корпусе выделяется так называе мая зона рифмовки. Левая граница зоны рифмовки — последний сло вораздел перед последним иктом в строке, правая — конец строки (то есть это клаузула, расширенная до ближайшего словораздела): Я мира не узнал в отливе их |сия`нья – Казалось, предо мной открылся мир |чуд`ес; `нья Он их лучами цвел; и блеск всего |созда Был отсвет образов, светивших мне с |неб`ес. А. Одоевский
В этой строфе в зону рифмовки попадают словоформы сиянья / чу дес / созданья / небес. Специально отметим, что в Корпусе предусмотрен поиск (лек сический и/или морфологический и/или семантический) только внутри зоны рифмовки, что позволяет получать интересные лин гвистические результаты (см. ниже) и исследовать русскую рифму как в синхронном, так и в диахроническом аспекте. 1.5.8. Икты (сильные места) В зависимости от того, какой метр приписан данному произведе нию, с учетом типа клаузулы, в каждой строке силлабо-тонического произведения автоматически с помощью знака грависа (`) разме чаются сильные места (икты): Наш жу`рнали`ст себ`е промы`слил по`пуга`я, `й, птен`ец родно `го кра `я, Он до`моро`щенны `, как по `пуга`и вру `т: Он вре`т не зна`я что `т замо`рского` туз`емца о`тлича`я, Но о `пинько`й зов`ут. Его` не По`пинько`й, а Пы П.Вяземский
Знак грависа был выбран по следующим причинам: 1) в нормаль ном случае ударение в слове всегда совпадает с сильной долей, но сильная доля не обязательно совпадает с ударением, поэтому обо значение сильных долей в стихе с помощью стандартного знака
НКРЯ верстка4.indd 97
22/06/2009 17:47
98
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
ударения (акута) дезориентировало бы исследователя; 2) гравис позволяет различить те случаи, когда автор (издатель) стихотвор ного произведения по тем или иным причинам обозначает в сти хотворении ударность того или иного слова, от расставленных раз работчиками Корпуса обозначений иктов: `рвый”: тру `бный гла`с, гром пу `шек, ба`раба`ны, “Акт пе Крова`вая` война`, сраж`енье, во`пли, ра`ны... Вдали` кладби`ще, го`шпита`ль... `ждь, гроза`, растре`панна` печа`ль “Второ`й акт”: до `не бе`гае`т и во `дит за` собо`ю По сце `лода` с сестри `цею` чумо`й... Своя`чка го П.Вяземский
Безусловно, гравис как обозначение икта имеет тот серьезный не достаток, что обычно в лингвистических работах он обозначает по бочное ударение (кроме того, в русских поэтических текстах встре чаются иноязычные слова с орфографическим грависом, которые тоже несут на себе икты русского стиха — Не распеваешь: Ma dov’è [Пушкин], где слог ma — не требующий орфографического грави са в итальянском — попадает под сильное место ямба так же, как и слог –v’è). Но поскольку в поэтических текстах побочное ударение не обозначается, разработчики Корпуса сочли для себя возможным пойти на нарушение этого узуса. 2. Типы лингвистических задач, которые можно ставить и решать на материале Корпуса 2.1. История русского ударения Как известно, расстановка сильных долей в стихе может косвенно свидетельствовать о современных автору акцентологических нор мах. Именно поэтому исследователи русского ударения в этих целях широко используют материалы, предоставляемые русской поэзией (это фактически основная область, в которой показания поэтиче ских текстов давно и систематически привлекаются в лингвистике). Поэтический корпус дает возможность заниматься этой проблемой целенаправленно, минимизируя затрачиваемые усилия. Приведем пример такого использования поэтического корпуса. Возьмем для иллюстрации слово счастливый. Согласно словарям (см. [Зализняк 2003] и др.), современное ударение здесь таково:
НКРЯ верстка4.indd 98
22/06/2009 17:47
Поэтический корпус
99
• полная форма — ударение суффиксальное (счастли´вый) • краткая форма — ударение корневое (сча´стлив) и допустимо ударение суффиксальное (счастли ´в), но суффиксальное ударе ние воспринимается как устаревшее. Согласно историко-акцентологическим исследованиям (см. [Зализ няк 1985]), п е р в о н а ч а л ь н а я с и с т е м а у д а р е н и я здесь была такова: и в полном прилагательном, и в кратком ударение было корневым: сча´стливый (как уча´стливый), сча´стлив (как уча´стлив). Позже, однако, произошло опрощение основы, она стала вос приниматься не как приставочно-корневой комплекс (с- + част-), а как первичный корень (счаст-), в результате ударение, согласно законам русской акцентологии, стало падать на суффикс ‑лив- (как в говорли ´вый, бережли ´вый и под.). В результате возникла новая система ударения (и в краткой, и в полной формах): счастли´вый, счастли´в. Таким образом, теоретически существуют четыре возможные ак центологические пары. Формы
Современная система
?
Полная Краткая
cчастли´вый cча´стлив
сча´стливый счастли´в
Первоначаль Новая система ная система = современная устаревающая система сча´стливый счастли´вый сча´стлив счастли´в
Анализ материала, представленного в Корпусе, показывает, что в первой половине xix века реально зафиксировано функциони рование двух систем ударений: 1) новой (счастли ´вый/счастли ´в) и 2) современной (счастли´вый/сча´стлив). Таким образом, две системы, в которых вместо нового ударения счастли ´вый употребляется старое ударение сча ´стливый, в xix веке уже неактуальны. Обратим внимание на тот факт, что то распределение ударений, которое мы назвали н о в ы м , совпадает с распределением ударе ний, которое в современном языке считается у с т а р е в ш и м . Налицо некоторое противоречие: казалось бы, новая система ударений (счастли ´вый/счастли ´в), возникшая в результате распа да старой системы (сча ´стливый/сча ´стлив), и должна восприни
НКРЯ верстка4.indd 99
22/06/2009 17:47
100
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
маться как современная. Она же, напротив, воспринимается как устаревшая. Как известно, в случае, если в какой-то точке акцентологической системы имеет место реальное колебание ударения, у пользовате лей языка появляется потребность каким-то образом мотивировать различие в ударении одной и той же формы, приписать разным ударениям тот или иной смысл — грамматический, синтаксический, семантический, стилистический или какой-то иной. При этом син таксические функции кратких и полных прилагательных в русском языке настолько различны, что язык при малейшей возможности использует акцентологические средства для подчеркивания этих различий, что, очевидно, приводит к возникновению мотивиро ванности акцентологического противопоставления. Суффиксальное ударение полного прилагательного счастли ´вый в начале xix века, как видим, уже победило, поэтому за кратким прилагательным стало закрепл яться корневое ударение сча´стлив, что позволило максимально акцентологически подчеркнуть суще ствующее синтаксическое противопоставление полного и краткого прилагательного. Объяснить, почему новая система ударений стала восприни маться в современном языке как устаревшая (или устаревающая) поможет схема распределения новой и современной схем ударения по поэтам первой половины xix века: современная схема
Ершов
Лермонтов
Ростопчина
Бенедиктов
Веневитинов
Полежаев
Языков
Тютчев
Баратынский
Пушкин
Дельвиг
Вяземский
Батюшков
Давыдов
Хвостов
новая схема
Рис. 1. Распределение новой и современной схем ударения по поэтам первой половины xix в.
НКРЯ верстка4.indd 100
22/06/2009 17:48
Поэтический корпус
101
На приведенной схеме можно видеть, что поэты, родившиеся в 18 веке (Д. Хвостов, К. Батюшков, П. Вяземский), используют новую систему ударения (счастли´вый/счастли´в). Анализ словоупотреб лений в баснях И. Крылова показывает, что он тоже предпочитал новую систему счастли´вый/счастли´в. А уже А. Дельвиг, А. Пушкин, Е. Баратынский, родившиеся в са мом конце xviii века, демонстрируют нам вполне оформленную современную систему ударений с противопоставлением краткого и полного прилагательного (счастли´вый/сча´стлив). Поскольку именно творчество А. Пушкина и поэтов пушкинско го поколения повлияло на формирование современного русского литературного языка, то в результате такого распределения систем ударения по поэтам н о в а я система (счастли ´вый/счастли ´в) на чинает восприниматься как с т а р а я , характерная для xviii века, а система счастли´вый/сча´стлив используется как стилистически никак не отмеченная, нейтральная. Что это так, доказывает правая часть схемы, где мы видим чет кое разделение поэтов на две группы — с одной стороны, те, кто пользуется современной системой ударений (А. Полежаев, В. Бе недиктов, Е. Ростопчина, М. Лермонтов), с другой стороны, те, кто склонен использовать новую систему, которая в данный момент уже воспринимается как старая, архаичная, — Ф. Тютчев, Н. Языков, Д. Веневитинов, П. Ершов, т. е. поэты, известные как архаисты, или стилизующиеся под архаику. Таким образом, уже для Ф. Тютчева и Н. Языкова новая систе ма, предпочитаемая и совершенно нейтральная для Д. Хвостова, И. Крылова, К. Батюшкова и П. Вяземского, становится средством стилизации «под старину», и аналогичным образом воспринима ется и сегодня. Другой пример использования Корпуса для сходных нужд пунк тирно изложен в работе [Корчагин 2008]16 . 2.2. История русского произношения Как уже упоминалось выше, разметка в Корпусе зоны рифмовки по зволяет пользователям Корпуса производить семантические, мор 16 Ср. также статью Е. А. Гришиной об акцентологическом корпусе в настоящем сборнике.
НКРЯ верстка4.indd 101
22/06/2009 17:48
102
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
фологические, лексикологические и акцентологические исследова ния — как собственно русской рифмы, так и русского языка в целом. Помимо названных разделов лингвистики, зона рифмовки может быть использована для исследования истории русского произно шения. Например, мы можем проанализировать, как складывалась история произношения ударного суффикса страдательных причас тий прошедшего времени ённый/енный и ён/ен. Априори представляется, что закономерность здесь должна быть простая — чем позднее написано произведение, тем чаще должен встречаться современный вариант ённый/ён, а не более «старый» вариант енный/ен. Анализ причастий, попавших в зону рифмовки, показывает, од нако, совсем другую закономерность. Выясняется, преж де всего, что для выбора между ё и е важно, краткое причастие или полное:
100
50
краткое причастие
0
полное причастие
е ё
Рис. 2. Распределение е/ё в зоне рифмовки для кратких и полных причастий
НКРЯ верстка4.indd 102
22/06/2009 17:48
103
Поэтический корпус
Как видим, ситуация в распределении ё/е по полным и кратким причастиям фактически зеркальная. В п о л н ы х п р и ч а с т и я х на 167 примеров рифмы типа бесценный/охлажденный прихо дится только 5 точных примеров противоположной рифмы. Для к р а т к и х п р и ч а с т и й ситуация обратная: на 102 случая рифмы типа занесён/сон приходится только 4 случая противоположной рифмы. Представляется сомнительным, чтобы такая система распреде ления е и ё по полным и кратким причастиям в стихотворной речи отражала реальное произношение. Скорее мы имеем дело с поэти ческо-прозаической диглоссией, когда для языка поэзии выбира ется «возвышенный» (ориентированный на церковнославянский) вариант произношения с -енный, а в обыденной прозе мы в этой же точке, скорее всего, имеем дело с обыкновенным ‑ённый. Форма
Сфера
Полная форма Потенциально поэтическая форма Краткая форма Прозаическая форма
Поэзия
Проза
‑енный
‑ённый
‑ён
‑ён
Обратим внимание, однако, на тот факт, что эта диглоссия затраги вала не все варьирующие точки системы, а лишь избранные: крат кие причастия на -ен, по-видимому, в большинстве случаев не вос принимаются как несущие специфически «возвышенную» нагрузку, и поэтому для них и в стихах характерно прозаическое произноше ние ‑ён, а не ‑ен (подробнее о соотношении форм на -енный/-ен см. в работе [Бернштейн 1922:333, 340–341]). 2.3. История русской лексики Уже на нынешнем этапе, хотя поэтический корпус пока еще очень невелик, можно сделать ряд интересных наблюдений над тем, как одни и те же процессы протекают в поэзии и в прозе. Так, напри мер, продолжая разговор о поэтическо-прозаической диглоссии, которая была упомянута в предыдущем параграфе, мы могли бы ис следовать использование пары корней хлад- (церковнославянского,
НКРЯ верстка4.indd 103
22/06/2009 17:48
104
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
неполногласного) и холод- (восточнославянского, полногласного) в поэзии и прозе xix века. Для наглядности расположим получен ный материал на рисунке 3. 120%
100%
холодный: проза 80%
холодный: поэзия
60%
хладный: поэзия
40%
20%
хладный: проза 0% 1750–1809
1810 –1819
1820 –1829
1830 –1839
1840 –1849
1850 –1869
Рис. 3. Распределение «хладный/холодный» для поэзии и прозы
Как видим, для xviii века и для первого десятилетия xix века ха рактерна практическая взаимозаменяемость этих корней, как в по эзии, так и в прозе, то есть выражение типа хладная могила было характерно как для поэзии, так и для прозы, и это же верно для выражения холодная могила. В следующее десятилетие, 1810 – 1819, мы наблюдаем полярные отношения между языком поэзии и языком прозы в этой точке лек сической системы: для прозы характерно словосочетание холод ная могила, а для поэзии — хладная могила. Именно в этот период поэтическо-прозаическая диглоссия для пары хладный/холодный достигает своего максимума. Диглоссия сохраняется и в следующем десятилетии, 1820 – 1829, но выглядит она уже немного по-другому: в прозе практически окончательно утверж дается прилагательное холодный, а хладный сохраняется в стихотворных цитатах, стилизациях под поэтиче
НКРЯ верстка4.indd 104
22/06/2009 17:48
Поэтический корпус
105
скую речь, религиозных и богословских текстах и в устойчивых выражениях типа гладен и хладен, гладок и хладен, и эта ситуация сохраняется и поныне. Что касается поэзии, то она возвращается, по сути, к ситуации xviii — начала xix века, когда выражения хладная могила и хо лодная могила были практически равнозначны и в равной степени частотны, и выбор меж ду ними осуществлялся, по-видимому, в со ответствии с требованиями стихотворного размера или рифмы. Начиная с 30-х годов xix века поэзия повторяет путь прозы, т. е. количество выражений типа хладная могила неуклонного падает, и, соотв етс тв енно, возрастает количес тв о выражений типа холодная могила, однако обратим внимание на то, что рас хож дение меж ду этими двумя ветвями в поэзии гораздо более плавное, чем в прозе, и даже в конце 60-х годов xix века уровень использования в поэзии прилагательного хладный существенно выше прозаического. Из рассмотренных данных становится очевидным, что любые лексикологические заключения по языку xix века должны делаться с поправкой на то, для какого типа речи они верны, — для поэзии или для прозы. 3. Примеры стиховедческих задач, которые можно решать при помощи Корпуса Как уже было сказано, поэтический корпус является инструмен том, предназначенным для изучения не только русского языка, но и русского стиха. Подавляющее большинство задач, актуальных для современного стиховедения, с помощью Корпуса можно решать эффективно и быстро: во многих случаях получение примеров с за данными свойствами, на сбор которых традиционными методами нужно затратить не один день работы, оказывается возможным буквально за секунды; в других случаях использование Корпуса по крайней мере существенно упрощает процедуру получения нуж ных примеров. Ниже будут — сугубо в иллюстративных целях — рассмотрены некоторые возможности использования Корпуса в актуальных для современного стиховедения областях.
НКРЯ верстка4.indd 105
22/06/2009 17:48
106
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
3.1. Синтаксис строки и словораздельные вариации размеров Так называемые ритмико-синтаксические клише — это обусловлен ные ритмическим словарём русского языка (и в частности, русского поэтического языка) типовые синтаксические (и часто лексические) структуры стихотворной строки сходного метра, ритма и словораз дельных вариаций [Гаспаров, Скулачёва 2004: 202 – 2 25]. М. Л. Гас паров, предложивший этот термин, исследовал 4-ст. ямб «Евгения Онегина» («штампы» и «самоповторы» у Пушкина отмечали ещё в 1920-е такие разные люди, как О. М. Брик и В. Ф. Ходасевич) и 3-ст. хорей крестьянских поэтов xix века (Вот моя деревня, вот мой дом родной); единообразие получившегося материала весьма примеча тельно. Корпус позволяет быстро находить строки с одинаковым частеречным наполнением и исследовать типовой синтаксис таких строк, их словораздельные вариации и выявлять подобные клише. Вот строчки 3-ст. амфибрахия (для простоты берём трёхсложный размер, для которого не стоит проблема ритма)17 с частеречным составом A A S, которые мы приводим по словораздельным вариа циям (указано число слогов в слове, в последнем слове счёт ведётся до ударной константы), а внутри вариаций группируя по морфо логическим и лексическим совпадениям. Заметна однотипность многих строк с одинаковыми словораздельными вариациями, есть лексические совпадения на одинаковых (звуки у Лермонтова и Мея, рыбачьих у Мея и Толстого, светлая у Бенедиктова и Толстого, мир ное у Мея и Бунина) или смежных позициях в одинаковой вариации (житейский у Вяземского и Ершова); любопытны множественные синтаксические и словесные автореминисценции у Бунина. Есть и семантические переклички внутри одинаковых словораздельных вариаций; насколько они случайны, а насколько диктуются тра дицией — покажут дальнейшие исследования, в том числе после пополнения Корпуса. 17
Ряд клишированных строк 3-стопного амфибрахия с иным синтаксисом приводится в соответствующей главе [Гаспаров 2000] (зачины эпики типа По русскому славному царству, с. 124–125, строки типа Шумело Эгейское море, с. 128, типа Я вспомнил…, с. 133–134, типа Мне снилось…, с. 135–136, ср. также не основанный на синтаксических стереотипах, но не менее блестящий «роман тический» центон из позднесоветских поэтов, с. 147–148).
НКРЯ верстка4.indd 106
22/06/2009 17:48
Поэтический корпус
107
3 – 3 –2 Волшебный, картинный надрез [Бенедиктов В. Г. Люцерн («Дыша безмятежно и мерно...») (1858)] Родные, святые мечты! [Толстой А. К. Богатырь («По русскому слав ному царству...») (1849?)] И вечный, напрасный упрек… [Ростопчина Е. П. Последнее слово («Сияет торжественно зала...») (1838.04.24)] И серый походный сюртук. [Лермонтов М. Ю. Воздушный корабль («По синим волнам океана...») (1840)] Он в теплых, высоких галошах [Толстой А. К. / Козьма Прутков (Подражание Гейне) («На взморье, у самой заставы...») (1854?)] На мягкой пуховой постели, [Лермонтов М. Ю. Тамара («В глубокой теснине Дарьяла...») (1841)] В убогой рыбачьей лачужке [Мей Л. А. «В убогой рыбачьей лачуж ке...» (1861)] Вдоль мокрых рыбачьих сетей [Толстой А. К. «По гребле неровной и тряской...» (1840 – 1849)] Житейской мятежной пучины.. [Ершов П. П. В. А. Андронникову («Ты просишь на память стихов...») (1860)] И прочих житейских невзгод; [Вяземский П. А. Хорошие люди, 3 («Есть в людях сословье и третье...») (1862?)] Но звонкой весенней слюдою [Бунин И. А. Диза («Вечернее зимнее солнце...») (1903?)] И ясно речное стекло. [Бунин И. А. На Днепре («За мирным Днепром, за горами...») (1896)] Да мило кривое окно. [Бунин И. А. При дороге («Окно по ночам го лубое...») (1911.01.28)] 4 – 3 –1 И странные, дикие звуки [Лермонтов М. Ю. Тамара («В глубокой теснине Дарьяла...») (1841)] И тихие, тихие звуки [Мей Л. А. «Когда ты, склонясь над роялью...» (1844)] И многие светлые мысли. [Толстой А. К. «Дождя отшумевшего кап ли...» (1840 – 1849)] Да крупные бурые ноги [Бунин И. А. Михаил («Архангел в сияющих
НКРЯ верстка4.indd 107
22/06/2009 17:48
108
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
латах...») (1919.09.13)] Прозрачные тонкие пальцы. [Бунин И. А. Диза («Вечернее зимнее солнце...») (1903?)] От жидкого майского блеска [Анненский И. Ф. Просвет («Ни зноя, ни гама, ни плеска...») (1906.05.17?)] Июньская светлая — диво! [Бенедиктов В. Г. Светлые ночи («Не всето на севере худо...») (1860)] И стройное, мирное племя [Мей Л. А. «В убогой рыбачьей лачуж ке...» (1861)] Далекое, мирное счастье! [Бунин И. А. На Днепре («За мирным Днепром, за горами...») (1896)] По русскому славному царству [Толстой А. К. Богатырь («По русско му славному царству...») (1849?) Презренного, дикого века [Бунин И. А. «Мы сели у печки в прихо жей...» (1917.09.30)] Вечернее алое небо [Бунин И. А. На Днепре («За мирным Днепром, за горами...») (1896)] Вечернее зимнее солнце [Бунин И. А. Диза («Вечернее зимнее солн це...») (1903?)] Тяжелое зимнее море [Бунин И. А. Диза («Вечернее зимнее солн це...») (1903?) Задумчивый бронзовый дед! [Бенедиктов В. Г. Несколько строк о Крылове («Довольно и беглого взгляда...») (1855)] 3 – 4 –1 Наш темный полуночный гроб. [Бунин И. А. «В окошко из темной каюты...» (1896)] Громовый, убийственный свет!. [Ростопчина Е. П. Возврат Чацкого в Москву… / Стихотворение Цурмайер а («Идея!!. Великое сло во!....») (1856)] Пустая лазурная высь, [Бунин И. А. В цирке («С застывшими в бле ске зрачками...») (1916.06.28)] Сквозные хрустальные сени. [Бенедиктов В. Г. Светлые ночи («Не все-то на севере худо...») (1860)] Нездешней мучительной страсти [Анненский И. Ф. Который? («Ко гда на бессонное ложе...») (1904?)]
НКРЯ верстка4.indd 108
22/06/2009 17:48
Поэтический корпус
109
4 – 2 –2 Завистливой, тайной отравы [Ростопчина Е. П. На прощанье... («Вот видишь, мой друг, — не напрасно...») (1835)] Демьяновой страшной ухи. [Бенедиктов В. Г. Несколько строк о Крылове («Довольно и беглого взгляда...») (1855)]18 Израильских сильных мужей [Мей Л. А. Еврейские песни, 7 («Кто это, ливаном и смирной...») (1856)] 3 – 2 –3 Богатый лепной потолок [Ростопчина Е. П. Последнее слово («Сияет торжественно зала...») (1838.04.24)] В лазурной пустой вышине [Бунин И. А. В цирке («С застывшими в блеске зрачками...») (1916.06.28)] 2 – 4 –2 Стальной пароходной стены. [Бунин И. А. «В окошко из темной каюты...» (1896)] 3.2. Деграмматизация рифмы Поиск по зоне рифмовки помогает дать материал для исследова ния такой проблемы, как деграмматизация русской рифмы. Как известно, из «первого кризиса точной рифмы» [Гаспаров 2002: 94 и след.], начавшегося в эпоху Державина, русские поэты периода Жуковского и Пушкина вышли через сохранение точной рифмовки при отказе от преобладания рифмы грамматической и интенсивное использование морфологически разнообразных гнёзд рифмовки. В [Гаспаров, Скулачёва 2004: 91 – 106] рассматривается история рифмы на ‑ой — самой частотной мужской рифмы в русском стихе. Можно рассмотреть историю и других рифм, например, женской рифмы ‑али, входящей в пятёрку самых популярных у ряда авторов xix в. [там же]. Получив при помощи Корпуса список всех контек стов со словами на *али и *яли в позиции рифмы на протяжении столетия 1751 – 1850 гг. и отсеяв неженские окончания (напри мер, рифмы на вдали или выигрывали — отписывали у Пушкина) 18
Ср. также из отрицательно окрашенных строк с такими словоразделами: Московского злого жилья. [Мандельштам О. Э. «Квартира тиха, как бумага...» (1933.11)]
НКРЯ верстка4.indd 109
22/06/2009 17:48
110
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
по двадцатипятилетиям, можно подсчитать процент глагольных рифм (типа гнали — раздували). При этом в рифменных цепях длиннее двух звеньев (печали — замечали — удержали) учитыва ются все смежные пары рифм; не учитываются целиком повто ряющиеся в стихотворении строфы или разные редакции одного и того же стихотворения с тож дественными строками (но, напри мер, оригинал и пародия учитываются отдельно). Для 1751 – 1 775 годов процент глагольных рифм достигает 88%, единственное стандартно допустимое существительное в точной рифме с гла голом на ‑али — печали (оно и в дальнейшем будет лидировать по частоте среди таких слов), а кроме того, у И. Баркова в переводах сатир Горация используются словоформы объедалы (с заменой и/ы) и малый (то же плюс йотированная рифма, допускавшаяся как вольность). Период 1776 – 1800 гг. имеет ту особенность, что на него приходятся басни И. Хемницера, уникального среди по этов второй половины xviii в. в том отношении, что он массово использует глагольные рифмы, почти на уровне Симеона Полоц кого [Гаспаров 2002: 94], у него 75% вообще всех женских рифм глагольные, а из рифм на ‑али — разумеется, 100%. Если включить в материал периода многочисленные рифмы Хемницера, то по казатель глагольных рифм поднимается по сравнению с преды дущим на три пункта, до 91%, а если иск лючить — то настолько же падает, до 85%; очевидно, что эксперимент Хемницера, хотя и представляет интерес сам по себе, для практики поэтов этого периода не характерен. В этот державинский период появляются ещё две словоформы, допустимые в неглагольной рифме на -али: стали ‘металла’ и скрижали; в xix веке они также будут занимать здесь ведущие позиции, вслед за печали. Решающий поворот происходит в следующий период, в первой четверти xix в., когда процент глагольных рифм резко снижается до 69% и появляются рифмы на ‑али между двумя существительными (впервые, по материалам Корпуса в текущем составе, у позднего Державина — печали : из дали) и вообще меж ду неглагольными словоформами. Круг рифмующих слов резко расширяется, допус каются слова с энклитикой ли (всегда ли, тогда ли, едва ли, я ли, та ли, для тебя ли), новые субстантивные словоформы — шали (в «Руслане и Людмиле»), дали и пищали. Разрешается нарушение
НКРЯ верстка4.indd 110
22/06/2009 17:48
111
Поэтический корпус
зрительной рифмы и иканье в рифме (фиале у В. Кюхельбекера, на чале у А. Полежаева; чуть позже, в 1830 году, такая рифма — ругали : бокале, правда, представляющая собой конъектуру, появляется и в пушкинском черновом послании Дельвигу), а также уже известные приёмы: замена на ы (кораллы у А. Нахимова, «низкого» поэта, как и Барков) и йотированная рифма (сатурналий у Н. Языкова). 1826 – 1850 гг. — время развития тенденций предыдущего перио да не вширь, а вглубь; сильнее эксплуатируются средства, найден ные первым поколением романтиков. Деграмматизация продол жается, доля глагольных рифм на ‑али падает до 59%. Всё большую роль в рифме играет словоформа печали (как и в предыдущем пе риоде, это естественно связывать с поэтикой романтизма). Новых неглагольных словоформ на этой позиции появляется меньше (мо рали, а также с всё распространяющимся иканьем — зале, дале, бале, завале), у М. Лермонтова в «Тамбовской казначейше» появляется рифма со вставленным [j] талье : наливали. Отметим омонимич ную рифму у А. Григорьева дали (существительное) : дали (глагол). Несомненно, добавление новых текстов этого периода в Кор пус позволит несколько уточнить цифры и практически наверняка отодвинуть назад даты появления некоторых явлений, но общая картина деграмматизации одной из частотных женских рифм вы рисовывается вполне чётко. 100% 88%
85%
69% 59% 50% 1751 – 1775
1776 – 1800
1801 – 1825
1826 – 1850
Рис. 4. Глагольные рифмы на ‑али в 1751 – 1850 гг. (период 1776 – 1800 дан без Хемницера)
НКРЯ верстка4.indd 111
22/06/2009 17:48
112
Е. А. Гришина, К. М. Корчагин, В. А. Плунгян, Д. В. Сичинава
Таким образом, инструментарий поэтического корпуса позволяет (при некоторой доле ручной работы, но несравненно меньшей) бы стро получать релевантные для решения важных стиховедческих задач статистические результаты. Литература Бернштейн, С. О методологическом значении фонетическо го изучения рифм (К вопросу о пушкинской орфоэпии) // Пушкинский сборник памяти профессора Семена Афанась евича Венгерова. Пушкинист IV. — Москва — Петроград: Гос. изд-во, 1922. С. 329–354 Гаспаров, М. Л. Дериваты русского гексаметра (о границах семан тического ореола) // Res philologica. Филологические исследова ния: Памяти акад. Г. В. Степанова. М.-Л.: Наука, 1990, 330 – 3 42 (текст вошёл в переработанном виде также в [Гаспаров 2000]). Гаспаров, М. Л. Метр и смысл. Об одном из механизмов культурной памяти. М.: РГГУ, 2000. Гаспаров, М. Л. Русский стих начала xx века в комментариях. Изд. 2-е (дополненное). М.: Фортуна Лимитед, 2001. Гаспаров, М. Л. Очерк истории русского стиха. Изд. 2-е (дополнен ное). М.: Фортуна Лимитед, 2002. Гаспаров, М. Л.; Скулачёва, Т. В. Статьи о лингвистике стиха. М.: Языки славянской культуры, 2004. Зализняк, А. А. От праславянской акцентуации к русской. М.: Нау ка, 1985. Зализняк, А. А. Грамматический словарь русского языка. Словоиз менение. Издание 4-е, исправленное и дополненное. М.: Русские словари, 2003. Квятковский, А. П. Поэтический словарь / Науч. ред. И. Роднянская. М.: Сов. Энцикл., 1966. Корчагин, К. М. Поэтический подкорпус Национального корпуса русского языка как акцентологический источник // Материа лы меж дународной конференции «Диалог 2008» (http://www. dialog-21.ru/dialog2008/materials/pdf/Korchagin.pdf). Орлицкий, Ю. Б. Стих и проза в русской литературе. М.: РГГУ, 2002.
НКРЯ верстка4.indd 112
22/06/2009 17:48
Поэтический корпус
113
Орлицкий, Ю. Б. Гетероморфный (неупорядоченный) стих в рус ской поэзии // НЛО, 2005, № 73. Плунгян, В. А. К эволюции русской метрики: немонотонная силла бо-тоника // В. Н. Топоров (ред.). Язык. Личность. Текст. Сб. ста тей к 70-летию Т. М. Николаевой. М.: Языки славянской культуры, 2005, 857 – 8 69. Плунгян, В. А. Писал ли Есенин «есенинским дольником»? // А. В. Архипов и др. (ред.). Фонетика и нефонетика. К 70-летию Сан дро В. Кодзасова. М.: Языки славянской культуры, 2008, 766 – 7 76. Плунгян, В. А. (ред.). Национальный корпус русского языка: 2003 – 2 005. Результаты и перспективы. М.: Индрик, 2005. Шапир, М. И. 1990. Metrum et rhythmus sub specie semioticae // Дау гава, 1990, 10, 63 – 8 7 [также в кн. Шапир 2000, 91 – 130]. Шапир, М. И. Гексаметр и пентаметр в поэзии Катенина («Инвалид Горев» на фоне формально-семантической деривации стихотвор ных размеров) // Philologica 1994, т. 1, № 1/2, 43 – 107 [также в кн. Шапир 2000, 277 – 3 34]. Шапир, М. И. Исчисление силлабо-тонической парадигмы. Случай Сумарокова («Цефал и Прокрис») // Russian Linguistics, vol. 21, № 3, 1997 287 – 2 91 [также в кн. Шапир 2000, 187 – 191]. Шапир, М. И. На подступах к общей теории стиха (методы и поня тия) // Славянский стих: Лингвистическая и прик ладная поэти ка. Москва: Языки русской культуры, 2001, 13 – 2 6 [также в кн. Шапир 2000, 76 – 9 0]. Шапир, М. И. Universum versus: Язык — стих — смысл в русской по эзии xviii–xx веков. М.: Языки русской культуры, 2000. Bailey, J. Russian binary meters with strong caesura from 1890 to 1920 // International Journal for Slavic Linguistics and Poetics, 1971, 14, 111 – 1 33 [русск. пер.: Дж. Бейли. Избранные работы по русско му литературному стиху. М.: Языки славянской культуры, 2004, 220 – 2 51].
НКРЯ верстка4.indd 113
22/06/2009 17:48
А. Б. Летучий
Диалектный корпус: состав и особенности разметки 1
Введение данной статье2 мы расскажем о составе подкорпуса диалектных текстов в его нынешнем виде, об особен ностях его разметки и проблемах, возникающих при его аннотиров ании. Разметка диалектных текс тов нкря уже описывалась ранее в статье (Летучий 2005), однако с тех пор ее принципы несколько изменились: увеличение корпуса заставило нас добавить ряд новых помет и скорректиро вать применение старых. До 2006 года были размечены отдельные диалектные тексты (около 20000 словоупотреблений), на которых разрабатывалась исходная разметка. К концу 2006 года количество словоупотреблений составило около 50 0 00, сейчас корпус насчи тывает примерно 250 0 00 слов. К концу 2008 года планируется довести объем корпуса до 300 0 00.
В данной статье мы расскажем о составе под корпуса диалектных текстов в его нынешнем виде, об особеннос тях его разметки и про блемах, возникающих при его аннотиров а нии. Разметка диалектных текстов нкря уже описывалась ранее в статье (Летучий 2005), однако с тех пор ее принципы несколько из менились: увеличение корпуса заставило нас добавить ряд новых помет и скорректировать применение старых. До 2006 года были разме чены отдельные диалектные текс ты (около 20000 словоупотреблений), на которых разра батывалась исходная разметка. К концу 2006 года количество словоупотреблений составило около 50 000, сейчас корпус насчитывает при мерно 250 000 слов. К концу 2008 года плани руется дов ес ти объем корпуса до 300 000.1. Состав корпуса Сейчас в состав корпуса вхо дят тексты архангельских, курских, брянских, тульских, орловских, псковских, новгородских, саратовских, волгоградских, вологодских и не которых других говоров. Сравнительно в не большом объеме прдставлены забайкальские
1
Работа выполнена в рамках гранта РГНФ 06-04-03818в «Создание корпуса диалектных и фольклорных текстов на русском языке». 2 Автор выражает глубокую благодарность И. Б. Качинской и А. А. Пичхадзе за замечания и комментарии к первой версии настоящей статьи.
НКРЯ верстка4.indd 114
22/06/2009 17:48
1. Состав корпуса
115
Сейчас в состав корпуса входят тексты архангельских, курских, брянских, тульских, орловских, псковских, новгородских, сара товских, волгоградских, вологодских и некоторых других говоров. Сравнительно в небольшом объеме прдставлены забайкальские говоры — благодаря текстам, полученным от В. Л. Кляуса. Тексты различны по тематике и устройству. Среди них есть рас сказы о конкретных случаях из жизни (тексты И. И. Исаева). Напро тив, база А. Л. Мороза сконцентрирована большей частью на обы чаях и традициях, а не на происшествиях из жизни конкретных носителей. Каж дый тип текста позволяет ставить свой круг исследователь ских задач. Так, очень ценны длинные тексты, описывающие жизнь одного человека (например, рассказы Миньковой и Лопатиной из собрания Л. Л. Касаткина) — они позволяют проследить слово употребление и строение текста в зависимости от темы разговора. Более короткие тексты А. Л. Мороза выявляют различия в слово употреблении и грамматике меж ду носителями одной и той же группы говоров. 2. Новые пометы в системе аннотации диалектных текстов В связи с пополнением корпуса новыми текстами мы столкнулись с рядом диалектных явлений, не учтенных в предыдущей версии разметки. Их отражение в корпусе потребовало введения новых помет. Ниже мы кратко охарактеризуем каждую из этих помет. 2.1. Iter В новой версии разметки появилась помета iter (итератив). Она используется для производных глаголов несовершенного вида типа заганивать ‘загонять’, соответствия которым в литературном языке нет. Точные видовые свойства этих глаголов, возможно, различают ся для разных глагольных лексем. По-видимому, ближе всего они находятся к хабитуалису (постоянно повторяющейся ситуации) в прошедшем времени, см., например, А она и пахать не няла и не рабливала (Хрестоматия: Архангельск); В порог нож не втыка ют. — А под подушк у? — Под подушк у кладывала (Мороз); Я сам
НКРЯ верстка4.indd 115
22/06/2009 17:48
116
А. Б. Летучий
долго нашивал лапти (Хрестоматия: Вологда); Каждый день ходила за ягодам, по корзине насбирывала (Исаев: Владимир). Имеется в виду, что ситуация повторялась — более того, была постоянным свойством субъекта — а её положение во времени точно не опре делено. См. также обсуж дение форм такого типа в (Пожарицкая 2005: 151 – 1 53), где указывается, что «временное значение данных форм близко к абсолютному плюсквамперфекту» (Пожарицкая 2005: 153). Иногда значение повторяемости утрачивается, и производный глагол обозначает просто постоянное свойство предмета, например, способность: Ак я ишшо тоже… сидела на пелёнках, не говаривала (Исаев: Вологда). Заметим, что в тех немногочисленных случаях, когда эта форма употребляется в русском литературном языке, она всегда подразумевает повторяемость ситуации, например, невоз можно *Ребёнок ещё не говаривал при допустимом Мой дядя гова ривал, что родился в необычной семье. Эти формы описаны в работах по диалектологии, но корпусной подход позволяет выявить дополнительные ограничения на их употребление. По нашим данным, они сочетаются только с субъек том-человеком: казалось бы, семантически абсолютно нормальны сочетания типа Скот на поле не хаживал, однако в корпусе конст рукции такого рода не встречаются. С одной стороны, это можно связать с общими особенностями диалектных текстов: как правило, они рассказывают именно о жизни людей, об их обычаях, а не о жи вотных или неживой природе. С другой стороны, можно считать, что это семантическая особенность рассматриваемой формы: зна чение обычного состояния фиксируется именно для людей. Более того, в подавляющем большинстве случаев эта форма употребляет ся для обозначения обычного действия рассказчика или связанных с ним лиц. Наконец, в корпусе еще не зафиксировано употреблений хабитуалиса в настоящем времени. Описанные выше образования мы отличаем от сходных по аф фиксальному составу форм типа отравливали, ср. Там детей от равливали и воровали бендеры (Праведников): если формы типа говаривать образуются от глаголов несовершенного вида, то форма отравливать образована от глагола совершенного вида. Мы счи таем, что это не хабитуальная форма, а обычная форма несовер
НКРЯ верстка4.indd 116
22/06/2009 17:48
Диалектный корпус
117
шенного вида, образованная от глагола, которому в литературном языке такой дериват не свойствен. 2.2. Stem Данная помета уже применялась в предыдущей версии разметки для случаев, когда в диалектной форме не наблюдается чередова ния, характерного для данной основы в литературном языке (ср. пекёт вместо печёт). В нынешней версии разметки stem маркирует и ряд других диа лектных явлений. К их числу относятся изменения в основе неизме няемых слов, например, когды вместо когда. Изначально конечный гласный, вероятно, был самостоятельным суффиксом временной или пространственной локализации, однако сейчас мы причисля ем его к основе. Далее, помета stem присваивается глаголам с изменением исхо да основы, ср. сокопл яться вместо скапл иваться. В таких случаях исход основы отличается от литературного (-я вместо -ива). Однако тип спряжения при этом не меняется, поэтому мы приписываем эти отклонения именно основе. В сфере местоимений stem обслуживает случаи употребления основы без форматива н- при предлогах, ср. жили до их мужчина с женщиной (Исаев: Вологда). В целом следует отметить, что случаи, охватываемые поме той stem, неоднородны. Одни из них связ аны с образ ов анием определённых форм (ср. словоформу пекёт, полученную от ли тературной глагольной основы), другие же затрагивают лексему в целом (ср. сокопляться, где такая основ а выс тупает во всех формах глагола). В будущем, по-видимому, было бы целесооб разным более дробно классифицировать явления, фиксируемые данной пометой и, соотв етс тв енно, использ ов ать для них не сколько разных помет. 2.3. Refl и refltype К помете refl, отмечающей отличие диалектного глагола от лите ратурного возвратностью (доспиется ‘доспеет’, Хрестоматия: Ар хангельск), на новом этапе работы был добавлен связанный с ней признак refltype. Данная помета призвана отразить вариативность
НКРЯ верстка4.indd 117
22/06/2009 17:48
118
А. Б. Летучий
в форме возвратного показателя, широко представленную в диа лектах (ср. -се, -ся, -си). Необходимо отметить, что пометы refl и refltype существенно различаются по частотности и кругу охватываемых явлений. Поме та refl встречается у ограниченного набора лексем, многие из ко торых по своим свойствам склонны к варьированию возвратности. Например, это приставочные глаголы типа дожидать (в литера турном языке — дожидаться): здесь возвратность мотивирована не декаузативным или рефлексивным значением, а присоединени ем циркумфикса до- -ся, в котором вычленение отдельно префик са и постфикса сомнительно. В то же время отличия, связанные с возвратностью, встречаются и у бесприставочных лексем типа гоститься вм. гостить, щадиться (с кем-л.) вм. щадить (кого-л.). Как видно, под данную помету подпадают два противоположных типа случаев: наличие возвратного постфикса, который отсутствует у данной лексемы в литературном языке — и, напротив, отсутствие требуемого в ЛЯ постфикса. Последовательное использование пометы refl в диалектных текстах осложнено тем, что в литературном русском языке моде ли, задействующие возвратный постфикс, очень продуктивны. По этому некоторые возвратные дериваты (например, выстираться ‘постирать бельё’) можно трактовать и как диалектизмы, и как не встречающееся в текстах, но допустимое в литературном языке сло вообразование по продуктивной модели. В отличие от refl помета refltype — одна из самых частотных: если в тексте встречаются отк лонения в форме возвратного показате ля, они, как правило, довольно многочисленны. При этом в одном и том же тексте может наблюдаться несколько вариантов возврат ного постфикса. Помета refltype фиксирует как варианты, вообще не встречающиеся в литературном языке (-се и -си), так и употреб ление -ся в формах, где в ЛЯ требуется -сь (обратные случаи практи чески не встречаются). Часто формы, соответствующие норме и ей противоречащие, свободно варьируются (см. родилася и родилась в Праведников, текст 29). Материал корпуса подтверж дает, что категория возвратности, весьма сложным образом организованная в литературном языке, не менее интересна для анализа и в диалектных текстах.
НКРЯ верстка4.indd 118
22/06/2009 17:48
Диалектный корпус
119
2.4. Gend Помета gend отвечает за отклонения от литературной нормы в сфе ре родовой принадлежности лексем, ср., например, тюлью (Мо роз), ягелью (Азарова), Форточка, она открыта всю лету была (Касаткин), Вот вам знамению даю (Мороз), хоть две литры носи (Хрестоматия: Архангельск). Определить род сущес твительного — в том числе и выявить в этой зоне случаи диалектных отклонений от литературной нор мы — можно, во-первых, на основе согласования существительного по роду с прилагательными (и с другими атрибутивами, ср. всю лету) или с глаголами, и во-вторых — по словоизменению самого существительного — в тех случаях, когда существительное изменя ется по типу, характерному только для слов одного рода. Например, творительный на -ью могут иметь только существительные третьего склонения типа мышь — все они женского рода. Размечая тексты, мы отдаем себе отчет в том, что отклонения по роду в некоторых случаях могут быть результатом спонтанной замены говорящим в речевом потоке изначально задуманного слова на дру гое слово, с иной родовой принадлежностью, ср. приделают, как ую блюдце ли, чего ‘приделают какое-нибудь блюдце’ (возможно, исходно говорящий предполагал употребить слово тарелка). В подобных слу чаях мы тем не менее приписываем существительному помету gend, следуя, так сказать, принципу максимальной разметки: всегда лучше усмотреть в тексте лишние диалектные черты, чем не заметить их. 2.5. Asp Помета asp приписывается глагольным формам, которые отк лоня ются от литературного стандарта по своим аспектуальным свой ствам. В первую очередь речь идет о формах, обнаруживающих в диалектном тексте иное аспектуальное значение, нежели в лите ратурном языке. Так, например, в вологодских текстах формы типа помирал могут интерпретироваться как ‘помер’, то есть как формы совершенного вида. Особенности аспектуальной семантики часто оказываются не заметны для изолированной формы, однако выявляются при со поставлении с контекстом. Например, в песенке-колядке Коляда, коляда, // Бабка, дай пирога, // Не даёшь пирога, // Обломаем все
НКРЯ верстка4.indd 119
22/06/2009 17:48
120
А. Б. Летучий
бока (Мороз) форма даёшь должна быть помечена asp: при бессо юзных условных конструкциях в литературном языке два глагола обычно имеют одну и ту же видовую характеристику, соответствен но, форма даёшь употребляется в данном контексте, скорее всего, в значении совершенного вида. Точно так же словоформа замерзал характеризуется в литературном языке несовершенным видом, но в контексте Он уже давно погиб — замерзал (Исаев: Владимир) она имеет семантику совершенного вида — речь идёт о завершившейся ситуации, тем самым форма замерзал получает помету asp. Второй тип случаев, охватываемых пометой asp, представлен отсутствующими в литературном языке видовыми коррелятами к стандартным литературным глаголам. Правда, в нашем материале случаи такого рода единичны, ср. когда к венцу поезжают (вм. едут, Мороз): в диалекте образуется видовая пара поехать / поезжать. Наряду с пометой asp таким глаголам приписывается и помета, мар кирующая диалектность лексемы, — diallex. Для случаев, охватываемых пометой iter, вторая помета — asp — была бы избыточна, поэтому она им не приписывается. 2.6. Flex и type Ключевыми для диалектного корпуса являются пометы flex (диа лектное окончание) и type (диалектный тип словоизменения). Ни же мы поясним разницу между ними, поскольку основания для их противопоставления не всегда очевидны. Помета flex означает, что словоформа имеет показатель, вообще не употребляющийся при данной части речи в литературном языке. Такие случаи встречаются сравнительно редко. Перечислим основ ные типы подобных отклонений: 1) формы третьего лица единственного числа настоящего вре мени с окончанием без –т (пойдё, будё) или с мягким -ть (значить, приходить). Такого рода случаи были немногочисленны в текстах, размечавшихся до 2006 года, однако увеличение объёма корпуса позволило пополнить базу подобных примеров. 2) употребление формы дательного падежа местоимения она (ей) в контексте родительного или винительного, например, ей до волочил ‘доволочил её’ (Мороз). Хотя такие случаи можно было бы трактовать как нестандартное употребление дательного падежа,
НКРЯ верстка4.indd 120
22/06/2009 17:48
Диалектный корпус
121
более естественно всё же считать, что ей является особой формой винительного падежа: вариант ей в такого рода контекстах встре чается даже у информантов, обычно употребляющих падежи стан дартным способом. 3) употребление формы оне в значении формы множественного числа именительного падежа они. 4) формы творительного падежа прилагательных типа хороши ма и творительного падежа существительных типа доро´гими (вм. дорогами). Первая форма вообще не встречается в русском литера турном языке, вторая характерна только для прилагательных и не засвидетельствована у существительных. К менее значимым случаям, охватываемым пометой flex, от носятся a) нелитературное окончание нумеративов типа обеи (вм. обе): в литературном языке в женском роде у нумеративов встре чается только окончание -е (две, обе); б) изменение окончания в творительном падеже единственного числа (прикладим вм. при кладом) и в) фонетическое окончание -я в императиве множест венного числа (сымайтя вм. снимайте). Из всех перечисленных случаев наиболее частотной специфиче ски диалектной флексией является окончание с мягким -ть в треть ем лице глаголов — этот феномен может встречаться более десяти раз на двух страницах текста. Корпус позволяет установить, что ча ще всего подобное изменение флексии связано с формами значить и можеть ‘может быть’, причем с их употреблениями в качестве вводного слова, а не в позиции финитного сказуемого. Подчеркнем, что помета flex маркирует случаи, важные с точ ки зрения анализа грамматических особенностей диалектных тек стов: они свидетельствуют о том, что различия меж ду диалектами и литературным языком не исчерпываются перегруппировкой ти пов словоизменения, — диалекты характеризуются и более значи мой грамматической спецификой. В отличие от flex помета type употребляется довольно широко. Отк лонение от стандартного словоизменительного типа может затрагивать, во-первых, всю лексему в целом, т.е. проявляться во всех ее формах, ср., например, купелю принесут вм. купель (Мороз), Ленин сделал жизню правильную вм. жизнь (Касаткин). Такие пе реходы обусловлены влиянием более продуктивного типа склоне
НКРЯ верстка4.indd 121
22/06/2009 17:48
122
А. Б. Летучий
ния на -а / -я. Во-вторых, изменение типа может прослеживаться лишь в некоторых грамматических формах лексемы — остальные ее формы образуются в соответствии с литературной нормой. С фо нетическими причинами связан, например, частый переход прила гательных в класс плохой (ср. хорошой вм. хороший). Об изменении типа, затрагивающем отдельные формы, можно говорить и в случаях использования падежной флексии второго родительного или предложного падежей при тех лексемах, кото рым в литературном языке они не свойственны, например, с ост рову, на камню. Хотя существительные, допускающие род2 и пр2, не составляют типа склонения в общепринятом смысле, вполне естественно объединить их в одну группу и считать диалектное расширение этой группы за счет новых лексем изменением флек тивного типа этих лексем. Необходимо отметить, что иногда мы используем помету type и в тех случаях, когда вариативность словоизменительного типа наблюдается и в литературном языке. Например, в материале ар хангельских говоров регулярно встречается форма годов в генити ве множественного числа (ср. литературное лет). Форма годов, повидимому, не запрещена в литературном языке, но приписываемая в данном случае помета призвана показать, что в диалектах основ ным становится вариант формы, редкий для литературного языка. В принципе пометы type и flex могут относиться к одной и той же словоформе, хотя на практике такие комбинации редки. Например, глагол, перешедший в другой класс словоизменения, может иметь и окончание -ть в третьем лице. Чаще, однако, встречаются случаи другого рода — это своего рода промежуточные явления, для кото рых выбор меж ду пометами type и flex неоднозначен. К примеру, форма предложного падежа (на) обех ‘(на) обеих’ должна тракто ваться как диалектная флексия, если считать нумеративы особым классом, отличным от местоимений — и как диалектный тип, ес ли считать нумеративы и местоимения одним классом (посколь ку такую же флексию имеет местоимение тот). С одной стороны, в корпусе литературного языка нумеративы противопоставлены местоимениям, с другой — эти грамматические классы довольно близки, соответственно, в подобных случаях мы приписываем сло воформе обе пометы.
НКРЯ верстка4.indd 122
22/06/2009 17:48
Диалектный корпус
123
2.7. Case Помета case описывает употребление (с точки зрения литератур ного языка) одной падежной формы вместо другой (например, см. выше ходила по ягодам вм. по ягоды). Здесь происходит унификация управления при предлоге по (нестандартное управление по + Вин. меняется на наиболее частотное для этого предлога по + Дат.). Эта помета, в отличие от большинства остальных, фиксирует не нестан дартное слово- или формообразование, а нестандартное употребле ние определенной — в данном случае падежной — формы (похожие случаи описаны для пометы asp). В целом case применяется доста точно редко: как правило, падежи в текстах корпуса используются в соответствии с литературной нормой. К явлениям, описываемым пометой case, относятся в частности глаголы с нелитературной моделью управления, ср. И кормят ку сок этого хлеба ей (корове) (Мороз), где глагол кормить управляет названием пищи в винительном падеже и пациенсом в дательном. В целом применение пометы case к диалектным текстам ос ложнено вариативностью падежей в литературном русском язы ке. Иными словами, отнесение конструкции к диалектным или к литературным, но свойственным разговорной речи, часто спорно. Например, в диалектных текстах встречаются сочетания типа всё хватало ‘всего хватало’, не соответствующие норме. Однако и в разговорной недиалектной речи при предикатах типа нужно, хва тать наблюдаются колебания в падежном маркировании имени, например, при поиске в системе Google среди результатов, помимо нормативного всего хватает, выдаётся разговорное всё хватает. Мы полагаем, что в будущем в систему разметки следует вклю чить разграничение меж ду диалектными и общеразговорными явлениями, однако пока сочетания типа всё хватает относятся к диалектным. Аналогичный случай представлен словосочетанием и что только нету (Мороз): здесь пример из диалектного текста иллюстрирует вариативность падежей при отрицании, которая свойственна и литературному языку, — только в данном случае она распространяется на предикат быть, который в литературном языке не входит в круг глаголов с вариативностью кодирования субъекта при отрицании.
НКРЯ верстка4.indd 123
22/06/2009 17:48
124
А. Б. Летучий
Следующий класс проблем, связанный с использованием пометы case, обнаруживается при анализе существительных редких типов склонения (например, время): в сочетаниях вида через несколько время (Праведников) слову время можно приписать как помету case (фиксирует употребление формы именительного/винительного вместо родительного), так и помету type (отражает переход слова в разряд неизменяемых). Выбрать правильную трактовку данного явления на материале небольшого текста часто невозможно, поэто му в подобных случаях мы приписываем словоформе обе пометы. Наконец, анализ падежного кодирования имен в диалектных текстах неизбежно сталкивает исследователя с проблемой эллип сиса — синтаксического явления, чрезвычайно распространенного как в диалектах, так и в разговорной речи. В отрывке У кажного свой рожок. И кажного по-разному играё (Мороз) родительный падеж второй словоформы кажного не соответствует литературной норме. Это отклонение обусловлено, видимо, синтаксическими различия ми меж ду диалектами и литературным языком: во второй фразе опущено существительное рожок (кажного рожок, ‘рожок каж до го человека’), т. е. имя, управляющее другим именем в генитиве, а такого рода опущения невозможны в литературном языке. Таким образом, строго говоря, употребление генитива в данном контексте отвечает литературной норме, а диалектное своеобразие возникает за счет нестандартного эллипсиса. Тем не менее подобные случаи мы маркируем пометой case, следуя общей стратегии нкря: отсутст вие синтаксической аннотации в корпусе частично компенсируется средствами морфологической разметки. На примере case можно показать, что диалектные морфологиче ские пометы применимы даже к словоформам, не имеющим ана логов в литературном языке, например, к именам собственным. То или иное грамматическое значение в диалектных текстах ино гда выражается формами, которые в литературном языке не могут соотноситься с данным значением, к какому бы типу склонения лексема ни принадлежала. Ср., например, словоформу Умбы в пред ложении мы в Умбы жили (Азарова): какой бы ни была исходная форма для данной словоформы — Умба, Умбы, Умб — в предложном падеже слово не может иметь окончания –ы, соответственно, мы фиксируем в данном контексте диалектную падежную форму. Здесь
НКРЯ верстка4.indd 124
22/06/2009 17:48
Диалектный корпус
125
произошла унификация окончания ‑ы в предложном (а также и да тельном) падеже i склонения (у жены, дать жены, о жены) — яв ление, характерное прежде всего для западной диалектной зоны. Итак, мы рассмотрели новые морфологические пометы, которые пополнили систему разметки диалектных текстов, и охарактери зовали стоящие за ними грамматические явления. Понятно, что добавление в корпус новых текстов повлечет за собой дальнейшее расширение системы разметки. Так, совсем недавно мы начали использовать помету plen — полное прилагательное вместо крат кого — для случаев типа Он был раненым ‘он был ранен’ (Правед ников). 3. Некоторые проблемы морфологической разметки корпуса диалектных текстов 3.1. Диалектная разметка и стандартные литературные формы До сих пор речь шла о разметке словоформ, отличающихся от лите ратурных по модели образования или по правилам употребления. Однако пометы, фиксирующие такого рода диалектные явления, заставляют задуматься и над анализом стандартных литературных форм. Так, если в некотором тексте мы встречаем слово дедушко вм. дедушка (напомним, этот случай маркируется пометой type), то как нам следует интерпретировать форму дедушки в словосочета нии наши дедушки, встретившуюся в том же тексте? Как помечать исходную лексему — дедушко или дедушка? Форма множествен ного числа не отличается от литературной, но, сохраняя принцип последовательности в разметке, было бы логично приписать всем словоформам данной лексемы (в том числе и не отклоняющимся от литературной нормы) одну и ту же исходную форму (т.е. дедушко) и, соответственно, помету type. Однако обычно мы сознательно этого не делаем. Причин две. Во-первых, это экономия места и времени: разметка словоформ, ко торые формально не отличаются от литературных, как диалектных значительно замедлила бы процесс аннотирования. Сейчас техниче ски, в основном, достаточно проверить словоформы, не опознанные разметчиком (хотя для случаев вроде ходить ‘ходит’ такой подход не
НКРЯ верстка4.indd 125
22/06/2009 17:48
126
А. Б. Летучий
срабатывает), а если бы мы следовали принципу одинаковой лемма тизации всех словоформ, проверять требовалось бы гораздо больше. Во-вторых, вариативность в диалектах настолько высока, что в одном тексте могут встретиться разные исходные формы одной и той же лексемы, ср. ён и он, дедушко и дедушка, — а значит, прин цип последовательности вообще не применим к данному типу текстов. И все же в нашем материале мы сталкиваемся и с явле ниями, которые не обнаруживают вариативности в пределах од ного текста — например, употребление слова ягель в женском роде в (Азарова) — ягелью. В этих случаях мы маркируем как диалектные и формы, совпадающие с литературными (так, в примере выше мы приписываем помету gend и словоформам именительного и вини тельного падежей, ср. ягель даёт). 3.2. Частеречные характеристики Разметка по частям речи в диалектном корпуса сопряжена с теми же трудностями, что и частеречная классификация в основном — ли тературном — корпусе. В частности, одна из основных проблем связана с противопоставлением служебных частей речи — союзов и частиц. В диалектных текстах эта зона оказывается еще сложнее для анализа: в отличие от письменных литературных текстов, где при разграничении между союзами и частицами можно опереться на установленные автором границы предложений, в диалектных, как и в других устных текстах, членение на предложения достаточ но условно, тем самым здесь этот критерий нельзя считать надеж ным. Чтобы не навязывать пользователю своих исследовательских решений, мы в спорных случаях сохраняем два варианта разметки. Так, две пометы — CONJ (союз) и PART (частица) — приписывается большинству употреблений слова ак. 3.3. Новые проблемы лемматизации Как оказалось, лемматизация, принятая в литературном корпусе, в некоторых случаях неприемлема для диалектного. Часто в лите ратурном корпусе объединяются лексемы несовершенного и совер шенного вида: например, словоформа сбежали возводится к лемме сбегать, и, соответственно, совершенный вид считается словоиз менительной характеристикой.
НКРЯ верстка4.indd 126
22/06/2009 17:48
Диалектный корпус
127
В диалектных текстах одной и той же лексеме несовершенного вида могут соответствовать разные лексемы совершенного: например, сбегли и сбежали от сбегать. Тем самым лемматизация формы сбег ли по лексеме сбежать не позволила бы отразить ее специфику: требуется показать, что в диалектном тексте используется нелите ратурная лексема. Поэтому в таких случаях мы используем лемму совершенного вида (в примере выше — сбечь). 3.4. Диалекты и просторечие В отдельных случаях как диалектные размечаются формы и лек семы, которые встречаются и в недиалектной речи. К примерам такого рода относится глагол несовершенного вида ложить (вм. класть) и, наоборот, дериваты типа накласть, покласть вм. нало жить, положить. Городское просторечие в корпусе не имеет спе циальной системы помет, однако, приписывая подобным явлениям диалектный статус, мы отмечаем их ненормативность в литератур ном языке. Другой пример такого рода — маркирование случаев типа у ней (форма дательного падежа употребляется в функции родительно го). Ясно, что эти формы — просторечные, тогда как примеры вроде у мене или к сестры — именно диалектные (во всяком случае, они реже встречаются вне диалектов). Тем не менее сейчас они поме чаются одинаково: в системе диалекта они, как нам представляется, имеют одинаковый статус. 4. Заключение Мы изложили основные особенности разметки диалектных тек стов. Существенно, что во многих случаях корпусной подход по зволяет уловить тенденции, которые без использования корпуса идентифицировать трудно. Среди них, в частности, ограничения на некоторые диалектные явления (например, использование им перфективов типа говаривать преимущественно с одушевлёнными подлежащими). Корпус позволяет выяснить и соотношение частот ности диалектных явлений, например, изменения основы (помета stem) и изменения окончания (помета flex). Впрочем, тенденции второго типа можно отметить только на боль ших массивах текстов. Их исследование — скорее дело будущего.
НКРЯ верстка4.indd 127
22/06/2009 17:48
Литература Летучий А. Б. 2005. Корпус диалектных текстов: задачи и проблемы // Национальный корпус русского языка: 2003 – 2 005. Результа ты и перспективы. М.: Индр ик. Пожарицкая С. К. 2005. Русская диалектология. М.: Парадиг ма — Академический проект. Использованные тексты Азарова — Диалектные тексты, собранные на территории Респуб лики Карелия И. В. Азаровой. Мороз — Диалектные тексты, собранные на территории Архангель ской области группой по изучению фольклора под руководством А. Б. Мороза. Исаев — Диалектные тексты, собранные на территории Владимир ской и Вологодской областей И. И. Исаевым (для каж дого при мера отмечена группа диалектов). Праведников — Диалектные тексты, собранные С. П. Праведнико вым на территории Курской области. Касаткин — Диалектные текс ты, собранные Л. Л. Касаткиным на территории Волгоградской области (рассказы А. Н. Минько вой). Хрестоматия — Хрестоматия диалектных текстов под ред. Е. А. Не федовой.
НКРЯ верстка4.indd 128
22/06/2009 17:48
Е. А. Гришина, С. О. Савчук
Корпус устных текстов в Национальном корпусе русского языка: состав и структура
сследования устной речи ве дутся в русистике с 60-х го дов прошлого века во многих научных центрах: в Москве, Санкт-Петербурге, Саратове, Перми, Екатеринбурге, Омске, Красноярске, Ульяновске и др. Хо рошо известны работы Е. А. Земской, О. А. Лаптевой, М. В. Китай городской, Н. Н. Розановой, О. Б. Сиротининой и руководимых ими коллективов, В. Е. Гольдина, Г. Г. Инфантовой, Т. И. Ерофеевой, М. Д. Воейковой и др. Однако следует отметить, что обычно такая работа базируется на ограниченном материале — записях, сделанных одним исследо вателем или его группой. Так, например, в распоряжении авторов монографии «Лексика разговорной речи в системе функциональ ных стилей русского литературного языка» (Саратовский универ ситет) была 100-тысячная словарная картотека, составленная по магнитофонным записям разговорной речи, и 15 тысяч карточекИсследования устной речи ведутся в русистике с 60-х го дов прошлого века во многих научных центрах: в Москве, Санкт-Петербурге, Саратове, Перми, Екатеринбурге, Ом ске, Красноярске, Ульяновске и др. Хорошо известны ра боты Е. А. Земской, О. А. Лаптевой, М. В. Китайгородской, Н. Н. Розановой, О. Б. Сиротининой и руководимых ими коллективов, В. Е. Гольдина, Г. Г. Инфантовой, Т. И. Еро феевой, М. Д. Воейковой и др.Однако следует отметить, что обычно такая работа базируется на ограниченном материале — записях, сделанных одним исследователем или его группой. Так, например, в распоряжении авто ров монографии «Лексика разговорной речи в системе функциональных стилей русского литературного языка» (Саратовский университет) была 100-тысячная словарная картотека, составленная по магнитофонным записям раз говорной речи, и 15 тысяч карточек сследования устной речи ведутся в русистике с 60-х годов прошлого века во многих научных центрах: в Москве, Санкт-Петербурге, Саратове, Перми, Екатеринбурге, Омске, Красноярске, Ульяновске и др. Хорошо известны работы Е. А. Земской, О. А. Лаптевой, М. В. Китайгородской, Н. Н. Розановой, О. Б. Сиротининой и руков одимых ими коллектив ов, В. Е. Гольдина, Г. Г. Инфантов ой, Т. И. Ерофеев ой,
НКРЯ верстка4.indd 129
22/06/2009 17:48
130
Е. А. Гришина, С. О. Савчук
контекстов, полученных ручным способом. Это много, но несопос тавимо с тем, что может предложить корпус текстов. Созданный в рамках нкря корпус устных текстов значительно расширяет возможности исследователя-русиста. 1) Корпус содержит подлинные целые тексты, а не отдельные вы писки, что позволяет обнаружить то, что ускользает от понимания при выборочных записях. 2) Корпус содержит объем текстов, который значительно превос ходит то, чем обычно располагает исследователь устной речи. Это позволяет судить о частотности или случайности явления, обнару жить закономерности, которые проявляются только на больших объемах, делать статистически достоверные выводы об обнаружен ных закономерностях. 3) Корпус включает тексты, разнородные с точки зрения поло возрастного, социального, профессионального состава говорящих, времени и географии записей. 4) Тексты, собранные в корпусе устной речи, охватывают боль шой временной диапазон — более 70 лет, если начинать отсчет с транскриптов кинофильмов 1930-х годов. Первые записи разго ворной речи относятся к 1956 году, последние сделаны весной 2008 года. Это дает возможность прослеживать изменения, которые про исходят в устной речи (а они здесь происходят стремительно), от мечать появление новых тенденций и т.д. Так, проведенный на материале корпуса анализ частицы вот и ее вариантов [Гришина 2008] показал, что от — это стилисти ческий вариант частицы вот, употребляемый либо в диалектных (квазидиалектных), либо в устаревающих контекстах. В частно сти, в фильмах до 1961 года этот вариант встречается в 2 раза чаще, чем в фильмах последующих лет. В работе [Савчук 2008] отмечено появление с конца 1990-х годов в непринуж денной устной речи молодого поколения новой синтаксической конструкции с место имением такой, используемой для передачи чужого высказыва ния: «Мне брат такой на следующее утро: «Что, смотрела «Ловкие руки?» (речь студентки 19‑ти лет, Разговор студенток, Ульяновск, 4.05.2006). 5) Корпус содержит (в отличие от коллекций, на которых обычно строятся исследования разговорной речи) устные тексты, относя
НКРЯ верстка4.indd 130
22/06/2009 17:48
Корпус устных текстов
131
щиеся к разным сферам общения, произнесенные в разных услови ях. Мы не разделяем мнения некоторых исследователей, согласно которому «живой русской речью» следует считать только «непри нуж денную речь горожан в условиях непосредственного контакта говорящих»1 . Устная речь, понимаемая как форма существования языка (в отличие от письменной формы), представлена в разных сферах функционирования: в разговорно-бытовой сфере — как не принуж денная разговорная речь, в научной — как устная научная речь, в публицистической — устная публичная речь, телевизионная и радиоречь, в официально-деловой — устная официальная речь, в производственно-технической — устная профессиональная речь, в церковно-богословской — проповедь, в сфере рекламы — телеи радиореклама, в художественной сфере — речь кино и театра. Поэтому устный текст в корпусе — это не только диалог в магазине или беседа за столом в кругу семьи, но и научная лекция, доклад на семинаре, встреча автора со слушателями, интервью или токшоу по телевидению, спортивный радиорепортаж и многое другое. Другой критерий, по которому принято разграничивать разно видности устной речи и который учитывается при отборе текстов в корпус, — степень подготовленности или спонтанности. По степе ни убывания спонтанности можно расположить типы устных тек стов на следующей шкале [Галяшина 2002].
1
Спонтанная речь
• Спонтанный диалог • Спонтанный монолог
Квазиспонтанная речь
• Интервью (ответы на вопросы) • Монологический рассказ на заранее известную тему • Репродуцирование вслух чужой речи • Обдуманная речь по заранее состав ленному плану • Стереотипная речь по шаблонному тексту • Речь за суфлером
Живая речь уральского города. Тексты. Екатеринбург, 1995. С. 4.
НКРЯ верстка4.indd 131
22/06/2009 17:48
132 Заранее подготов ленная речь
Е. А. Гришина, С. О. Савчук • Пересказ вслух с опорой на письменный текст • Изложение вслух письменного текста • Воспроизведение вслух выученного наизусть текста • Чтение вслух заранее известного текста • Чтение вслух заранее неизвестного текста
В корпусе устной речи нет текстов, представляющих собой заранее подготовленную речь2 . Но зато в большом объеме представлены тексты, относимые на этой схеме к квазиспонтанным, — преж де всего это записи публичной речи и подкорпус кино. 6) Подкорпус кино, включающий транскрипты речев ой со ставляющей игровых и мультипликационных фильмов (а в проек те — и документальных фильмов и игровой рекламы3 ) — уникаль ный компонент корпуса устной речи в составе нкря. Эта сфера существования языка почему-то ускользала от внимания исследо вателей устной речи и составителей больших корпусов4 . Меж ду тем влиятельность этих текстов в русском (и не только в русском) речевом узусе чрезвычайно велика, как было показано в работе [Гришина 2005б]. В настоящее время общий объем корпуса устной речи составляет более 7,5 млн словоупотреблений, и его можно считать предста 2
Записи заранее подготовленной речи являются важной составляющей корпусов звучащей речи. 3 Первые опыты подготовки текстов теле- и радиорекламы показали, что эти рекламные ролики представляют собой «воспроизведение вслух выученного наизусть текста» и потому не соответствуют критериям отбора текстов для устного корпуса. Все они были включены в состав рекламных текстов корпуса письменной речи. 4 Область, в которой широко используются корпуса, создаваемые на базе фрагментов игровых фильмов, видеоклипов и видеозаписей телепередач, – пси холингвистическое изучение эмоционального поведения человека. Кроме того, на базе киноклипов создаются мультимедийные корпуса; о проекте создания такого корпуса в составе НКРЯ см. статью Е.А. Гришиной «Мультимедийный русский корпус (мурко): проблемы аннотации» в наст. сборнике.
НКРЯ верстка4.indd 132
22/06/2009 17:48
133
Корпус устных текстов
вительной коллекцией текстов, отражающей функционирование современного русского языка в его устной форме. Покажем, как это отражается в составе и структуре корпуса5 . Состав и структура корпуса устной речи Подобно всем другим текстам, вошедшим в состав Национального корпуса русского языка, устные тексты имеют метатекстовую раз метку, позволяющую отбирать из всего массива пользовательский подкорпус, а также анализировать состав корпуса и корректировать его в процессе наполнения. К основным метатекстовым признакам относятся: • сфера функционирования: публичная, непубличная, кино • тип текста: беседа, интервью, микродиалог и пр. • тематика текста: частная жизнь, медицина и здоровье, политика и общественная жизнь и пр. • время создания текста • место записи текста • стиль текста: нейтральный, сниженный, официальный • характеристики аудитории: размер, возраст, уровень подготовки Приведем количественные показатели корпуса по некоторым ме тапризнакам . Тексты распределяются по сферам устной коммуникации сле дующим образом: Сфера функционирования Устная публичная речь Устная непубличная речь Речь кино
Количество словоупотреблений 3930076 761966 2819394
Соотноше ние в % 52 % 10 % 38 %
5 Данные о составе и структуре корпуса приводятся по состоянию на январь 2009 года.
НКРЯ верстка4.indd 133
22/06/2009 17:48
134
Е. А. Гришина, С. О. Савчук
В пределах каждой сферы тексты распределяются по основным типам6 . Сфера функцио нирования Устная публич ная речь
Устная непуб личная речь
Количество Тип словоупот текста реблений беседа 1064750 интервью 305775 дискуссия 1920306 лекция 116636 парламентские слушания 86640 конференция 48972 круглый стол 49177 рассказ 75585 прочие 181547 разговор 583752 разговор телефонный 79990 рассказ 47340 пересказ 12533 микродиалог 25435 прочие 12916
Соотно шение в% 27,1% 7,8% 48,9% 3% 2,2% 1,2% 1,3% 1,9% 6,1% 76,6% 10,% 6,2% 1,6% 3,3% 1,8 %
Речь кино распределяется по киножанрам. Речь кино
кинодрама кинокомедия кинодетектив киноповесть кинофантастика кино детское прочие
661963 1049043 256423 239922 83812 233797 294427
23,5% 37,2% 9,1% 8,5% 3% 8,3% 10,4%
6 Поскольку допускается отнесение текста одновременно к нескольким типам, например, для речи кино — к нескольким киножанрам (кинодетектив|кинокоме дия, кинокомедия|кино детское|киносказка), то сумма долей разных значений этого признака может превышать 100%.
НКРЯ верстка4.indd 134
22/06/2009 17:48
Корпус устных текстов
135
В корпусе представлены тексты разнообразной тематики. Наи более частотны тексты, имеющие помету «частная жизнь» (более 50% всех текстов), затем по степени убывания идут тексты на темы политики и общественной жизни, искусства и культуры, науки, до суга и развлечений, спорта. По времени записи бо´льшая часть текстов относится к современ ному периоду — 2 003 – 2 006 годы, немалая часть — больше 400 тысяч словоупотреблений — относится к периоду 1990-х годов, период 1970х годов — 2 60 тысяч, 1980-х годов — 160 тысяч, до 1970 — 160 тысяч. География Корпуса живой русской речи достаточно широка. В Корпусе представлены тексты, записанные в Москве и Москов ской области (их большинство), в Санкт-Петербурге, Саратове, Са маре, Таганроге, Воронеже, Новосибирске, Ульяновске, Екатерин бурге, Кировской области. Источниками текстов для корпуса послужили: • записи устной речи, опубликованные в хрестоматиях и сборни ках, составленных специалистами в области разговорной речи: под редакцией Е. А. Земской, О. А. Лаптевой, Н. Н. Розановой и М. В. Китайгородской, А. С. Герда и др.; • ранее не публиковавшиеся коллекции записей устной речи, со бранные в различных исследовательских центрах: ИРЯ им. В. В. Виноградова, МГУ (Москва), СПбГУ, Саратовском, Ульяновском университетах; • стенограммы бесед социологов в фокус-группах на различные общественно-значимые темы, предоставленные Фондом «Обще ственное мнение»; • записи устных текстов, выполненные сотрудниками корпуса или под их руководством. Лингвистическая аннотация Для корпуса устной речи характерны те же виды разметок, что и для всего нкря, — метатекстовая, морфологическая и семанти ческая, т.е. в устном корпусе возможны те же типы формирования подкорпусов и типы поиска, что и в «письменном» корпусе. Однако в лингвистической разметке устного корпуса есть и некоторые осо бенности, из которых следует упомянуть две.
НКРЯ верстка4.indd 135
22/06/2009 17:48
136
Е. А. Гришина, С. О. Савчук
1. Сохраняющая разметка. В устной речи, как известно, употреб ляется большое количество стяжек (самые стандартные — тыща, здрасти, щас и проч.), растяжек (нууу, вооот), игровых форм (зерба, ды — название буквы «д», вурдулак), диалектизмов (кажный, дак), искажений иностранцами (слюшай) и под. Нам чрезвычайно не хо телось включать эти искажения в основной словарь нкря, посколь ку за исключением очень небольшого количества стандартных стя женных форм или фразеологизованных игровых форм (например, хоккей в значении о’кей), все остальные представляют собой случай ные осцилляции и часто не имеют лингвистического значения сами по себе, а лишь как манифестации некоторых общих особенностей устной речи. Но поскольку этих форм нет в словаре нкря, постоль ку морфологический парсер, который размечает грамматику и се мантику в корпусе автоматически, оставляет такие искаженные формы вообще без разметки или приписывает им неправильную разметку (например, варианты частицы вот, весьма частотные в устной речи, — во, от, о — распознаются как соответствующие предлоги). Такого рода ошибки морфологической (и, соответствен но, семантической) разметки некритичны для нкря в целом, ввиду большого объема последнего, но весьма неприятны в небольшом устном корпусе. Эта трудность могла бы быть преодолена, если бы было при нято решение принудительно трансформиров ать искаженные формы в правильные. Однако такое снятие проблемы существенно обедняет наши перспективы в изучении устной речи — мы теряем возможность анализировать именно и только искаженные формы (в частности, в их соотнесении с неискаженными, словарными). А в ряде случаев такая нормализация и вовсе невозможна, на пример, контексты с несловарным вариантом щаз не могут быть приведены к контекстам с сейчас, поскольку сейчас и щаз име ют существенно разные значения (в частности, в высказывании Щаз!, Бегу! есть некоторые компоненты значения — сарказм, иро ния, — которые отсутствуют или ослаблены в Сейчас! Бегу!), или, например, некоторые контексты с о (вариантом частицы вот) не могут быть заменены аналогичными контекстами со стандартным вот (см. об этом [Гришина 2008]). В связи с этим было принято решение в случае искаженных форм применять так называемую
НКРЯ верстка4.indd 136
22/06/2009 17:48
137
Корпус устных текстов
сохраняющую разметку, суть которой можно выразить следую щей схемой:
{
}
Incorrectness Correct Spelling + Grammatical Characteristics + Semantic Characteristics
Согласно этой схеме, каж дая Inc (неправильность) сохраняется в тексте, при этом ей приписывается правильная, словарная форма (Cor), которая, в свою очередь, традиционными для нкря способа ми, с помощью грамматического парсера, получает свою грамма тическую (Gram) и семантическую (Sem) разметку. Сохраняющая разметка предоставляет пользователю устного корпуса возможность произвести следующие действия: 1) Найти все случаи вхождения данной Cor в виде Inc (например, искаженные формы здравствуй(те) — здрасьте, издраствуй, здря ствуй, здрааасьте, драствуй, здрассте). 2) Найти все случаи вхож дения данной Cor в виде Cor, без Inc (например, все контексты, где слово тысяча используется в полной форме, а не в форме тыща). 3) Найти все контексты с Cor, включая Inc (например, все случаи употребления местоимения это, включая апокопированный вари ант эт (Эт что такое?) и безударный йто (Что йто случилось?)). 4) Найти все ответы на запрос от определенного Gram и Sem, включая или исключая искаженные формы (например, на запрос «наречия направления» будет получен результат, включающий в себя апокопированный вариант прям < прямо, хотя формально вариант прям совпадает с краткой формой мужского рода прила гательного прямой, а не с наречием прямо, и при отсутствии со храняющей разметки именно так и был бы размечен; при этом же запросе, но иск лючающем искаженные формы, будут получены только контексты с наречием прямо — разумеется, среди прочих наречий направления). 2. Социологическая разметка. Помимо морфологической и се мантической разметки, в корпусе устных текстов используется так называемая социологическая разметка — характеристика слово употребления с точки зрения пола и возраста употребившего его говорящего (если эта информация, естественно, доступна созда телям корпуса).
НКРЯ верстка4.indd 137
22/06/2009 17:48
138
Е. А. Гришина, С. О. Савчук
Социологическая разметка позволяет пользователю создать свои подкорпуса: • по полу говорящего (т.е. пользователь может сформировать под корпуса женской или мужской устной речи); • по возрасту говорящего (например, пользователь может сфор мировать подкорпус репл ик подростков); • по году рож дения говорящего (доступно только для кинотран скриптов — можно, например, отобрать реплики актеров, ро дившихся в xix в.); • по имени актера (например, можно сформировать подкорпус кинореплик Евгения Леонова). Очевидно, что социологическая разметка может быть дополнена метатекстовой — позволяющей отобрать тексты, созданные одним говорящим, что предоставляет возможность вынести его имя и год рождения в описание текста как целого (понятно, что в случае, ес ли а) говорящих в тексте больше одного, б) говорящие по этиче ским причинам безымянны, в) их возраст либо неизвестен, либо слишком разнообразен, — эти параметры не могут быть вынесены в описание целого текста и приходится обращаться исключительно к социологической разметке). Возможности и перспективы использования социологической раз метки довольно широки. Проиллюстрируем это следующим при мером: проверим, есть ли какие-нибудь статистически значимые различия меж ду мужчинами и женщинами в использовании при лагательных формы с уменьшительно-ласкательным суффиксом ‑еньк-. Наиболее частотными в этой зоне являются прилагательные кругленький и пухленький. Распределения здесь таковы: Всего кругленький (о вещи) кругленький (о человеке) пухленький (о человеке)
НКРЯ верстка4.indd 138
29% 25% 29%
Говорящий — Говорящий — женщина мужчина 50% 0% 42%
8% 50% 17%
22/06/2009 17:48
Корпус устных текстов
139
Как видим, по отношению к вещи женщины употребляют слово кругленький, а мужчины избегают такого определения (при этом, надо заметить, слово круглый по отношению к вещам и мужчина ми, и женщинами употребляется в равной степени). Что касается определения человека, то здесь между мужчинами и женщинами наблюдается существенное различие — женщины предпочитают прилагательное пухленький, а мужчины в этом же значении упот ребляют слово кругленький. Таким образом, определение пухлень кий — в значительной степени «женское» слово, а слово кругленький свойственно и мужчинам, и женщинам, но по отношению к разным классам предметов. Исследования устной речи на основе корпуса Приведем пример использования корпуса устной речи, который касается вопроса о различии устной и письменной речи и предла гает образец его решения на основе количественных данных, пре доставляемых корпусом. Этому вопросу посвящена обширная литература, описывающая как экстралингвистические факторы, обусловливающие разграни чение устной и письменной речи, так и собственно лингвистиче ские признаки. Выявлен ряд статистических показателей, релевант ных для дифференциации устной и письменной речи, спонтанной и подготовленной, монологической и диалогической [Галяшина 2002]. Исс ледов ание, выполненное на материале Национально го корпуса русского языка [Гришина 2007а,б], показало значи тельное расхож дение по ряду показателей меж ду текстами уст ного и письменного корпуса. Эти показ атели были названы маркерами устной речи. К числу признаков, обнаруживших в ходе сплошного обследования самые существенные расхождения между устными и письменными текстами, были отнесены следующие: I. Средства, позволяющие говорящему ориентировать слушаю щего в логическом и прагматическом устройстве своей речи в отсутствие знаков препинания (наряду с интонацией).
НКРЯ верстка4.indd 139
22/06/2009 17:48
140
Е. А. Гришина, С. О. Савчук
1. Межфразовые скрепы, прежде всего ну, а, да. 2. Метатекстовые вставки: вот, вот так, так вот, вот что, зна чит. 3. Перформативные лексемы (считаю, обещаю, спрошу и пр.), экс плицитно выражающие речевое намерение говорящего, тип ре чевого акта — для этой цели используются глаголы речи и мен тальной сферы. 4. Личные местоимения 1 и 2 лица, подчеркивающие роли участ ников речевого акта. 5. Контактные слова, привлекающие внимание слушающего к речи: а) глаголы восприятия и ментальной сферы в форме 2 лица (понимаешь/понимаете, знаешь/знаете, видишь/видите, (по)смотри/(по)смотрите и др.); б) обращения к слушающему; в) частицы-обращения, формально совпадающие со скрепами ну, а, да, но произносимые с вопросительной интонацией. II. Эгоцентрические элементы, проявляющие говорящего в его речи (наряду с местоимениями 1-го лица) 6. Глаголы в форме 1 лица, описывающие действия говорящего. 7. Слова да, нет, служащие для выражения согласия — несогла сия. 8. Междометия и оценочные слова, прежде всего слово-интен сификатор очень. 9. Слова, выражающие ближайшие намерения говорящего и слушающего — глаголы движения. III. Дейктические элементы 10. Наречия, привязывающие высказывания к настоящему мо менту — здесь, сейчас, сегодня; 11. Указательные местоимения и наречия тут, там, тогда, та кой, так. По всем этим параметрам корпус устных текстов, как было показа но в статьях [Гришина 2007а,б], существенно отличается от корпу
НКРЯ верстка4.indd 140
22/06/2009 17:48
141
Корпус устных текстов
са письменных текстов: разница составляет от 2 (параметр сегодня) до 10 раз (междометия). Ниже приведены результаты более детального исследования уст ной речи с использованием перечисленных маркеров. Оно выяви ло особенности представленных в корпусе разновидностей устной речи в сравнении с типами письменных текстов, обнаруживших разную степень «устности»7 . Результаты в чем-то подтвердили на ши интуитивные представления о характере устной и письменной речи, а в чем-то и удивили. Сопоставлялись следующие подкорпуса текстов. Подкорпус текстов Устная непубличная речь Устная публичная речь Речь кино Драматургия (1950 – 2 006) Художественная проза (1950 – 2 006)
Количество текстов
Объем в с/у
522 660 185 53 2 2 49
486 7 88 3 8 27 2 00 1 195 6 71 541 618 33 016 014 2 810 5 21
Нехудожественные тексты (интервью) 2 0 57 Нехудожественные тексты (статьи) 18 011 Электронная коммуникация 89
23 6 47 3 54 1 192 1 21
Для каж дого подкорпуса были вычислены абсолютные частоты встречаемости маркеров — как отношение количества контекстов к количеству словоупотреблений в подкорпусе (для удобства вычис лений эти величины пересчитаны на миллион словоупотреблений). Результаты представлены в таблице на следующей странице.
7
Следует отметить, что исследование проводилось дважды, с разницей в один год, на корпусах разного объема. При этом значения параметров, различаясь в абсолютных цифрах, сохранили свое соотношение в текстах разных типов.
НКРЯ верстка4.indd 141
22/06/2009 17:48
142
Е. А. Гришина, С. О. Савчук Частота встречаемости дискурсивных маркеров в текстах разных типов (ipm)8
Маркер Ну А Вот Да Нет Я Ты+вы
Устная Устная Кино не публич публич ная ная
18645 23500 15545 16849 7800 33790 18764 Глаголы в 1 л. 27953 Глаголы речи, 1 л. 2798 Глаголы менталь ной сферы, 1 л. 5748 Глаголы воспри ятия и менталь ной сферы, 2 л. 6557 Здесь+Сейчас +Сегодня 6085 Указательные слова 30835 Очень 2911
Драма Худож. Неху проза дож. (интер вью)
Неху дож. (ста тьи)
4970 13641 8363 6331 4790 20722 11348 23686 2112
13799 21679 7721 10534 6047 35092 36909 29809 3425
5628 15836 4882 5173 4667 34365 29877 25319 2517
1724 671 215 10318 8160 6463 2313 1527 761 2492 1319 534 2031 1835 830 17648 14606 2979 10135 6281 1490 12060 15557 5228 976 950 311
5523
3582
3543
1643
2535
585
4048
8045
6974
2496
1380
513
6217
5653
4097
2480
3807 1728
19419 14400 14497 10573 3600 1931 1416 1186
9073 6299 2580 880
8
ipm (instances per million words) — общая частота, или число употреблений на миллион слов корпуса.
НКРЯ верстка4.indd 142
22/06/2009 17:48
143
Корпус устных текстов 100000
50000
сф ер л. ас ы, 2 + аз л. С ат ел его дн ьн ы я е сл ов а О че нь Ук
Се
йч
ы ,1
сф ер
нт.
ме
и
Зд
ес
я
ти
ь+
т.
ен ия
Гл
аг
. в.
ос
пр
Гл
Научные и публицистические статьи
л.
л.
,1
1 в
чи
ре
ол ы
ы ол
аг
.м
Я
вы
Гл
аг
Письменные тексты
Гл
Устные тексты
аг
Ты
+
ет
Да
Н
А
Во т
Н
у
0
1. Частота встречаемости маркеров в устных и письменных текстах
На диаграмме 1 показано соотношение суммарных частот марке ров в устных текстах и в письменных текстах, отличающихся повы шенной степенью диалогичности (драма, художественная проза, газетно-журнальные интервью). Как видим, значения частот марке ров в устных текстах выше, чем в письменных (в некоторых точках в 2 – 3 раза), причем п р о п о р ц и о н а л ь н о выше, что хорошо видно на графике. Это, несомненно, свидетельствует о том, что маркеры устной речи выбраны точно и отражают именно существенные ее особенности, прежде всего диалогичн ость. Для сравнения на этом же рисунке графически представлено поведение маркеров в тек стах современных научных и публицистических статей, из которого видно, что для данного типа текстов, в отличие от текстов с повы шенной степенью устности, эти маркеры не являются значимыми.
НКРЯ верстка4.indd 143
22/06/2009 17:48
144
Е. А. Гришина, С. О. Савчук
40000
30000
20000
10000
О че нь
л. ас + Се Ук го аз дн ат я ел ьн ы е сл ов а
,1
ме нт
лы
Зд
ес ь
+ Се йч
.с
фе ры
ер ы сф й
но во
сп р.
и
ал ь
,2
л.
л.
л.
,1
1 в
ре чи лы
аг о Гл
ме нт лы
Драма
аг о
Устная публичная
Гл
Гл
Устная непубл. Кино
аг о
Гл
аг о
лы
Ты
+ вы
Я
ет Н
Да
А
Во т
Н
у
0
На диаграмме 2 наглядно представлено соотношение значений мар керов в разных типах устных текстов в сравнении с драмой. Здесь обращают на себя внимание следующие моменты: 1. Речь кино можно рассматривать как точную имитацию уст ной речи. По отдельным показателям она ближе к публичной речи (вот, указательные слова), по каким-то — к непубличной устной речи (глаголы в форме 1 лица, а, ну), а по каким-то показателям даже превосходит естественную речь и приближается к драме (ме стоимения 1 и 2 лица, глаголы в 1 лице, глаголы речи, 1 л.). Это оправдывает включение кино в корпус устных текстов. 2. Драматические тексты обнаружили практически полное сов падение по данным параметрам с текстами кино (а ведь драма относится к письменному корпусу!). По некоторым показателям они даже превосходят естественную устную речь (так имитация акцентирует наиболее характерные особенности имитируемого)9 . 9
Особенно обращает на себя внимание высокая частота местоимений 2 л. в кино и драме, даже по сравнению с непубличной речью. Это может говорить о том, что модель общения, воссоздаваемая в литературных диалогах, комму никативно более правильная, в ней ярче выражена установка на собеседника, что отражается в экспликации местоимений 2 л. Это обстоятельство еще требует уточнения и может быть проверено при пополнении корпуса новыми записями непубличной речи.
НКРЯ верстка4.indd 144
22/06/2009 17:48
Корпус устных текстов
145
О чем это говорит? Во-первых, это те особенности, которые сразу опознаются на слух и «бросаются в глаза» в письменном тексте. Они воспроизводятся и используются авторами — драматургами и сце наристами — для имитации устной речи персонажей в пьесе и в кино, воссоздающих на сцене и экране модель реальной жизни10 . Во-вторых, исследователи русской разговорной речи в 1950 – 60-е годы были не так уж далеки от истины, когда изучали осо бенности разговорной речи на материале текстов пьес (в частно сти, данные о разговорной речи в частотном словаре Засориной получены на таком материале). Но поскольку язык драмы все-таки нельзя считать спонтанной устной речью, наглядные количествен ные показатели принадлежности драмы к письменной речи, веро ятно, нужно искать в области синтаксиса, строения текста, лекси ческого разнообразия. Перспективы развития корпуса устной речи В ближайших планах развития нкря — создание Акцентологиче ского корпуса (см. статью Е. А. Гришиной «Корпус “История рус ского ударения”» в наст. сборнике) и Мультимедийного корпуса устной речи (см. в наст. сборнике статью Е. А. Гришиной «Мульти медийный русский корпус (мурко): проблемы аннотации»). Есть ли на фоне этих проектов перспективы развития у корпуса устной речи — ведь он явно проигрывает в полноте представления мате риала и акцентологическому, поскольку не содержит информации об ударении, и уж тем более мультимедийному, дающему живой портрет высказывания? Ответ на этот вопрос можно дать только положительный по не скольким причинам. Во-первых, корпус устной речи отличается от акцентологическо го и мультимедийного корпусов прежде всего составом текстов. Как уже говорилось, в устном корпусе собраны образцы устной речи, записанные в разных регионах России и в широком временном диа пазоне. В принципе при наличии аудиозаписи, материальных и че 10
По терминологии В.Д. Левина, такие признаки живой речи являются «силь ными», в отличие от «слабых», которые не выходят за пределы устной коммуни кации [Лаптева 2003, 272].
НКРЯ верстка4.indd 145
22/06/2009 17:48
146
Е. А. Гришина, С. О. Савчук
ловеческих ресурсов нет никаких препятствий к тому, чтобы при вести расшифровки в соответствие с реальным звучанием, офор мить тексты так, как это делается для акцентологического корпуса. Однако это не всегда возможно. Значительная часть текстов уст ного корпуса (преж де всего ранние записи, а также переданные в корпус коллекции из региональных центров изучения устной ре чи) существует только в виде транскриптов: магнитофонные записи либо не сохранились, либо вообще не делались (в случае ручной записи микроситуаций). Это относится преж де всего к текстам, из данным в составе хрестоматий (РРР 1978; Китайгородская, Роза нова 1999; РРР-СВ 1998, Живая речь 1995 и др.). Эти записи могут быть представлены только в составе корпуса устной речи. Несмотря на усовершенствование звукозаписывающих устройств расшифровки аудиозаписей и в наши дни остаются наиболее рас пространенным (и наиболее надежным) способом фиксации устного материала, и этот источник пополнения корпуса устной речи нельзя недооценивать. Как показал опыт проведения практики по сбору устной речи студентами московских вузов, транскрипты не всегда сопровож даются полноценными аудиофайлами, пригодными для использования в корпусе. Причины могут быть разными — техни ческими и случайными: низкое качество записи, редкий формат файлов записывающего устройства, ошибки при конвертации и др. Такие записи не могут быть использованы в акцентологическом корпусе, но могут занять достойное место в устном корпусе. Таким образом, по объему и составу текстов устный корпус превосходит и акцентологический, и планируемый мультимедийный. Вторая причина, по которой следует продолжать развитие устно го корпуса, — характер лингвистической разметки и поиска в нем. Корпус только тогда становится эффективным инструментом ис следования, когда разметка в нем соответствует тем лингвисти ческим задачам, которые ставит исследователь при обращении к данному ресурсу. Так, анализ большинства морфолого-синтаксиче ских и лексико-семантических особенностей устной речи удобнее проводить на материале устного корпуса: его достоинства — это большой объем и разнообразие текстов, разметка, сопоставимая с разметкой в корпусе письменных текстов, которая позволяет легко сравнивать результаты, полученные на материале текстов разных
НКРЯ верстка4.indd 146
22/06/2009 17:48
Корпус устных текстов
147
типов. Если же речь идет об изучении фонетических, акцентологи ческих, просодических, паралингвистических характеристик уст ных высказываний, то следует обратиться к акцентологическому или мультимедийному корпусам. Таким образом, ближайшей задачей развития корпуса устных текстов можно считать наращивание объема корпуса до 10 млн словоупотреблений за счет текстов, пока недостаточно в нем пред ставленных, прежде всего записей непубличной речи, и обеспече ние сбалансированности корпуса. Другой задачей является расширение географии корпуса за счет включения записей русской устной речи, сделанных в различных регионах России, в странах ближнего и дальнего зарубежья, что позволит изучать состояние русского языка в контакте с другими близкородственными и неродственными языками, в иноязычном окружении.
Литература Галяшина 2002 — Е. И. Галяшина. Проблема дифференциации спон танной и подготовленной речи. // Труды меж дународного се минара Диалог-2002 по компьютерной лингвистике и ее при ложениям http://www.dialog-21.ru/materials/archive.asp?id=7287 &y=2002&vol=6077 Гришина 2005а — Е. А. Гришина. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. — М.: Индрик, 2005. — С. 94–110. Гришина 2005б — Е. А. Гришина. Два новых проекта для Нацио нального корпуса: мультимедийный подкорпус и подкорпус на званий. — Там же. С. 233 – 2 50. Гришина 2007а — Е. А. Гришина. О маркерах разговорной речи (предварительное исследование подкорпуса кино в Националь ном корпусе русского языка) // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конфе ренции «Диалог 2007» (Бекасово, 30 мая — 3 июня 2007 г.). — М.: Издательский центр РГГУ, 2007. — С. 147 – 1 56.
НКРЯ верстка4.indd 147
22/06/2009 17:48
148
Е. А. Гришина, С. О. Савчук
Гришина 2007б — E. Grishina. Text Navigators in Spoken Russian. // Proceedings of the workshop “Representation of Semantic Structure of Spoken Speech” (CAEPIA’2007, Spain, 2007, 12 – 16.11.07, Sala manca). — Salamanca, 2007. — P. 39–50. Гришина 2008 — Е. А. Гришина. Варианты частицы вот в неприну жденной речи // Инструментарий русистики: корпусные под ходы (Slavica helsingiensia, 34). — Хельсинки, 2008. — P. 63–91. Живая речь 1995 — Живая речь уральского города. Екатеринбург, 1995. Лаптева 2003 — О. А. Лаптева. Теория современного русского лите ратурного языка. — М., 2003. Китайгородская, Розанова 1999 — М. В. Китайгородская, Н. Н. Розано ва. Речь москвичей: Коммуникативно-культурологический аспект. М., 1999. РРР 1978 — Русская разговорная речь: Тексты/ Отв. ред. Е. А. Зем ская, Л. А. Капанадзе. М., 1978. РРР –СВ 1998 — Русская разговорная речь европейского северо-вос тока России / Под ред. Н. С. Сергиевой и А. С. Герда. Сыктывкар, 1998. Савчук 2008 — С. О. Савчук. Местоимение такой в функции марке ра чужой речи в устном высказывании // В печати.
НКРЯ верстка4.indd 148
22/06/2009 17:48
III.
Новые проекты в рамках НКРЯ
НКРЯ верстка4.indd 149
22/06/2009 17:48
Е. А. Гришина
Корпус «История русского ударения»
1
ак известно, ударение в русском языке свободно (т. е. может падать на любой по счету слог слова) и подвиж но (т. е. может перемещаться внутри основы и меж ду основой и окончанием в разных словоформах одной и той же лексемы). Эти особенности русского ударе ния, несомненно, представляют значительную сложность как для самих носителей русского языка, так и для всех, изучающих русский язык как неродной. Кроме того, при всей консервативности русской акцентологии, именно эта подсистема русского языка обладает наи большей лабильностью и изменчивостью — за последние три века, т.е. за тот период, который — пока — «покрывает» Национальный корпус русского языка, в акцентологической системе русского язы ка произошли (и продолжают происходить) довольно существен ные изменения. Эти две причины послужили поводом для создания самостоя тельного модуля в составе нкря, который получил название «ак центологический подкорпус», или, более официально, «Корпус “Ис тория русского ударения”». Его первые материалы уже доступны пользователям на сайте корпуса.
Логическим продолжением работ по созда нию диахронического корпуса является расширение его состава за счет текстов xviii века. Формирование под корпуса текстов xviii века начато в 2006 году в рамках сотрудничества Казанского университета и Института русского языка им. В. В. Виноградова РАН. В 2006 г. был создан пилотный корпус [Савчук, Сичинава, Гари пов 2006], к настоящему времени его объем увеличен до 2 млн словоупотреблений, выровнен состав текстов, так что уже в нынешнем виде корпус имеет самостоя тельную ценность для историков языка и специали стов по культуре xviii века. Кроме того, существенное количество текстов xviii века (более 438 тыс.) содержит поэтический корпус (см. статью Е. А. Гришиной, К. М. Корчагина, В. А. Плунгяна и Д. В. Сичинавы в наст. сборнике). xviii век — период, когда литературная рус ская норма в самых разных отношениях (орфография, фонетика, морфология, синтаксис) не устоялась. Это период перехода от литературного языка, базирующе гося на церковнославянском, к языку нового типа, так или иначе отражающему собственно русскую языковую систему. История русского литературного языка xviii века пока разработана несколько меньше (по крайней мере, с чисто лингвистической точки зрения), чем языка до петровского времени или следующий период — языка xix
1
Статья написана при поддержке грантов РФФИ 06-06-80133-а и 08-0600371-а.
НКРЯ верстка4.indd 150
22/06/2009 17:48
1. Состав корпуса Известно, что основными источниками по истории русского ударе ния являются следующие классы текстов: 1. Стихотворные тексты (преж де всего, силлабо-тонические, но также и тонические, имеющие постоянную или регулярную клаузулу) 2. Транскрипты устных текстов с проставленными ударениями 3. Акцентуированные тексты (например, учебные) 4. Словари и энциклопедии с проставленными ударениями в за головочной зоне. Эти тексты очевидным образом распадаются на две группы, имею щие различную ценность для изучения истории русского ударе ния. С одной стороны, мы имеем дело с фиксацией реальных уда рений — в тех случаях, когда нотация того или иного акцентологи ческого явления не несет никакой нормативной, предписывающей функции (т.е. не ставится задача предложить «правильное», «пре стижное», «культурно нагруженное» ударение) — это касается уда рения в стихотворных текстах и в транскриптах реальных устных фонограмм. С другой стороны, мы сталкиваемся именно с норма тивной, обучающей функцией при расстановке ударений — в акцен туированных учебных текстах и в акцентуированной зоне справоч ной литературы, где авторы проставляют ударения с оглядкой не на реальное произношение, а на произношение, признанное в тот или иной период нормативным, правильным, престижным. Понятно, что в огромном числе случаев данные обоих классов акцентуиро ванных текстов совпадают. Однако для изучения реальной русской акцентуации первая группа текстов существенно более значима, поскольку именно она фиксирует акцентологический узус и свя занные с ним изменения, происходящие в определенный период в русском ударении (очевидно, что узус гораздо более лабилен, чем норма, ригидная по определению). Разумеется, и авторы стихотворных текстов, и те говорящие, тек сты которых послужили базой для акцентуированных транскрип тов, в значительной степени не свободны от нормы и при порож дении текстов, безусловно, считаются с понятиями «правильное» и «престижное» говорение, однако очевидным образом те или иные девиации, отк лонения от правильно акцентуированной речи мы
НКРЯ верстка4.indd 151
22/06/2009 17:48
152
Е. А. Гришина
найдем скорее в тех текстах, простановка ударения в которых яв ляется не самоцелью, а – если можно так выразиться — побочным продуктом речевой деятельности. Именно поэтому в состав акцен тологического корпуса (далее — а к) было решено включить имен но стихотворные тексты, а также акцентуированные транскрипты. Рассмотрим последовательно две составляющие ак. 1.1. Стихотворные тексты Ударение в силлабо-тонических стихотворных текстах, как извест но, не проставлено специальными знаками, а вычисляется с помо щью т.н. сильных долей, или иктов. Каждый силлабо-тонический метр имеет свою схему расстановки сильных долей (ямб — каждый четный слог, хорей — каждый нечетный, дактиль — на первом сло ге трехсложной стопы, амфибрахий — на втором, анапест — на по следнем)2 . О с н о в н о е п р а в и л о вычисления ударений следую щее — если на слово в стихе падает один или более иктов, то один из иктов совпадает с реальным ударным слогом. Если на слово падает только один икт, то в нормальном случае проблем не возникает — ударным является именно тот слог, на ко торый попадает сильная доля. Так, например, анализ употребления слова амфора в поэзии 19 века показывает, что единственным воз можным ударением для данного периода было ударение амфо'ра (что полностью совпадает с рекомендациями [Грамм], где такое ударение оценено как устаревшее): (1) …по`лучи`ли Не по`мню ско`лько ми`н мон`еты зо`лото`й Да ку`чу се`ребра`:
` амф`оры Отд`елки ма ` стерско ` й. [Батюшков К. Н. Странствова сос`уды и тель и домосед («Объехав свет кругом...») (1814–1815)] (2) Не са`м ли ты пе`л, что внуш`енные му`зами пе`сни На се`рдце больн`ое, ус ` лое ве ` ют прохла ` дой, Кот`орая сла ` ще прохла ` ды, из `урны Алф`ея С рас та ` том лию ` щейся, сла ` ще прох ла ` ды, лил`еям Све ` жесть даю ` щей росы `, све ` мого де ` дами, вну ` кам на ра ` дость? и вин`а веков`ого, В амф`орах храни [Дельвиг А. А. Дамон («Вечернее солнце катилось по жаркому небу...») (1821)] (3) Чистый лоснится пол; стеклянные чаши блиста`ют; Все уж увенчаны 2 В тонических стихах с постоянной или регулярной клаузулой ударение падает на последний слог строки при мужской клаузуле, на предпоследний — при женской, на третий с конца — при дактилической, на четвертый и да лее — пригипердактилической.
НКРЯ верстка4.indd 152
22/06/2009 17:48
Корпус «История русского ударения»
153
` рясь, Ладана сладостный дым; другой от гости; иной обоняет, зажму крывает амф`ору, Запах веселый вина разливая дал`ече [Пушкин А. С. Из Ксенофана Колофонского («Чистый лоснится пол; стеклянные ча ши блистают...») (1832)] (4) …и ю`ноши стра`стным Взо`ром ее` провож`али, когда`, напев`ая просту`ю ` сню, амф`ору держ`а над глав`ой остор`ожно, тропи ` нкой К Ти ` бру спус Пе ` лась она ` за вод`ою [Лермонтов М. Ю. «Это случилось в последние ка годы могучего Рима...» (1837–1841?)] (5) И все`, что `отдали` кург`аны и` гробни`цы — Амф`оры пи`рные` и ско`рбные` ` цы [Бенедиктов В. Г. Коса («Я видел: бережно, за рамой, под слезни стеклом...») [Путевые заметки и впечатления (В Крыму), 16] (1839)] ` поро ` проки ` жнены ` амф`оры, О ` нуты ` кор (6) Ко`нчен пи`р, умо`лкли хо`ры, О ` ны, Не ` допи ` ты в ку ` бках ви ` ны [Тютчев Ф. И. «Кончен пир, умолкли зи хоры...» (1850)] ` цед`я в сей зе ` з амф`оры тре ` в просто ` рной И ` хведе ` рной Гро ` здий (7) … И ` к, — без смы ` слу пье ` т [Бенедиктов В. Г. Бахус («Ух! Как мощен он! со Такого...») (1853)] (8) Прельщ`ая вку`с и у`дивля`я взо`ры, Обх`одят и`збало`ванны`х гост`ей За ` тные ` пат`еры и ` амф`оры [Мей Л. А. Цветы («Пир в золотых чертогах ве у Нерона...») (1855)] ` ные жё ` ны и де ` вы, пот`упив стыдли ` вые взо ` ры, Ло ` вко несли ` на плеч`ах (9) Ю ` е амф`оры [Мей Л. А. Фринэ («Ты, чужеземец, ревнуешь меня храмовы к Праксителю напрасно...») (1855)] ` уче ` н, уче ` н без ме ` ры: Зна ` ет, что ` и ка ` к — гет`еры, Го ` вори ` т насче `т (10) … И ` бук`ета ви ` н фал`ернских [Бенедиктов В. Г. Улетела («Эх, ты амф`ор И молодость — злодейка...») (1857)]
Более того, именно такое ударение фиксируется в двух текстах Ман дельштама (развитие и расширение ак позволит выяснить, было ли это стилизацией, или ударение на втором слоге было живой прак тикой еще и в начале 20 в.): (11) А в за`печа`танны`х соб`орах, Где и` прохла`дно и` темн`о, Как в не`жных
` няны ` х амф`орах, Игр`ает ру ` сское ` вин`о. [Мандельштам О.Э. «О, этот гли воздух, смутой пьяный...» (1916.04)] (12) Она` пое`т в церк`овных хо`рах И в мо`насты`рских ве`чера`х И, ра`ссыпа`я ` рны пра ` х, Печ`атае ` т вин`о в амф`орах. [Мандельштам О.Э. «В холод в у ных переливах лир...» (1909.10.22?)]
Если же на слово падает более одного икта, то к решению мы при ходим более извилистым путем. В этой ситуации мы обязаны раз личать случаи возможного и невозможного ударения. Возьмем для примера ударение в слове кладбище. До конца 19 века здесь проблем не возникает — все примеры свидетельствуют об одном возможном
НКРЯ верстка4.indd 153
22/06/2009 17:48
154
Е. А. Гришина
ударении, на втором слоге, т.е. ситуация аналогична ситуации со словом амфо´ра (все примеры приводить не будем): (13) То бы`ло `общее` кладби`ще бе`дной че`рни: Сконч`авший Но`мента`н жизнь
` товстве ` и зе ` рни, И Па ` нтола ` в, кой бы ` л изв`естный мо ` т и шу ` т, Как в мо ` т так и ` друг`ой леж`ат зары ` ты ту ` т. [Барков И. С. Сатиры Горация. то Книга 1, viii («Пень Фиговой я был сперьва, болван безплодной...») [Приап] (1763)] ` жас и тре ` пет чу ` вствуя в се ` рдце, (14) Стра`нник бои`тся ме`ртвой юдо`ли; У ` мо кладби ` ща спеши ` т. [Карамзин Н. М. Кладбище («Страшно в мо Ми гиле, хладной и темной!..») (1792)] (15) Мне гре`зило`сь обши`рное` кладби`ще... Хоть `я Гамл`ет Щигр`овского` ` зда, Но всё ` ж Гамл`ет. [Григорьев А. А. Монологи Гамлета Щигров уе ского уезда («Имею честь явиться перед вами...») (1863)]
С конца 19 века фиксируется современное ударение, и выглядит в поэтических текстах это следующим образом: (16) Одн`а стар`уха ма`ть у я`ркого` огн`я: Должн`о быть, с кла`дбища`, изз`ябнув,
` роти ` лась. [Анненский И. Ф. На полотне («Платки измятые у глаз во и губ храня...») (1890–1909)] (17) Они` раст`опчут ни`вы зо`лоти`стые, Они` разр`оют кла`дбище` тени`стое, ` х уст`а нечи ` стые Кров`авый хме ` ль! [Мандельштам Пот`ом разв`яжет и О.Э. «Среди лесов, унылых и заброшенных...» (1906)] (18) Не ве`ря во`скресе`нья чу`ду, На кла`дбище` гул`яли мы`. [Мандельштам О. Э. «Не веря воскресенья чуду...» (1916.06)] ` стои ` т, молчи ` т гнил`ой, хол`одный до ` м, То ` чно скле ` п на кла ` дбище ` (19) … И глух`ом [Бунин И.А. «Ночь и дождь, и в доме лишь одно...» (1920–1952?)]
Как видим, на слово кладбище (поскольку волею судеб на доступ ном к настоящему моменту материале это трехсложное слово не попало в трехсложный размер, а фигурирует только в стихах, на писанных ямбом и хореем) падает два икта — на первый и на по следний слог. Таким образом, по основному правилу, мы должны были бы сделать вывод, что ударным может являться либо первый слог (кла´дбище), либо последний слог (кладбищ´е) — и без привле чения дополнительных сведений, при опоре только на стихотвор ные тексты, выбор меж ду этими двумя вариантами практически невозможен. Однако из внешних данных (в частности, из лекси кографических источников, из данных узуса, из теоретических акцентологических изысканий) известно, что вариант кладбищ´е нигде не зафиксирован и в принципе теоретически чрезвычайно
НКРЯ верстка4.indd 154
22/06/2009 17:48
Корпус «История русского ударения»
155
маловероятен, т.е. ударение на последнем слоге в этом слове долж но расцениваться как невозможное, следовательно, единственным выбором в данном случае является вариант кла´дбище. Встречаются, однако, случаи, когда не удается однозначно опре делить, что некоторое ударение невозможно, и в этом случае сти хотворный текст не дает стопроцентного ответа на поставленный вопрос. Рассмотрим, к примеру, ударение словоформы поднялись. Поскольку двусложные размеры, в особенности ямб, в русской сил лабо-тонике наиболее частотны, а словоформа трехсложная, то чаще всего она является двуиктовой (приводим далеко не все примеры): (20) И` от `этого`-то гро`му По`дняли`сь к ней же`нихи` Ве`рени`цей к е`е до`му,
` к фаз`аньи пе ` тухи ` . [Державин Г. Р. Царь девица («Царь жила-была Ка девица...») (1812)] ` нджело ` вступи ` л во `управле ` нье, И всё ` тотч`ас други `м (21) Лишь то`лько А ` текло ` , Пружи ` ны ржа ` вые ` опя ` ть пришли ` в движ`енье, За пор`ядком по ` ны по ` дняли ` сь, хват`ая в ко ` гти зло ` [Пушкин А. С. Анджело («В одном ко из городов Италии счастливой...») (1833)]
При этом ни одно из предлагаемых иктами ударений не может быть однозначно признано невозможным — вероятно и подняли´сь, и по´днялись3 . Более того, и то, и другое прямо фиксируются в тек стах (хотя, конечно, предпочтение явно отдается ударению на по следнем слоге): (22) Ангел сме`рти лишь на` ветер кры`лья просте`р И дохн`ул им в лиц`о, и по
` ркнул их взо ` р, И на му ` тные `очи пал со ` н без конц`а, И лишь ра ` з под ме ` сь и осты ` ли сердц`а. [Толстой А. К. «Ассирияне шли как на стадо няли волки...» [Из Байрона] (1856.09)]
3
Следует упомянуть, что попадание двуиктового слова в зону рифмовки (о зоне рифмовки подробнее см. статью о поэтическом корпусе в настоящем сборнике) снимает акцентологическую неоднозначность — в следующих при мерах из Пушкина и Григорьева мы однозначно выбираем ударение подняли´сь, невзирая на двуиктовость, — ввиду того, что это слово попадает в зону рифмовки и при этом в мужскую клаузулу: И вдру´г толпо´й все че´рти по´дняли´сь, По во´здуху´ на кры´льях по´несли´сь… [Пушкин А. С. Монах («Хочу воспеть, как дух нечистый Ада...») (1813)] Я по´мню ра´з, в конце´ зимы´, С ним до´лго за´сиде´лись мы´ У ни´х; уж ча´с четве´ртый бы´л За по´лночь; вме´сте мы´ взяли´сь За шля´пы, вме´сте по´дняли´сь И вы´шли... [Григорьев А. А. Олимпий Радин («Тому прошло уж много лет...») (1845)]
НКРЯ верстка4.indd 155
22/06/2009 17:48
156
Е. А. Гришина
(23) Мачты стро`йных гал`ер подняли`сь, как лес`а, И, как ча`йки, треп`ещут
` рта... [Мей Л. А. Отойди от крыл`ом парус`а На зыб`ях отдал`енного по меня, сатана! («На горе первозданной стояли они...») (1854–1861)] (24) На гор`е первозда`нной стоя`ли они`, И над ни`ми, безд`онны и си`ни, Под ` сь небосво ` ды пусты ` ни. [Мей Л. А. Отойди от меня, сатана! («На няли горе первозданной стояли они...») (1854–1861)] (25) И холмы` подняли`сь остров`ами по те`м озер`ам. [Григорьев А. А. Борь ба, 7 («Доброй ночи!...Пора!..») (1843–1857)] (26) Вдруг по`днялись ту`чей на По`льшу сос`еды — И ла`вр мне дост`ался в уде`л. [Рылеев К. Ф. Думы. X. Глинский («Под сводом обширным темницы подземной...») (1822)]
Исходя из приведенных данных, двуиктовые примеры должны быть признаны в этом случае непоказательными — они не дают возмож ности определить, какое именно ударение демонстрируют данные цитаты4 . Как было показано в курсе лекций [Зализняк 2007–2008], слу чаи, когда нужно сделать выбор между возможным и невозможным ударением в ситуации наличия двух иктов на словоформе (сочета нии словоформ), иногда могут быть достаточно непростыми даже в текстах, которые, на первый взгляд, известны всем и даже вхо дят в школьную программу. Так, в академическом издании «Горя от ума» в следующей цитате (27) Что` при` свида`ния`х со мно`й в ночно`й тиши` Держа`лись бо`лее` вы ро`бости` `ве, Чем да`же дне`м, и при ` людя `х, и в я`ве (vi,12) во нра
в словосочетании при людях в качестве возможного было призна но ударение при людя´х, которое и было рекомендовано читателю с помощью реально проставленного знака ударения. При этом уда рение на последнем слоге в дательном и предложном для слов люди и дети в литературном языке на зафиксировано, и в данной цитате единственно возможным, очевидно, должно быть признано ударе 4
Корпус дает также пример ударения на втором слоге: На ли`цах су`еве`рный стра`х, И с хла`дным тре`пето`м смяте`нья Власы` подня`лись на` чела`х. [Веневитинов Д. В. Евпраксия («Шуми, Осетр! Твой брег украшен...») (1824)] Таким образом, по данным поэтических текстов для словоформы поднялись дол жны быть признаны возможными все три ударения – по´дня´ли´сь (при этом, одна ко, 19 век в однозначно толкуемых примерах отдает абсолютное предпочтение ударению на последнем слоге).
НКРЯ верстка4.indd 156
22/06/2009 17:48
Корпус «История русского ударения»
157
ние при´ людях с переносом ударения с энклиномена на проклитику (как в более привычном на´ людях). Этот сюжет подводит нас к еще одной ситуации, которая несколь ко уточняет основное правило — а именно, к ситуации переноса ударений с энклиномена (на проклитику или на предшествующий энклиномен, например, по´лночь, по´лночи). В таких группах пра вило вычисления ударения по иктам таково — реальное ударение отражается крайним левым (или, иначе, первым по счету) иктом в группе. Ср. приведенный выше пример из Грибоедова, а также следующие цитаты: ударение на первом члене группы (на ´ рук у, за ´ рук у, за ´ полночь, по´лночи): (28) Глав`ою на` рук`у склон`ен, В забв`ении` глуб`оком, Я в сла`дки ду`мы по`гру
` н На ло ` же `одино ` ком [Пушкин А. С. Мечтатель («По небу крадется же луна...») (1815)] (29) Не в до`лгом вре`мени` цар`евны к не`й предста`ли, И о`бе Ду`шеньку` со ` стьем по ` здравля ` ли, И за ` рук`у трясли ` , и кре ` пко `обнима ` ли... [Бо сча гданович И. Ф. Душенька / Книга вторая («Но где возьму черты...») (1775–1782)] (30) Здесь, на` люб`овное` свид`анье при`глаше`нный, По вы`бору` ее` бесчи`с ` х зат`ей, Явл`ялся за ` полн`очь к влады ` чице ` свое ` й То ры ` царь ленны ` менны ` й, то тру ` баду ` р смир`енный... [Ростопчина Е. П. Еще о Не пла аполе («Нет! не хвалите мне страны непросвещенной...») (1846.05)] (31) Мгнов`енно до`мик на`ш и все` мы ве`селе`ли В бес`еде дру`жеско`й, за тра` ` й Звуч`али за ` полн`очь и сме ` х и го ` лос тво ` й, А чу ` дные ` глаз`а пез`ой просто ` темн`ели. [Мей Л. А. Покойным («Когда раскинет ночи мер пыл`али и цающие сени...») (1856.12.16)] (32) Тут лжи`вой де`вушки` до по`лночи` я жда`л, Одн`ако мно`ю со`н в тех мы`слях `облада ` л. [Барков И. С. Сатиры Горация. Книга 1, v («Во Арцию прибыв из Рима по отъезде...») [Веселая дорога] (1763)] (33) Дости`гло дне`вное` до по`лночи` свети`ло, Но в глу`бине` лиц`а гор`ящего` не ` ло, Как пла ` менна ` гор`а каз`алось ме ` ж вал`ов И про ` стира ` ло бле ` ск скры ` з-за льдо ` в. [Ломоносов М. В. Петр Великий («Начало моего багр`овой и великого труда...») (1760.11.01)]
ударение на втором члене группы (на ру ´ку, за ру ´ку, за по ´лночь, полно´чи): (34) И ча`сто ви`жу `я, как ни`мфа мо`лода`я, На ло`же ли`ственно`м пок`оится` на ` я, На ру ` ку бе ` лую ` , под го ` вор клю ` чево ` й, Склон`яяся ` чел`ом, венч`анным га `осоко ` й. [Баратынский Е. А. Наяда («Есть грот: Наяда там в полдневные часы...») (1826)]
НКРЯ верстка4.indd 157
22/06/2009 17:48
158
Е. А. Гришина
(35) Тогда` черк`ес ост`анови`лся, За ру`ку пу`тника` схвати`л, И кто` бы, кто` не
`удиви ` лся? [Лермонтов М. Ю. Измаил-Бей («Опять явилось вдохнове нье...») (1832)] (36) Так не`заме`тно про`лета`ют Часы` дос`уга и` мечты`, Давн`о за по`лночь! [Ростопчина Е. П. Часы уединенья («О! как люблю я быть одною!..») (1840.07)] (37) В око`нчины ве`тер, буш`уя, стучи`т; Уны`ло и с тре`ском лучи`на гори`т. ` лночь! .. Сном кре ` пким объя ` ты, Леж`ат беззаб`отно по Давн`о уж за по ` вкам сарм`аты. [Рылеев К. Ф. Думы. xv. Иван Сусанин («Куда ты ве ла дешь нас?.. не видно ни зги!...») (1822)] (38) Или торчать при дворе с утра до полн`очи С отвесом в руках и сплошь напяливши `очи [Кантемир А. Д. Сатира vi. О истинном блаженстве («Тот в сей жизни лишь блажен, кто малым доволен...») (1738)] (39) Что` ты не спи`шь до полн`очи глух`ой? [Огарев Н. П. «Дитятко! милость господня с тобою!..» (1858?)]
Отметим еще один неочевидный способ определить положение ударения в слове — в ситуации полного отсутствия на нем иктов. В случае, если односложное полнозначное слово попадает в меж дуиктовую зону (т. е. на одно из двух слабых мест в трехсложном размере, как пал в примере (22), или сном в примере (37), или бег в примере (67) или на слабую долю в двусложном размере, как жизнь в примере (13)), проблемы как таковой не возникает, по скольку односложное знаменательное слово не имеет вариантов в ударении. Ситуация меняется, если в междуиктовую зону в трех сложном/пятисложном размере попадает двусложное слово с про блемной акцентологией (обычно это касается двух первых слабых долей анапеста или пентона iii 5 ). В этом случае правило таково: ударным является первый слог проблемного слова, т.е. слог, макси мально удаленный от сильной доли. Например, следующие приме ры предполагают ударения о´бнял, по´дняв, по´днял, при´нял: (40) Обнял кры`шу Илья`, усмехн`улся, Во всю гру`зную пе`чень над`улся, Дви
` рху... [Бунин И. А. Святогор и Илья (“На гривастых конях на нул кве косматых...”) (1916.01.23)] (41) На гумн`ах везде, Как князья`, скирды Широк`о сидят, Подняв го`ловы. [Кольцов А. В. Урожай (“Красным полымем...”) (1835)] (42) Ходун`ом всё пошло` в ожид`аньи: Поднял дья`кон разд`умчиво кре`ст, По ` лся в нем`ом созерц`аньи [Мей Л. А. На бегу (посвящается С. П. Ко грузи лошину) (“В галерее сидят господа...”) (1862.02.13)] 5
О последнем см. статью о поэтическом корпусе в настоящем сборнике.
НКРЯ верстка4.indd 158
22/06/2009 17:48
Корпус «История русского ударения»
159
(43) И морщи`нистых ле`стниц уст`упки — В площадь лью`щихся ле`стничных
` к, — Чтоб звуч`али шаги ` , как посту ` пки, Поднял ме ` дленный Ри ` м-че ре лов`ек [Мандельштам О. Э. Рим (“Где лягушки фонтанов, расквакав шись...”) (1937.03.16)] (44) В чистом по`ле, у ка`мня Ала`тыря, Светит ме`сяц по шле`му бог`атыря: ` жию сме ` рть Святог`ор. [Бунин И. А. Святогор (“В чистом Принял бо поле, у камня Алатыря...”) (1913.03.8)]
В заключение этого раздела следует упомянуть о том, что в поэти ческих текстах встречаются изолированные случаи синкопирован ного ритма, когда расстановка иктов противоречит единственному возможному ударению в слове. Например, следующая цитата из Тютчева предполагает ударение приподняли´, которое находится в явном противоречии с возможными ударениями припо´дня´ли: (45) Уж зве´зды све´тлые´ взошли´ И тя´готе´ющи´й над на´ми Неб´есный сво´д припо´дняли´ Свои´ми вла´жными´ глава´ми. [Тютчев Ф. И. Летний вечер («Уж солнца раскаленный шар...») (1828)]
А в цитате из Кольцова предлагается ударение ру´ка, которое про тиворечит единственно возможному ударению рука´: (46) Ка`к, быв`ало, ле`том с у`лицы Мы` пойд`ем с ней ру`ка `об руку До` двор`а ее` ` крыльц`а ее ` выс`окова. [Кольц бог`атова, До ов А. В. Дер ев енс кая бед а («На сел е свое м жил мол од ец...») (1838.05.14)] Ср. также пример (20), где предполагается синкопа ´е_ё. Такие син копы, естественно, ввиду их иск лючительности, нельзя рассмат ривать как свидетельства существования реального ударения ру´ка, приподняли ´ или ´её, а следует просто выводить из акцентологиче ского рассмотрения. Приведем примеры микроисследований, которые можно прово дить на стихотворной части ак. Широко известно, что в течение 19 века слово музыка изменило свое ударение (последнее переместилось со второго слога на пер вый). Интересно, однако, узнать, как именно проходил этот процесс. Поскольку данное слово относительно частотно в русской поэзии 18–20 вв., мы получаем из ак достаточно представительные данные, которые показывают, что процесс смены ударения здесь проходил плавно, а перелом приходится на первую треть 19 в.:
НКРЯ верстка4.indd 159
22/06/2009 17:48
160
Е. А. Гришина 100%
музы ´ка
му´зыка 0% 1730 –1759
1760 –1799
1800 –1829
1830 –1899
1900 –1959
Плавность процесса отражается также в том, что он проходил в рав ной степени по всем падежам. Та б л и ц а 1 му ´зык
всего 60%
им 60%
род дат 43% 100%
вин 64%
тв предл 69% 80%
´к музы доля падежей
40% 100%
40% 38%
57% 23%
36% 12%
31% 18%
0% 3%
20% 5%
Как видим из таблицы, существенные отклонения от средних зна чений (60% — ударение на первом слоге и 40% — на втором) дают только малочастотные для этого слова падежи (дательный и пред ложный). Интересно при этом, что наиболее «консервативным» в принятии нового ударения оказался родительный падеж. Из со держательных вещей следует отметить, что творчество И. А. Кры лова по этому параметру может быть расценено как достаточно «революционное» — Крылов вообще не использует ударение на вто ром слоге и тем самым по этому частному параметру существенно опережает свою эпоху: (47) Нев`ежда в фи`зике`, а в му`зыке` знат`ок, Услы`шал со`ловья`, пою`щего` на
` тке, И хо ` чется ` ему ` име ` ть так`ого в кле ` тке. [Крылов И. А. Павлин и со ве ловей («Невежда в физике, а в музыке знаток...») (1788)] (48) … Хоз`яин му`зыку` люби`л И за`мани`л к себ`е сос`еда пе`вчих слу`шать. [Крылов И. А. Музыканты («Сосед соседа звал откушать...») (1807)] (49) Просла`вим на`ше ста`до И гро`мче де`вяти` сест`ер Поды`мем му`зыку` ` й соста ` вим хо ` р! [Крылов И. А. Парнас («Когда из Греции вон и сво выгнали богов...») (1808?)] (50) По`годи`те! Как му`зыке` идти`? Ведь вы` не та`к сиди`те. [Крылов И. А. Квартет («Проказница-Мартышка...») (1811?)]
НКРЯ верстка4.indd 160
22/06/2009 17:48
Корпус «История русского ударения»
161
(51) И что` еще`, чег`о не ви`дано` на све`те: Когда` пер`евози`ть туд`а мой бу`дут
` м, Тогда ` под му ` зыко ` й с прия ` теля ` ми в не ` м, Пир`уя за ` больши ` м стол`ом, до ` восе ` лье `я пое ` ду, ка ` к в кар`ете [Крылов И. А. Механик («Какой-то На но молодец купил огромный дом...») (1816)] (52) В любви` я к му`зыке` теб`е не `уступа`ю. [Крылов И. А. Кошка и соловей («Поймала кошка Соловья...») (1823)] (53) Кук`ушка, в но`вом чи`не, Усе`вшись ва`жно на` оси`не, Тал`анты в му`зыке` ` Вык`азыва ` ть пусти ` лась [Крылов И. А. Кукушка и орел («Орел по свои жаловал Кукушку в Соловьи...») (1829)] (54) Хоть вы` охри`пните`, хвал`я друг дру`жку, — Все ва`ша му`зыка` плох`а! [Кры лов И. А. Кукушка и петух («Как, милый Петушок, поешь ты громко, важно!») (1834)]
Более резкий перелом (пришедшийся на границу второй и третьей трети 19 в.) демонстрирует изменение ударение в ед.ч. муж. р. крат кой формы прилагательного сильный (си´лен vs. силён): При этом снова обращает на себя внимание тот факт, что в твор честве И. А. Крылова процесс замены си´лен на силён отражается гораздо раньше, чем в творчестве других поэтов, — все примеры ударения силён в период 1760–1829 гг. встречаются только в текстах Ивана Андреевича6 :
6
Но, конечно, в творчестве Крылова встречается и вариант си´лен: `ши ни `зкие `, будь зна `тен, си `лен ты `, Не сме `ют на ` тебя ` подня `ть они `и Так ду взгля`ды; Но `упади` лишь с вы`соты`, От пе`рвых жди` от ни`х оби`ды и` доса`ды. [Крылов И.А. Лисица и осел («Отколе, умная, бредешь ты, голова?»...») (1821)] ` шути `ть легко `, – Червя `к отве `тствуе `т, – лета `я вы `соко `, Зате `м, что кры `льями ` Тебе и си`лен ты`, и кре`пок [Крылов И.А. Сокол и червяк («В вершине дерева, за ветку уцепясь...») (1829)]
НКРЯ верстка4.indd 161
22/06/2009 17:48
162
Е. А. Гришина
(55) В кот`орой се`рдцу ну`жны си`лы, Хоть бу`дь умо`к сил`ен слегк`а [Крылов И. А. К друг у мое му («Скаж и, люб езн ый друг ты мой...») (1778–1844)] (56) Кто зна`тен и` сил`ен, Да не` уме`н, Так ху`до, `ежели` и с до`брым се`рдцем `он. [Крыл ов И. А. Слон на воев одс тв е («Кто знат ен и сил ен...») (1808?)] (57) Уви`дя то`, на мы`сли Во`лку вспа`ло, Что Ле`в, кон`ечно, не` сил`ен, Коль та`к ` пу про ` тяну ` л к ягн`енку та ` кже `он. [Крыл смир`ен: И ла ов И. А. Лев и волк («Лев убир ал за завт рак ом ягн енк а...») (1816)] (58) На све`те кто` сил`ен, Тот де`лать все` вол`ен. [Крыл ов И. А. Кот ен ок и скво рец («В как ом-то дом е был Сквор ец...») (1823)] 1.2. Транскрипты устных текстов В этой части ак проблем с «пересчетом» иктов в ударения, есте ственно, не возникает — в транскриптах проставляются реальные ударения. Основную проблему в этой зоне представляет акцен туация словосочетаний. Наиболее частотные варианты, которые приходится различать, перечислены в следующей таблице. Та б л и ц а 2 вот + вопро Во´т как на´до обостря´ть сительные и ста´вить на ребро´ вопро´с / то ва´рищ бое´ц. слова Ба´бник / во´т кто. Ну во´т что / Влади´мир Ва си´лич / с пожа´ром поко´нчили. вот он Во´т он! Смотри´те!
где это знай себе как тебя как это
НКРЯ верстка4.indd 162
´ жив´у в Некра´совке. — Где´ Я это? А о´н зна´й себе попи´сывает Вопрос ‘как тебя зовут?’: Ка´к тебя? Ка´к это не´т / почем´у? Ка´к это / я´ без ва´с / вы´ без меня´... Уходи´ отсю´да? — Ка´к это?
Вот ка´к вы´ ду´маете / что´ она´ мне´ пи´шет? А вот кто´ бо´льше / я´ ещё не разобрала´сь. Я´-то молч´у / а вот что´ Лох ма´тый сказа´л! Вот о´н пришёл домо´й, а жена´ ему´ и говори´т. Кто´ сказа´л? — Вот о´н. Где´ ´это происходи´ло? Зна´й себ´е це´ну Союз + местоимение: Меня´ встреча´ли, как тебя´. Ита´к / продо´лжим. Ка´к ´это та´м да´льше? Вы´ по´мните? Ка´к ´это бы´ло? Ка´к ´это понима´ть?
22/06/2009 17:48
Корпус «История русского ударения»
163
Сочетание предлога кроме кроме того Вводное слово: Кро´ме того, мне´ пришло´сь за и соотносительного то: Кроме того´, что я´ заплати´ла плати´ть за прое´зд за их прое´зд, так меня´ ещё и обруга´ли Сочетание глаголов: может быть Вводное слово: Мо´жет быть / на ча´с ра´ньше Ни у кого´ из профессоро´в не мо´жет бы´ть ´этих де´нег! да´же / това´рищ... Мо´жет быть / ´эта исто´рия / О´чень мо´жет бы´ть. Да вы´ чё? Не мо´жет бы´ть. всего´ лишь лег´енда У на´с до´ма, мо´жет быть, бес У разв´едчика не мо´жет бы´ть любви´. поря´док У на´с до´ма мо´жет бы´ть бес поря´док ну да Я´ уже´ прочита´л ´эту кни´гу. — Ну Ну да что´ тут ска´жешь! да´! Ну´, да что´ тут ска´жешь! Почем´у это´ всё вре´мя со почему это Ну почем´у это все´ мне´ хотя´т мно´й происхо´дит? помо´чь? Уходи´ отсю´да! — Почем´у это? так что Факультативная частица так Так что в значении´поэтому, в начале фразы, начинающей итак, итого´ имеет ударение ся с ударного что, всегда без на так: Ва´ш годово´й дохо´д от из ударна: Так что´ ж ты´ мне´ тогда´ мозги´ во´зного про´мысла в го´д бо´лее ста´ миллио´нов рубл´ей пу´дришь? / та´к что жел´езные доро´ги Так что´ же это ты´ / бра´тец / Ге´сснера для Ва´с ка´к бы... осно´вы трясём? Та´к что за что´ же на ре´ю-то... Так что´ случи´лось, скажи´те ва´ше... тезомени´тство... након´ец! Та´к что мне торопиться не куда. что он Что´ он, дура´к? Я´ ду´маю, что о´н дура´к Моя´ корми´лица утвержда´ет что это Что´ это за безобра´зие? / что ´это пода´рок самого´ Чего´ это ты´ де´лаешь? См. также как это, где это, по Ме´рлина. Я´ ду´маю, что ´это бу´дет чему это о´чень вку´сно.
Кроме того, возникают проблемы различения омонимичных частей речи, по крайней мере одна из которых служебная, а также разведе ния разных значений одного и того же служебного слова, которые, помимо значений, различаются еще и акцентуацией. Основные случаи такого рода перечислены в следующей таблице.
НКРЯ верстка4.indd 163
22/06/2009 17:48
НКРЯ верстка4.indd 164
В оценочных предикаци ях* * : Во´т дура´к! Во´ даёт! ´ прид´умал! О В начале фразы и как частица: Да отста´нь ты´ от меня´. Да что´ зде´сь под´елаешь?
Лексикализация эмфа зы* : Тако´й вот оборо ´т де´ла. Вот та´к вот.
Союзное слово: Да кто' ви'дит / ка'к вы' спи'те? Вы´ не зна´ете, ка´к назва´ли ребёнка? На в значении ‘возьми’ всегда ударно: На´ кни´гу. В сочетании с тебе в ситуации драки местоимение безударно: На´ тебе! Как отрицательная частица всегда безударно: Как вариант «нет» всегда ударно: Не прид´у. Не´, не прид´у! В конце фразы и отдельная фра С паузой в начале фразы: Без паузы в начале фразы: Ну´, а что´ мы´ бу´дем де´лать? Ну´, и ку за: Ну а что´ зде ´сь сде ´лаешь? Ты´ ско ´ро там, ну´? Дава´й, де´лай да´ ты´ пошёл? Ну куда´ ты´ пошёл? что ´-нибудь! Ну´!
С указательными сло Обобщенно-вводное: Вот прихо´дит о´н ко мне´ вами: ´т.. Вот та´к он поступил. и говори Вот зде´сь он живет. Вот ´это мне нравится. В конце фразы и отдельная фраза: 1) Ты ´ пойдёшь, да´? 2) Я´ за´втра уе´ду. — Да´? 3) Ты ´ хо´чешь я´блок? — Да´. Союз: ´ вёл себя´, как после´дний идио´т. Я ´ воспринима´ю ´это как несправедли Я ´вость Предлог безударный
* О лексикализации эмфазы см. [Гришина 2007], [Гришина 2008]. * * О вот в оценочных предикациях см. [Гришина 2008].
ну
не
на
как
да
вот
Ta б л и ц а 3
164 Е. А. Гришина
22/06/2009 17:48
НКРЯ верстка4.indd 165
Тут вводное: Так во ´т / я´ расска´зываю. / Ту´т меня´ оди´н мини´стр с одни´м бан ки´ром познако ´мил.
Тут пространственное: Кста ´ти / о´н ту´т не лета´ет? ´ ту´т жив´у. Я
Тут усилительное: А шо´ тут удиви ´тельного? Всётаки зима´. Е´дут тут вся´кие / ни про фе´ссии / ни под´ушек. Что´ тут ска´жешь! О´н тут дурака´ валя´ет!
Частица ‘наверное’: Ты ´ чай уе ´дешь?
Союз (часть союза): ´ не зна´л, что ты´ пое Я ´дешь в Кар´елию. То´, чем тебя´ развлека´ли, мне ´ не нра ´вится.
тут
чай
что
Союзное слово: Я´ не зна´ю, что´ с тобо ´й сде´лаю. Не представля´ю, че ´м тебя´ заня´ть.
Существительное: Ты´ ча´й вы´пьешь?
Соотносительное то в главном предложении: Мне´ не нра´вится то´, что ты´ де´лаешь
Местоимение: Вот то´, что мне´ нра´вится. То´ пла´тье теб´е велико´
Частица: То пот´ухнет, то пога´снет. А челов´ек-то пропа´л!
Что´ та´м, Кла´в? Чё он волн´у-то по ´днял? Что´ та´м происхо ´дит? Ты´ ско´ро та´м зако ´нчишь? Како´й та´м телеви´зор стои´т большо ´й!
Ну´ тогда´ с презид´ентом / бо´ссом / ше ´фом... Ка´к там у ва´с его´? Что´ там / хоро´ш! Како´й там телеви ´зор, та´м и электри ´чества не´т. Ты´ ско´ро там?
там
то
Пиш´у себ´е шпарга´лки (а ты´ са´м себ´е напи´шешь)
Пиш´у себе шпарга ´лки (никого´ не тро´гаю)
себе
Корпус «История русского ударения»
165
22/06/2009 17:48
166
Е. А. Гришина
Сопоставление данных по перечисленным в Таблицах 2–3 слово сочетаниям и служебным словам (например, вот что, так что, вот + вопросительные слова, вот + указательные слова) показы вает довольно хороший уровень согласованности между стихотвор ной и прозаической зонами ак, т.е. расстановка иктов в этих сло восочетаниях, используемых в стихотворных текстах, в основном не противоречит реальному произношению, зафиксированному в прозаической зоне ак. Несколько сложнее ситуация с омонимич ными/полисемичными служебными словами. Но это проблема тре бует специального исследования и описания. Как пример совместного использования данных поэтической и прозаической зон ак можно привести предварительное описа ние7 переноса ударения с энклиномена на прок литику в группе ‘первообразный предлог + числительное в вин. пад.’. Данные по этической зоны (которая пока покрывает в основном 18–19 вв.) свидетельствуют о подавляющем преимуществе более старой нор мы, предполагающей перенос предлога, — в 89% зафиксированных словосочетаний такого рода предлог попадает в сильную долю, что, в соответствии со сформулированным выше правилом, обозначает ударность предлога и безударность числительного (из 58 сочета ний ‘предлог + числительное’ только 6 предполагают ударение на числительном: (59) Еди`н сто `острых жа`л прит`упит И мно`жество`м низв`ержет ра`н, Еди`н
` гол`ов насту ` пит, Восста ` вит во ` льность мно ` гих стра ` н. [Ломоно на сто сов М. В. Ода на рождение его императорского высочества государя великого князя Павла Петровича сентября 20 1754 года («Надежда на ша совершилась...») (1754.09)] (60) Татья` на, по` сов`е ту ня` ни Сбир`а ясь но` чью во` рожи` ть, Тихо` нько ` каза ` ла в ба ` ни На два ` приб`ора сто ` л накры ` ть [Пушкин А. С. Евгений при Онегин / Глава пятая («В тот год осенняя погода...») (1826)] (61) Сие` глубо`кое` твор`енье Зав`ез коч`ующи`й куп`ец Одн`ажды к ни`м ` дине ` нье И для ` Татья ` ны на ` коне ` ц Его ` с разр`озненно ` й Мальви ` ной в уе ` л за три ` с полти ` ной [Пушкин А. С. Евгений Онегин / Глава Он `уступи пятая («В тот год осенняя погода...») (1826)] (62) Тот же стал паки его умолять, говоря: «Не узн`ает Старец о том никогда; ` дня, Брата ж мы завтра хороним; молю он отсель отлучился на три 7 Описание, безусловно, является предварительным, поскольку объем и поэ тической, и в особенности прозаической зон ак на данный момент совершенно недостаточен для точного и однозначного обсчета материала.
НКРЯ верстка4.indd 166
22/06/2009 17:48
Корпус «История русского ударения»
167
тебя всею душ`ою, Дай утешение мне в беспредельно горькой печ`али! [Толстой А. К. Иоанн Дамаскин («Тщетно он просит и ждет от безмолв ной юдоли покоя...») (1858?)] (63) Разд`ался гу`л, и, бе`рег по`тряса`я, На два` вершк`а ушл`а в тряси`ну сва`я! [Толстой А. К. «В борьбе суровой с жизнью душной...» (1860–1864?)] (64) Разд`ался гу`л, и, бе`рег по`тряса`я, На три` вершк`а ушл`а в тряси`ну сва`я! [Толстой А. К. «В борьбе суровой с жизнью душной...» (1860–1864?)],
при этом три из шести примеров относятся ко второй половине 19 в.). В прозаической зоне ситуация уже совершенно другая — из 45 примеров 27, т.е. 60%, показывают, напротив, ударность числитель ного и безударность предлога, фиксируя, таким образом, преобла дание новой нормы (примеры относятся, естественно, ко второй половине 20 в.). Особенно ярко смена норм проявляется в случае трехсложного числительного десять. Поэтическая зона ак в 19 в. фиксирует ударение на проклитике: (65) Она` теп`ерь его` сос`едка, В дер`евне с му`жем зде`сь жив`ет, Верст за` де
` ть, — уж пя ` тый го ` д — С детьми ` ... чай, ста ` ла, ка ` к нас`едка [Огарев ся Н. П. Матвей Радаев («Вдоль снежной улицы забор...») (1856–1858?)] (66) То Го`гарта` схвати`в игри`вый ка`ранда`ш (Кот`орый за` дес`ять из но`вых не` ` сским ю ` моро ` м и на ` прями ` к с нат`уры, Из глу ` посте `й отд`ашь), Он, с ру ` х крои ` л кари ` кату ` ры. [Вяземский П. А. Дом Ивана Ивановича людски Дмитриева («Я помню этот дом, я помню этот сад...») (1860)] (67) И нельз`я же: бег на` десять вё`рст! [Мей Л. А. На бегу (посвящается С. П. Колошину) («В галерее сидят господа...») (1862.02.13)]
а единс тв енный пример ударения на числительном относится к 20 в.: (68) Мы жив`ем, под соб`ою не чу`я страны`, Наши ре`чи за де`сять шаг`ов не
` , А где хва ` тит на по ` лразгово ` рца, Там прип`омнят кремл`евского слышны ` рца. [Мандельштам О. Э. «Мы живем, под собою не чуя страны...» го (1933.11)]
Что касается прозаической зоны, то все 8 примеров, зафиксиро ванных в акцентуированных транскриптах фильмов, предлагают ударное числительное и безударный предлог, т.е. для числитель ного десять старая норма «мертва» уже для самой ранней на се годняшний день фиксации — в фильмах «Цирк» 1936 г. и «Актриса» 1942 г. и Владимир Володин (1891 года рождения), и Борис Бабочкин
НКРЯ верстка4.indd 167
22/06/2009 17:48
168
Е. А. Гришина
(1904 года рождения), и Михаил Жаров (1900 года рождения) пред почитают новую норму: (69) [Директор цирка, Владимир Володин, муж, 45, 1891] Репетиция назна чена на де´сять часов / а сейчас? [Григорий Александров, Илья Ильф, Евгений Петров и др. Цирк, к/ф // 1936] (70) [Михаил Жаров, муж, 42, 1900] Доктор / говорю / у ней у одной злости на де´сять тысяч человек хватит [Леонид Трауберг, Николай Эрдман, Михаил Вольпин. Актриса, к/ф // 1942] (71) [Петр Марков, Борис Бабочкин, муж, 38, 1904] Да вот шесть мильонов на де´сять помножить никак не могу. [Леонид Трауберг, Николай Эрд ман, Михаил Вольпин. Актриса, к/ф // 1942] (72) [Петр Марков, Борис Бабочкин, муж, 38, 1904] Но премьера не состо ится. Отложена на де´сять дней. [Леон ид Трауберг, Николай Эрдман, Михаил Вольпин. Актриса, к/ф // 1942].
2. Параметры метаразметки Тексты, вошедшие в ак, размечаются по следующим параметрам: О с н о в н ы е п а р а м е т р ы т е к с т а : название, автор, пол, год рождения автора, год создания текста (напомним, что для фильмов авторами считают режиссер(ы) и сценарист(ы)). Ж а н р и т и п т е к с т а : стихотворные жанры, публичная устная речь, непубличная устная речь, речь кино. С о ц и о л о г и ч е с к и е п а р а м е т р ы т е к с т а : имя говоряще го (актера), пол говорящего, год рож дения говорящего, возраст говорящего Х а р а к т е р и с т и к и с т и х о т в о р н о г о т е к с т а : метр, тип клаузулы, количество стоп в строке. Зона «Характеристики стихотворного текста» позволит поль зователю в необходимых случаях несколько сузить запрашиваемый в корпусе материал. Например, если пользователю необходимо бу дет сформулировать запрос об ударении в словоформе поднялись (см. выше), то он при желании сможет сформировать запрос только на материале трехсложного метра (дактиль, амфибрахий, хорей), чтобы заранее отсеять случаи, когда расстановка иктов в этой сло воформе двусмысленна (что характерно для ямба и хорея). Тип клаузулы позволит искать эту словоформу только в мужской, или только в женской, или только в дактилической клаузуле, что так же может представить ее акцентологические характеристики од
НКРЯ верстка4.indd 168
22/06/2009 17:48
Корпус «История русского ударения»
169
нозначно. К примерам, приведенным в сноске 3, можно добавить следующие цитаты, в которых двусмысленные в акцентологическом ` дняли ` сь / по ` дняло ` сь трактуются одно отношении словоформы по ` сь/поднял`ось, поскольку находятся в мужской значно — как подняли клаузуле: (73) Бе`лы го`луби` стани`цей, Где` отк`уда ни` взяли`сь, По`д жемч`ужной
` лесни ` цей С не ` й на во ` здух п `од н я л и ` с ь [Державин Г. Р. Рождение ко красоты («Сотворя Зевес вселенну...») (1797)] (74) Здесь вме`сте два` холм`а сросли`сь И на` верблю`де п `о д н я л и` с ь [Держа вин Г. Р. Утро. 1800 («Огнистый Сириус сверкающие стрелы...») (1800)] (75) Тел`ега ста`ла. Ра`здало`сь Мол`енье ли`ков гро`могла`сных. С кади`л кур`енье ` й души ` несча ` стных Безм`олвно мо ` лится ` нар`од п `од н я л `ос ь . За `упоко [Пушкин А. С. Полтава («Богат и славен Кочубей...») (1828–1829)] (76) Пи`шет в Ры`льск Петр`ов к Саз`онову: «На`ши це`ны п `о д н я л и` с ь » — ` ртамо ` легра ` мма ж А ` нову Та ` к и ка ` тится ` в Тифли ` с. [Толстой А. К. От Те рывок («Разных лент схватил он радугу...») (1871.09?)] (77) Взглян`у на го`ры — т`ам выс`око Меж ска`л уще`лье п `о д н я л `о с ь И в си`нее` пятн`о слил`ось [Бунин И. А. Горный путь к морю («Весенний день си неет в вышине...») (1902?)] (78) И ло`б мой сты`нет, ка`мене`ет, Глаз`а мут`ятся, се`рдце ввы`сь Томи`тельна`я ` ла тя ` нет, И гру ` ди `остро п `о д н я л и ` с ь : [Бунин И. А. Заклинание («Из си тонкогорлого фиала...») (1916.01.26?)]
Для некоторых типов поиска акцентологической информации мо жет быть полезно ограничение типа «искать только в коротких строках» или «искать только в длинных строках» — такая возмож ность предоставляется параметром «количество стоп в строке». Зона «Социологические параметры текста» дает пользователю возможность исследовать социологические аспекты акцентологии (связь акцентологических предпочтений с полом и возрастом гово рящего, а также акцентологические нормы, характерные для того или иного говорящего, в частности, актера, — здесь могут быть по лучены интересные результаты, демонстрирующие связь тех или иных акцентологических моделей с определенной актерской шко лой, например). В качестве иллюстрации можно привести следующий пример. Обратимся еще раз к материалам кинотранскриптов, иллюстри рующих разные способы расстановки ударений в группах ‘перво
НКРЯ верстка4.indd 169
22/06/2009 17:48
170
Е. А. Гришина
образный предлог + числительное’ (см. выше)8 . Элементарный ана лиз показывает следующие соотношения: Та б л и ц а 4 ударе ние на предлоге ударе ние на числительном
Средний год рожде ния актера 1925 1948
Средний год выхода фильма 1969 1986
Как видим, по предварительным данным, «среднестатистический» актер, предпочитающий в данной конструкции ударение на пред логе, старше «среднестатистического» актера, предпочитающего ударение на числительном, на 23 года, а фильм «с ударением на предлоге» вышел в прокат раньше фильма «с ударением на числи тельном» в среднем на 17 лет, что отчетливо демонстрирует, какая из норм должна оцениваться как старшая, а какая — как младшая. 3. Параметры поиска Параметры поиска, принятые для ак, в целом совпадают с теми параметрами, которые приняты для корпуса в целом (поиск по точ ной форме; поиск лексемы, сочетания лексем, поиск по морфоло гическим и семантическим характеристикам, поиск по сочетанию вышеперечисленных параметров). Здесь следует сделать два уточнения. Прежде всего, для ак необ ходимо сохранить возможность поиска в зоне рифмовки, которая характерна для поэтического корпуса и не принята во всех осталь ных модулях нкря. Это позволит исследователю подробно анали зировать формы и леммы, содержащие букв у ё, которая в русском языке непосредственным образом связана с ударением (слог с ё всегда является ударным), подробнее об этом см. статью о поэти ческом подкорпусе в настоящем сборнике. Следующее уточнение касается поиска точных форм. Здесь, в от личие от поиска точных форм в других модулях в составе нкря, следует предусмотреть возможность поиска словоформы с тем или иным ударением (под ударением понимается обычное ударение, а также сильная доля и букв а ё), а также поиск слова/словоформы 8
Из рассмотрения выведено числительное десять, поскольку для киноэпохи оно, как было показано выше, уже непоказательно.
НКРЯ верстка4.indd 170
22/06/2009 17:48
Корпус «История русского ударения»
171
без ударения. Запрос на словоформу с ударением позволит быстрее решать те или иные частные акцентологические задачи. Например, прямым запросом можно будет выяснить, насколько характерно для 19 в. современное ударение Га ´млет (из зафиксированных на данный момент 18 вхождений этого имени собственного, Га´млет только один — в тексте Пушкина: (79) Певц`у Корс`ара по`дража`й И ска`ндина`вов ра`й вои`нской В пир`ах до
` шних во ` скреша ` й, Или ` как Га ` млет-Ба ` ратынск ` ой ` Над ни ` м зад`умчиво ` ма мечт`ай [Пушкин А. С. Послание Дельвигу («Прими сей череп, Дельвиг, он...») (1827)],
а остальные цитаты предлагают ударение Гамл´ет). Запрос на сло восочетание с расставленными ударениями позволит отсеивать ненужный материал — например, можно будет запросить только вхож дения словосочетания та´к что в значении ‘итак, следователь но’ и сходных (см. Таблица 2): ` голе ` чком за ` пасла ` сь, Тро ` е су ` ток во ` рожи ` ла, (80) По`сле ве`дьма за`перла`сь, У
` к что бе ` са при ` мани ` ла. [Пушкин А. С. Царь Никита и сорок его до Та черей («Царь Никита жил когда-то...») (1822)] ` ж над ни ` м я би ` лся, би ` лся, (81) Ка`к туд`а я до`скака`л, Пе`нь гор`елый `увида`л; У ` к что чу ` ть не на ` дсади ` лся [Ершов П. П. Конек-горбунок («За горами, Та за лесами...») ` лечка, `я нездор` ` к что теп`ерь не пиш`у я стих` (82) Ми`лая О ов, Та ов. [Бу нин И. А. Письма дяди Вани Бунина Олечке Жировой. 16 января 1945 г. («Милая Олечка, я нездоров...») (1945.01.16)] (83) Начнём с того´ / что сего´дня три´дцать пе´рвое ию´ня / и впереди´ у меня´ дли´нный лу´нный де´нь. Та´к что мне´ торопи´ться ни к чем´у. [Леонид Квинихидзе, Нина Фомина. 31 июня, к/ф // 1978] (84) Не´т / вы´ зна´ете / хорошо´ / когда´ никого´ позади´ не´т / ни жены´ / ни дет´ей. Ле´гче. И жи´ть ле´гче / и умер´еть ле´гче. Та´к что не нужна´ мне´ никака ´я певи ´ца. [Леонид Трауберг, Николай Эрдман, Михаил Вольпин. Актриса, к/ф // 1942] (85) Знако´мься. Э´то Воло´дя. Э´то Окса´на. А э´то Ро´мка. Фами´лия / Ма´рченко. Та´к что ты´ не пуга´йся / Окса´на. [Евгений Шерстобитов. Акваланги на дне, к/ф // 1965]
в отличие от сочетания вводной (безударной) частицы так и удар ного что´: (86) Послу`шать, ка`жется`, одн`а у ни`х душ`а, — А то`лько ки`нь им ко`сть, так
` твои ` соб`аки! [Крылов И. А. Собачья дружба («У кухни под ок что ном...») (1815?)]
НКРЯ верстка4.indd 171
22/06/2009 17:48
172
Е. А. Гришина
(87) Так что` теб`е вся зло`сть, весь го`вор го`лоси`стой Твои`х враг`ов! [Язы ков Н. М. Послание к Ф. И. Иноземцеву («Да сохранит тебя великий русский бог...») (1844.04.27)] (88) [Андрей Рублев, Анатолий Солоницын, муж, 32, 1934] Так что´... ты´ ду´маешь / что добро´ то´лько в одино´чку твори´ть-то мо´жно? [Андрей Тарковский, Андрон Михалков-Кончаловский. Андрей Рублев, к/ф // 1966] (89) [Ворон, Сергей Лукьянов, муж, 39, 1910] Так шо´ у на´с / свои´х парн´ей ма ´ло? [Иван Пырьев, Николай Погодин. Кубанские казаки, к/ф // 1949]
И, наконец, запрос на словоформу без ударения позволит легко от бирать случаи, когда ударение переходит с энклиномена на прокли тику — так, например, запрос «ногу без ударения + ног`у (т.е. с ик том, обозначающим невозможное ударение)» позволит выбрать из корпуса только те словосочетания, где словоформа ногу теряет ударение в сочетании с предлогом: (90) В бе`ресто`вой си`дя бу`дочке, Но`гу на` ног`у скрести`в, Вра`ч наи`грыва`л
` дочке Бе ` ссозна ` тельны ` й моти ` в. [Толстой А. К. Медицинские сти на ду хотворения. 4. Берестовая будочка («В берестовой сидя будочке...») (1868–1870)] (91) Све´точ ру´сской слов´есности / ма´ть его´ за´ ногу! [Алла Сурикова, Вла димир Кунин, Ким Рыжов. Чокнутые, к/ф // 1991]
в отличие от контекстов, где ногу сохраняет ударение: (92) Ополч`айся на бра`нь, Покор`яй супроти`вных под но`гу! [Ершов П. П. Си бирский казак («Рано утром, весной...») (1834)]
(93) Пусти`лся навы`верт пят`ами меси`ть, Заки`дывать но`гу за но`гу, Отк`уда
` ть? [Толстой А. К. Садко («Сидит у царя во взял`ася, под`умаешь, пры дяного Садко...») (1871.11–1872.03)]
4. Акцентологический фильтр для грамматики В зак лючение статьи следует особо отметить, что акцентологи ческие сведения предоставляют возможность снизить уров ень «шума» в морфологической разметке текстов. Основной корпус нкря содержит текс ты с морфологической разметкой двух ти пов — 1) т. н. снятник», т.е. подкорпус со снятой грамматической омонимией, где паразитические грамматические разборы снима лись разметчиками вручную, так что каж дая конкретная слово форма имеет в нормальном случае только один морфологический разбор (не считая, естественно, тех достаточно редких случаев, ко гда контекст не позволяет однозначно определить, какая грамма
НКРЯ верстка4.indd 172
22/06/2009 17:48
Корпус «История русского ударения»
173
тическая форма употреблена в данном конкретном примере), и 2) основной корпус с неснятой грамматической омонимией, где грам матика размечалась автоматически и, следовательно, словоформы, которые являются омонимичными в русском языке, получали все возможные грамматические разборы. ак представляет собой корпус, в котором пользователю может быть предложен некоторый вариант грамматической разметки, промежуточный меж ду этими двумя крайними полюсами. По скольку нормально в письменных текстах ударение в русском язы ке не отмечается, то, следовательно, в случае, если две словоформы являются омографами, но не являются омофонами (т.е. пишутся одинаково, а произносятся по-разному — с разным ударением), то в основном корпусе они получают грамматические разборы обоих омофонов. Так, например, словоформа спуститесь в корпусе на дан ный момент в следующих двух контекстах получает два одинаковых комплекта грамматических разборов — разбирается как индикатив и как императив (и, следовательно, на запрос пользователя ‘инди катив’ или ‘императив’ от спускаться выпадут оба эти контекста): (94) Вост`орги Пи`ндара`, спусти`тесь! Свят`ой вост`орг, теб`я зов`у! [Хвостов Д. И. Хол ер а 1830 год а («Свир еп ое исч ад ье ада...») (1830–1834?)] (95) …в белосне´жном фра´ке / Ми´сочкин / вы´ спу´ститесь в за´л / зажгу´тся со´тни огн´ей / вы´ упадёте на кол´ени перед ва´шей престу´пной / но про щённой ва´ми ма´терью / и ти´хо произнесёте / «Ма´ма / во´т я и нашёл тебя´!» [Тигран Кеосаян, Ганна Слуцки. Ландыш серебристый, к/ф // 2000]
Очевидно, что если снабдить грамматический парсер, который автоматически размечает грамматику в корпусе, некоторым до полнительным модулем, умеющим приписывать грамматические характеристики с учетом позиции ударения в словоформе, то в ана логичных приведенному случаях морфологический разбор может быть приписан словоформе однозначно — в первом случае это будет императив, во втором — индикатив. Этот дополнительный акцентологический модуль станет аб солютно бесценным средством для различения таких «безнадеж ных» случаев, как контексты с все и всё, с союзом (безударным) что и союзным словом (ударным) что и под. А для таких слов, как, например, о, которое в русских текстах имеет несколько значений
НКРЯ верстка4.indd 173
22/06/2009 17:48
174
Е. А. Гришина
(1. Название буквы, 2. Междометие, 3. Один из вариантов частицы вот (О´ даёт!), 4. Предлог), появится возможность при запросе «от сеять» контексты с достаточно частотным безударным предлогом и оставить для исследования только цитаты с ударным о (первые три значения). Таким образом, создание акцентологического фильтра для грам матической разметки, элиминирующего паразитические разборы при опоре на акцентологическую характеристику словоформы, должно быть признано одним из приоритетных направлений в раз витии ак, наряду с его пополнением новыми акцентуированными текстами. Литература Грамм — А. А. Зализняк. Грамматический словарь русского языка. Изд. 4-е, испр. и доп. М., 2003 Гришина 2007 — Е. А. Гришина. О маркерах разговорной речи (пред варительное исследование подкорпуса кино в Национальном корпусе русского языка) // Компьютерная лингвистика и интел лектуальные технологии. Труды международной конференции «Диалог 2007» (Бекасово, 30 мая — 3 июня 2007 г.). С. 147–156 Гришина 2008 — Гришина Е. А. Частица вот: варианты, исполь зуемые в непринуж денной речи // Инструментарий русисти ки: корпусные подходы. Slavica Helsingiensia 34. Helsinki, 2008. P. 63–91. Зализняк 2007–2008 — А. А. Зализняк. Курс лекций «Несколько сю жетов из истории древнерусского языка», Отделение теорети ческой и прикладной лингвистики, МГУ им. М. В. Ломоносова, 2007–2008 учебный год.
НКРЯ верстка4.indd 174
22/06/2009 17:48
Е. А. Гришина
Мультимедийный русский корпус (МУРКО): проблемы аннотации
1
1. работе [Гришина, Савчук 2008] было дано общее описание про екта Корпуса звучащей русской речи, который к настоящему мо менту получил название «Муль тимедийный русский корпус» (мурко)2 . Поэтому в данной статье мы лишь кратко охарактеризуем этот проект и основное внимание уделим проблемам возможной разметки корпуса мурко (очевидно, что разработка принципов разметки корпуса практически равна разработке параметров поискового интерфейса, к которому, как предполагается, будет обращаться пользователь). Планируется, что мурко будет создаваться прежде всего на кине матографическом материале, накопленном к настоящему моменту В данной статье мы расскажем о составе под корпуса диалектных текстов в его нынешнем виде, об особеннос тях его разметки и про блемах, возникающих при его аннотиров а нии. Разметка диалектных текстов нкря уже описывалась ранее в статье (Летучий 2005), однако с тех пор ее принципы несколько из менились: увеличение корпуса заставило нас добавить ряд новых помет и скорректировать применение старых. До 2006 года были разме чены отдельные диалектные текс ты (около 20000 словоупотреблений), на которых разра батывалась исходная разметка. К концу 2006 года количество словоупотреблений составило около 50 000, сейчас корпус насчитывает при мерно 250 000 слов. К концу 2008 года плани руется дов ес ти объем корпуса до 300 000.1. Состав корпуса Сейчас в состав корпуса вхо дят тексты архангельских, курских, брянских, тульских, орловских, псковских, новгородских, саратовских, волгоградских, вологодских и не которых других говоров. Сравнительно в не большом объеме прдставлены забайкальские
1
Исследование проведено при поддержке грантов РФФИ 06-06-80133-а и 08-06-00371-а, а также программы ОИФН РАН «Генезис и взаимодействие социальных, культурных и языковых общностей». 2 Предварительный анализ возможности создания МУРКО был проведен при очень важной содержательной поддержке программистов компании «Яндекс» Андрея Аброскина и Николая Григорьева, за что автор выражает им глубокую благодарность.
НКРЯ верстка4.indd 175
22/06/2009 17:48
176
Е. А. Гришина
в ходе пополнения подкорпуса устной речи и акцентологического подкорпуса в рамках нкря. По мере развития мурко в него будут включены также те записи устной речи из устного подкорпуса, для которых имеются в наличии соответствующие видео- и аудиофайлы. Принцип пос троения мурко достаточно очевиден — файлы фильмов, видео- и аудиофайлы будут разрезаны на минимальные целостные единицы (клипы), и им в соответствие будут поставлены элементы транскриптов. Те клипы, которые содержат некоторый жестовый материал, но не содержат никакого текста, будут вклю чены в мурко, естественно, без соответствующих скриптов. Клипы, сопровож дающиеся текстовым материалом, в дальнейшем будут называться кликстами (или клипотекстами), а видеофрагмен ты, содержащие только жестовый материал, — собственно клипами. Таким образом, единицей выдачи в мурко будут 1) для клик стов — фрагменты транскриптов, размеченные морфологически и семантически по методике, принятой в нкря, и связанные гипер ссылкой с соответствующим клипом; 2) для клипов — гиперссылки, отсылающие к базе данных, содержащей набор клипов. Каж дый кликст/клип будет расцениваться как отдельный текст, имеющий свое метаописание (так, как это принято в нкря). Это метаописание будет создано в соответствии с набором параметров, разработанных для устного подкорпуса нкря (параметры, связан ные с автором текста как целого, датой создания, жанровой харак теристикой и т.д., а также параметры, относящиеся к социологи ческой разметке, — автор реплики (для фильмов — имя персонажа и актера), год его рож дения и пол, если таковые известны). Сле довательно, как и в нкря, в соответствии с этими параметрами (с каждым в отдельности или с их комбинацией) пользователь сможет формировать свой собственный подкорпус. Уже в таком виде мурко будет представлять интерес для пользо вателя, особенно в условиях дефицита мультимедийных корпусов, созданных на материале русского языка. Появится возможность получить звуковой и/или жестовый материал, ведя его поиск 1) от леммы/словоформы, 2) от словосочетания, 3) от морфологических характеристик, 4) от семантических характеристик, 5) от имени персонажа, 6) от имени актера, 7) от возраста и пола говорящего,
НКРЯ верстка4.indd 176
22/06/2009 17:48
177
Мультимедийный русский корпус
Люди и манекены Люди и манекены Театр
Актер Александр Граве Владимир Лепко
1954
Андрей Тутышкин
1910
1954 (2 раза) 1954 1954 (2 раза) 1965 1965 1970 1972
Павел Суханов Людмила Касаткина Константин Сорокин Наталья Фатеева
1911 1925 1908 1934
Евгений Весник Владислав Дворжец кий 1974 (3 раза) Аркадий Райкин 1974 1978
Способ произнесения
1946 1954
1920 1898
1923 1939
Фрикатив буγалтер
Фильм Беспокойное хозяйство Мы с вами где-то встре чались… Мы с вами где-то встре чались… Укротительница тигров Укротительница тигров Укротительница тигров Дети Дон Кихота Ко мне, Мухтар! Вас вызывает Таймыр Солярис
Дата рождения актера
Та б л и ц а 1
Дата создания фильма
8) от сочетания всего перечисленного. Поскольку предполагаемый объем только кинематографического материала — порядка 3 млн словоупотреблений, даже при такой минимальной разметке мурко представляет большой интерес для исследователей. Так, например, уже на этом материале мы можем ставить и ре шать некоторые проблемы, связанные с фонетикой/орфоэпией. Например, сформулировав запрос от лексем с корнем бухгалтер(бухгалтер* в основной строке поиска), мы получаем следующую выдачу3 .
1911
3 Анализ проводился на корпусе объемом 1,2 млн словоупотреблений (так, как он сложился на июнь 2008 г.).
НКРЯ верстка4.indd 177
22/06/2009 17:48
178
Актер Николай Парфенов
1912
Николай Волков Юрий Кузьменков
1934 1941
Геннадий Бортник
1939
Смычный бугалтер Способ произнесения
Родня
1965 1966 1970 1970 1978 (4 раза) 1981
Дата рождения актера
Фильм Дети Дон Кихота Берегись автомобиля Белорусский вокзал Вас вызывает Таймыр Театр
Дата создания фильма
Е. А. Гришина
Анализ материала показывает, что в среднем фильм «с фрикативом» на 13 лет старше фильма «со смычным», а актеры, произносящие в данном корне фрикатив, в среднем на 14 лет старше актеров, про износящих смычный: Та б л и ц а 2
Средний год созда ния фильма Фрикатив Смычный
1960 1973
Средний год рожде ния актера 1917 1931
Следовательно, произнесение с фрикативом может расцениваться как старшая, а со смычным — как младшая норма. Еще один пример. Сформулировав запрос «сочетание предлога к со словом, начинающимся с к-», мы получим материал, фрагмент которого представлен в Таблице 34 .
4
Приведена лишь часть материала, доступного в кинематографическом под корпусе на июнь 2008 г., поскольку в отсутствие мультимедийного корпуса по иск соответствующего клипа представляет довольно большие сложности. Впро чем, для иллюстрации возможностей мурко ни объем материала, ни даже пра вильность сделанных на основании отобранного материала выводов не имеет большого значения — важно подчеркнуть перспективы использования мурко.
НКРЯ верстка4.indd 178
22/06/2009 17:48
НКРЯ верстка4.indd 179
Дата 1949 1949 1954 1954 1958 1966 1970 1971 1973 1973 1974 1975 1975 1978 1980 1980 1981
Сочетание к капитану к коммунизму к кому к классике к кому к концу к Кирпичникову к кошмару к камере к каким к кому к Карабасу к Карабасу к концу к каким к которым к кому Татьяна Васильева Александр Калягин Елена Проклова
Татьяна Доронина Аркадий Райкин
Аркадий Райкин Аркадий Райкин Элина Быстрицкая Юрий Яковлев Юрий Кузьменков Юрий Яковлев
Актер Борис Андр еев
Способ Дата рож произнесе ния дения 1915 гемината гемината 1911 гемината 1911 одиночное К 1928 одиночное К 1928 одиночное К 1941 одиночное К 1928 гемината гемината 1933 одиночное К 1911 гемината одиночное К одиночное К гемината 1947 одиночное К 1942 одиночное К 1953 одиночное К
5 Зафиксировано также три случая диссимиляции (персонаж Зиновия Гердта в фильме «Адам женится на Еве», Евгения Леонова в фильме «Дом, который построил Свифт» и Сергея Гусинского в фильме «Операция “С Новым годом!”»).
Фильм Встреча на Эльбе Встреча на Эльбе Мы с вами где-то встречались Мы с вами где-то встречались Добровольцы Берегись автомобиля Вас вызывает Таймыр Старики-разбойники Мачеха Мачеха Люди и манекены Приключения Буратино Приключения Буратино Театр Адам женится на Еве Адам женится на Еве Будьте моим мужем
Пол актера м м м м ж м м м м ж м ж ж м ж м ж
Та б л и ц а 3 5
Мультимедийный русский корпус
179
22/06/2009 17:48
Фильм Родня Дом, который построил Свифт Дом, который построил Свифт Двадцатый век начинается Московские каникулы Операция «С Новым годом!» Операция «С Новым годом!» Операция «С Новым годом!» Ландыш серебристый Ландыш серебристый
Сочетание к кому к камину к камину к концу к командиру к кому к кому к Качалову к кому к краю
Дата 1981 1983
1983
НКРЯ верстка4.indd 180
1986 1995 1996 1996 1996 2000 2000 Алена Хмельницкая Валерий Гаркалин
Ирина Селезнева Ирина Полянская Андрей Краско
Александр а Заха рова
Актер Андрей Петров Владимир Белоусов
м ж ж м ж ж м
ж
1971 1954
1961 1967 1957
1962
одиночное К одиночное К гемината гемината одиночное К одиночное К одиночное К
одиночное К
Способ Дата рож произнесе Пол ния актера дения м 1919 одиночное К м 1947 гемината
180 Е. А. Гришина
22/06/2009 17:48
181
Мультимедийный русский корпус
Анализ материала по параметру возраста актера и года создания фильма дает менее отчетливую картину, чем в предыдущем при мере: Та б л и ц а 4
Гемината Одиночное К
Средний год созда ния филь ма
Средний год рож дения ак тера
1963 1984
1934 1941
Как видим, разница в возрасте актеров (1934–1941) слишком мала, чтобы относиться к ней серьезно. Разница в годе создания филь ма — довольно существенна (21 год). Таким образом, мы здесь стал киваемся либо с недостатком материала, либо со своеобразным со отношением старшей и младшей нормы — когда они связаны скорее с эпохой создания фильма, чем с речевой манерой актера. Более отчетливое распределение дает анализ по полу актера: Та б л и ц а 5 6
Все Гемината Одиночное К
37% 63%
Мужчины 56% 44%
Женщины и дети 9% 91%
Как видим, введение параметра пола дает значительные отк лоне ния от среднего распределения, а следовательно, пол говорящего в данном случае должен рассматриваться как существенный пара метр (если говорить в общем, мужчины предпочитают напряжен ное произнесение, а женщины и дети — расслабленное). Подтвердятся ли эти закономерности при расширении мате риала, и если подтвердятся, то каковы соотношения меж ду хро нологическим и гендерным аспектом в употреблении данных ва риантов, — это уже вопрос не к корпусу, а к тем, кто будет им поль зоваться профессионально. Важно подчеркнуть, что мурко дает возможность ставить такие вопросы. 6
В таблице полужирным даются данные, существенно превосходящие средние значения, а курсивом, напротив, данные, существенно уступающие средним значениям.
НКРЯ верстка4.indd 181
22/06/2009 17:48
182
Е. А. Гришина
Очевидно, что даже с такой минимальной разметкой мурко бу дет иск лючительно важен и для исследователей русской интона ции — в тех ее проявлениях, которые связаны с лексикой, морфо логией, семантикой и социологией (гендерными и возрастными характеристиками говорящих), а также для исследователей русской системы жестов (в аспекте связи жеста со словом). 2. Представляется, однако, что имеющаяся аннотация, полностью за имствованная из нкря, в случае мурко должна рассматриваться как необходимая, но далеко не достаточная. Требуется разработать некоторую систему разметки, которая позволяла бы обращаться к материалу мурко вне зависимости от слова во всех его ипостасях (как такового, как имеющего морфологическую, семантическую и социологическую характеристику). Это, в сущности, обозначает, что должно быть существенно, принципиально расширено метаописание кликста/клипа, с тем чтобы у пользователя появилась возможность отбирать однород ные в том или ином отношении кликсты/клипы вне зависимости от их словесного наполнения7 . Кроме того, ясно, что только рас ширение метаописания клипов позволит обращаться к жестово му материалу в том случае, если жестовое содержание клипа не сопровождается лексическим рядом (в кинематографе эти случаи, очевидно, достаточно частотны), или в том случае, если словесное содержание кликста является, в сущности, несловесным (содержит то, что в английской традиции называется nonverbal words) — вклю чает, например, междометия или вокальные жесты (см. [Шаронов 2008]). Кроме того, как известно, ряд самых разных по прагмати ческим характеристикам междометий традиционно кодируются на письме одним и тем же способом (например, А! разочарования, понимания–узнавания и нек. др.), и единственный способ разли чить их — приписать кликсту в целом ту или иную ситуацию упот ребления данного междометия или вокального жеста, которая для 7
Как станет ясно из дальнейшего изложения, такое расширение метаописания в конечном итоге может повысить поисковые возможности и самого нкря.
НКРЯ верстка4.indd 182
22/06/2009 17:48
Мультимедийный русский корпус
183
разметчика кликста достаточно очевидна, а для обычного пользова теля, имеющего в своем распоряжении только транскрипт, иногда непонятна даже и при максимальном расширении контекста. 3. Расширение стандарта метаописания для устных или мультиме дийных (в англо-американской традиции — мультимодальных, multimodal) корпусов — общее место современной корпусной лин гвистики и инженерии. Поскольку перед европейской и американской корпусной лин гвистикой стоят вполне конкретные задачи максимального прибли жения общения человека с компьютером к стандартам естествен ного общения человека с человеком, то перед ней в полный рост встает проблема определения тех параметров, которые, собственно, и могут способствовать этому приближению8 . Эти параметры группируются следующим образом: 1) по строение типологии речевых действий (dialogue acts=speech acts=dialogue moves), которые стандартно употребляются в тех или иных ситуациях9 говорящим; создание корпусов, ставящих перед собой такую задачу, позволяет в конечном итоге определить состав слов и словосочетаний, а также интонационных контуров, характерных для тех или иных речевых действий, с тем чтобы ма шина в будущем могла однозначно и правильно реагировать на та кого рода сигналы; 2) построение типологии человеческих эмоций 8
Как показала последняя международная конференция по Language Resources and Evaluation LREC’2008 (Марокко, Марракеш, 28-30 мая 2008 г.), создание и аннотация мультимедийных корпусов — мейнстрим современной мировой корпусной лингвистики, имеющий, однако, в качестве своей доминанты не тео ретическое изучение тех или иных языков в мультимедийном аспекте, а вполне конкретные инженерные задачи (см. материалы конференции на специальном сайте [LREC’2008], к которому мы и будем отсылать в дальнейшем). 9 Ситуации могут быть самыми разнообразными – заказ блюд в ресторане ([Strauß et al. 2008]), общение с системой «умный дом» ([Möller et al. 2008]; [Georgila et al. 2008]; [Kostoulas et al. 2008]), с телевизором в интерактивном режиме ([Brutti et al. 2008]), общение с городским транспортным центром ([Marasek, Gubrynowicz 2008]), корпус обращений в американскую службу 911 на языках, отличных от английского ([Nallasamy et al. 2008]), и т.д.
НКРЯ верстка4.indd 183
22/06/2009 17:48
184
Е. А. Гришина
и настроений, чтобы машина могла учитывать в своей реакции не только содержательную, но и эмоциональную составляющую че ловеческого запроса10 ; 3) корпусное исследование тематического развития диалога, включая исследование проблем референции11 ; 4) построение корпусов жестов — как самоцель, либо как часть мультимедийных корпусов (авторы — вполне логично — исходят из того, что полноценное общение человека с машиной предпола гает правильную реакцию машины не только на вербальную, но и на жестовую информацию)12 . Одновременно следует отметить два типа экстралингвистиче ских ограничений, которые нак ладываются в Европе и США на создание мультимедийных корпусов. Во-первых, это ограничения в финансировании — мультимедийные корпуса создаются большей частью в рамках тех или иных коммерческих или социальных про ектов13 (что естественно связано с конкретной постановкой зада чи в ходе построения этих корпусов), соответственно, финансиру ются вполне конкретные и исчислимые заранее результаты. Это очевидным образом ведет как к разумному ограничению объемов корпусов, ни один из которых не достигает и одного миллиона сло воупотреблений (обычно же мультимедийный корпус в 100 000 сло воупотреблений считается очень большим), так и к ограничениям на тип общения, на основе которого сделан тот или иной корпус. Вовторых, существуют жесткие и, по-видимому, пока непреодолимые ограничения, связанные с нарушением privacy «испытуемых» и с правами на воспроизведение полученных материалов (копирайт). 10
Выступлений, касающихся построению корпусов эмоций, на LREC’2008, было достаточно много (две секции в ходе основной конференции и два специальных семинара перед конференцией). Назовем только небольшую часть: [Forbes-Riley et al. 2008]; [Gnjatovíc, Rösner 2008]; [Wilson 2008]; [Devillers, Martin 2008]; [Sainz et al. 2008]; [Fék et al. 2008]; [Cullen et al. 2008]). 11 См. [van Son et al. 2008]; [Stoia et al. 2008]; [Gallo et al. 2008]; [Wilks et al. 2008]. 12 Аннотация направления и длительности взглядов – [van Son et al. 2008], жестов рук – [Savino et al. 2008]; комплексная аннотация мимики и жестов – [Knight, Tennent 2008]; [Blache et al. 2008]). 13 Например, проект, финансируемый ЕС и предполагающий адаптацию пожилых людей к пользованию современной техникой (системой «умный дом», смартфонами, КПК, коммуникаторами и проч.).
НКРЯ верстка4.indd 184
22/06/2009 17:48
Мультимедийный русский корпус
185
Эти ограничения ведут либо к недоступности создаваемых корпу сов для широкого пользователя («на публику» могут выноситься лишь научные и инженерные наработки, сделанные на материале этих корпусов, что в значительной степени обедняет собственно лингвистические возможности их использования), либо к искус ственности получаемого материала (например, используется ра зыгрывание тех или иных ситуаций с помощью нанятых актеров или моделируется естественное поведение «испытуемых» в тех или иных условиях с помощью компьютерных симуляторов в режиме Wizard of Oz (WOZ), когда «испытуемый», общаясь с человеком, ду мает, что общается с машиной; для этих же целей используются и компьютерные игры типа Quake). В редких случаях создателям корпуса приходилось обзаводиться договорами, в которых гаран тируется будущая «неподсудность» создателей корпуса и отсутствие претензий со стороны «испытуемых» (см., например, [van Son et al. 2008]). Каковы на этом фоне характеристики будущего русского муль тимедийного корпуса? 1. Поскольку мурко планируется создавать в рамках нкря, то базовые экстралингвистические характеристики нкря — его откры тость для всех и академический, а не коммерческий характер его использования, «вписанный» в саму его структуру, — будут свойст венны и мурко. 2. Как и нкря, мурко будет построен на принципах цитирова ния — то есть из выдаваемых в нем контекстов (кликстов/клипов) никоим образом нельзя будет получить целый текст (фильм или видеозапись). Тем самым будут соблюдены авторские права (на помним, что именно это свойство выдачи контекстов в нкря позво лило расширить корпус до 160 млн словоупотреблений, из которых более 90 млн относятся ко второй половине 20-го и началу 21-го века, — и издатели, и авторы, и научные коллективы, предоставляв шие нкря тексты, были гарантированы от неконтролируемого рас пространения их книг и материалов в Интернете и контрафактного переиздания, будь то на бумаге или в электронном виде). 3. Поскольку мурко планируется создавать прежде всего на ба зе советского и российского кинематографа, а также на материале теле- и видеозаписей, то не возникает проблемы нарушения privacy.
НКРЯ верстка4.indd 185
22/06/2009 17:48
186
Е. А. Гришина
4. Бесконечное разнообразие ситуаций, отраженных в кинема тографе, позволяет ставить и решать лингвистические, общефило логические, психологические, исторические и прочие задачи на са мом разнообразном материале, включая ситуации, которые вряд ли в принципе доступны для создателей real-life корпусов (сомнительна не только возможность произвести студийную запись текста в ходе, например, боевых действий, но и в гораздо более мирных, граждан ских условиях — например, когда человек внезапно падает или когда он зовет на помощь, находясь в полном одиночестве). Тем самым ши рокому пользователю предоставляется гораздо более разнообразный материал, чем это возможно при работе с real-life корпусами. 5. При благоприятных условиях мурко, как уже говорилось выше, в конечном итоге будет иметь объем не менее 3 млн слово употреблений, что делает статистические данные, полученные на его материале, гораздо более достоверными, чем статистические данные, полученные на основе корпусов объемом 0,1 млн слово употреблений, не говоря уже о меньших объем ах. 6. Из четырех направлений аннотации мультимедийных кор пусов, перечисленных выше, для мурко актуальными, по нашему мнению, являются следующие: 1) аннотация типов речевых дейст вий и 2) аннотация жестов. Именно эти два типа аннотаций имеют под собой более или менее объективные основания для классифи кации (см. об этом ниже). Что касается аннотирования тематиче ского развития текста, а также аннотирования эмоций, то здесь отсутствие формальных критериев для классификации может при вести к тому, что, во-первых, разные разметчики будут приходить к разным результатам, а во-вторых, представления пользователя корпуса о том, какая именно тема развивается в данном кликсте и какую эмоцию выражает в данный момент тот или иной гово рящий, может не совпасть с представлениями разметчика, что приведет к системным сбоям в получении информации из корпуса. Таким образом, базовыми параметрами при разметке мурко будут разметка речевых действий и разметка жестов14 . 7. И наконец, мурко может послужить базой для создания Учеб ного мультимедийного русского корпуса (умко), основу которо 14
Как будет ясно из дальнейшего, при разметке жестов возможно будет учесть ту или иную эмоциональную составляющую высказывания.
НКРЯ верстка4.indd 186
22/06/2009 17:48
Мультимедийный русский корпус
187
го могли бы составить мультфильмы и детские фильмы, входящие в мурко. Учебный мультимедийный корпус мог бы найти приме нение при обучении русскому языку как иностранному (впрочем, вполне вероятно использование умко и для обучения русскому язы ку как родному). В рамках специализированных корпусов эта зада ча не решаема — здесь возможно только создание корпусов, пред назначенных для тренинга автоматических обучающих систем, см., например, об этом [Forbes-Riley et al. 2008]. Таким образом, мурко планируется создавать в качестве нацио нального мультимедийного корпуса, аналоги которого в мировой практике нам пока не известны. Основной претензией, единственным «но» при создании корпуса на основе кинематографических данных является тот факт, что уст ная речь здесь не может рассматриваться как спонтанная. Именно в связи с этим и в выступл ениях на LREC’2008, и в частных беседах с участниками конференции при обсуж дении перспектив исполь зования кинематографической речи в качестве базы для создания мультимедийного корпуса предпочтение отдавалось корпусам т.н. спонтанной речи (при том, что реальная спонтанная речь создате лям корпусов либо недоступна, и ее приходится так или иначе си мулировать, либо ее объем слишком ограничен и привязан к очень узкому кругу ситуаций, либо корпуса, содержащие спонтанную речь в значительном объеме, недоступны для широкого использования и ни в коей мере не могут претендовать на статус национальных, см. об этом выше). В частности, одним из аргументов против исполь зования кинематографа для построения мультимедийного корпуса является тот факт, что при разыгрывании тех или иных эмоций нанятыми актерами довольно низкий процент эмоций правильно опознавался сторонними пользователями. Кроме того, некоторые исследователи обращают внимание на то, что «…существует боль шой разрыв между эмоциональными состояниями, наблюдаемыми в искусственных условиях (разыгранные сцены или искусственно стимулированные проявления эмоций), и эмоциональными состоя ниями, наблюдаемыми в естественном повседневном спонтанном общении» [Devillers, Martin 2008]. В частности, этот разрыв сказы вается в том, что разыгранные эмоции проявляются гораздо более аффектированно, чем эмоции в реальной жизни.
НКРЯ верстка4.indd 187
22/06/2009 17:48
188
Е. А. Гришина
Однако существует и другая точка зрения. Некоторые исследовате ли указывают, что дефект не в актерском розыгрыше эмоций как таковом, а в неверной методологии: актерам предлагаются для про изнесения отдельные предложения, вырванные из содержатель ного, событийного и эмоционального контекста, и в этих услови ях, естественно, актер должен весь контекст «вложить» «в единое слово», что и ведет к чрезмерной аффектации ([Busso, Narayanan 2008]). «Вместо монологов и коротких предложений база данных [для исполнения актером] должна содержать естественные диа логи, в которых эмоции проявляются естественным и уместным образом» (ib.). Более того, средняя длительность диалогов должна быть достаточной для того, чтобы послужить контекстом для физи ческих проявлений эмоций и протекания эмоционального состоя ния (ib.). Очевидно, что кинематограф полностью удовлетворяет этим условиям. Более того, именно кинематограф, по сравнению, например, с театральным представлением, позволяет максималь но естественно разыграть эмоции, поскольку для спектакля, как известно, необходимо подчеркнуть довольную зыбкую рампу ме жду сценой и зрительным залом, а в кинематографе эта граница сама по себе достаточно отчетлива и не нуждается в специальном акцентировании. Все, что было выше сказано об эмоциях в кинематографе, от носится в целом к естественности речи в кино (нам уже приходи лось писать об этом — [Гришина 2007], [Grishina 2007], [Гришина, Савчук 2008], в частности, со ссылкой на новаторскую работу [Ка панадзе 1986]). Добавим только следующее — как показатель, так сказать, вторичной непринужденности речи актера в кино (т.е. не принужденности, которая является не результатом спонтанности речи, а результатом настолько полного усвоения актером чужой речи, что она становится как бы полностью его собственной) могут восприниматься речевые ошибки и оговорки, которые остаются в результирующем «тексте» фильма. Если актеру удавалось пой мать необходимую интонацию, произнести текст роли абсолютно органично, то режиссеры не считали нужным переозвучивать сце ну, содержавшую речевые ошибки и оговорки. Например, в филь ме Г. Данелии «Кин-дза-дза» нет ни одного случая употребления глагола надевать с винительным падежом неодушевленного суще
НКРЯ верстка4.indd 188
22/06/2009 17:48
Мультимедийный русский корпус
189
ствительного — используется только глагол одевать, хотя в филь ме играют такие актеры, как Станислав Любшин, Евгений Леонов и Юрий Яковлев, которых трудно заподозрить в недостаточном уровне речевой культуры. Оговорка Евгения Леонова в фильме Марка Захарова «Обыкновенное чудо» — Простите мне так ую тонкость… грубость выражений — сохранена в звуковой дорожке фильма (и именно в таком виде, с оговоркой, отсутствующей в пье се Е.Шварца, эта фраза стала крылатым выражением). В фильме «Адмирал Ушаков» Борис Ливанов, игравший Потемкина, огова ривается и произносит Неужто Пугачев душегуба посмел на кораб ле укрыть? вместо Неужто Ушаков душегуба посмел на корабле укрыть? В фильме «Операция „С новым годом!“» одна из героинь использует форму взяна вместо взята, а её собеседник использует местоимение она вместо правильного он. И так далее, эти приме ры можно множить. Все это, как представляется, свидетельствует в пользу того, что актерскую речь в фильмах можно расценивать как чрезвычайно приближенную к естественной и спонтанной. 4. Теперь необходимо более подробно изложить способы дополнитель ной метаразметки в мурко, о которой говорилось выше. Начнем с метаразметки речевых действий, содержащихся в кликстах. Поля, по которым размечается речевая составляющая клиста15 : 1) социальная ситуация 2) речевое действие 3) полнота речевого действия 4) манера говорения 5) типы повторов 6) количество говорящих 7) язык 15
Типы аннотации, которые предусматриваются для дополнительной разметки речевой и жестовой составляющей клиста/клипа, проработаны на данный момент в разной степени. Что касается основных полей разметки, то они, повидимому, установлены окончательно. Конкретное же наполнение каждого поля, напротив, находится в стадии разработки и, более того, будет уточняться (пополняться, укрупняться и под.) и далее, в том числе и в ходе создания самого корпуса.
НКРЯ верстка4.indd 189
22/06/2009 17:48
190
Е. А. Гришина
8) невербальная составляющая (междометия, вокальные жесты, физиологические действия) Под социальными ситуациями имеются в виду типичные социаль ные ситуации, в которые попадает человек, — ситуации, в которых общение наиболее формализовано, отлито в устойчивые формы. Предварительно вычленяются: журналистский репортаж, заказ такси, застольная речь, знакомство, интервью, конферанс, заказ в ресторане, разговор с водителем такси, телефонный разговор, разговор с представителем власти, разговор с продавцом, рассказ экск урсовода, урок, выступл ение на собрании, выступление на ми тинге. Этот ряд открыт, но, по-видимому, не бесконечен и будет по полняться по мере описания новых фильмов16 . Отметим, что поле «ситуация» — общее для кликстов и для клипов, т.е. возможно и не обходимо приписывание некоторой ситуации тому или иному кли пу даже в том случае, если он не сопровождается словесным рядом. Под речевыми действиями понимается то или иное речевое действие, которое совершается в данном кликсте его участниками. Одному и тому же кликсту может быть приписано несколько рече вых действий. Этот момент требует отдельного пояснения. Преж де всего, говорящий (говорящие) на протяжении одного кликста могут произвести несколько разных речевых действий (например, вопрос, ответ, предложение, согласие). Однако множественность описания одного кликста по данному параметру связана не только с этим фактом. Для прояснения ситуации следует объяснить, как именно мы вычленяем те или иные речевые действия. В имеющейся мировой практике есть, по-видимому, два прин ципиально разных подхода к вычленению речевых действий. Пер вый — логический, исходящий из оптимистической предпосылки, что существует возможность априори исчислить все типы речевых действий, которые способен произвести человек. Этот принцип используется, в частности, в классификации damsl, с помощью которой, среди прочего, был аннотирован один из самых крупных общедоступных корпусов устной речи switchboard (damsl вклю чает 50 классов речевых актов, которые вместе с дополнительными параметрами предлагают для разметки 220 речевых актов более 16
Предварительный анализ дополнительных полей метаразметки проведен на материале фильмов «Бриллиантовая рука» и «Друг мой, Колька».
НКРЯ верстка4.indd 190
22/06/2009 17:48
Мультимедийный русский корпус
191
низкой ступени иерархии). Несколько иной взгляд на проблему предполагает, что классификация речевых актов должна быть эм пирической, т.е. считается принципиально невозможным априор ное исчисление всех возможных речевых действий (см., например, [Hennoste et al. 2008]). Мы считаем, что второй подход более продуктивен. Во-первых, при кажущейся объективности первого — логического — подхода, практически невозможно добиться, чтобы разные разметчики мог ли одинаково применить одно и то же логическое понятие в разных эмпирических случаях, тем самым мы обречены на неуправляемый разнобой в разметке. Во-вторых, практика применения логических иерархий речевых актов для разметки реальных корпусов показы вает, что максимально хорошие результаты17 достигаются в тех слу чаях, когда принятая система понятий наиболее естественна и ин туитивно понятна (см., например, об этом [Geertzen et al. 2008])18 . В связи с вышеизложенным, нами было принято решение при разметке речевых действий обращаться в большинстве случаев к тем типам речевых актов, которые отражены в самом русском языке в совокупности русских глаголов речи (с минимальным не обходимым привлечением чисто лингвистических понятий, напри мер, общий и частный вопросы). Это дает нам шанс на то, что при аннотации два разных разметчика будут выдавать максимально близкие результаты, и, кроме того, пользователь, который владеет тем же русским языком, что и разметчики, будет интуитивно по нимать, что именно имелось в виду при разметке, когда, например, употреблялась метка требование. Кроме того, положительный мо мент в таком имманентном языку способе разметки зак лючается в том, что множества объектов, названные близкими, но разными 17
Максимально хорошими считаются результаты, при которых достигается максимальная согласованность полученных результатов при разметке одного и того же материала разными разметчиками, например, экспертами и непод готовленными разметчиками. 18 Интересно, что строгая логическая иерархия речевых актов при работе с ре альными текстами максимально упрощается («сплющивается») — т.е. из нее бе рутся только сущности низших ступеней иерархии, максимально приближенные к реальным текстам (так, исходные 220 логических сущностей DAMSL были «упрощены» и «сплющены» до 42‑х реально работающих меток (см. об этом [Webb et al. 2008]).
НКРЯ верстка4.indd 191
22/06/2009 17:48
192
Е. А. Гришина
глаголами речи (вернее, их именными производными), пересека ются, а сами глаголы речи выстраиваются в группы. Тем самым, например, если один разметчик обозначил некоторое событие с по мощью метки требование, а второй использовал для этого же яв ления метку распоряжение, то у пользователя есть шанс получить искомое событие, запросив требование и/или распоряжение. Таким образом, при такой разметке присвоенные речевому событию на именования как бы подстраховывают друг друга. Именно этот имманентный способ разметки является причиной того, что во многих случаях, когда в кликсте реально есть только одно речевое событие, ему приписывается больше одной метки. В качестве примера можно привести эпизод из «Бриллиантовой руки», когда Геша (Андрей Миронов) сталкивает в воду мальчика с сачком (Максим Никулин) и произносит при этом: А ну, щенок, в сторону! Пшёл отсюда! Этот эпизод можно в равной степени опи сать как требование, команда, распоряжение — элементы всех трех речевых действий есть в этих двух фразах. Тем самым пользователю дается возможность получить этот эпизод по каждой из трех меток или по их совокупности. На данный момент совокупность помет для аннотации речевых действий выглядит следующим образом (метки выстроены в груп пы для удобства ориентации; границы между этими группами ус ловны и размыты, названия групп — в высшей степени условны, но такой способ подачи материала все же гораздо содержательней чис то алфавитного списка) — см. Таблица 619 .
19
В ряде случаев примеры не приводятся, поскольку в расписанных фильмах не нашлось по тем или иным причинам подходящего примера (например, проводы можно проиллюстрировать только фразами на том квазиязыке, на котором в «Бриллиантовой руке» общаются контрабандисты в исполнении Леонида Каневского и Григория Шпигеля). И, разумеется, все примеры приводятся в расчете на то, что фильм «Бриллиантовая рука» хорошо всем известен, так что в большинстве случае за текстовыми примерами будут возникать воспоминания о соответствующих эпизодах фильма.
НКРЯ верстка4.indd 192
22/06/2009 17:48
Та б л и ц а 6 Группы Вопросы
Этикетные высказыва ния
Тип речевого действия вопрос общий* вопрос частный* вопрос косвен ный*
Ты что, с ума сошел? Может, к нам зайдем?
вопрос контакт Слышь? ный* вопрос обратной Ясно? Действительно? связи* вопрос нечлено [Горбунков:] А? (показывает пальцем). раздельный — [Милиционер Володя] (понимает) А! Так надо. — [Горбунков:] Ага. переспрашивать** А вот я люблю песню про зайцев. — Про кого? — Про зайцев. Разрешите поблагодарить вас, Николай благодарность Иванович, за вашу интересную, очень ин тересную экск урсию. Спасибо. Прости, друг! извинение пожалуйста (пе Пожалуйста (отдает записк у). Я вас очень буду ждать! редача) Лучше бы я упал вместо тебя. — Что пожелание ты, Геш, спасибо. поздравление Разрешите, я вам помогу. предложить по мощь** представиться** Будем знакомы. Козодоев Геннадий Петрович. — Очень приятно. Доброе утро. — Здравствуйте. приветствие Кто заказывал такси на Дубровк у? — Я! приглашение — Садитесь. проводы Ну, пора, турист! прощание соболезнование спросить разре шения**
НКРЯ верстка4.indd 193
Примеры
Я щас (выходит из-за стола) Товарищ старший лейтенант, можно я вас при жене буду называть по званию?
22/06/2009 17:48
Группы Утвержде ния
НКРЯ верстка4.indd 194
Тип речевого действия
Примеры
Они будут следить за вами, а мы за ними. — Вроде живца? Понимаю, сам рыбак. Врачи рекомендуют. Успокаивает нерв аргумент ную систему, расширяет сосуды. Друг пригласил. — Да, кстати, как он вспомнить** себя чувствует после вчерашнего? Почему он интересуется? Что это, про вывод стое любопытство? Подозрительный тип. Ах! Рука! Его пытали! Как же я раньше догадаться** не догадалась! Я знаю, что у тебя там! У тебя там не заявление закрытый, а открытый перелом! Это вам, сувенир комментарий Ага, следит! А может, домой? Так я и еду домой. констатация Руссо туристо! Облико морале! Фер объявление штейн? Вообще, по правде говоря, я не хотел объяснение ехать. Я хотел купить жене шубу. А вы говорите — поскользнулся, упал, перечисление* закрытый перелом, потерял сознание. Очнулся — гипс! Кнопочку нажмите. — Да? (нажимает подсказка кнопк у) Надеюсь, мы подружимся. — Конечно предположение Наверно, мне бы надо… — Не надо. предсказание [Геша:] Береги рук у, Сеня, береги. — [Гор бунков:] Надя расстроится. — [Геша:] Что делать! предупреждение Но учтите — ровно в семнадцать нольноль все должны быть на теплоходе. Когда мы с ним таким образом познако рапорт мились, я изложил наш план. Через несколько минут этот белоснеж рассказ ный красавец-лайнер отправится в очередной круиз, увозя в своих комфор табельных каютах большую группу со ветских туристов в увлекательнейшее путешествие. аналогия
22/06/2009 17:48
Группы
Тип речевого действия сентенция совет
сообщение указание на ко го/что уговор утверждение
уточнение Императивы баюканье заказ инструкция команда
Примеры Как говорит наш дорогой шеф, в нашем деле главное — этот самый реализьм. Товарищ капитан, а шо ж мне теперь де лать? — А ничего! Отдыхайте, танцуй те, веселитесь. Что с ним? — Действительно сильный вывих. Даже потерял сознание. О, вот он. Все в порядке. Товар, как в сей фе. Вон туда! Теперь договоримся о связи. Эти кретины уверяли, что он был без сознания. Значит, этот лопух ничего не знает. Сеня, ты уже дошел до кондиции? — До какой? — До нужной. Спи, спи. — Сплю. Феденька, и хорошо бы дичь. Фиш-стрит. Рыбна улица. Аптека Чи канук. — Лёлик, я всё прекрасно помню. Начнем! К шефу! Пейте-пейте! Пейте!
настаивать** поучение Выпейте. — Я не пью. предложение предостережение Осторожно! Осторожно! Береги рук у, Сеня, береги! Докладывайте, что дальше. — Слуша приказ юсь, товарищ полковник. Вам поручена эта операция, так что распоряжение действуйте. О! Кто возьмет билетов пачку, тот реклама получит… — Водокачк у! Не надо! Иди! стоп!*** Брось эти шуточки! торопить** требование
НКРЯ верстка4.indd 195
Надо действовать Цигель-цигель, ай-лю-лю! Говори, что у тебя с рукой.
22/06/2009 17:48
Группы
Тип речевого действия уговоры успокаивать** утешение
Модальные высказыва ния и пер формативы
беспокойство
Примеры Вот оно, началось. Только спокойно. Что делать! Такова селяви, как говорят у них. Не болит? — Неа.
ввод информации Когда мы с ним таким образом познако мились, я изложил наш план. Хотите верьте, хотите нет, а дело было так. Тепл оход через час уйдет! — Заткнись! восклицание Шеф, все пропало, все пропало! Гипс сни горе мают, клиент уезжает! Ой! Ой боже мой! жалоба Но никому ни слова! — Клянусь! клятва молитва намерение напоминание ничего!*** обвинение обещание просьба раскаяние сочувствие угроза
Шутливые/ насмешли вые выска зывания
уверенность ирония
намек насмешка шутка
НКРЯ верстка4.indd 196
[Продавщица:] К сожалению, нет. — [Гор бунков:] Нет, да? Будем искать. Семен Семеныч! А вещи? Ничего-ничего, у нас бывает и пох уже. А это? Элементы сладкой жизни! А про это (показывает) я сообщу куда следует. — Спасибо. Товарищ, товарищ, хорошо бы ай-лю-лю! Да… Бедняга. Лёлик, я не понимаю, о чем ты говоришь. — Сейчас поймешь. Но я уверен, что до этого не дойдет. Смешно, да? — (мрачно) Очень.
Товарищ, у вас когда самолет? — Да, пора. Лопух! Такого возьмем без шума и пыли. Буду бить акк уратно, но сильно.
22/06/2009 17:48
Группы Чужая речь
Согласие
Отрицание
Тип речевого действия
Поскользнулся… — Упал. — Упал. Закры тый перелом. Потерял сознание. Оч нулся — гипс. — Правильно. повтор подсказки Поскользнулся… — Упал. — Упал. Закры тый перелом. Потерял сознание. Стро го на север, порядка пятидесяти цитирование метров. Это каюта шестнадцать, или пардон, я подтверждение ошибся? — Шестнадцатая. А что, если… — Не стоит. — Ясно. понимание Нет, я не трус… Но я боюсь. признание Вы можете погулять по городу. разрешение согласие подчи …как у вас там говорят, топай до хазы! — Хорошо, хорошо, я сейчас уйду... ниться Одним словом, будьте больше на виду. — Ага. пересказ
Ну и вы тоже едете за границу первый раз? — Нет, я никуда не еду. дистанцирование А я не знаю, как там в Лондоне, я не бы ла. Может, там собака друг человека. А у нас — управдом друг человека. Только без рук! запрет Никто не должен знать. — И Надя? — Никто.
возражение
недоверие недовольство незнание непонимание опровержение
отказ
НКРЯ верстка4.indd 197
Примеры
Ну что? Как же можно с человека срезать гипс незаметно? — Можно. Наконец, с трупа. — Угу. С чьего трупа? Ну что же, все эти десять лет он пил, дебоширил и, так сказать, морально раз лагался? — Ну нет. Вы знаете, все это время он искусно маскировался под по рядочного человека. Ай-лю-лю потом. Нон, нихт, нет, ни в коем случае.
22/06/2009 17:48
Группы
Тип речевого действия отрицание поправка
сомнение спор удивление Апеллятивы звать** обращение обращение к жи вотному отклик
Примеры А вы какие-нибудь сувениры с собой бере те? — Нет-нет-нет-нет-нет. Ну-ка, пошевели пальчиками. Нет, не этими, вот этими. Хороший человек. — Вы думаете? Какая лекция? Геша! Геша! Леди, синьора, фрау, мисс! К сожалению, ничего не выйдет! Кс-кс!
Сеня! — А? — А ты Софи Лорен видел? — Неа. Геннадий Петрович! — Да? Черт побери! Черт побери! Шьорт побье пароль ри! Добрый вечер, Борис Савельич. Я заказал Феде дичь. Очень прошу вас. привлечение вни Товарищи, внимание! Сейчас у вас сво бодное время. мания SOS! Остановитесь! Возьмем! — Не положено. призыв призыв к порядку Максим! Ты что делаешь! Упал. Закрытый перелом. Очнулся — гипс. Мелиоратив похвала — Правильно! ные выска зывания На полагающуюся мне по закону премию похвальба я, по совету друзей, решил приобрести ав томашину «Москвич». Новая модель! За твою премию. — Дай бог, не послед тост няя. Алё! В девять часов вас устраивает? удовлетворение — Ага. — Ну и хорошо. Идиот! Дитям мороженое! Пейоратив брань ные выска зывания Виктор Николаевич! Вы что, читать не оскорбление умеете, а?
НКРЯ верстка4.indd 198
22/06/2009 17:48
Группы
Тип речевого действия критическое за мечание порицание проклятье стыдить** упрек
Примеры Не умеешь ты врать, Сеня. Ну разве можно так! Извинись щас же пе ред дядей! Шоб ты издох! Шоб я видел тебя в гробу в белых тапках! Какой позор! Что ж ты меня бросил-то?
* Одной звездочкой обозначены речевые действия, для которых принято лингвистическое обозначение; ** двумя звездочками – речевые действия, для обозначения которых не нашлось соответствующего существительного, поэтому используется глагол; *** тремя звездочками – речевые действия, которые не отрефлектированы в языке и для обозначения которых используется наиболее частое словесное их воплощение.
Здесь следует сделать небольшое отступление. На материале анг лийского языка, а точнее, на материале английских корпусов с раз меченными речевыми действиями, уже ведутся исследования, кото рые позволяют до некоторой степени автоматизировать разметку речевых действий (см. об этом [Webb et al. 2008]). Логика здесь следующая. На базе корпуса, в котором речевые действия размече ны вручную, вычленяются ключевые слова и словосочетания, час тотность которых в тех или иных речевых действиях существенно выше, чем их частотность в целом по аннотированному корпусу. Если такие слова и словосочетания обнаруживаются, то прини мается, что их можно расценивать как показатели того или иного речевого акта. Так, например, словосочетание can you считается одним из показателей общего вопроса, словосочетания where is или which is — показателями частного вопроса (для русского языка, на пример, словосочетание разрешите поблагодарить может опре деленно расцениваться как показатель благодарности, пшел — как показатель приказа, команды, распоряжения, требования, и т.д.). Мы назвали только очевидные случаи — ясно, что при сплошном исс ледов ании аннотиров анного мультимедийного корпуса на этот предмет проявятся гораздо менее очевидные, но столь же не сомненные результаты. Отсюда — возможность использовать эти
НКРЯ верстка4.indd 199
22/06/2009 17:48
200
Е. А. Гришина
ключевые слова и словосочетания для разметки речевых действий в большом корпусе, в частности, в нкря. Следующее поле метаразметки кликстов — полнота речевого действия (см. Таблица 7). Та б л и ц а 7 Степень полноты
Примеры
Полное Автопрерывание
Большая часть примеров Говори, что у тебя с рукой. — Я и говорю — шел по улице, поскользнулся, уп… Ну, вот. А я взял. — Водку? (смеются) Извините, что так поздно. Сами знаете… — Ну что вы! — …общественное дело прежде всего. Значит, вы еще никогда… — Конечно, не был. Мы вообще дальше Дубровки ник уда не ездили. (обращается к отсутствующему Геше) Ты зна… (видит вместо Геши осла, испуган но) А! [Михаил Иванович:] Если вы нам понадо битесь… — [Горбунков:] Вы ко мне приеде те. — [Михаил Иванович:] Если мы вам будем нужны… — [Горбунков:] Я вызываю такси на свое имя. — [Михаил Иванович:] Приеду я или мой то варищ. Вы уж извините, что я… (показывает рук у)
Вопрос без ответа Наложение реплик Незаконченное ре чевое действие Прерванное
Продолженное
Жест вместо слова
Далее, к параметрам метаразметки относится манера говорения. Здесь выделяются такие типы: норма (большая часть примеров), быстрая речь (например, речь персонажа Рины Зеленой в фильме «Подкидыш»), голос за кадром, декламация, дефекты дикции (на пример, речь персонажа Ролана Быкова в фильме «По семейным обстоятельствам»), диктовка, дубляж (например, женский голос, который дублирует разговоры персонажей Леонида Каневского и Григория Шпигеля в «Бриллиантовой руке»), крик, напевающее произнесение, невнятная речь, оговорка (А у вас нет такого же, но с берла… перламутровыми пуговицами?), пение, говорение «про себя», пьяный разговор, произнесение «на слезе» или «на смехе», скандирование, «чревовещание» (т.е. говорение с максимально не подвижной мимикой, когда говорящий старается, чтобы его речь
НКРЯ верстка4.indd 200
22/06/2009 17:48
Мультимедийный русский корпус
201
не была услышана и замечена кем бы то ни было, кроме адресата), чтение, шепот. Следующий признак метаразметки — типы повторов, имею щих место в том или ином кликсте (см. Таблица 8). Та б л и ц а 8 Тип повтора Многократный
Пояснение
Однократный Неоднословный Однословный Передразнивание
Повтор реплики собеседника или ее части с издеватель ской интонацией
Пример Черт побери! Черт побери! Черт побери! А что, что я должна была подумать? Что с вами? Что с вами? «Михаил Светлов»? — Да-да. Но тот тоже сказал пароль «черт побери»! — Черт побе ри, черт побери!
Вы не знаете, зачем Володька усы сбрил? — Усы? Разрешите поблагодарить Повтор слова Повтор с интенси вас … за вашу интересную, фикатором с включением ин очень интересную экск ур тенсификаторов (очень, никогда, все сию гда, исключительно, абсолютно, никакой и проч.) (недоуменно) Черт побери… Повтор с разной ин (находит решение, радост тонацией но) Черт побери! [Ладыженский:] (Горбункову) Смена адресата Продолжение реп лики адресуется но Ну, будете у нас на Колыме… (Козодоев закашлялся) (Козо вому слушателю доеву) …будете у нас на Ко лыме — милости просим! [Первый контрабандист:] Эхо Повтор со сменой Пароль старый, черт по говорящих и с со бери? — [Второй контра хранением типа бандист:] (подтверждает) речевого действия Черт побери. — [Первый контрабандист:] (эхо) Черт побери… Переспрос
НКРЯ верстка4.indd 201
22/06/2009 17:48
202
Е. А. Гришина
Далее, размечается несловесное наполнение кликстов (вокаль ные жесты, междометия, физиологические действия). Здесь пред варительно выделены следующие типы (проиллюстрированы по естественным причинам в тексте статьи могут быть только неко торые из них): аккомпанемент-да (Минуточк у! Связь будем дер жать так... — Угу. — …если вы нам понадобитесь…), аккомпане мент-ну (Давайте грузить! (грузят пьяного в коляску мотоцик ла). — Ну! — Ну! — Ну!), аккомпанемент-э ((Козодоев пытается на крыльце дома обойти Михаила Ивановича) Э… э… э… (падает, встает) Пардон!), боль2 0 , вздох, волнение, восхищение, втянуть носом воздух, выдох, звонок (дзынь, бип), дразнить (лаять, щел кать зубами, показывать язык, сопровождая это соответствующими звуками…), жалость, заполнитель паузы (эканье, меканье и проч.), зевок, изобразительное (изображение звуками теплохода, шампан ского и проч.), испуг, кашель, насмешка, недоверие, недовольство, недоумение, неожиданность, обращение (к кошке, птице и проч.), одобрение, опа!, отклик (Сеня! — А?), отрицание, плач, плевок, по нимание (Гражданочка! (женщина отшатывается) А…), поцелуй, пренебрежение, привлечение внимания, призыв к тишине, приню хиваться, припоминание, причмокивание, свист, смешок, согласие, спохватиться, угроза, удивление, физическое напряжение, хмыка нье, холодно, цокать языком, шмыгнуть носом. И наконец, предусмотрены поля количество говорящих, пол го ворящих (мужской, женский, смешанный — т.е. говорят и мужчины, и женщины21 ) и язык, на котором говорят (здесь по умолчанию пред полагается русский, однако может быть указано, что для говорящего характерен акцент; если в кликсте говорят на иностранных языках, то это указывается; среди языков предусматриваются квазиязык, как в «Бриллиантовой руке», и тайный язык, как в «Друг мой, Колька!»). 20 То есть вокальные жесты и междометия, связанные с испытываемой болью, испугом и т.д. 21 Следует отметить, что многие дети и подростки, играющие в кино, «озву чиваются» женщинами, и определить это на слух может только профессионал высокого класса. Поэтому если пользователя интересуют ситуации озвучания ре бенка или подростка мужского пола женщиной, то он должен будет специальным образом находить соответствующие кликсты посредством обращения к полю «возраст персонажа» в зоне разметки жестов, см. ниже.
НКРЯ верстка4.indd 202
22/06/2009 17:48
Мультимедийный русский корпус
203
4. Перейдем к изложению системы метаразметки, принятой для опи сания жестового наполнения кликстов/клипов (подчеркнем, что практические все нижеизложенное базируется на работах [Гри горьева и др., 2001], [Крейдлин 2004]). Разметка жеста включает следующие основные поля: 1. Социологическая характеристика 2. Аксессуары 3. Кратность жеста 4. Основной орган 5. Активный орган 6. Характеристика жеста 7. Полнота жеста 8. Аутентичность жеста 9. Эмоциональное сопровождение жеста 1 . С о ц и о л о г и ч е с к а я х а р а к т е р и с т и к а дается жесту по следующим параметрам. 1.1. Имя говорящего (актера), если таковое известно или может быть упомянуто публично без этических и юридических ограни чений. 1.2. Пол персонажа (если таковой известен — например, в мульт фильмах иногда трудно определить пол того или иного персонажа). 1.3. Пол говорящего (для кино- и мультфильмов). Здесь, помимо стандартного мужского и женского пола предусматриваются: актер, играющий женщину (например, Георгий Милляр в роли Бабы-Яги, Олег Табаков в роли няни в «Мэри Поппинс, до свиданья!»), актер, притворяющийся женщиной (например, Александр Калягин в роли тетушки Чарли в «Здравствуйте, я ваша тетя!»), актриса, играющая мужчину (чисто теоретический и умозрительный вариант), и ак триса, притворяющаяся мужчиной (например, Лариса Голубкина в «Гусарской балладе»). Все эти варианты существенны для иссле дования гендерных аспектов жестикуляции. 1.4. Возраст говорящего (актера), если таков ой изв естен. Возраст дается описательно (напомним, что точный возраст го ворящего (актера) прописан в социологической разметке устного
НКРЯ верстка4.indd 203
22/06/2009 17:48
204
Е. А. Гришина
корпуса и, соответственно, будет легко доступен и пользователю мурко) — ребенок, подросток, взрослый, пожилой. 1.5. Возраст персонажа (для кино- и мультфильмов). Возраст также дается описательно. Несоответствие возраста актера и воз раста персонажа может быть интересно для возрастных характе ристик жеста. При этом, очевидно, для некоторых героев мульт фильмов возраст персонажа определить довольно затруднитель но — например, для Винни-Пуха, Чебурашки, Крокодила Гены или для Карлсона, про которого известно лишь, что он мужчина в самом расцвете лет. 1.6. Социальная ситуация, отраженная в клипе. Этот параметр полностью совпадает с аналогичным параметром для разметки ре чевых действий (см. выше), поэтому размечаться должен лишь для клипов, т.е. в отсутствие речевой составляющей. 2 . А к с е с с у а р ы . Аксессуарами считаются все предметы, так или иначе задействованные в жестикуляции. Это могут быть удли нители (например, карандаш, который покусывают при раздумьях вместо пальца), спойлеры (предметы, которые мешают осуществ лению данного жеста в полном объем е, — например, когда человек разводит одной рукой, а не двумя, осуществляя жест «развести ру ками», поскольку в одной из рук у него находится трость). Кроме того, это могут быть предметы, нейтральные по отношению к жес тикуляции, например, сигарета, зажатая между пальцев, которая не влияет на протекание жеста, или, напротив, предметы, являющиеся центром данного жеста, например, та же сигарета в ситуации при куривания. Разметка аксессуаров позволит не только «укрупнить» описание жестов (т.е. «развести руками» при наличии спойлера нет смысла описывать как жест «развести рукой» — это по-прежнему жест «развести руками», но «испорченный» наличием посторон него предмета), но и осуществлять некоторые культурологические и психологические наблюдения — например, можно будет узнать, когда первый раз на советском экране появилась курящая женщина, или, например, как связаны с проявлениями тех или иных эмоций разные манеры закуривать или держать сигарету в руке. 3 . К р а т н о с т ь ж е с т а . Жесты делятся на однократные (отде ленные от других жестов наличием своей собственной экспозиции и фазы затухания, иначе говоря, наличием семантической паузы
НКРЯ верстка4.indd 204
22/06/2009 17:48
205
Мультимедийный русский корпус
до и после жеста) и многократные — имеющие общую экспозицию и фазу затухания, а также амплитуду, в среднем укороченную по сравнению со сходным однократным жестом. При подборе назва ния для жеста (см. ниже, п. 6) однократные жесты описываются глаголами совершенного вида, а многократные — несовершенного (таким образом, например, однократный кивок будет обозначен глаголом кивнуть, а многократное кивание — глаголом кивать). 4 . О с н о в н о й о р г а н — часть тела человека, в зоне которой жест осуществляется. Выделены следующие основные органы: го лова, корпус, рука, руки, нога, ноги. 5 . А к т и в н ы й о р г а н — движущаяся, активная (инициатив ная) часть основного органа, которая, собственно, и формирует жест. Распределение здесь следующее. Та б л и ц а 9 Основной орган Голова Корпус Рука
Руки Нога Ноги
Активные органы брови, глаз, глаза, голова, губы, зубы верхние, лицо, подбородок, рот, язык корпус, плечи, спина кисть, мизинец, палец большой, палец указательный, палец указательный + палец большой, палец средний, палец указательный + палец средний, пальцы, рука кисти, пальцы, пальцы указательные, руки стопа, голень ноги
6 . Х а р а к т е р и с т и к а ж е с т а состоит из трех разделов — на звание, значение и тип жеста. Название жесту присваивается 1) либо наиболее стандартным его общеязыковым обозначением (чаще всего с помощью глагола), 2) либо условным обозначением (например, стоп! или двинуть ладонь к собеседник у). Значение жес та — это функция, которую жест выполняет в данном конкретном случае его употребления. Тип жеста — условная группа однотип ных по значению жестов. Предварительно нами вычленено 13 типов жестов. В таблице 10 им в соответствия поставлены лишь наиболее простые и частотные примеры.
НКРЯ верстка4.indd 205
22/06/2009 17:48
206
Е. А. Гришина
Та б л и ц а 1 0 Тип жеста
Значение жеста
Название жеста
Жесты внутреннег о со стояния
испуг задуматься готовность общеуказательный
отпрянуть взяться за подбородок поправить галстук показать пальцем показать подбород ком демонстрация показать на себя пристукнуть по чему-л. поправить одеж ду поправить прическу подтянуть брюки откинуть голову перебирать пальцами
Дейктические жесты
самоидентификация фиксация объекта Декоративные жесты
общедекоративный
Изобразительные жесты
действие (играть на трубе) объект (вода) качество (точность)
Корпоративные жесты
Пейоративные жесты Поисковые жесты Регулирующие жесты
Жесты — речевые дей ствия Риторические жесты
НКРЯ верстка4.indd 206
молитва воинская субордина ция подумаешь! дурак! передразнивание оценивать обстановку оценка времени поиск слова привлекать внимание призыв к порядку иди! угроза отрицание согласие предвосхищение со гласия фиксация объекта
перебирать пальцами соединить большой и указательный паль цы поклониться, стоя на коленях отдать честь вскинуть руку сплюнуть мотать головой оглядываться посмотреть на часы трясти рукой махать руками посмотреть строго выдвинуть подборо док грозить кулаком качнуть головой кивнуть кивнуть пристукнуть по че му-л.
22/06/2009 17:48
Мультимедийный русский корпус Условные жесты
Физиологические жесты Этикетные жесты
похвала отказ тост больно горько прощание извинение
207
показать большой палец показать кукиш чокнуться тереть больное место сморщиться махать рукой прижать руку к груди
Это лишь очень небольшая часть расписанного материала, но она дает представление о вычлененных крупных группах жестов. 7. П о л н о т а ж е с т а . В стандартном случае жест является пол ным, т.е. протекает в полном объеме, с естественной аккомодацией и «гаплологией» экспозиций и фаз затуханий жестов, которые со седствуют в жестовом синтаксисе при реальном, а не искусствен ном функционировании жестового языка. Однако изредка встре чаются типичные случаи неполного осуществления жеста, которые разумно отмечать при аннотировании клипов. Предварительно вы членяются следующие разновидности явлений такого рода: авто прерывание (жестикулирующий добровольно прекращает данную жестикуляцию), прерывание (жест принудительно прерывается собеседником или обстоятельствами), трансформация (один жест по ходу осуществления превращается в другой), редукция (жести кулирующий лишь намекает на возможность осуществления како го-либо жеста или максимально редуцирует его — например, вместо полного жеста «поднять палец вверх», когда вертикально вверх под нимается не только указательный палец, но и вся кисть, жестику лирующий лишь слегка отрывает от горизонтальной поверхности указательный палец, а кисть остается лежать на поверхности). 8 . Ау т е н т и ч н о с т ь ж е с т а . В нормальном случае жест явля ется аутентичным, т.е. отражает внутреннее состояние и речевые намерения самого жестикулирующего. Однако изредка встречают ся случаи неаутентичности, которые также следует по возможности отмечать. Эти случаи таковы: зеркальный жест — жестикулирую щий повторяет жест за собеседником, жест, показанный на се бе — жестикулирующий на себе показывает жесты тех, кто в данный момент является персонажем или адресатом его речи, притворный
НКРЯ верстка4.indd 207
22/06/2009 17:48
208
Е. А. Гришина
жест — используется в ситуации, когда жестикулирующий очевид ным образом неискренен и делает притворные жесты, например, сочувствия или радости за собеседника. Кроме того, для кино есть смысл отдельно вычленять т.н. случи игровых жестов, которые час то сопровождают вставные музыкальные номера в фильмах. 9. И, наконец, под э м о ц и о н а л ь н ы м с о п р о в о ж д е н и е м ж е с т а имеется в виду, сопровождается ли жест улыбкой, смехом или плачем. Представляется, что даже такая, довольно огрубленная и мес тами неточная разметка жестов в мультимедийном корпусе будет иметь большое значение для исследователей. Вероятные и даже неизбежные недостатки этого аннотирования наверняка будут компенсироваться возможностью обращаться к жесту не только напрямую, но и через «словесный» поиск, а также поиск «от рече вого действия». Таким образом, все эти типы разметок будут под страховывать друг друга и в целом позволят максимально снизить уровень шума при поиске информации в мурко. 5. В завершение следует сказать о том, что, конечно, большое значе ние для мурко будет иметь единообразие в работе будущих размет чиков. Практика работы над нкря показала, что даже в такой «точ ной» части разметки, как морфологическая, есть немалое количест во точек, в которых разметчиками (как людьми, так и автоматиче скими парсерами) могут быть приняты разные решения, у каждого из которых есть свои плюсы и свои минусы (наиболее очевидный случай — разметка видовых пар, где могут быть приняты два аль тернативных решения: признавать видовую пару манифестацией одного глагола или парой разных и независимых глаголов). Еще больший разброс возможностей имеет семантическая разметка. Надо ли говорить, что разметка жестов и речевых действий имеет максимальную тенденцию к «размытости» результатов. Для любого корпуса это — одна из самых больших опасностей, поскольку неус тойчивость разметки затрудняет работу пользователя с корпусом, что в значительной степени обессмысливает существование послед него. И здесь создатель корпуса должен стремиться не столько даже к правильности принятого решения, сколько к его единообразию.
НКРЯ верстка4.indd 208
22/06/2009 17:48
Мультимедийный русский корпус
209
Грубо говоря, если при разметке какого-то одного явления принято неточное, если не сказать неправильное решение, то именно это решение, а никакое другое, должно быть принято и для всех осталь ных аналогичных явлений. В этом случае пользователь, будучи не согласным с содержательной стороной работы создателей корпуса, будет, однако, понимать, какие именно ему нужно совершить дей ствия, чтобы найти данное неправильно или неточно размеченное явление (не говоря уже о том, что при единообразном неправильном решении есть хорошие шансы заменить его на единообразное пра вильное решение, тогда как при разнобое решений и чересполосице правильностей и неправильностей правка такого рода представляет иногда чрезвычайно сложную лингво-программистскую задачу). Именно поэтому к созданию мурко в полном объеме, т.е. с до полнительной разметкой, описанной выше, нет смысла приступать, не имея специального «рабочего места разметчика», которое будет общаться с разметчиком в диалоговом режиме и в значительной степени «вести» его от речевого действия к речевому действию и от жеста к жесту по единообразно устроенным «тропинкам», привя занным к тем или иным относительно точным реперным точкам. Содержательная часть рабочего места на данный момент уже раз работана автором настоящей статьи, на программистском уровне поставленная задача в настоящее время в целом решена Михаилом Кудиновым (МГУ им. М. В. Ломоносова). Для иллюстрации приве дем одну такую «тропинку» для разметки одной из групп жестов. • Разметчику предлагается выбор — однократный/многократ ный жест • Если выбран однократный жест, ему предлагается выбор основной орган голова, корпус, рука, руки, нога, ноги. • Если выбран основной орган голова, предлагается выбор активный орган брови, глаз, глаза, голова, гу бы, зубы верхние, лицо, подбородок, рот, язык • Если выбран активный орган голова, предлага ется выбор пассивный орган кисть, плечо, нет пассивного органа. • Если выбран пассивный орган, то предла гаются на выбор следующие жесты:
НКРЯ верстка4.indd 209
22/06/2009 17:48
210 Значение жеста усталость скука огорчение нервозность дистанциро вание
Е. А. Гришина Название жеста
Тип жеста
опереться головой на руку опереться головой на руку опереться головой на руку опереться головой на руку
физиологический жест жест внутреннего состояния жест внутреннего состояния жест внутреннего состояния
опереться головой на руку жест внутреннего состояния
Таким образом, даже если пользователь вдруг совершенно не со гласится с нашей трактовкой жеста опереться головой на рук у, он будет точно знать, в каких клипах такой жест найдется, — ему надо будет при запросе обратиться к параметрам ‘основной ор ган=голова’, ‘активный орган=голова’, ‘пассивный орган=кисть’. Ну и, разумеется, пользователь получит этот жест, обратившись к значениям жеста — скука, усталость, огорчение, нервозность, дистанцирование — и к типам жестов — внутреннего состояния или физиологическим. 6. Итак, по предварительным планам, мурко будет состоять из двух частей. 1. Кликсты, связанные с соответствующими скриптами (скрипты при этом будут размечены так, как принято в нкря, т.е. будут иметь соответствующую метаразметку, морфологическую, се мантическую и социологическую разметку). Для подготовки этой части корпуса достаточно разрезать исходные фильмы и звуковые файлы на кликсты и сопоставить каждому кликсту соответствующий участок скрипта. 2. Кликсты/клипы, получившие дополнительную метаразметку с точки зрения имеющихся в них речевых действий и жестов. Понятно, что на создание второй части мурко потребуется за тратить гораздо больше усилий, чем на первую (хотя и к первой части относиться легкомысленно было бы неразумно, поскольку она предполагает значительный объем ручной работы по «нарез ке» исходного материала, которую заведомо невозможно автома тизировать). Поэтому, вероятно, часть корпуса с дополнительной
НКРЯ верстка4.indd 210
22/06/2009 17:48
Мультимедийный русский корпус
211
разметкой должна быть как-то специально отобрана, в частности, очевидным образом, она должна быть сбалансирована хронологи чески, чтобы позволить производить те или иные диахронические изыскания. При этом совершенно ясно, что обе части мурко позволят ста вить и решать совершенно новый класс лингвистических задач, сте пень разнообразия которых на данном, подготовительном этапе трудно даже оценить. И, разумеется, значение мурко далеко вы ходит за пределы собственно лингвистики — корпус позволит об ращаться к общефилологическим, культурологическим, историче ским, психологическим, педагогическим и инженерным проблемам, не только о решении, но и о постановке которых сейчас, в отсут ствие национального мультимедийного корпуса, нельзя и думать.
Литература Григорьева и др. 2001 — Григорьева С. А., Григорьев Н. В., Крейд лин Г. Е. Словарь языка русских жестов. М. — Вена: 2001 Гришина 2007 — Е. А. Гришина. О маркерах разговорной речи (пред варительное исследование подкорпуса кино в Национальном корпусе русского языка) // Компьютерная лингвистика и интел лектуальные технологии. Труды международной конференции «Диалог 2007» (Бекасово, 30 мая — 3 июня 2007 г.). С. 147–156 Гришина, Савчук 2008 — Гришина Е. А., Савчук С. О. Корпус звуча щей русской речи в составе Национального корпуса русского языка. Проект // Компьютерная лингвистика и интеллектуаль ные технологии. Труды международной конференции «Диалог 2008» (Бекасово, 4 – 8 июня 2008 г.). С. 125–132 Капанадзе 1986 — Капанадзе Л. А. Разговорная речь и киноязык // Л. А. Капанадзе. Голоса и смыслы. Избранные работы по русско му языку. М.: 2005. С. 228–231. Крейдлин 2004 — Крейдлин Г. Е. Невербальная семиотика. М.: 2004. Шаронов 2008 — Шаронов И. А. К вопросу о разграничении эмо циональных междометий и модальных частиц // Компьютер ная лингвистика и интеллектуальные технологии. Труды меж
НКРЯ верстка4.indd 211
22/06/2009 17:48
212
Е. А. Гришина
дународной конференции «Диалог 2008» (Бекасово, 4 – 8 июня 2008 г.). С. 569–573 Blache et al. 2008 — Philippe Blache et al. Creating and exploiting mul timodal annotated corpora // [LREC’2008] Brutti et al. 2008 — A.Brutti et al. WOZ Acoustic Data Collection for In teractive TV // [LREC’2008] Busso, Narayanan 2008 — Carlos Busso and Shrikanth S. Narayanan. Re cording audio-visual emotional databases from actors: a closer look // [LREC’2008] Cullen et al. 2008 — Charlie Cullen et al. Emotional Speech Corpus Con struction, Annotation and Distribution // [LREC’2008] Devillers, Martin 2008 — L. Devillers, J-C. Martin. Coding Emotional Events in Audiovisual Corpora // [LREC’2008] Fék et al. 2008 — Márk Fék et al. Multimodal Spontaneous Expressive Speech Corpus for Hungarian // [LREC’2008] Forbes-Riley et al. 2008 — Kate Forbes-Riley et al. Uncertainty Corpus: Resource to Study User Affect in Complex Spoken Dialogue Systems // [LREC’2008] Gallo et al. 2008 — Carlos Gómez Gallo et al. Production In A Multi modal Corpus: How Speakers Communicate Complex Actions // [LREC’2008] Geertzen et al. 2008 — Jeroen Geertzen et al. Evaluating Dialogue Act Tagging with Naive and Expert Annotators Georgila et al. 2008 — Kallirroi Georgila et al. A Fully Annotated Corpus for Studying the Effect of Cognitive Ageing on Users’ Interactions with Spoken Dialogue Systems // [LREC’2008] Gnjatovíc, Rösner 2008 — Milan Gnjatovíc, Dietmar Rösner. On the Role of the NIMITEK Corpus in Developing an Emotion Adaptive Spoken Dialogue System // [LREC’2008] Grishina 2007 — E. Grishina. Text Navigators in Spoken Russian. // Pro ceedings of the workshop “Representation of Semantic Structure of Spoken Speech” (CAEPIA’2007, Spain, 2007, 12–16.11.07, Salamanca), Salamanca, 2007. P. 39–50 Hennoste et al. 2008 — Tiit Hennoste et al. From Human Communication to Intelligent User Interfaces: Corpora of Spoken Estonian // [LREC’2008] Knight, Tennent 2008 — Knight, D., Tennent, P. Introducing DRS (The
НКРЯ верстка4.indd 212
22/06/2009 17:48
Мультимедийный русский корпус
213
Digital Replay System): A tool for the future of Corpus Linguistic research and analysis // [LREC’2008] Kostoulas et al. 2008 — Theodoros Kostoulas et al. A Real-World Emotio nal Speech Corpus for Modern Greek // [LREC’2008] LREC’2008 — http://www.lrec-conf.org/proceedings/lrec2008 Marasek, Gubrynowicz 2008 — Krzysztof Marasek, Ryszard Gubryno wicz. Design and Data Collection for Spoken Polish Dialogs Database // [LREC’2008] Möller et al. 2008 — Sebastian Möller et al. Corpus Analysis of Spoken Smart-Home Interactions with Older Users // [LREC’2008] Nallasamy et al. 2008 — Udhyakumar Nallasamy et al. NineOneOne: Recognizing and Classifying Speech for Handling Minority Language Emergency Calls // [LREC’2008] Sainz et al. 2008 — Iñaki Sainz et al. Subjective evaluation of an emotional speech database for Basque // [LREC’2008] Savino et al. 2008 — Michelina Savino et al. Integrating Audio and Visual Information for Modelling Communicative Behaviours Perceived as Different // [LREC’2008] Stoia et al. 2008 — Laura Stoia et al. SCARE: A Situated Corpus with Annotated Referring Expressions // [LREC’2008] Strauß et al. 2008 — Petra-Maria Strauß et al. The PIT Corpus Of German Multi-Party Dialogues // [LREC’2008] van Son et al. 2008 — R.J.J.H. van Son et al. The IFADV corpus: A free dialog video corpus // [LREC’2008] Webb et al. 2008 — Nick Webb et al. Cross-Domain Dialogue Act Tagging // [LREC’2008] Wilks et al. 2008 — Yorick Wilks et al. Dialogue, Speech and Images: The Companions Project Data Set // [LREC’2008] Wilson 2008 — Theresa Wilson. Annotating Subjective Content in Me etings // [LREC’2008]
НКРЯ верстка4.indd 213
22/06/2009 17:48
IV.
Семантика в нкря
НКРЯ верстка4.indd 214
22/06/2009 17:48
Е. В. Рахилина, Г. И. Кустова, О. Н. Ляшевская, Т. И. Резникова, О. Ю. Шеманаева Е. В. Ра хш и лев а, и др. Г. И. Кус то виа, О. Н. Ля снкая
Задачи и принципы семантической разметки лексики в НКРЯ 1
1. Введение озможность поиска слов по семанти ческим пометам работает в Нацио нальном корпусе русского языка вот уже три года — польз ов атель может найти не только контексты, в которых употребляются, скажем, глаголы запаха или звука, но и проверить возможность сочетаний семантических признаков в комбинации лексем — например, допустимость сочетания непредметных имен с глаголами движения, прилагательных цвета с непредметными именами и т.д. Исходно лексико-семантическая классификация в нкря ба зиров алась на принципах системы «Лексикограф» (http://www. lexicograph.ru, [Красильщик, Рахилина 1992; Кустова, Падучева 2004]); при этом для целей разметки Корпуса эта система была Возможность поиска слов по семантическим пометам работает в Национальном корпусе русского языка вот уже три года — польз о ватель может найти не только контекс ты, в которых употребляются, скажем, глаголы за паха или звука, но и проверить возможность сочетаний семантических признаков в ком бинации лексем — например, допустимость сочетания непредметных имен с глаголами движения, прилагательных цвета с непред метными именами и т.д. Возможность поиска слов по семантическим пометам работает в Национальном корпусе русского языка вот уже три года — пользователь может найти не только контексты, в которых употребляются, скажем, глаголы запаха или звука, но и прове рить возможность сочетаний семантических признаков в комбинации лексем — например, допустимость сочетания непредметных имен с глаголами движения, прилагательных цвета с непредметными именами и т.д. Возможность поиска слов по семантическим пометам рабо тает в Национальном корпусе русского языка
1
Исследование выполнено при частичной финансовой поддержке Российского фонда фундаментальных исследований, грант № 08-06-00197-а.
НКРЯ верстка4.indd 215
22/06/2009 17:48
216
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
в свое время существенно изменена и дополнена, см. [Кустова и др. 2005]. Однако уже будучи интегрирована в корпус, семантическая разметка продолжает меняться и совершенствоваться. Технология этих изменений такова: имеется базовая нотация, по которой есть поиск в открытом доступе, и экспериментальная, которая проходит апробацию — ею пользуются только разработчики Корпуса. После тестирования новые пометы внедряются в систему общедоступного поиска. В частности, в самые ближайшие планы входит расширение системы семантических помет за счет включения новых топологи ческих типов имен и новых словообразовательных классов. Понятие т о п о л о г и ч е с к о г о т и п а имени восходит к [Talmy 1983], где обращается внимание на лингвистическую релевантность геометрических характеристик объектов внешнего мира. Мы при меняли его к широкому русскому материалу в работах, касающихся именной сочетаемости, см. [Рахилина 2000, Десятова и др. 2008] и показали, что имена физических объектов, относящихся к клас сам «поверхности», «контейнеры», «веревки» и т.д. по-разному со четаются с пространственными операторами — такими как прила гательные размера и формы, пространственные предлоги, глаголы локализации и движения и др. Сегодня поиск в Корпусе идет только по топологическим признакам «поверхность» и «контейнер», пла нируется добавить в поисковую форму признаки «выступ», ср. нос, бородавка, грудь, балкон и др., «вертикальная поверхность», ср. за бор, стена, стенд и др., «отверстие», ср. дыра, горлышко, окно, а так же ряд других топологических признаков. Что касается с л о в о о б р а з о в а т е л ь н ы х п о м е т , то в Корпусе уже сейчас доступен поиск разнообразных дериватов: приставоч ных глаголов, вторичных имперфективов (глаголов на -ыва- типа выпивать), семельфактивов (на -ну типа мигнуть), а также — в зо не предметных существительных — диминутивов (ср. домик), ауг ментативов (ср. домище), в зоне прилагательных — каритивов (ср. безглазый, бездыханный) и некоторых других. В ближайшее время станет возможен поиск словообразовательного класса сложных слов (ср. авианосец, густонаселенный, боготворить и др.). С другой стороны, помимо «плановых» изменений имеющаяся на сегодняшний день разметка редактируется, так сказать, «вне планово» — благодаря замечаниям пользователей корпуса. Одно
НКРЯ верстка4.indd 216
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
217
временно, помимо частных помет, интерес у пользователей — ко нечно, прежде всего у активных пользователей — вызывают и сами принципы, заложенные в основу корпусной разметки. Например, Алексей Кретов обратился к нам с целой статьей по этому пово ду — ее мы публикуем ниже — она стала хорошим стимулом для нас, чтобы еще раз продумать возможные альтернативы «семантических шагов», предпринятых в свое время в Корпусе. Таким образом, сле дующий раздел нашей статьи будет посвящен обсуж дению общей идеологии корпусной разметки в семантической зоне (раздел 2), а затем — на примере конкретных спорных решений — мы обсудим «приложение» этих принципов — сначала к разметке как таковой (раздел 3), а потом — к снятию семантической омонимии (раздел 4). 2. Наши цели 2.1 Лексико-семантическая классификация и корпусная разметка Сегодня создано множество лексико-семантических классифика ций, в том числе на русском материале — см., например, [Кузнецова 1989, Бабенко 1999, Шведова 2000]; есть и примеры компьютерных систем, опирающихся на такого рода классифицирование лексики, ср. например, систему WordNet для разных языков мира (http:// wordnet.princeton.edu), онлайн-словарь английских глаголов VerbNet (http://verbs.colorado.edu/~mpalmer/projects/verbnet.html), также по священный глаголам ресурс VerbOcean (http://demo.patrickpantel. com/Content/verbocean) или систему USAS (Lancaster, http://ucrel. lancs.ac.uk/usas), не говоря уже о базе данных «Лексикограф». Они отражают чисто семантический подход к лексической классифика ции, подразумевающий максимально дробную признаковую базу. Действительно, чем больше используется семантических призна ков, тем надежнее (за счет дробности классификации) можно пред сказать сочетаемостные особенности конкретных слов. Лучше всего эти задачи решает лексическая база данных с максимально жесткой структурой и максимально повторяющимися признаками — транс категориальными, т.е. действующими в зоне любой части речи, так что, например, признак ‘движение’ характеризует и глагол идти, и прилагательное пеший, и существительное ноги. Пользователь та кой базы данных оперирует списками лексем разной степени общ
НКРЯ верстка4.indd 217
22/06/2009 17:48
218
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
ности, которые могут быть релевантны для решения самых разных задач — от составления списков квазисинонимов или, скажем, онто логий для информационного поиска до сопоставления лексических систем разных языков. Скажем сразу, что данный (чисто семантический) подход в пол ном объеме на нашем Корпусе реализован быть не может — во-пер вых, по техническим причинам. Многоступенчатая семантическая разметка, порождая все новую и новую омонимию, значительно бы «утяжелила» и без того объемный Корпус (по своему «весу» прибли жающийся к 200 млн словоупотреблений, к тому же снабженных морфологической и метатекстовой информацией), существенно замедляя его работу вплоть до угрозы сбоев при поиске. Во-вторых, даже если бы техника выдерживала такую нагрузку без снижения быстродействия, транскатегориальный подход к корпусной раз метке устроил бы далеко не всех. Действительно, какому пользо вателю понравилось бы, если бы на запрос ‘движение’ выдавался огромный массив предложений, содержащий не только глаголы и отглагольные имена, но и прилагательные типа быстрый / мед ленный, а также предметные имена типа ноги, колеса, лыжи и т. д. и т. п., и даже существительное часы (они ведь тоже ходят!). А ведь именно с таким эффектом мы столкнемся, если, по предложению А. А. Кретова, «отменим» частеречные противопоставления, дейст вующие сегодня в системе семантических классов Корпуса. Нам скажут: такое легко иск лючить, запросив только грамма тический класс глаголов с пометой «движение». А если пользовате лю нужны как раз отпредикатные имена (типа хождение, вращение, полет и др.)? Здесь грамматические ограничения не помогут, и в ответ на запрос о ‘движении’ будут выданы все те же часы вкупе с лыжами. Если же исследователю действительно интересны пред метные имена, связанные с ‘движением’, он и в нынешней версии семантической разметки может запросить все субъекты (т.е. пред шествующие глаголу существительные в именительном падеже) при глаголах движения, ср. запрос: сущ. & им. п. + глагол : движение & личная форма С лингвистической точки зрения ответ многомиллионного корпуса на этот запрос будет гораздо точнее, чем априорное классифика
НКРЯ верстка4.indd 218
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
219
ционное решение лингвиста-разметчика, которое базируется ис ключительно на его интуиции. В отличие от лингвиста, корпус не будет «раздумывать» над тем, приписывать ли помету ‘движение’, прямо скажем, нестандартным с этой точки зрения именам типа часы, дорога, дым, пар, газ и им подобным, а просто выдаст иссле дователю весь объем сочетаний — чтобы тот дальше мог выбрать нужные ему лексемы по своему усмотрению, а не был вынуж ден следовать чьей-то интуиции. Собственно, именно поэтому раз работчики корпусной разметки, опираясь на базу данных «Лек сикограф», которая в части, касающейся предметной лексики, содержит для каж дого имени информацию о функциональном предикате, см. [Красильщик, Рахилина 1992], сознательно «отре зали» эту семантическую зону, иск лючив ее из дерева разметки. 2.2. Древесная VS. фасетная классификация Кстати, о деревьях. На первом этапе работы над разметкой мы счи тали, что наша классификация должна быть не древесной, а фасет ной. Древесный принцип в чистом виде, реализованный, например, в Семантическом словаре Шведовой [2000], где предметное имя попадает и л и в класс контейнеров, и л и в класс приспособлений, а глагол — и л и в класс речевых, и л и в класс посессивных, для Кор пуса не годится, и нужно иметь возможность приписывать слову несколько семантических помет сразу, что как раз и отражает идею фасетности, см. [Кустова и др. 2005: 160]. Однако в ходе работы выяснилось, что и фасетный принцип в чистом виде как основа корпусной разметки тоже оказывается опасным. Действительно, он хорошо работает и широко применяется в Корпусе для поиска по полностью независимым признакам — скажем, с одной стороны, таксономическим, как ‘движение’, ‘лицо’, ‘физическое качество’, т.е. отражающим собственно онтологию, а с другой — так сказать, «ква зиграмматическим» пометам — отражающим мереологию (‘час ти’–‘целое’ & ‘элементы’–‘множество’), топологию (‘поверхности’, ‘контейнеры’ и др.), словообразование (уменьшительные суффиксы, приставки и др.), оценку (положительная / отрицательная) и под. Именно за счет такой комбинации (и даже практически всегда толь ко за счет нее) возникает сложная многопризнаковая разметка в се
НКРЯ верстка4.indd 219
22/06/2009 17:48
220
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
мантической зоне предметных имен2 . Другое дело — возможность фасетной организации разметки внутри чисто таксономических признаков, которые часто не-не зависимы друг от друга. Ведь при таком способе структурирова ния семантической информации в один и тот же класс попадают, скажем, и глаголы, у которых данный признак является вершин ным, и те, у которых он совершенно второстепенный. В качестве примера удобно вернуться к признаку ‘движение’. Всякий человек (даже и не лингвист) знает, что такое «глаголы движения» — это бе гать, лететь, плыть, вертеться, катиться и т.д. и т.п. — довольно большой класс (общий его объем по нашей базе данных составляет для русского языка более 1000 единиц). Все это те глаголы, в толко вании которых признак ‘движение’ является базовым или, говоря в синтаксических терминах, занимает вершинную позицию. Но если иметь в виду глубокую детальную семантическую разметку, ориентированную на систематизацию лексики, о которой говорит А. А. Кретов, то по признаку ‘движение’ придется разметить гораз до большее количество глаголов, у которых этот признак входит в толкование, но не как вершинный. Тогда на запрос о глаголах движения в Корпусе найдутся не только предложения с «класси ческими» предикатами типа бегать или лететь, но и, например, предложения с глаголом закрыть (≈ ‘каузировать дверь, д в и г а я с ь , начать находиться в контакте со стеной’), и отделить их друг от друга будет невозможно. Понятно, что пользователь в этом случае будет разочарован, а значит, практическая задача, которую Корпус призван решать, не будет выполнена. Однако такой «про вал» прик ладных функций не случаен, он имеет и теоретическое объяснение. Фактически идеология «унив ерсальной» семантической раз метки (о которой, в частности, идет речь в работе А. А. Кретова и которая при поиске дает эффект фасетности в полном объеме) восходит к семантическим примитивам Г. В. Лейбница и компо нентному анализу Й. Трира и Дж. Катца. Для них такое разложение на минимальные смыслы было самоценно и представляло собой 2 Примером, иллюстрирующим принцип возникновения редких исключений здесь может служить комбинация ‘вещества и материалы’ и ‘еда и напитки’, ср. сахар, творог, спирт и т.п.
НКРЯ верстка4.indd 220
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
221
самостоятельную научную проблему, ориентированную на поиск универсального метаязыка. Конечно, с тех пор прошло много лет и сменилось много лингвистических теорий, но и сегодня жива точка зрения, согласно которой решение этой задачи могло бы способствовать построению лексической типологии и диахрониче ским исследованиям лексики. Это не так. И теория [Atkins, Fillmore 2000; Lakoff 1987], и практика (ср. [Viberg 2001, Goddard 2003, Majid, Bowerman 2007]), в том числе и собственные исследования по лек сической типологии авторов этой статьи [Копчевская-Тамм, Рахи лина 1999; Майсак, Рахилина 2007, Резникова и др. 2008] говорят о том, что восприятие лексики носителями и ее классификация в естественном языке опирается не на дискретные признаки, а на целостные гештальты. Именно поэтому для семантического моде лирования в лексической типологии гораздо удобнее использовать теоретический аппарат фреймов и конструкций, который как раз апеллирует к «не-независимости» отдельных семантических при знаков друг от друга. Так, признак ‘движение’ в семантике глагола закрыть настолько необходим для перехода объекта в результирую щее состояние, что является неотъемлемой частью этой ситуации. В этом смысле идея движения для глагола закрыть ни с точки зре ния типологии, ни с точки зрения диахронии, скорее всего, реле вантна не будет, потому что она присутствует в соответствующей внеязыковой ситуации обязательно. В то же время, в семантике многих глаголов (а соответственно, и отпредикатных имен со значением ситуации) есть не одна (как у предметных имен), а две в равной степени базовые таксономи ческие зоны — причем достаточно независимые друг от друга: это способ действия и результат. Соответствующие им признаки орга низуются фасетно и ищутся независимо друг от друга. Именно так устроен глагол вытребовать, о котором шла речь в [Кустова и др. 2005: 160]: с одной стороны, вытребовать — это посессивный гла гол, квазисинонимичный таким как взять, получить, приобрести и под., а с другой — для него, как и для глагола требовать, важна речевая составляющая, описывающая способ действия. По тому же принципу размечены в Корпусе глаголы ткнуться (‘движение’ + ‘контакт’), барабанить (‘движение’ + ‘звук’), мелькать (‘движение’ + ‘восприятие’), продрогнуть (‘изменение состояния’ + ‘физиоло
НКРЯ верстка4.indd 221
22/06/2009 17:48
222
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
гическая сфера’) и др. под3 . Понятно, что этих двух признаков не достаточно ни для полного описания соответствующих глаголов, ни для их типологического сравнения с другими языками. Но по скольку Корпус в принципе не может ставить перед собой задачу «описания лексико-семантической системы русского языка» (см. статью А. А. Кретова в настоящем сборнике), это и не так важно. Его задача — обеспечение максимально удобного поиска примеров для максимально широкого круга пользователей. Что же можно сделать для решения этой задачи? По нашему опыту, пользователю Корпуса легче формулировать запросы, апеллируя к базовым категориям — и именно они лучше всего приспособлены для такой пользовательско-ориентирован ной системы, как Корпус. Если говорить о глаголах, то это менталь ные, речевые, позиционные, бытийные, движения, контакта и др., если о прилагательных — цвета, размера, формы и др., в сфере пред метной лексики — лица, вещества, инструменты и проч. С одной стороны, такие классы интуитивно понятны неподготовленному пользователю (хотя в Корпусе все равно каж дая такая помета пря мо в таблице снабжена всплывающей подсказкой и в будущем пла нируется разместить на сайте списки классов), а с другой — именно на эти базовые классы, как выясняется, опирается большинство правил выбора значения при разрешении многозначности (см. раз дел 4). Ясно, что оба эти обстоятельства вовсе не случайны: как раз такого рода свойства и лежат в основе определения базовой лексики. Конечно, базовые классы могут дальше специфицироваться — уже по древесной схеме, так что, например, вещества будут делить 3
Понятно, что сам таксономический признак далеко не всегда просто сформулировать. Например, для разбиравшегося выше глагола закрыть, который относится к классу ‘физическое воздействие’ наряду с резать, целовать, нажимать, касаться и др. под., определить результат не так уж просто. С сугубо теоретической точки зрения, это, наверное, мог бы быть ‘контакт’, но всегда контакт предмета с предметом (двери с притолокой, например). Между тем класс глаголов контакта интуитивно определяется (видимо, ввиду общей антропоцентричности картины мира) как состоящий из глаголов, способных описывать контакт предмета с человеческим телом – ср. те же целовать, нажимать, касаться. В таких трудных случаях лучше, конечно, оставить лексему недоопределенной – именно такая стратегия и принята в Корпусе.
НКРЯ верстка4.indd 222
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
223
ся на жидкие, твердые и газообразные, а физические свойства — на форму, цвет, температуру и проч. Одновременно на таксономиче ское дерево в Корпусе, как мы уже говорили, нак ладывается еще несколько «квазиграмматических» классификаций, и комбинация этих признаков уже происходит по фасетной схеме. При этом «про зрачность» классификации, конечно, сохраняется: если здание от носится к топологическому типу контейнеров, то и его разновид ность — дом — тоже. Итак, дело не в том, что разработчики Корпуса случайно или по недосмотру допускают непоследовательности в использовании древесного или фасетного принципов классификации, а в том, что, учитывая специфику своего продукта и его отличия от лексических баз данных и словарей, они вполне сознательно отказались от этих принципов как однозначной догмы и применили более эффектив ную в условиях он-лайнового поиска стратегию их совмещения. Конечно, такой подход не дает возможности (и даже не ставит за дачи) построить общезначимую надъязыковую онтологию на базе универсальных лексико-семантических констант, а проще говоря, компонентного анализа или (внечастеречных) семантических мно жителей — зато позволяет довольно эффективно искать если не от дельные слова по заданному семантическому признаку, то по край ней мере эти же слова в составе последовательностей словоформ. 2.3 Семантика и синтаксис И здесь мы переходим к ответу на еще один распространенный уп рек: почему же в Национальном корпусе русского языка нет син таксической разметки? Во-первых, строго говоря, она есть: в рамках семейства под корпусов имеется небольшой экспериментальный синтаксически размеченный подкорпус (см. http://www.ruscorpora.ru/search-syntax. html). Работа над ним показала, насколько это трудоемкая задача. У осуществляющей этот проект лаборатории ИППИ РАН под руко водством Л. Л. Иомдина к началу работы имелся огромный опыт такого рода деятельности в рамках работ по машинному перево ду; имелся и задел — в виде серии систем ЭТАП на базе русского поверхностного синтаксиса, принятого в модели «СмыслТекст», а также пилотного корпуса новостных текстов, уже размеченных
НКРЯ верстка4.indd 223
22/06/2009 17:48
224
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
к тому времени тем же анализатором. Тем не менее потребовалось 6 лет для того, чтобы разметить корпус в пределах полумиллиона словоупотреблений. Если даже представить себе, что дальше рабо та будет продвигаться в разы быстрее, то для такой разметки всего массива нкря потребуются десятки лет. Одновременно детальная синтаксическая разметка в том виде, в котором она принята в син таксическом подкорпусе, требует не только профессиональной под готовки разметчика, но и дополнительной подготовки пользовате ля — «новичку» она недоступна. Таким образом, подробный синтаксический анализатор не мо жет быть пока применен к Корпусу в целом — во-первых, ввиду его объема, а во-вторых, ввиду отсутствия единой — одновременно общезначимой и общедоступной — модели русского синтаксиса. Можно было бы пофантазировать и попытаться себе представить, как мог бы выглядеть специальный модуль корпусного синтакси са — чтобы он был и общезначимым, и общеполезным, и автомати ческим. Один из вариантов решения этой проблемы нам видится в том, чтобы указывать сам факт синтаксической связи, не специ фицируя ее природу. Можно ли будет добиться на этом пути инте ресного результата — пока до конца не ясно. Вместе с тем неправы те, кто говорит, что сейчас в нкря нет ника кой синтаксической разметки, см., например, [Копотев, Мустайоки 2008]. Во-первых, в Корпусе имеется частеречная разметка — а это не только морфология, но и синтаксис; плюс к этому — (морфологи ческая по природе) информация о падежном маркировании: она то же дает представление о синтаксических связях. Во-вторых, не так давно была введена опция поиска по знакам препинания, так что теперь на всем массиве текстов можно находить вопросы и воск ли цания, а также вводные слова или сложноподчиненные предложе ния разных видов. Все это, конечно, не полноценный синтаксис, но, что называется, элементы синтаксиса в Корпусе [там же]. Не забу дем и о возможности задавать строгий порядок следования единиц поиска. Таким образом, в совокупности для запросов оказываются доступны конструкции — т.е. (как правило) сложные синтаксиче ские единицы со своим значением, часто фиксированным набором и порядком лексических переменных, заданным грамматическим оформлением и лексическим наполнением разной степени свобо
НКРЯ верстка4.indd 224
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
225
ды: от почти застывших фразеологизмов до свободных сочетаний с минимальными ограничениями на составляющие. Термин «конструкция» удобен тем, что, как говорится, «проверен временем» и до сих пор используется самыми разными школами, причем примерно в одном и том же значении. Главную особен ность конструкций лучше всего эксплицировал Ч. Филмор в теории Грамматика конструкций [Fillmore et al. 1988], см. также [Goldberg 1995]: конструкция — это минимальная языковая единица, в кото рой ограничения разного уровня (морфологические, лексические, семантические, синтаксические, а иногда и фонетические) взаимо зависимы, так как мотивированы семантикой конструкции в целом. Филмор же предложил компьютерную модель для своей теоретиче ской идеи — систему Framenet (см. http://framenet.icsi.berkeley.edu), в которой воплощается комплексная, многоступенчатая разметка контекстов употребления лексических единиц. Понятно, что нкря, в сущности, воплощает ту же идею: лексиче ская семантика в языке существует не сама по себе, а в теснейшей связи с так называемым «малым синтаксисом» (см. также послед ние работы Л. Л. Иомдина на эту тему, например, [Иомдин 2003]), следовательно, семантическая разметка в Корпусе должна встраи ваться в морфосинтаксическую и взаимодействовать с ней. И дейст вительно, наиболее эффективен Корпус тогда, когда задан сложный запрос, комбинирующий лингвистическую информацию разной природы. В этом случае он, во-первых, незаменим, потому что ника кая обычная интернет-поисковая система в принципе не может оси лить такой запрос (а ведь как часто критики говорят, что корпуса не нужны — достаточно интернета!). Во-вторых, именно в сложных запросах (а не в запросах по одному независимому признаку), в том числе с учетом семантических параметров, пользователь получает наиболее аккуратную выдачу, с минимальным шумом, который как раз и снимается дополнительными условиями поиска. Более того, именно возможность построить запрос на конструк цию, характеризующуюся, в частности, определенными семанти ческими признаками, позволяет оперировать существенно более простой системой помет, не перегружая ее лишними параметрами. Например, теоретически можно было бы (как предлагает А. А. Кре тов) приписать значению слова утихнуть помету weather: n, напри
НКРЯ верстка4.indd 225
22/06/2009 17:48
226
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
мер, (метель) утихла. И действительно, с этим глаголом сочетаются и дождь, и буря, и вьюга, и шторм, и гроза и т. д. Однако природные явления, как показывает соответствующий запрос, составляют лишь малую часть субъектов глагола утихнуть — среди них есть и крик, и голос, и – метонимически — имена, обозначающие людей (жен щина, ребенок и др.), а также ненависть, аплодисменты, боль (и даже — метонимически — висок) и др. В то же время утихнуть, как и все глаголы с подобным значением, легко находится в современ ной версии разметки при поиске конструкции: непредметное имя класса «природное явление» + глагол «прекращения существования». Теперь суммируем все сказанное о принципах выделения семанти ческих классов для корпусной разметки. По нашему мнению, клас сифицирующие таксономические признаки должны быть: • • • • •
независимыми, базовыми, выделять крупные классы, порож дать минимальный шум, оптимальный результат при их использовании можно ожидать в случае сложного поискового запроса (т.е. конструкции). 3. Разметка: вопросы и ответы
Итак, принципы обозначены. Но реальный словарь, который лежит в основе семантической базы данных, очень большой, а его размет ка предполагает преимущественно ручную работу. И конечно, здесь могут быть ошибки и непоследовательности, так что процесс «чист ки» семантического словаря идет непрерывно. Мы благодарны всем нашим «семантическим» оппонентам, и прежде всего А. А. Кретову, за то, что они своими вопросами и замечаниями помогают нам в этой работе. Однако здесь мы хотели бы обсудить не случайные ошибки, а принципиальные решения и сложные случаи — в качест ве иллюстрации наших теоретических установок. 3.1. Независимость признаков О необходимости этого принципа мы говорили выше. Теперь о труд ностях. Трудности его применения хорошо иллюстрируются мате риалом имен собственных.
НКРЯ верстка4.indd 226
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
227
В Корпусе собственные имена представляют собой отдельный класс — наравне с предметными и непредметными, так что им свойствен свой тип разметки. Это очень естественно, потому что в число собственных имен не входят, с одной стороны, ни инст рументы, ни вещества, ни иные классы конкретной лексики, а с другой — ни периоды времени, ни звуки, ни иные классы абст рактной лексики. Одновременно, собственные имена не являют ся ясным подк лассом ни для предметных, ни для непредметных имен — они бывают и теми, и другими (ср. МГУ как здание — пред метное имя — и «Кинотавр» как мероприятие — абстрактное имя). Именно поэтому система их разметки представляется в Корпу се как независимая от других имен. Пока она включает только имена, отчества, фамилии, топонимы, а также словообразова тельные корреляты — стяженные формы (типа Николаич и др.) и аббревиатуры (типа МММ, ГРУ и под.). В дальнейшем могут быть добавлены клички животных, марки машин и другие до полнительные разряды. Эта работа, однако, не так проста, как кажется, потому что здесь мы столкнемся с практически обязательной полисемией типа: Вол га–топоним / «Волга»–марка машины, Васька–кличка кота и Вась ка–имя человека, «Стрела»–название поезда и стрела–предметное имя, Форд–фамилия человека и «Форд»–марка машины и т. д. и т. п. Именно поэтому разработчики не торопятся с простым расшире нием числа помет в этой зоне: до того, как разрешится проблема снятия омонимии, оно не будет способствовать оптимизации поис ка, а наоборот, только «утяжелит» Корпус за счет дополнительной многозначности. Раз собственные и предметные имена представляют разные классы, пометы из этих классов оказываются в разметке незави симо друг от друга. Нужно только проследить, чтобы эта незави симая разметка была проведена. Проведена она для имен лиц, так что в Корпусе можно найти и Александров, и Сергеевичей, и Пуш киных по запросу на имена лиц, но, конечно, только если убрать из поисковой строки ограничение на конкретность имени. Тогда собственные имена найдутся наравне с нарицательными. Не про ведена такая разметка для местоположений, и пока названия горо дов и стран не ищутся как представители таксономического класса
НКРЯ верстка4.indd 227
22/06/2009 17:48
228
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
space (а только на запрос «топоним» или его объемлющий класс «собственное имя»). Независимая разметка предметных и собственных имен име ет тот недостаток, что пользователю требуется дополнительная подсказка о том, как ему найти одновременно все существитель ные со значением «лица», включая имена, фамилии и отчества. По умолчанию он получит только нарицательные существительные и должен будет дополнительно искать контексты с собственными именами. Но альтернатива, которая предложена А. А. Кретовым, тоже не кажется нам оптимальной. Его решение ввести разметку типа t:hum:persn для имен (Александр), t:hum:patrn для отчеств (Сер геевич) и t:hum:famn для фамилий (Пушкин) осуществимо только в том случае, если мы аннулируем имена собственные как отдель ную категорию, т.е. фактически сделаем их подк лассами конкрет ных. Тогда потребуется очень дробная (а значит, всегда априорная) их классификация, понадобится снятие омонимии, а главное — са ма табличка выбора признаков неизбежно потеряет системность. Действительно, рядом с именами лиц, инструментов, веществ, про странств и т.д. в ней обнаружится класс имен собственных как та ковых, не попавших ни в какой из дробных разрядов (например, «Марсельеза», ГТО и прочие аббревиатуры). Хорошо бы, наверное, придумать в этой зоне что-то третье. 3.2. Базовость признаков Значения многих важных классов («поведение», «мероприятие», «возраст», «изменение состояния или признака» и др.) со строго семантической точки зрения не являются элементарными. Но и раз работчикам, и пользователям важно иметь именно такие классы для поиска — в частности потому, что они активно участвуют в кон струкциях, задавая семантические ограничения на лексическое на полнение последних. Тем самым нужно, чтобы эти классы остава лись в поисковой табличке как целостные единицы. Другой вопрос, насколько удобно использовать внутри самой лексической базы данных Корпуса их разложение на более элемен тарные компоненты: иными словами, можно ли попробовать в ба зе заменить помету behave на ее составляющие — hum:act:neg (см. статью А. А. Кретова), при том что в поисковой табличке все равно
НКРЯ верстка4.indd 228
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
229
останется признак «поведение»? Или для глаголов взрослеть, твер деть, богатеть заменить помету changest («изменение состояния») на «составную» incep:be:diff? Нельзя. Базовый класс на то и базовый, чтобы существовать особняком, не смешиваясь с другими. Разложение базового «геш тальта» на составляющие пересечет его со всеми теми классами, признаки которых входят в его состав. Тогда глаголы изменения состояния будут искаться на запрос о бытийных, а поведение или возраст — на запрос о человеке и т.д. и т.п. Это сразу нарушит прин цип «не порождать лишнего шума» и существенно затруднит работу пользователей. 3.3. Принцип крупных классов В корпусе есть помета «физические свойства» (t:physq). Она введе на ради противопоставления классу «свойства человека» (t:humq), которое нужно, в частности, для снятия неоднозначности в случаях переноса признаков с предмета на человека (мягкий хлеб → мяг кий человек). Обе пометы должны присутствовать и в прилагатель ных (ср. крепкий VS. добрый), и в отпредикатных именах (крепость VS. добродетель), но пока в полном объеме они применя ются только к адъективной лексике. Конечно, как и всякая помета, t:physq достаточно условна, так что если говорить об обозначаемых ею свойствах, то они не столько физические, сколько эмпирически наблюдаемые, воспринимаемые органами чувств — ср. ‘вкус’ или ‘запах’ (хотя, разумеется, органами чувств они воспринимаются потому, что имеют в конечном счете именно физическую приро ду). Условность этой пометы проявляется и в том, что к физиче ским относятся и «потенциальные» качества типа растворимый, которые важно противопоставить тоже потенциальным, но «не физическим» прилагательным — таким как неотвратимый или непредсказуемый. Представить physq и humq как составные пометы с общей частью (q) и противопоставленными phys и hum не удастся по только что указанным в разделе 3.2 причинам: тогда человеческие качества по лучат отдельную помету hum как часть hum:q и пересекутся с клас сом людей в целом, а значит, будут выдаваться по запросу об именах лиц. Это неудобно для пользователей. Но и для разработчиков тоже:
НКРЯ верстка4.indd 229
22/06/2009 17:48
230
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
выясняется, что различие между hum и humq может использоваться для снятия неоднозначности в глаголе, ср. Добродетель (humq) ук рашает человека vs. Девочка (hum) украшает елк у. Таким образом, эти классы как раз очень хорошо противопоставлены семантически и, по нашему мнению, просто не нужны как объединение. В принципе, для аналогии с прилагательными, можно снабдить класс непредметных имен ‘цвет’, как предлагает А. А. Кретов, до полнительной пометой physq. Поиск это не ускорит, но, безуслов но, добавит системности в разметку. Однако нужно понимать, что в любом случае в зоне прилагательных мы не можем полностью распределить все ‘физические свойства’ по классам, поскольку для них нет общеизвестных помет. Например, более спорным выгля дит решение о присвоении словам мягкий, вязкий необщеприня того признака plast — такой класс (в отличие от ‘цвет’ или ‘форма’) пользователю незнаком. Но даже если согласиться и принять это решение, оно, что называется, не спасет положения, потому что в класс ‘физические свойства’ входят еще и такие прилагательные, как слабый, сильный, пористый, слоистый, пуленепробиваемый, растворимый, горючий, прозрачный, жидкий, глинистый, песча ный, каменистый и т.д., для которых уж точно не найдется общепо нятных помет. Мелкие классы из одного-двух слов неудобны, плохо воспринимаются, загромождают поисковую форму и по всем этим причинам не годятся для корпусной разметки. И наоборот, общий класс ‘физические свойства’ оказывается и психолингвистически, и технически релевантным. Другой интересный случай касается глаголов восприятия, кото рые, безусловно, являются базовыми в любом естественном язы ке — просто в силу его антропоцентричности. В словаре Корпуса таких глаголов порядка двух сотен, однако бо´льшая часть этого списка — глаголы зрительного восприятия (смотреть, глядеть, любоваться, глазеть и др., а также их при ставочные корреляты) и лишь небольшая — все остальные. Поэтому если приписывать пометы smell, taste глаголам обоняния, вкусового восприятия и др., мы получим крайне маленькие и – как всегда в та ких случаях — сомнительные классы. Например, глагол нюхать, на базе которого строилась бы вся группа запаха (нанюхаться, поню хать, принюхиваться, разнюхать), строго говоря, не является гла
НКРЯ верстка4.indd 230
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
231
голом запаха. Еще хуже дело обстоит с осязанием: единого класса осязания обычно не выделяется, потому что прототипического гла гола осязания нет, а свойства, воспринимаемые осязанием, очень разные (ср. перечисляемые в статье А. А. Кретова мягкий, вязкий, тяжёлый, лёгкий и горячий, ледяной). В такой ситуации для пользователя, конечно, проще составлять не семантические, а «лексические» запросы с конкретными глагола ми, т.е. вместо семантического запроса с признаками «восприятие: обоняние» формулировать запрос, в котором фигурирует непосред ственно глагол нюхать и его приставочные корреляты. Что касается глаголов зрительного восприятия, то, поскольку это достаточно мощный и единый класс, странно было бы его делить (как предлагает А. А. Кретов), сопоставляя с пометами прилагатель ных light и color. Да и как делить? Тем более что с помощью зрения человек оценивает не только свет и цвет, но также и форму, кото рая связана, в частности, еще и с осязанием, а помимо этого — ме стоположение предметов, расстояние, размер и многое другое! Не говоря уже о том, что зрительно восприниматься могут не только предметы, но и ситуации (Видел, как они входили в подъезд). Так что, пожалуй, тут все правильно: пусть класс глаголов восприятия остается базовым, а нужные уточнения пользователь в каждом кон кретном случае легко сделает сам. Итак, с практической точки зрения, в Корпусе должны исполь зоваться пометы, которые достаточны или просто удобны для по иска — а это имена больших таксономических классов, в которых один признак определяет и семантические характеристики, и со вокупность синтаксических свойств. 4. Семантическая разметка и снятие лексической неоднозначности Надо сказать, что семантическая разметка, принятая в Корпусе, проходит еще одну апробацию: она задействована в правилах сня тия семантической омонимии (подробнее см. Рахилина и др. 2006, Шеманаева и др. 2007, Толдова и др. 2008). Проект снятия семанти ческой омонимии все еще находится в стадии разработки, однако для этой цели уже создано много «фильтров» — в основном для ка чественных прилагательных, предметных имен и глаголов, и в них
НКРЯ верстка4.indd 231
22/06/2009 17:48
232
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
задействованы те самые семантические признаки, по которым строится поиск. Надо сказать, что некоторые принципы работы с этими тремя классами слов различаются, поэтому все дальнейшее касается только качественных прилагательных4 . Вкратце суть этого проекта такова. Большая доля слов русского языка многозначна, ср. знаменитые лук (‘растение’) и лук (‘ору жие’), худой (‘не толстый’) и худой (‘плохой’), колоть (‘воздейст вовать иглой’) и колоть (‘болеть’) и мн. др. Однако в потоке речи эта омонимия «снимается» более широким контекстом, так что говорящий и слушающий ее не замечают. Задача состоит в том, чтобы «научить» машину реагировать на релевантный контекст и, таким образом, разрешить семантическую многозначность хотя бы для самых частотных случаев. Вот тут как раз и оказываются задействованы семантические признаки — и самих многозначных слов, потому что разные значения нужно как-то отличить друг от друга, а значит, разметить семантически, — и тех слов, которые составляют их ближайшее окружение, так как часто выбор зна чения многозначного слова зависит именно от семантического класса соседней лексемы. Разрабатывая правила снятия многозначности, или фильтры, разметчики пользуются уже имеющимися в Корпусе признаками, тем самым составление фильтров оказывается своеобразной «экс пертизой» для наших семантических помет. Оказывается, что в ос новном для снятия омонимии классов, уже имеющихся в корпусе, достаточно, и необходимость добавления новых возникает крайне редко. Значит, говорящие на естественном языке, выбирая значе ния, опираются на довольно простые и общие свойства слов, и к тем же самым свойствам обращается пользователь Корпуса при поиске, пытаясь «угадать конструкцию». Конечно, на эту тему можно сказать еще многое в теоретиче ском плане — и о том, как соотносится эта идея с современными семантическими теориями, и о том, что дает такой прик ладной эксперимент для лексической типологии, для теории построения универсального метаязыка, или насколько подобная практика ин 4
Ср. статью Г. И. Кустовой и С. Ю. Толдовой в настоящем сборнике, касаю щуюся снятия многозначности в глаголах.
НКРЯ верстка4.indd 232
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
233
тересна с психолингвистической точки зрения — но мы хотели бы в данной статье всего лишь проиллюстрировать сказанное несколь кими ясными примерами. Первый пример демонстрирует важность р а з р я д а соседне го с прилагательным существительного, т. е. его принадлежности к предметным или непредметным именам. Это одно из базовых противопоставлений, крайне существенных для развития много значности адъективной лексики. Так, прилагательное легкий озна чает физическое свойство (‘нетяжелый’) ровно в тех случаях, когда оно относится к предметному имени; дальнейшее разграничение его значений ведется с использованием таксономических классов непредметных имен. Поэтому один из его фильтров будет выгля деть так: Слово легкий
Контекст +«предметное»
Итоговое значение SEM= разряд: «качественное», таксономический класс: «фи зическое свойство: вес»
Понятно, что в правилах учитывается и более дробная классифи кация, прежде всего, таксономическая. Так, среди значений прила гательного голый принято различать по крайней мере следующие: • ‘неодетый’, ср. голый человек, • ‘неприкрытый’, ср. на голом полу, • ‘чистый, без примесей’, ср. голый спирт, и у каждого из этих значений есть свои ограничения на таксономи ческий класс существительного. Их можно сформулировать в тер минах наших семантических признаков: Слово
Контекст
Итоговое значение
голый
+ «лица»
голый
+ «пространство и место»
голый
+ «вещество
SEM = разряд: «качественное», таксономический класс: «физи ческое состояние» SEM2 = разряд: «качественное», таксономический класс: «внеш ний вид» SEM2= разряд: «качественное», таксономический класс: «физи ческое свойство»
НКРЯ верстка4.indd 233
22/06/2009 17:48
234
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
Хороший пример использования непредметных классов дает при лагательное холодный. Среди его значений есть следующие: • ‘низкий (о температуре)’ ср. холодный ветер, • ‘оттенок цвета’, ср. холодные цвета, • ‘относящийся к человеку — его ментальной / эмо циональной / психологической сфере или пове дению’, ср. холодный взгляд. Здесь можно сформулировать следующие контекстные правила: Cлово
Контекст
Итоговое значение
холодный
+«природное явление»
SEM=разряд: «качественное», так сономический класс: «физическое свойство: температура» SEM2=разряд: «качественное», таксономический класс: «физиче ское свойство: цвет» SEM2=разряд: «качественное», таксономический класс: «свойство человека»
+«время» холодный
+«цвет»
холодный
+«ментальная сфера» +«психическая сфера» +«свойство человека» +«поведение и поступки человека»
Надо сказать, что параметр таксономического класса, каким бы эффективным он ни был, все же не покрывает всех тонкостей и раз личий в семантике прилагательных. Так, два разных значения лек семы редкий используются с существительными одного и того же таксономического класса «растения», ср. редкая трава (‘растет на большом расстоянии друг от друга’) и редкое растение (‘то, которое редко встречается’). Здесь «помогает» мереологическая разметка: в контексте существительных класса «множества и совокупности объектов» прилагательное редкий может выступать только в зна чении расстояния: Слово редкий
НКРЯ верстка4.indd 234
Контекст + «растение»&«совокуп ности объектов»
Итоговое значение SEM=разряд: «качественное», таксономический класс: «рас стояние»
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
235
Полезной в плане различения значений прилагательных может ока заться и топология предметных имен (т.е. их геометрические ха рактеристики). Например, прилагательное тугой в сочетании с су ществительными, представляющими класс «вместилища», имеет значение большого размера (тугой кошелек), тогда как в контексте имен, называющих неодушевленные объекты других топологиче ских классов, оно отсылает к физическому свойству, не связанному с размером (что-то вроде ‘крепкий’), ср. тугой узел. Слово тугой
Контекст +«вместилища»
тугой
+«предметные»
Итоговое значение SEM2=разряд: «качественное», таксономический класс: «размер: большой» SEM=разряд: «качественное», так сономический класс: «физическое свойство»
Конечно, сказать, что выделенных в Корпусе семантических клас сов для правиловых фильтров хватает всегда (с учетом топологии и мереологии), все-таки было бы преувеличением. Система семан тических помет постоянно совершенствуется — в том числе благода ря фильтрам. Например, практика составления контекстных правил показала, что класс «профессии» релевантен не только с энцикло педической, но и с лингвистической точки зрения. Так, у слов стар ший и младший конкурируют два значения: ‘старший по возрасту’ и ‘старший по иерархии’. Оба значения представлены в контексте существительных класса «лица», однако второе значение оказывает ся возможным только при лексемах, образующих особый подк ласс среди имен лиц — существительных, называющих профессии. Соот ветственно, добавив класс «профессии» в систему семантических помет корпуса, мы сможем отфильтровать контексты, в которых слова старший/младший используются во втором значении: • старший + «профессии»: старший ‘иерархия’; • младший + «профессии»: младший ‘иерархия’; (ср. старший / младший научный сотрудник, лаборант, офицер и др.)
НКРЯ верстка4.indd 235
22/06/2009 17:48
236
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
В сочетании с другими существительными класса «лица» описывае мые прилагательные получают первое значение: • старший + «лица»: старший ‘возраст’; • младший + «лица»: младший ‘возраст’; (ср. старший / младший брат) Таким образом, процесс изготовления фильтров интересен для нас не только как прик ладная задача — снятие омонимии в Корпусе, но одновременно и как задача теоретическая. На этом материале становится ясно, какие семантические классы слов одного лекси ко-грамматического разряда обуславливают семантическую много значность слов другого лексико-грамматического разряда. Очевид но, что в зоне прилагательных ключевыми являются противопос тавления «одушевленных» (включая «лица») и «неодушевленных», а также «предметных» и «непредметных» имен: мена меж ду этими классами существительных всегда ведет к сдвигу семантики прила гательного. Существенным, однако, представляется вопрос, какие еще классы имен релевантны для различения значений в адъектив ной семантической зоне и — более того — как они связаны с типом семантического перехода в прилагательном, т. е. в каких случаях изменение одного таксономического класса на другой влечет за собой метонимический, а в каких — метафорический сдвиг. Такое исследование требует большого языкового материала — и в этом отношении Корпус и реализованная в нем семантическая разметка оказываются идеальной источниковой базой. В свою очередь, про ведение такого теоретического исследования будет способствовать уточнению таксономических классификаций, принятых в Корпусе, и тем самым — совершенствованию системы семантической раз метки нкря.
НКРЯ верстка4.indd 236
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
237
Литература Бабенко Л. Г. Толковый словарь русских глаголов: Идеографическое описание. Английские эквиваленты. Синонимы. Антонимы. М.: АСТ-Пресс, 1999. Десятова А. В., Ляшевская О. Н., Махова А. А. Конструкция с твори тельным формы «X Y-ом» // Компьютерная лингвистика и ин теллектуальные технологии: По материалам ежегодной Между народной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14). М.: РГГУ, 2008. С. 113–139. Иомдин Л. Л. Большие проблемы малого синтаксиса // Труды меж дународной конференции по компьютерной лингвисти ке и интеллектуальным технологиям Диалог’2003. М.: Наука, 2003. — С.216–222. Копотев М. В., Мустайоки А. Современная корпусная русистика // Инс трументарий русис тики: корпусные подходы. Slavica Helsingiensia — 34. Helsinki: Helsinki Univ.Press, 2008. Копчевская-Тамм М., Рахилина Е. В. С самыми теплыми чувства ми (по горячим следам Стокгольмской экспедиции) // Тестелец Я. Г., Рахилина Е. В. (ред.) Типология и теория языка: от опи сания к объяснению. Сб. к 60-летию А. Е. Кибрика. М.: Языки русской культуры, 1999. Красильщик И. С., Рахилина Е. В. Предметные имена в системе «Лексикограф» // НТИ, сер. 2. — 1992. — № 9. — С. 24–31. Кретов А. А. Анализ семантических помет в национальном корпусе русского языка. Статья в наст. сборнике. Кузнецов а Э. В. Лексико-семантические группы русских глаго лов. — Иркутск, 1989. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семан тическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003–2005. Результаты и перспекти вы. — М.: Индрик, 2005. Кустова Г. И., Падучева Е. В. Словарь как лексическая база данных // Вопросы языкознания. — 1994. — № 4. Майсак Т. А., Рахилина Е. В. (ред.) Глаголы движения в воде: лекси ческая типология. М.: «Индр ик», 2007.
НКРЯ верстка4.indd 237
22/06/2009 17:48
238
Е. В. Рахилина, Г. И. Кустова,О. Н. Ляшевская и др.
Рахилина Е. В. Когнитивный анализ предметных имен: семантика и сочетаемость. М.: Русские словари, 2000. Рахилина Е. В., Ляшевская О. Н., Кобрицов Б. П., Кустова Г. И., Ше манаева О. Ю. Многозначность как прикладная проблема: Лек сико-семантическая разметка в Национальном корпусе русского языка // Лауфер Н. И., Нариньяни А. С., Селегей В. П. (ред.). Ком пьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006». 2006. С. 445–450. Резникова Т. И., Бонч-Осмоловская А. А., Рахилина Е. В. Глаголы бо ли в свете Грамматики конструкций // НТИ, сер. 2. — 2008. — № 4. — С. 7–15. Толдова С. Ю., Кустова Г. И., Ляшевская О. Н. Семантические фильт ры для разрешения многозначности в Национальном корпусе русского языка: глаголы // Компьютерная лингвистика и ин теллектуальные технологии: По материалам ежегодной Между народной конференции «Диалог» (Бекасово, 4–8 июня 2008 г.). Вып. 7 (14).– М.: РГГУ, 2008. Шведова Н. Ю. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений. Под общ. ред. Н. Ю. Шведовой. Т. 1–4. — М.: Азбуковник, 2000. Шеманаева О.Ю, Кустова Г. И., Ляшевская О. Н., Рахилина Е. В. Се мантические фильтры для разрешения многозначности в Нацио нальном корпусе русского языка: прилагательные // Иомдин Л. Л., Лауфер Н. И., Нариньян и А. С., Селегей В. П. (ред.). Ком пьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2007». 2007. С. 582–587. Atkins S., Fillmore Ch. Describing polysemy: the case of crawl // Ravin Y. Leacock C. (eds.) Polysemy: Linguistic and computational approaches. Oxford: Oxford University Press, 2000. Fillmore Ch. J., Kay P. & O’Connor K.T. Regularity and Idiomaticity in Grammatical Constructions: the Case of LET ALONE. In: Language 64, 1988, pp. 501–538. Goddard, C. 2003. ‘Thinking’ across languages and cultures: Six dimensions of variation. Cognitive Linguistics 14(2/3), 2003, pp. 109–140. Goldberg A. E. (1995) Constructions: A Construction Grammar Approach
НКРЯ верстка4.indd 238
22/06/2009 17:48
Задачи и принципы семантической разметки в НКРЯ
239
to Argument Structure. Chicago: Chicago University Press, 1995. Lakoff G. Women, re and dangerous things: What categories reveal about the mind. Chicago: University of Chicago, 1987. Majid, A., Bowerman, M. (eds.): Cutting and breaking events: A cross linguistic perspective. Special issue of Cognitive Linguistics, 18(2) (2007) Talmy, L. How language structures space. In: H. Pick and L. Acredolo (eds.), Spatial Orientation: Theory, Research, and Application. New York: Plenum Press, 1983, pp. 225–282. Viberg Å. The verbs of perception // Haspelmath M. et al. (eds.) language typology and language universals: an international handbook. Berlin: de Gruyter, 2001.
НКРЯ верстка4.indd 239
22/06/2009 17:48
А. А. Кретов
Анализ семантических помет в НКРЯ
истема семантических помет является производной от её назначения. Каково же назначение семантической разметки Нацио нального корпуса русского языка? Как минимум, её назначение состоит в том, чтобы удовлетворять два типа потребностей: (1) повседневно-практиче ские потребности широкого круга лингвистов и – преимуществен но — нелингвистов и (2) научно-исследовательские потребности лингвистов-профессионалов. Первый тип запросов близок к потребностям любителей кросс вордов: по данному значению найти слово или группу слов. В лю бом случае пользователю необходимо получить множество слов, характеризуемое той или иной степенью близости значений (си нонимический ряд, гипероним с его гипонимами, антонимы, кон версивы, семантическое поле в версии Ю. Н. Караулова, набор се мантических функций от данного слова в версии Мельчука-Жолков ского-Апресяна, тематическую группу или лексико-семантическую группу в версии Э. В. Кузнецовой).
Система семантических помет является производной от её назначения. Каково же назначение семантической разметки Национального корпуса русского языка? Как минимум, её назначение сос тоит в том, чтобы удовлетворять два типа пот ребнос тей: (1) пов се дневно-практические потребнос ти широкого круга лингвистов и – преимущес тв енно — нелингвистов и (2) научно-исследовательские потребности лингвис тов-профессионалов. Первый тип запросов близок к потребностям любите лей кроссвордов: по данному значению найти слово или группу слов. В любом случае пользователю необходимо получить множес тв о слов, характеризуемое той или иной степенью близости значений (синонимический ряд, гипероним с его гипонимами, антонимы, конвер сивы, семантическое поле в версии Ю. Н. Караулова, набор семантических функций от данного слова в вер сии Мельчука-Жолковского-Апресяна, тематическую группу или лексико-семантическую группу в версии Э. В. Кузнецовой).Эту задачу можно решить компили рованием имеющихся семантических (идеографических и тематических) словарей, а также словарей синонимов, омонимов, антонимов и паронимов.Второй тип запросов обслуживает интересы лексикологов. Научно-исследова тельские требования, предъявляемые к Национальному корпусу русского (и, полагаю, любого другого языка) со стоят в том, чтобы с его помощью и на его базе можно
НКРЯ верстка4.indd 240
22/06/2009 17:48
Анализ семантических помет в НКРЯ
241
Эту задачу можно решить компилированием имеющихся семанти ческих (идеографических и тематических) словарей, а также сло варей синонимов, омонимов, антонимов и паронимов. Второй тип запросов обслуживает интересы лексикологов. На учно-исследовательские требования, предъявляемые к Националь ному корпусу русского (и, полагаю, любого другого языка) состоят в том, чтобы с его помощью и на его базе можно было проводить типологические и диахронические исследования лексики. Если задача согласования семантической маркировки всех имеющихся национальных корпусов на сегодняшний день вряд ли может быть решена (хотя поставлена она должна быть непременно — и чем раньше, тем лучше), то задача пригодности Национального кор пуса русского языка для обеспечения потребностей исторической лексикологии русского языка может быть не только поставлена, но и решена уже сейчас. Создавая систему помет для Национального корпуса русского языка, мы должны иметь в виду потребности описания лексико-се мантической системы современного языка и обеспечения её сопос тавимости с корпусами 18-ого, 17-ого, 14–16-ого и 11–13 вв. Если важнейшей научной задачей Национального корпуса рус ского языка является описание лексико-семантической системы современного русского языка, обеспечивающее её диахроническую сопоставимость, то и система семантических помет должна способ ствовать решению этой задачи. В своё время Л. В. Щерба высказал столь же простую, сколь и про дуктивную мысль: всё регулярное относится к грамматике, всё не регулярное — к словарю. Одним из вариантов реализации этой идеи являются семантические функции МСШ, которые задают семан тическую грамматику глаголов. Правда, дальнейшее углубление в семантику глагола показывает, что собственно глагольной лекси ческой семантики, по большому счёту, не существует — собственно глагольная семантика грамматична: всё лексическое в семантике глагола — от имён, например, идти — ‘Caus ноги Func (делать так, чтобы ноги функционировали)’. Анализ семантики прилагательных показывает, что собственно адъективная семантика тоже грамма тична — это ‘признак’ какого-то имени: белый — ‘цвета снега или мо лока’, черный — ‘цвета сажи’, голубой — ‘цвета неба’, зелёный — ‘цвета
НКРЯ верстка4.indd 241
22/06/2009 17:48
242
А. А. Кретов
листвы и травы’, красный — ‘цвета крови’, розовый — ‘цвета розы’, фиолетовый — ‘цвета фиалки’, сиреневый — ‘цвета сирени’ и т. д. Лек сическая семантика прилагательных также производна — от семан тики существительных. О семантике наречий и местоимений говорить не приходится: всё лексическое в них несобственное. О необходимос ти «вынесения за скобки» всего регулярного в словаре писал и В. В. Морковкин. Идея Ю. Д. Апресяна об интегральном описании словаря и грам матики предполагает — в свете идеи Л. В. Щербы — и перераспреде ление содержания того и другого, а соответственно — и переосмыс ления сущности и соотношения лексической и грамматической се мантики. Лексическая семантика — это семантика, направленная на внеязыковую действительность, это выделенные языком константы внеязыковой действительности, составляющие словарь, а семан тические, синтаксические, морфологические функции, выполняе мые этими константами, описываются как множество переменных. В плане выражения к семантическим константам ближе всего кор ни, в которых, собственно говоря, и концентрируется лексическая семантика. Соответственно, константы лексической семантики сле дует искать в формально простейших — корневых словах, а в общем случае — в корневых морфемах. Таким образом, мы приходим к идее противоположной обще принятой: лексическая и грамматическая семантика не «едины и неделимы», а, наоборот, принципиально противопоставлены друг другу как «константы и переменные языка», если воспользоваться счастливо найденным А. Е. Кибриком названием его книги [Кибрик 2003]. Лексическая семантика — это константы, грамматическая семантика — переменные. Лексическая семантика первична, грам матическая — производна. Система помет Национального корпуса русского языка отражает наиболее распространённую точку зрения: это «семантические по меты», причём не только и не столько лексические, сколько грамма тические. Главным её таксоном является часть речи, что указывает на её преимущественно грамматическую направленность. Относительно таких полей, как «мереология (указание на от ношения «часть — целое», «элемент — множество») — для пред
НКРЯ верстка4.indd 242
22/06/2009 17:48
243
Анализ семантических помет в НКРЯ
метных и непредметных имен; топология (топологический статус обозначаемого объекта) — для предметных имен; каузация — для глаголов; служебный статус — для глаголов; оценка — для пред метных и непредметных имен, прилагательных и наречий» — это следует отметить с удовлетворением — авторы расширяют границы «семантической грамматики», добавляя новые переменные к аппа рату описания семантики языка. Авторы семантических помет нкря пишут: «Лексико-семанти ческая информация имеет различную структуру для разных частей речи. Кроме того, каж дый из разрядов существительных — имена предметные, непредметные и собственные — имеет свою структуру помет». Анализ самого большого и самого близкого к лексической семантике разряда помет — помет «тематических классов» свиде тельствует скорее об обратном. Рассмотрим организацию центрального поля семантической классификации — «таксономия (тематический класс лексемы) — для имен существительных, прилагательных, глаголов и наречий». Его квантитативные характеристики представлены на Рис. 1. 25%
20%
15%
10%
5%
0%
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
14%
22%
0%
8%
0%
21%
10%
6%
6%
0%
0%
0%
0%
0%
0%
0%
0%
0%
13%
Рис. 1. Доля (процент) помет тематических классов в зависимости от числа повторений.
НКРЯ верстка4.indd 243
22/06/2009 17:48
244
А. А. Кретов
Рис. 1 показывает, что уникальных помет, встречающихся лишь в одной части речи или в одном разряде лексики — всего 21 (из 144), т.е. всего 14%. 86% помет — неуникальны. Рассмотрим уникальные пометы, представленные в одной части речи, с целью проверить, могут ли они описывать семантику дру гих частей речи. Snp t:action мероприятие (аукцион, вернисаж, вечеринка, выбо ры, именины, заседание, культпоход) переменная для hum. Sp t:animal животные (корова, жираф, сорока, ящерица, муравей) константа. Snp t:color цвет (окраска, колорит, желтизна, прозелень) — пе ременная. Sp t:constr здания и сооружения (дом, шалаш, мост) переменная для hum. Snp t:disease болезнь (ангина, диабет) переменная. Ss t:famn фамилии (Пушкин) переменная для hum. Sp t:food еда и напитки (пирог, каша, молоко) переменная. Snp t:game игра (жмурки, покер, домино, волейбол) переменная для hum. Snp t:inter взаимодействие и взаимоотношение (взаимопомощь, вражда, схватка, драка) переменная для hum. Snp t:param параметр (высота, грузоподъемность) — переменная. Ss t:patrn отчества (Сергеевич) переменная для hum. Ss t:persn имена (Александр) переменная для hum. Sp t:plant растения (береза, роза, трава) — константа Sp t:space пространство и место (космос, город, тайга, овраг, вход) — должно относиться к переменным: космос, тайга, овраг не предполагают обязательно присут ствия или участия в их создании человека, тогда как город, вход — предполагают и могли бы изображаться как t:hum:space Snp t:sport спорт (спартакиада, акробатика, баскетбол) пере менная для hum. Sp t:stuff вещества и материалы (вода, песок, тесто, жесть, шелк) — stuff тоже относится к переменным: вода,
НКРЯ верстка4.indd 244
22/06/2009 17:48
Анализ семантических помет в НКРЯ
Snp Snp Sp Ss Snp
245
песок — природные материалы, что можно обозна чить как t:natur:stuff , тогда как тесто, жесть, шелк созданы людьми, что и должно быть указано в те ге — t:hum:stuff. t:taste вкус (вкуснота, горчинка, кислятина) вполне пред ставимо как t:food:param. t:temper температура (прохлада, стужа, нагрев) — переменная, t:text тексты (рассказ, книга, афиша) — переменная для hum. t:topon топонимы (Европа, Волга, Эльбрус — t:natur:space:topon, Москва, Преображенка — t:hum:space:topon). t:unit единица измерения (балл, килограмм, метр, мину та) — не совсем понятно, чем отличается от t:param. В любом случае представимо как очеловеченная кон кретизация параметра.
От любого из этих существительных можно образовать прилага тельное или глагол и использовать для характеристики прилага тельных или глаголов. Анализ показывает, что единство лексической семантики намно го более важное и интересное свойство, чем «различная структура лексико-семантической информации разных частей речи». Уже сама организация тематических помет указывает, что лек сическая семантика внеположна частям речи, принадлежащим грамматической (в существе и истоках своих — синтаксической) семантике. Таким образом, «фасетная классификация, при которой одно слово может попадать в несколько классов» является, по существу, недостаточно отрефлексированным делением семантики на лекси ческую (константную, исходную) и грамматическую (переменную и производную). Фасетная классификация может оказаться полезной при кон струиров ании сложных лексических значений из элементар ных. Тем самым она — в любом случае и неизбежно — окажется частью «семантической грамматики». Но всё это не снимает за дачи выделения и маркирования л е к с и к о - с е м а н т и ч е с к и х констант.
НКРЯ верстка4.indd 245
22/06/2009 17:48
246
А. А. Кретов
Попробуем на том же материале рассмотреть, насколько в нём решается проблема выделения констант, и какие константы нам предлагаются. Прежде всего обратим внимание на организацию тегов — «сокра щенных помет на основе англоязычной нотации». Она трёхступенчата (и это прекрасно — в принципе, количество ступеней может возрасти до 7 и даже более): t: time t: time:age t: time:age:abs
время (прошлый, ночной) возраст (зрелый) абсолютный (трехлетний).
Наряду с адъективным тегом t:time существует его конкретизация t:time:age и конкретизация этой конкретизации — t:time:age:abs. При этом постоянной величиной является t:time и соответственно — зна чение ‘время’. О фасетной организации значения можно говорить лишь в том случае, если каж дый из тегов: time, age и abs могут употребляться в любой из позиций. Однако это не так: age и abs не встречаются в первой позиции, а это свидетельствует о том, что они относятся не к константам лексической семантики, а к переменным. Следо вательно, их место (по крайней мере для тегов abs, max, min) не среди лексических значений, а среди семантических функций. Что касается компонента age, представленного в тегах A A A A Snp
t:time:age:abs t:time:age:max t:time:age:min t:time:age: t:time:age:
абсолютный (трехлетний) большой (старый, древний) малый (молодой, малолетний) возраст (зрелый) возраст (детство, молодость, двадцати летие),
то он избыточен: его функцию (во всех случаях, кроме, разве что, ‘древний’) выполнила бы помета hum. А для ‘древний’ в неодушев лённом значении могла бы использоваться помета constr ‘здания и сооружения’ (дом, шалаш, мост), что было бы удачнее объедине ния в одном классе t:time:age:max людей и сооружений.
НКРЯ верстка4.indd 246
22/06/2009 17:48
Анализ семантических помет в НКРЯ
247
Наряду с удачными решениями — Sp t:hum:etn — этнонимы (эфиоп, итальянка); Sp t:hum:kin — имена родства (брат, бабушка); Sp t:hum:supernat — сверхъестественные существа (русалка, ино планетянин) — имеются непоследовательные и неудачные ре шения типа t:persn — имена (Александр); t:patrn — отчества (Сергеевич); t:famn — фамилии (Пушкин); t:topon — топонимы (Европа, Волга, Эльбрус, Москва, Преоб раженка). Такие пометы иск лючают автоматическое отож дествление имен, отчеств и фамилий с лицами, а топонимов с местами, что особен но важно при содержательном анализе текста и снятии полисемии и омонимии. Более удачным вариантом представляются обозна чения t:hum:persn — имена (Александр); t:hum:patrn — отчества (Сергеевич); t:hum:famn — фамилии (Пушкин) и t:space:topon — топонимы (Европа, Волга, Эльбрус, Москва, Пре ображенка). Кстати сказать, расщепление семантики ‘место’ на три пометы: place, loc и space также представляется неоправданным. ADV t:place — место (здесь, посередине) A t:place — место (левый, придорожный, теменной) V t:loc — местонахождение (лежать, стоять, положить) Snp t:loc — местонахождение (местоположение) Sp t:space — пространство и место (космос, город, тайга, овраг, вход). Фактически, эти пометы находятся в отношении дополнительного распределения. Помета place обслуживает прилагательные и наре чия, loc — глаголы и отглагольные (непредметные) существитель ные, а space — предметные существительные.
НКРЯ верстка4.indd 247
22/06/2009 17:48
248
А. А. Кретов
Складывается впечатление, что в данном случае частеречные шоры помешали авторам системы помет увидеть фактическое тождество лексической семантики, которая в русской семантизации вылезает, как шило из мешка (см. подчёркнутые слова). При анализе пометы V t:loc — местонахождение (лежать, стоять, положить) вызывает удивление глагол положить, приводимый в качестве примера реализации семантической пометы. Зачем заво дить помету ca:caus — «каузативные глаголы (показать, вертеть)», если ей не пользоваться? Если семантика глаголов лежать, сто ять — соотносится с t:loc, то семантика глагола положить должна бы соотноситься с t:loc:caus. Очень неудачным решением, вызванным всё теми же причина ми, представляется помета A t:humq — качества человека (ум ный, верный, ловкий); Snp t:humq — свойство человека (порядочность, безволие, ост роумие). На фоне пометы hum, которая не без давления грамматики тол куется как ‘лицо’ (‘человек’ было бы естественней) помета humq членится на hum и q — вероятно, первая буква английского quality ‘качество’. Соотнесение этого членения с толкованием — «качества/ свойства человека», позволяют в этом q видеть оператор-адъек тиватор, а в humq — операнд, образованный применением опера тора q к лексико-семантической константе hum. Помещать в одно множество константы и операнды с операторами представляется элементарной логической ошибкой, которая не может не сказаться при последующей компьютерной обработке языкового материала. Логичнее представить эту помету хотя бы в виде hum:q. Тем более что в пропорции hum : humq = x : physq последняя помета ‘физиче ские свойства (мягкий, вязкий)’ естественным образом распадается на phys: и q. Очевидной непоследовательностью представляется помета Snp t:color — цвет (окраска, колорит, желтизна, прозелень) на фоне по мет A t:physq:color A t:physq:form
НКРЯ верстка4.indd 248
цвет (красный, бесцветный); форма (кривой, круглый);
22/06/2009 17:48
Анализ семантических помет в НКРЯ A A A A A
t:physq:smell t:physq:taste t:physq:temper t:physq:weight t:physq
249
запах (ароматный, тухлый); вкус (кислый, приторный); температура (горячий, ледяной); вес (тяжелый, легкий); физические свойства (мягкий, вязкий).
Впрочем, скорее в приведённых случаях, кроме последнего, поме та physq представляется избыточной, а в последнем случае — не достаточной (в логике авторов, ожидалось бы что-нибудь вроде t:physq:plast). Совершенно очевидна и избыточность оператора q. Вполне хватило бы и просто phys, если бы он был нужен. Во всяком случае, класс «физические свойства» явно не относится к языко вой картине мира и к естественному метаязыку. Принадлежность авторов классификации к МСШ заставляет предположить и у них стремление к естественной языковой классификации, которому выделение класса «физические свойства» не отвечает. Нес ложно заметить, что мягкий, вязкий, тяжёлый, лёгкий и горячий, ледяной воспринимаются осязанием, кислый, притор ный — вкусом и являются свойствами еды (этот класс выделен), за пах — обонянием, а форма — зрением или осязанием, а цвет — только зрением. Вместо t:physq:taste можно было бы обойтись t:food:q. Вместо t:physq:smell — t:smell:q. Выделив у прилагательных посредством помет light и color зрение, посредством пометы sound — звук, посредством помет form, temper, weight — осязание, посредством помет smell и taste — запах и вкус, соответственно, авторы классификации совершенно непоследова тельно отказались выделять эти значения в глаголах, объединив их общей для всех внешних чувств пометой perc: Snp t:perc — восприятие (осязание, слух, видимость, взгляд, зре лище) V t:perc — восприятие (смотреть, слышать, нюхать, чуять). В этом также сказались «частеречные шоры». Достаточно было бы ввести пометы для пяти чувств (зрения, слуха, обоняния, вкуса и осязания) и два оператора: q (для признаков) и func (для действий) и данная сфера была бы описана последо
НКРЯ верстка4.indd 249
22/06/2009 17:48
250
А. А. Кретов
вательно и экономно. Более того, через отношение «часть-целое» и класс body, используемый авторами (правда, во второй позиции: после loc и move) можно было бы эти чувства вывести из таких час тей тела, как глаз, ухо, нос, язык, пальцы (рук). Такое представление семантической информации, на наш взгляд, больше бы соответст вовало логике языка. Различение света и цвета, температуры, веса и формы, мягко сти и вязкости — это конкретизация более низкого уровня, которых может быть до семи. Классификация, в которой ‘свет’, ‘цвет’ и ‘видимость’ относят ся к четырём разным семантическим классам (t:light, t:physq:color, t:color, t:perc) вряд ли может быть признана адекватной описывае мому объекту. Осуществим позиционный анализ помет. Всего после t: встречается 80 различных помет. Из них 6 встре чаются в двух позициях и 74 — только в одной. В первой и второй позиции встречаются 4 пометы: color, smell, taste, temper, и во второй-третьей позициях две: max, min. Позиции в помете неравноценны. Для них сущес тв енна оп позиция: первая||непервая позиция. Первая позиция содержит в себе константы лексико-семантической системы, непервые по зиции — операторы, функции. Поэтому к употреблению помет max, min претензий нет. А вот употребление помет color, smell, taste, temper то в роли констант, то в роли функций обсуж дено выше и принято быть не может. Начнём обсуждение с помет, встречающихся только в первой по зиции и призванных быть теми максимальными классами обобще ния лексической семантики, которые должны отвечать двум требо ваниям: быть естественными и элементарными (непроизводными). При этом естественность понимается как нечленимость лекси ческой семантики средствами естественного языка (впервые, на сколько нам известно, это требование выдвинула Э. В. Кузнецова в своих работах конца 1960-х — начала 1970-ых гг.). Средства ес тественного метаязыка легко отличить от средств искусственного (научного, формально-логического) метаязыка с помощью кван титативного анализа метаслов любого (толкового или двуязычно го) словаря. Если частота метаслова больше частоты толкуемого
НКРЯ верстка4.indd 250
22/06/2009 17:48
Анализ семантических помет в НКРЯ
251
слова, то метаслово принадлежит естественному метаязыку. Если частота метаслова ниже частоты толкуемого слова — мы имеем дело с искусственным метаязыком. (Например, водичка > вода > жид кость > вещество > качественная с у щ н о с т ь материи > суть/ содержание > с у щ н о с т ь / е д и н с т в о элементов целого > цель ность > е д и н с т в о ). Это отличие легко формализуется и может быть автоматизировано. Мы не призываем полностью отказаться от искусственного ме таязыка описания значений. Он может быть полезен тем, что по зволяет ещё более минимизировать словарь описания семантики языка. Единственное, на чём мы настаиваем, так это на различении того и другого и сознательном переходе от одного к другому. Под элементарностью мы понимаем невыводимость данного значения из других посредством каких-либо операций, т.е. его фор мальную и семантическую непроизводность. Snp t:action мероприятие (аукцион, вернисаж, вечеринка, выборы, именины, заседание, культпоход) Это значение никак не является элементарным. Оно содержит се мы magn ‘много’, func ‘деятельность’, а из имеющихся это значение пересекается с hum ‘человек’, behav ‘поведение и поступки человека (разгильдяйство, подхалимаж, неповиновение, ребячество, преда тельство)’ и inter ‘взаимодействие и взаимоотношение (взаимопо мощь, вражда, схватка, драка)’. Кроме того, мероприятие предпо лагает локализацию во времени time и пространстве loc. Поскольку человек — существо общественное, помету hum можно использо вать как эквивалент пометы soc ‘социум, социальное’. animal 1 Трактовка этой пометы в значительной степени зависит от того, будем ли мы противопоставлять социуму природу или нет. Соответ ственно, планируем ли мы делить животных на диких и домашних (сельскохозяйственных). be Snp t:be:appear начало существования (возникновение, рож дение, формирование, учреждение, творение)
НКРЯ верстка4.indd 251
22/06/2009 17:48
252
А. А. Кретов
t:be:appear начало существования (возникнуть, родить ся, сформировать, создать) Snp t:be:disapp прекращение существования (смерть, казнь, ликвидация) V t:be:disapp прекращение существования (умереть, убить, улетучиться, ликвидировать, искоре нить) Snp t:be:exist существование (жизнь, наличие, бытие) V t:be:exist существование (жить, происходить) Snp t:be: бытийная сфера V t:be: бытийная сфера (жить, возникнуть, убить)
V
Квантор существования ‘быть’ Ю. Д. Апресян давно предложил «выносить за скобки» лексической семантики, т.к. его семантика насквозь грамматична и фактически равна собственно глаголь ной — связочной — семантике. Кроме того, семантика экзистенции имеет отношение к нак лонению — также грамматической семан тике. Перед нами не лексическая константа, а грамматический оператор. Трудно понять различие между пометой V
t:be: бытийная сфера (жить, возникнуть, убить)
и пометами V V
V
t:be:exist существование (жить, происходить) t:be:disapp прекращение существования (умереть, убить, улетучиться, ликвидировать, искоре нить) t:be:appear начало существования (возникнуть, родить ся, сформировать, создать)
Помета t:be:exist представляется откровенно плеонастичной, а сле довательно, избыточной, соответственно, от пометы exist целе сообразно отказаться. Что касается помет appear/disapp, то они также являются операторами, о чем свидетельствует их позиция, и напрямую соотносятся с собственно глагольными значениями фазовости aux:phase — фазовые (начать, продолжать, прекра тить). Как показывают пометы appear/disapp, родовое значение
НКРЯ верстка4.indd 252
22/06/2009 17:48
Анализ семантических помет в НКРЯ
253
phase может нуж даться в конкретизации. Для этого вполне можно воспользоваться лексическими функциями incep и fin. Для опера тора ‘продолжить’ можно использовать помету cont ( богатеть (стано виться богатым) и производные от них отглагольные существитель ные: твёрдый > (за)твердеть (стать твёрдым) > (за)твердение; сухой > (о)сушить (сделать сухим) > (о)сушение. В одном случае перед нами типичные инхоативные глаголы, имеющие кауз ативные пары: взрослеть–взрослить, богатеть– (о) богатить. Если для каузативных глаголов помета в классифи кации предусмотрена, то для инхоативных пометы inch (inchoative) явно не хватает. Если ввести подоператоры качества q:diff (различный) и q:simil (сходный, тож дественный), то изменение состояния или призна ка можно описывать последовательностью операторов incep:be:diff. Необходимость оператора changest вызывает серьёзные сомнения. constr 1 Sp
t:constr
здания и сооружения (дом, шалаш, мост)
Поскольку сооружения относятся к артефактам — созданиям чело века, константой должна быть помета hum, а constr — операторомклассификатором, т.е. t:hum:constr. Кроме того, дома и шалаши, объединяемые гиперонимом «жилище, укрытие», относятся к замк нутым пространствам, обозначаемым авторами классификации топологической пометой top:contain — вместилища (кошелек, ком ната, озеро, ниша). При этом непонятно, отчего комната — это вме стилище, а дом — нет; и мереологические отношения части-целого меж ду домом и комнатой не предусмотрены. Быть может, следует указать также, что все сооружения относятся к классу неподвижных
НКРЯ верстка4.indd 254
22/06/2009 17:48
Анализ семантических помет в НКРЯ
255
предметов, а следовательно, им всегда сопутствует определённое местоположение, обозначаемое пометой loc. Contact t:contact — контакт и опора (прикосновение, объятие) t:contact — контакт и опора (касаться, обнимать, обло котиться) Все примеры, приведённые выше, указывают на действие человека и относятся к нему. В связи с этим первую позицию должна и здесь занимать помета hum или иные лексические пометы, отсылающие к животным, растениям, предметам и т.п. Неясны отношения между пометами contact и impact. Snp V
V Snp
V Snp V Snp
t:impact:creat создание физического объекта (выко вать, смастерить, сшить) t:impact:creat создание физического объекта (лепка, отливка, плетение, сооружение, строи тельство) t:impact:destr уничтожение (взорвать, сжечь, заре зать) t:impact:destr уничтожение (слом, сожжение) t:impact: физическое воздействие (бить, колоть, вытирать) t:impact: физическое воздействие (удар, втирание, обмолот).
Пометы creat и destr представляются избыточными, ибо могут быть описаны как caus:incep:be и caus:fin:be, соответственно. Аналогично, трудно представить себе схватк у и драк у, обозна чаемые пометой inter, без контактов и ударов. Snp
t:inter
взаимодейс твие и взаимоотношение (взаимопомощь, вражда, схватка, драка).
Если impact соответствует удару, то его выделение можно оправдать, поскольку удар лексически неразложим. Можно, конечно, предста вить его как движение руки (значительно реже — ноги, головы: для этого есть лексемы пинать и бодать). Правда, в таком случае нель зя одним взмахом руки ни взорвать, ни сжечь. Порвать, сломать,
НКРЯ верстка4.indd 255
22/06/2009 17:48
256
А. А. Кретов
сбить, срезать, расколоть — можно. Для взорвать необходимо ука зание на взрывчатк у, а для сжечь — на огонь. dir A ADV
t:dir t:dir
направление (обратный, подветренный) направление (туда, наверх)
Помета dir собственной лексической семантики не содержит. Она может пригодиться при конкретиз ации лексической семанти ки — среди прочих переменных и далеко не в первую очередь. По явление её на первой позиции не оправдано. Анализ помет можно продолжить и завершить, но уже сейчас ясно главное. 1. Частеречные шоры препятствуют естественной унификации семантических помет. 2. Постулат о кластерной организации лексической семанти ки с союзе с постулатом о единстве и неразрывности лексической и грамматической семантики мешает различению той и другой; мешает удержанию лексических констант и «вынесению за скобки» грамматических переменных. 3. Постулат о кластерной организации лексики препятствует различению лексической грамматики и лексической комбинато рики, состоящей в формировании сложных лексических значений из простых. 4. Целью семантической классификации должно быть выделение констант лексической семантики, выражаемых универбами. В та ком случае лексическая семантика будет представлять собой лес се мантических деревьев, в корне каждого из которых содержится ис ходное, далее неделимое средствами естественного языка значение, передаваемое, как правило, непроизводным (корневым) словом. 5. Набор семантических констант ближе к набору корней (кор невых слов) данного языка и не имеет ничего общего с семанти ческими примитивами А. Вежбицкой (которые при ближайшем рассмотрении оказываются некоторым отдаленным и малоинфор мативным подобием грамматических переменных). 6. Набор этих корней с неизбежностью будет отражать архаич ное мышление и архаичную картину мира.
НКРЯ верстка4.indd 256
22/06/2009 17:48
Анализ семантических помет в НКРЯ
257
7. Полный набор лексико-семантических констант ещё пред стоит выявить, но уже сейчас можно утверждать, что в него будут входить названия первостихий (воды, земли, огня, воздуха), натур фактов, предметов, растений, животных, людей. 8. В силу того, что лексическая семантика внеположна частям речи, а русский язык не может передавать значение, не приписав его к какой-либо части речи, целесообразно ориентироваться на наименее маркированную часть речи — существительное и лекси ческие константы представлять в виде существительных, а не вы водить из глагольных, как это делается в модели «Смысл⇔Текст».
НКРЯ верстка4.indd 257
22/06/2009 17:48
Г. И. Кустова, С. Ю. Толдова
НКРЯ: семантические фильтры для разрешения многозначности глаголов 1
1. Введение ам уже приходилось писать в ряде публикаций (см. Кустова и др. 2005, 2006; Шеманаева и др. 2007; Кус това, Толдова 2008а,b) о том, как устроена семанти ческая разметка в Национальном корпусе русского языка (нкря) и как работает программа снятия не однозначности2 . Однако, чтобы не затруднять читателя поиском этих публикаций, мы сочли целесообразным вкратце повторить некоторые основные тезисы, касающиеся проблемы многозначно сти в нкря и методов ее автоматического разрешения. Слова в текстах основного корпуса (http://www.ruscorpora.ru) имеют грамматическую и семантическую разметку, которая значи тельно расширяет возможности пользователя при создании поиско
Нам уже приходилось писать в ряде публикаций (см. Кусто ва и др. 2005, 2006; Шеманаева и др. 2007; Кустова, Толдова 2008а,b) о том, как устроена семантическая разметка в На циональном корпусе русского языка (нкря) и как работает про грамма снятия неоднозначности�. Однако, чтобы не затруднять читателя поиском этих публикаций, мы сочли целесообразным вкратце повторить некоторые основные тезисы, касающиеся проблемы многозначности в нкря и методов ее автоматиче ского разрешения. Слова в текстах основного корпуса (http:// www.ruscorpora.ru) имеют грамматическую и семантическую разметку, которая значительно расширяет возможности поль зователя при создании поисковых запросов и улучшает каче ств о результатов поиска. Лингвистическая разметка может использоваться и для нужд самого Корпуса, а именно – для снятия лексической неоднозначнос ти (что, в свою очередь, отвечает интересам пользователей). Благодаря наличию се мантической разметки значения многозначных слов в Корпусе различаются не номерами, как в обычных толковых словарях, а семантическими пометами: значения, относящиеся к разным семантическим классам, имеют разные пометы, например: пилить (бревно) – «физическое воздействие (impact)», пилить (мужа) – «речь (speech)». Если в словаре пометы распределе ны по значениям, то в текстах Корпуса каж дому вхож дению слова приписываются все пометы, которые были у него в сло варе, т.к. пометы расставляются автоматически, и программа «не знает», в каком значении употреблено слов о в каж дом
1
Работа выполнена при частичной поддержке РГНФ, проект № 08-04-00181а. Примеры взяты из Национального корпуса русского языка. 2 См. также статью Е. В. Рахилиной и др. в настоящем сборнике (сс. 215–239), которая затрагивает проблемы снятия многозначности на материале адъектив ной лексики.
НКРЯ верстка4.indd 258
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
259
вых запросов и улучшает качество результатов поиска. Лингвисти ческая разметка может использоваться и для нужд самого Корпуса, а именно — для снятия лексической неоднозначности (что, в свою очередь, отвечает интересам пользователей). Благодаря наличию семантической разметки значения много значных слов в Корпусе различаются не номерами, как в обычных толковых словарях, а семантическими пометами: значения, отно сящиеся к разным семантическим классам, имеют разные пометы, например: пилить (бревно) — «физическое воздействие (impact)», пилить (мужа) — «речь (speech)». Если в словаре пометы распределены по значениям, то в текстах Корпуса каждому вхождению слова приписываются все пометы, ко торые были у него в словаре, т.к. пометы расставляются автомати чески, и программа «не знает», в каком значении употреблено сло во в каж дом отдельном случае. Для снятия «лишних» помет нужна другая программа — программа разрешения многозначности, кото рая использует семантические фильтры, основанные на принципе контекстной однозначности. В предложении многозначное слово употреблено в одном определенном значении (не считая случаев языковой игры). Это значение согласовано с контекстом, который, в свою очередь, тоже имеет семантическую помету. Если удается сформулировать простое семантическое правило вида «в контексте существительного семантического класса Х у глагола реализуется значение семантического класса Y», оно и становится основой для семантического фильтра. Например, глагол красоваться имеет в словаре Корпуса два зна чения: «поведение человека (behav)» (Мальчик красовался перед нерусскими ребятишками (В. Месяц)) и «местонахож дение (loc)» (В кабинете над камином красовался герб князей Черкасских (газ.); Среди горелых построек красовался барак (В. Астафьев)); соответ ственно, каж дое его вхож дение в текстах Корпуса имеет эти две пометы. Первое значение (behav) реализуется в контексте сущест вительных класса ‘лицо’, и семантический фильтр для него вклю чает соответствующий признак. Получая на вход такой контекст, программа оставляет у глагола нужную помету и автоматически удаляет ненужную: красоваться (behav; loc) + сущ.: лицо → красоваться (behav)
НКРЯ верстка4.indd 259
22/06/2009 17:48
260
Г. И. Кустова, С. Ю. Толдова
В остальных контекстах программа оставляет помету «loc». Разумеется, разработчики заинтересованы в том, чтобы со ставлять фильтры не для отдельных глаголов, а для целых классов глаголов. Но для этого нужно сначала найти такие классы гла голов, у которых в определенном контексте одинаковым обра зом меняется значение. Регулярные семантические сдвиги чаще развиваются, как известно, на базе метонимических отношений. Например, многие глаголы звучания (звонить, трезвонить, та рахтеть, шипеть и др.) в контексте личных существительных приобретают значение «речь»; многие глаголы деформации (ре зать, ломать, колоть) имеют значение ущерба (порезать палец) и значение физиологического (обычно болезненного) ощущения (режет в животе; колет в бок у; меня всего ломает). Обнаружение таких классов не только позволяет оптимизировать работу про граммы автоматического снятия многозначности, но и помогает формулировать семантические закономерности в области сдвигов значений. Неоднозначность, таким образом, снимается с точностью до се мантического класса, т.е. с точностью до семантической пометы. Разумеется, не все значения глаголов имеют отдельные пометы. Мы берем глаголы, достаточно хорошо обеспеченные пометами. Имен но для таких глаголов пишутся семантические фильтры. Неоднозначность может иметь разное происхождение: а) омонимия, ср. найти 1 и найти 2: Я нашел этот дом легко vs. Нашла коса на камень; б) полисемия, ср. найти 1: Я нашел этот дом легко vs. Нашла возможным помочь нам; в) «искусственная» неоднозначность (ср. болеть: болеет vs. болит): люди меньше болели vs. уши привыкли к давлению и не так болели. Для фильтров это безразлично. В фильтрах могут использоваться не только семантические, но и грамматические признаки, преж де всего — модель управления глагола или ее элементы. Например, для глагола болеть предлож ная группа за + сущ. Вин. задает только одно значение: Он болеет за «Динамо», — поэтому для идентификации данного значения удоб но использовать именно грамматический контекст.
НКРЯ верстка4.indd 260
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
261
Таким образом, теоретически есть два ключевых параметра глагола, важных для составления семантических фильтров: 1. м о д е л ь у п р а в л е н и я (МУ); 2. с е м а н т и ч е с к и е к л а с с ы а к т а н т о в (при широком по нимании МУ семантические характеристики актантов включаются в нее наряду с грамматическими; мы придерживаемся узкого по нимания МУ как «падежной рамки» глагола). МУ можно извлекать как из текстов (из корпусов), так и из специ альных и обычных словарей. Задача извлечения моделей управле ния из текстов решается в рамках создания специальных лексико графических ресурсов, таких как WordNet, FrameNet3 , а также – для русского языка — RusNet (разрабатывается группой исследователей под руководством И. В. Азаровой4 ), однако она требует значитель ного времени и усилий квалифицированных экспертов. Решение же такой задачи чисто статистическими способами5 приводит к потере точности. Мы в своей работе в качестве основного и с т о ч н и к а М У гла голов использовали словарь г л а г о л ь н о г о у п р а в л е н и я : Апре сян Ю. Д., Палл Э. Русский глагол — венгерский глагол. Управление и сочетаемость. Будапешт, 1982. Вот как выглядит, например, сло варная статья глагола бродить в этом словаре: Номер значения 1 1 2 3 4 5
Модель управления N1/n_ V PR1 N2/x_ N1/n_ V PR1 N2/x_ N1/n_ V N1/n_ V в N2/х_ N1/n_ V по N2/d_ N1/n_ V
Пример Они бродили в лесу. Дачники бродили по дорожкам сада. Вино бродит. Странные мысли бродили в его голове. Грустная улыбка бродила у девушки по лицу. Ветер бродит.
3
См. [Dagan et al. 1991; Fellbaum (ed.) 1998; Gale et al. 1992. Gildea, Jurafsky 2002; Lopatková et al. 2005]. 4 См. [Азарова и др. 2004; О. А. Митрофанова и др. 2006]. 5 См. [Lesk 1986; Brown et al. 1991; Gale et al. 1992; Manning, Schütze 1999].
НКРЯ верстка4.indd 261
22/06/2009 17:48
262
Г. И. Кустова, С. Ю. Толдова
Из словаря можно извлечь информацию о различных возможных наборах актантов и сирконстантов для разных значений глагола, о грамматических ограничениях на них (часть речи, падеж, ино гда – число). Для простоты все глагольные зависимые, в том числе наречия и предложно-падежные адвербиалы, мы будем далее на зывать актантами. Информация по второму параметру — с е м а н т и ч е с к и м о г р а н и ч е н и я м на актанты – была взята и з К о р п у с а : использо валась таксономическая разметка существительных в нкря. Перво начально учитывалась только минимальная семантическая и лекси ко-грамматическая информация об актантах: о д у ш е в л е н н о с т ь / н е о д у ш е в л е н н о с т ь и а б с т р а к т н о с т ь / к о н к р е т н о с т ь . Это связано с одной из задач эксперимента по составлению глаголь ных фильтров — эксперимент должен был ответить на вопрос: в ка кой степени данные о МУ глагола с использованием минимальной информации о семантическом классе актантов (одушевленность vs. неодушевленность, абстрактность vs. конкретность) позволя ют снизить степень многозначности. Если минимального набора признаков оказывалось все-таки недостаточно, привлекалась более детальная информация о таксономическом классе соответствую щих существительных. При составлении фильтров имеющаяся в Корпусе семантиче ская разметка была дополнена новыми пометами, а именно: (а) была расширена система таксономических классов; (б) учиты вались метафорические переносы: к помете исходного значения, от которого образовалось метафорическое, прибавлялась поме та «metaph», например: дышать «physiol» (Трудно было дышать сырым воздухом) — дышать «metaph physiol» (Чем дышит сейчас столица?); (в) для служебных значений (лексических функций6 , ср., например, найти в найти возможность) была введена поме та «LF». Так, значения упомянутого выше глагола бродить получили сле дующие семантические пометы:
6
О понятии «лексической функции» см. Апресян 1974, Мельчук 1974.
НКРЯ верстка4.indd 262
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов Животные бродили с одного пастбища на другое [из конца в конец деревни]. Они бродили в лесу [в незнакомом городе…]. Дачники бродили по рощам [по дорожкам сада]. Солдаты долго бродили, искали свою часть. Вино бродит. Грустная улыбка бродила у девушки по лицу. Странные мысли бродили в его голове. Ветер бродит.
263
move move move move changest metaph move metaph move metaph move
Для уменьшения ошибок, связанных с отсутствием синтаксическо го анализа, мы использовали преобразования исходного контекста, моделирующие неполный синтаксический анализ. Материалом по служил корпус со снятой морфологической омонимией объемом 4,5 млн. словоупотреблений. Исследовались глаголы из высокочас тотной части списка. Как показала практика составления фильтров, в простейшем случае для смыслоразличения достаточно задать какой-то один из обсуж давшихся выше параметров — (1) модель управления глагола или (2) семантический класс актанта / актантов. 1. Моделью управления можно ограничиться в тех случаях, когда она является уникальной для данного значения. Например, у гла гола следовать в словаре Корпуса (на уровне помет) различаются значения: ‘движение’ (следовать из Москвы в Казань; следовать за проводником), ‘существование’ (событие следовало за событием), локативное (далее следовала подпись и печать; за отелями следо вали рестораны и бары), ‘поведение’ (Он во всем следует примеру отца), модальное (Этого следовало ожидать), лексическая функ ция (Из этого положения следует вывод). У некоторых значений модели управления могут совпадать (так, каж дому из контекстов X следует из Y-а, X следует за Y-ом могут соответствовать разные интерпретации), но есть значение, связанное с уникальной моде лью управления (X следует Y-у — следует примеру отца), — оно од нозначно определяется по синтаксическому контексту. Еще пример. У глагола достать в Корпусе различается три зна чения: ‘движение’ (достать чашк у с полки), ‘обладание’ (достать
НКРЯ верстка4.indd 263
22/06/2009 17:48
264
Г. И. Кустова, С. Ю. Толдова
дефицитное лекарство, достать билет на Таганк у) и ‘контакт’ (достать рукой до потолка). Если у первых двух значений модель управления при неполной реализации может совпадать (ср. дос тать чашк у и достать дефицитное лекарство), то последнее зна чение отличимо от первых двух по модели управления даже при неполной ее реализации (сущ.: Им. + достать + до сущ.: Род.). 2. Иногда для противопоставления двух значений решающую роль играет, напротив, семантическая характеристика актанта. Так, среди значений глагола бродить в Корпусе различаются физиче ское движение (move): Дачники долго бродили по его огромному саду — и метафорическое движение (metaph move): Грустная улыбка бродила по его лицу. Поскольку их МУ совпадают, фильтр, снимаю щий одну из помет, использует сведения о семантическом классе первого актанта (подлежащего): (а) бродить (move, metaph move) + сущ.: Им.: конкр.: лицо, жи вотное → бродить (move); (б) бродить (move, metaph move) + сущ.: Им.: абстр. → бродить (metaph move). Глагол разбушеваться имеет в словаре Корпуса два значения: «при родное явление» и «поведение человека». Первое значение реализу ется в контексте существительных класса ‘природное явление’ (Вью га разбушевалась), второе — в контексте существительных класса ‘лицо’ (Сосед разбушевался). Многие глаголы физического воздействия имеют производное значение, относящееся к классу ‘речь’ (пилить бревно vs. пилить мужа, резать хлеб vs. резать правду, молоть мук у vs. молоть чушь). Любое вхождение такого глагола в текстах Корпуса имеет две поме ты — «физическое воздействие» (impact) и «речь» (speech). Фильтр содержит контекст (существительное с нужными грамматическими и семантическими характеристиками), в котором реализуется одно из двух значений: (а) пилить (impact, speech) + сущ.: Вин.: конкр.: физич. предмет (пилить бревно) → пилить (impact); (б) пилить (impact, speech) + сущ.: Вин.: конкр.: лицо (пилить му жа) → пилить (speech);
НКРЯ верстка4.indd 264
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
265
(а) молоть (impact, speech) + сущ.: Вин.: конкр.: вещество (молоть мук у) → молоть (impact); (б) молоть (impact, speech) + сущ.: Вин.: абстр.: речь (молоть чушь) → молоть (speech). В отличие от словаря, куда попадают специально подобранные, а иногда и специально составленные предложения, в Корпусе мы имеем дело с реальными предложениями, «вырванными» (извле ченными) из их реального контекста. Иногда в таких предложениях отсутствует необходимая для анализа информация, а иногда при сутствует ненужный «шум». Чтобы учесть все эти случаи, материал Корпуса подвергался предварительной обработке. Для каж дого исследованного глагола составлялся тестовый кор пус предложений с данным глаголом (в них встречались и полные МУ, соответствующие словарному источнику [Апресян, Палл 1982], и не полностью реализованные МУ, и вхож дения глагола без рас пространителей). Приводимая ниже Диаграмма 1 дает представле ние о количественном соотношении разных моделей управления на примере глагола давать. <nom;dat;±dat> <nom;acc;±acc> 3% 1% 3% <nom;inf> <nom;dat;-+acc> 4% 1% <nom;acc;dat;inf> 6%
1%
<nom; ±acc> 1% <nom;dat;inf> 6% <nom;acc> 24%
<nom;dat> 2% <nom;acc;±acc> 1% <nom;acc;dat;±acc> 0% <nom;acc;dat> 41%
6%
Диаграмма 1. Распределение моделей управления глагола давать в Корпусе
НКРЯ верстка4.indd 265
22/06/2009 17:48
266
Г. И. Кустова, С. Ю. Толдова
Как видно из диаграммы, МУ, включающие баз овые актанты (<nom, acc, dat> и <nom, acc>), составляют бо ´льшую часть при меров Корпуса. Анализ тестового корпуса позволил выявить случаи, препятст вующие разрешению омонимии, и случаи, способствующие ее раз решению. К их рассмотрению мы и переходим. 2. Роль информации о грамматических и семантических ограничениях на актанты при создании семантических фильтров для разрешения глагольной многозначности 2.1. Модель управления (грамматические ограничения) Реализация в предложении того или иного варианта МУ может как препятствовать (i), так и способствовать (ii) автоматическому раз личению значений многозначного слова. I. Факторы, препятствующие различению значений. (1) Первая сложность связана с недостаточной различительной «мощностью» моделей управления. (1а) Реализована базовая МУ. Базовая, «стандартная» МУ, характерная для данного глагола или класса глаголов, во-первых, обычно обладает наибольшей степенью многозначности, а во-вторых, имеет, как правило, наибольшее по крытие (ср. выше диаграмму для глагола давать). Так, базовая МУ глагола отдать / отдавать (и других глаголов этого класса) представлена в целом ряде значений: исходное значение — ‘каузация обладания’ (Он всегда от дает долги друзьям), метафорическое от ‘каузации обладания’ (Он отдает все силы борьбе); лексические функции (Командир отдает приказы бойцам; Бойцы отдают честь командиру), ‘движение’ (На падающий отдал мяч защитник у). Базовая модель глагола по кинуть также представлена в разных значениях: прямое значе ние — класс ‘движение’ (Новобранцы покинули родное село), лекси ческая функция (Смелость покинула его — ‘исчезновение’), фазовое значение (Певица покинула сцену). В таких случаях нельзя обойтись только указанием МУ, необходи мо включать в фильтр и семантическую информацию об актантах.
НКРЯ верстка4.indd 266
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
267
(1б) Модель управления реализована не полностью. Два значения глагола кричать – «звук» (Раненый кричал от бо ли) и «речь» (Командир кричал, чтобы бойцы отходили к лесу) – раз личаются на уровне полных МУ. Однако при неполной реализации МУ совпадают (ср.: Перевязка закончилась, а раненый все кричал vs. Командир все кричал, а бойцы не двигались). (2) Еще одна сложность состоит в том, что количество именных групп в предложении часто не совпадает с количеством именных групп, указанных в словарном источнике. В предложении могут со держаться именные группы, которые входят в состав других именных групп и не являются непосредственно актантами глагола: Он нашел [для меня] [квартиру] vs. Он нашел [нож [для чистки картофеля]]. Мешают однозначно выделять актанты в реальном предложении и такие специальные конструкции, как комитативные и дистри бутивные группы, ср., например: Он дал Пете по голове vs. Он дал каждому по пряник у. Наконец, в Корпусе достаточно высок процент неполных предложений, где глагол употреблен без актантов (около 10%), ср.: …потому что думал; надо думать; и думать не хочу; про должал мучительно думать; а по-настоящему думать и т.п. ii. С другой стороны, есть факторы, способствующие пониже нию неоднозначности (сокращению числа помет). 1. Модель управления, включающая «специфичные» актанты, существенно сужает число возможных значений вплоть до одного. Например: • значение глагола найти в контексте прилагательного / при частия в Твор. относится к классу ментальных или перцептив ных (Книгу я нашёл весьма грамотной; Иван нашел сестру пла чущей); • глагол дать при наличии предложных групп в + сущ. Вин. или по + сущ. Дат. реализует значение ‘физическое воздействие’ (Здорово ему давеча Кирилл Анатольев ич дал по башке); • для глагола толкать актант на + сущ. Вин. в МУ задает только одно значение (толкать на преступление); • глагол отдавать в контексте сущ. Твор. реализует значение ‘за пах’ (Чай отдает рыбой; посессивное значение тоже допускает Твор., но предполагает еще и Вин., ср.: Отдает долги борзыми щенками);
НКРЯ верстка4.indd 267
22/06/2009 17:48
268
Г. И. Кустова, С. Ю. Толдова
• реализация валентности инструмента у «физического» значе ния глагола пилить (пилить бревно пилой (Твор.)) позволяет однозначно отличить его от речевого значения (пилить мужа). У речевого значения, в свою очередь, есть валентность мотиви ровки за + сущ. Вин. (пилить за что), которой тоже достаточно для его идентификации. Разное падежное оформление второго актанта при глаголах движе ния также позволяет существенным образом сузить класс значений. Так, глагол идти имеет по разметке нкря 8 тэгов. Для значения ‘движение’ возможно более 20 МУ. Однако каж дая из этих МУ либо связана только с данным значением, либо максимальная величина кластера не превышает 3-х значений. Таким образом, МУ может быть надежным критерием для иден тификации значения: если в предложении помимо собственно синтаксических валентностей (соответствующих подлежащему и прямому дополнению) реализуются специфичные валентности, обусловленные особенностями семантики конкретного глагола, а также факультативные валентности или некоторые сирконстан ты, учет этих распространителей нередко позволяет отличить од но значение от другого, не прибегая к семантическим признакам существительных. 2. Отсутствие в реальном предложении каких-либо именных групп не обязательно ведет к повышению неоднозначности; для некоторых глаголов такой контекст, наоборот, снижает число воз можных семантических тэгов — иногда даже вдвое. Например, для глагола получить МУ без прямого дополнения в винительном падеже может сигнализировать о том, что реали зовано значение ‘физическое воздействие’: Ты у меня получишь!; Получишь по шее!; Получил в рожу; аналогично у глагола дать (А он ему как дал!); отсутствие у дать актанта в дательном падеже ха рактерно для некоторых лексических функций (дать течь; дать свисток; дать эффект). Для многих глаголов надежным показателем типа значения яв ляется неопределенно-личная конструкция: часто (хотя и не всегда) она возможна только для первого значения (Сзади толкают; Улицу не освещают).
НКРЯ верстка4.indd 268
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
269
2.2. Семантические ограничения на актанты Вторым важнейшим диагностическим признаком (наряду с МУ) является семантический класс актанта. Однако данная характери стика, как и МУ, может выступать в роли диагностического призна ка далеко не всегда. 1. Есть сложности, связанные с использованием минимально го исходного набора различительных признаков (абстрактность / конкретность, одушевленность / неодушевленность). Во-первых, существуют классы неодушевленных существительных, для кото рых характерны стандартные метонимические переносы, меняю щие семантическую характеристику, например: организация → множество работающих в ней людей, ср. Партия создана в 2001 г. vs. Партия решила… Во-вторых, иногда важно не противопоставле ние актантов по абстрактности / конкретности, а их объединение по некоторому семантическому компоненту, ср. Горит свет (абстр. сущ.) и Горит лампа (конкр. сущ., о с в е т и т е л ь н ы й прибор). 2. Нередки случаи, когда исходного набора признаков недоста точно. Анализ данных показывает, что чем специфичней ограни чения, тем точнее может быть разрешена многозначность. Иногда приходится прибегать к более частным семантическим признакам в рамках широких классов абстрактности / конкретности. Напри мер, для глагола оторвать — (1) оторвать листок от календаря (‘воздействие: ликвидация контакта’) vs. (2) оторвать голову от подушки (‘движение’) vs. (3) оторвать детей от матери (‘метаф.: ликвидация контакта’) vs. (4) оторвать студентов от учебы (‘фа за’) – три значения из четырех не только имеют одинаковые модели управления, но и одинаковую характеристику актантов – ‘конкр.’. Для различения этих значений актантам должны быть приписаны дополнительные признаки: «сущ. Вин. = часть тела» в (2) и «сущ. Вин. = лицо» в (3) (при этом характеристика «часть тела» может использоваться для идентификации значения (2) только совмест но с грамматической характеристикой другого актанта «от + сущ.: Род.», т. к. актант «часть тела» есть и в другом значении, ср.: взры вом оторвало ногу). В классе абстрактных существительных для различения значений иногда также приходится указывать более частные подклассы, ср., например: Свет горит vs. План горит.
НКРЯ верстка4.indd 269
22/06/2009 17:48
270
Г. И. Кустова, С. Ю. Толдова
В некоторых случаях мы сталкиваемся даже с необходимостью ис пользовать лексические фильтры, т.е. правила, в которых фигури руют конкретные лексемы. Например, для глагола болеть словосо четание болеть душой однозначно указывает на метафорическое значение (класс эмоций), глагол сбить в сочетании сбить с ног реа лизует значение ущерба. Подобные лексические фильтры почти со 100%-ной точностью предсказывают значение анализируемого глагола. 3. Некоторые результаты эксперимента Эксперимент показал, что, несмотря на перечисленные выше слож ности (неполная реализация МУ в тексте, совпадение МУ у разных значений и под.), грамматическая и минимальная семантическая информация об актантах способна существенно снизить степень многозначности (т.е. уменьшить количество семантических помет) глаголов в текстах Корпуса. Как синтаксические характеристики актантов, так и семантиче ские ограничения на них могут иметь разную различительную силу. Эксперимент подтвердил ряд исходных гипотез, но в то же время дал и некоторые неожиданные результаты. (а) В сфере морфолого-синтаксических характерис тик, как и ожидалось, более информативными оказываются периферийные актанты. При этом можно разбить глаголы на классы в зависимо сти от того, в какой степени именно грамматическая информация позволяет уменьшать число возможных значений. К неожиданным результатам относится, например, тот факт, что для многих глаголов ситуация, когда в предложении не хватает ка ких-то актантов, оказывается более «благоприятной» для разреше ния многозначности, чем наличие полной стандартной модели, т.е. отсутствие одного или нескольких актантов иногда может служить не менее надежным критерием для идентификации значения в тек сте, чем наличие специфичных актантов. Неполные реализации МУ и специальные конструкции с отсутствующими (с другой точки зре ния — нулевыми) актантами (неопределенно-личная, безличная) в каких-то случаях не препятствуют, а способствуют разрешению неоднозначности. Этот практический результат эксперимента мо жет послужить базой для важного теоретического и лексикогра фического вывода: значения глаголов и других предикатных слов
НКРЯ верстка4.indd 270
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
271
должны описываться не только с точки зрения того, какая модель управления их характеризует (и различает), но и на основе того, какие специальные синтаксические конструкции и какие неполные реализации МУ они допускают. (б) Что касается семантических характеристик актантов, то они тоже не обладают каким-то постоянным «коэффициентом» разли чительности для всех глаголов. Один и тот же семантический при знак актанта для одних глаголов может быть решающим, а для дру гих — ни в коей мере не снижать многозначности. Так, для глаголов движения прямое значение физического перемещения характерно как для одушевленного, так и для неодушевленного субъекта, при этом и тот, и другой класс может участвовать в метафорических переносах и сочетаться с лексическими функциями (ср. Дети пры гают ~ Мяч прыгает ~ Сердце прыгает ~ Что ты прыгаешь с од ной работы на другую?; Человек идет ~ Поезд идет ~ Товар идет хорошо ~ Почему ты идешь на это?). Для глаголов же восприятия или ментальных глаголов наличие неодушевленного подлежащего в исходном значении очень маловероятно, так что контекст с неоду шевленным субъектом, как правило, указывает на полуслужебное значение (лексическую функцию: ср. Окна смотрят на юг; Метод нашел применение…; Этот дом знал лучшие времена). В сфере лексико-грамматических и семантических характери стик эксперимент также дал некоторые неожиданные результаты. Априори можно было предположить, что столь общие характе ристики актантов, как «одушевленность» / «неодушевленность» и «конкретность» / «абстрактность», не являются эффективным инструментом снятия омонимии и в идеале для различения зна чений нужно приписывать актанту его «точный» (терминальный) семантический класс. Однако в ходе эксперимента обнаружилось, что даже этих общих признаков во многих случаях оказывается достаточно для существенного снижения степени многозначности глаголов в Корпусе. В целом работа над фильтрами показала, что семантические ограничения в сочетании с синтаксической ролью образуют ие рархию с точки зрения надежности отсечения лишних значений. Абстрактность актанта чаще играет решающую роль в определе нии значения глагола, чем одушевленность. Так, для глагола дать
НКРЯ верстка4.indd 271
22/06/2009 17:48
272
Г. И. Кустова, С. Ю. Толдова
абстрактность существительного в позиции прямого дополнения однозначно указывает на то, что данный глагол употреблен здесь как лексическая функция. Более того, абстрактность как смысло различительный признак имеет разную эффективность для сущест вительных с разной синтаксической ролью: абстрактность актанта, занимающего позицию подлежащего, более значима, чем, напри мер, абстрактность локативного актанта. В заключение приведем Диаграмму 2, в которой отражена раз личительная сила грамматических и обобщенных семантических признаков актантов для некоторых глаголов: 8 кол-во тэгов МУ Апресян
7
МУ с использ. тренир. корпуса МУ с семантикой 6
5
4
3
2
1
0 знать
найти
идти
дать
лежать
вести
болеть
Диаграмма 2. Результаты эксперимента
Для глаголов найти, идти, дать, лежать информация о грамма тических свойствах актантов (на диаграмме — «МУ Апресян») по зволяет снизить число возможных значений более чем в два раза. При этом использование корпусных данных (на диаграмме — «МУ с использованием тренировочного корпуса») в ряде случаев сущест
НКРЯ верстка4.indd 272
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
273
венно улучшает результаты применения грамматических фильтров (ср., например, данные для глаголов знать, болеть). Семантиче ские ограничения (на диаграмме — «МУ с семантическими харак теристиками актантов») также имеют разное значение для разных классов глаголов. Так, включение в число ограничений обобщен ных семантических характеристик актантов глагола идти никак не влияет на уровень его многозначности. Для глаголов же лежать, вести такие характеристики позволяют снизить многозначность почти до одного тэга на глагол, т.е. полностью снимают полисемию в большинстве контекстов их употребления.
Литература Азарова и др. 2004 — Азарова И. В., Синопальникова А. А., Яворская М. В. Принципы построения wordnet тезауруса RussNet // Кобо зева И. М., Нариньяни А. С., Селегей В. П. (ред.), Компьютерная лингвистика и интеллектуальные технологии: труды междуна родной конференции Диалог'2004. М.: 2004. С. 542–547 Апресян 1974 — Апресян Ю. Д. Лексическая семантика. М., 1974. Апресян, Палл 1982 — Апресян Ю. Д., Палл Э. Русский глагол — вен герский глагол. Управление и сочетаемость. Будапешт, 1982. Кустова и др. 2005 — Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семантическая разметка лексики в Националь ном корпусе русского языка: принципы, проблемы, перспективы // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 155–174. Кустова и др. 2006 — Кустова Г. И., Ляшевская О. Н., Рахилина Е. В. Семантическая разметка и семантические фильтры для Национального корпуса русского языка // Труды меж дународ ной конференции «Корпусная лингвистика — 2006», СПб., 2006. С. 209–218. Кустова, Толдова 2008a — Кустова Г. И., Толдова С. Ю. Националь ный корпус русского языка: семантические фильтры для раз решения многозначности глаголов // Труды меж дународной конференции «Корпусная лингвистика — 2008». СПб., 2008. С. 240–252.
НКРЯ верстка4.indd 273
22/06/2009 17:48
274
Г. И. Кустова, С. Ю. Толдова
Кустова, Толдова 2008b — Кустова Г. И., Толдова С. Ю. Семантиче ские фильтры для разрешения многозначности в Национальном корпусе русского языка: глаголы // Компьютерная лингвистика и интеллектуальные технологии. Труды международной конфе ренции «Диалог-2008». М, 2008. С. 522–529. Мельчук 1974 — Мельчук И. А. Опыт теории лингвистических моде лей «Смысл ⇔ Текст». М., 1974. Митрофанова и др. 2006 — Митрофанова О. А., Кадина В. В., Са вицкий В. С. Экспериментальное исследование синтагматиче ских свойств лексем на основе лексикографических описаний и корпусов текс тов // Tруды меж дународной конференции MegaLing'2006–Горизонты прикладной лингвистики и лингвис тических технологий. 20–27 сентября 2006 г., Украина, Крым, Партенит. Шеманаева и др. 2007 — Шеманаева О. Ю., Кустова Г. И., Ляшевская О. Н., Рахилина Е. В. Семантические фильтры для разрешения многозначности в Национальном корпусе русского языка: при лагательные // Иомдин Л. Л., Лауфер Н. И., Нариньяни А. С., Се легей В. П. (ред.). Компьютерная лингвистика и интеллектуаль ные технологии: Труды международной конференции «Диалог 2007». М., 2007. С. 582–587. Brown et al. 1991 — Brown P.F., Della Pietra S.A., Della Pietra V.J., Mercer R. Word-sense disambiguation using statistical methods // ACL. 1991. V.29. P. 264–270. Dagan et al. 1991 — Dagan I., Itai A., Schwall U. Two languages are more informative than one // Proceedings of the ACL, 1991 (29). P. 130–137. Fellbaum (ed.) 1998 — Fellbaum Ch. (ed.) WordNet: An Electronic Lexical Database. MIT Press. 1998. Gale et al. 1992 — Gale W.A., Church K.W., Yarowski D. A method for disambiguating word senses in a large corpus. // Computers and the Humanities. 1992. Vol. 26. P. 415–439. Gildea, Jurafsky 2002 — Gildea D., Jurafsky D. Automatic Labeling of Semantic Roles // Computational Linguistics. 2002. Vol. 28. No 3. P. 245–288. Lesk 1986 — Lesk M. Automatic sense disambiguation using machine readable dictionaries: How to tell a pine cone from a ice cream cone
НКРЯ верстка4.indd 274
22/06/2009 17:48
Фильтры для разрешения многозначности глаголов
275
// Proceedings of SIGDOC ’86. New York. Association for Computing Machinery. 1986. P. 24–26. Lopatková et al. 2005 — Lopatková M., Bojar O., Semecký J., Benešová V., Zabokrtský Z. Valency Lexicon of Czech Verbs VALLEX: Recent Experiments with Frame Disambiguation // V. Matoušek, P Mautner, and T. Pavelka (eds.) Text, Speech and Dialogue: 8th International Conference, TSD 2005. — Karlovy Vary, Czech Republic, September 12–15, 2005. Proceedings, volume LNAI 3658. Springer Verlag. 2005. P. 99–106. Manning, Schütze 1999 — Manning C.D., Schütze H. Foundations of Statistical Natural Language Processing. Chapter 7. Cambridge, Massachusetts: The MIT Press. 1999. P.230–262.
НКРЯ верстка4.indd 275
22/06/2009 17:48
V.
Техническое обеспечение корпусных задач
НКРЯ верстка4.indd 276
22/06/2009 17:48
А. А. Аброскин
Поиск по корпусу: проблемы и методы их решения
а годы активного функционирова ния нкря достаточно много было написано об этапах развития кор пуса, о способах предс тавления в нем текстов и о возможностях его использования. В то же время до сих пор в меньшей степени затра гивалась проблематика, связанная с поиском по корпусу. В частно сти, в сборнике [нкря 2005] особенности поиска в нкря в большей или меньшей степени затрагивались практически во всех статьях, но сборник не включает ни одной статьи, специально посвященной поисковым проблемам в корпусе. Несколько подробнее поисковые возможности корпуса описаны в [Инструкции 2007], однако инст рукция как жанр ориентирована на интересы пользователя, в свя зи с чем структурные особенности поисковой машины нкря в ней практически не отражены. В этой статье я постараюсь рассказать о базовых принципах ра боты поиска по корпусу, проблемах, возникавших при его создании, и методах, использовавшихся при их решении. За годы активного функциониров ания нкря дос таточно много было написано об этапах развития корпуса, о способах представления в нем текстов и о возможностях его использования. В то же время до сих пор в меньшей степени затрагивалась проблема тика, связанная с поиском по корпусу. В частности, в сборнике [нкря 2005] особенности поиска в нкря в большей или меньшей степени затрагивались прак тически во всех статьях, но сборник не включает ни одной статьи, специально посвященной поисковым проблемам в корпусе. Несколько подробнее поиско вые возможности корпуса описаны в [Инструкции 2007], однако инструкция как жанр ориентирована на интересы пользователя, в связи с чем структурные особенности поисковой машины нкря в ней практи чески не отражены. За годы активного функциони рования нкря достаточно много было написано об этапах развития корпуса, о способах представления в нем текс тов и о возможнос тях его использ ов а ния. В то же время до сих пор в меньшей степени затрагивалась проблематика, связанная с поиском по корпусу. В час тнос ти, в сборнике [нкря 2005] особенности поиска в нкря в большей или меньшей степени затрагивались практически во всех статьях, но сборник не включает ни одной статьи, специально посвященной поисковым проблемам в корпусе. Не сколько подробнее поисковые возможности корпуса описаны в [Инструкции 2007], однако инструкция как жанр ориентирована на интересы пользователя, в связи с чем структурные особенности поисковой машины нкря в ней практически не отражены. За
НКРЯ верстка4.indd 277
22/06/2009 17:48
Архитектура поиска В настоящий момент поиск в корпусе реализован при помощи сво бодно распространяемой поисковой системы Яндекс.Сервер. Из размеченных текстов индексатор сервера строит инвертированный индекс, в котором каж дому слову соответствуют все его характе ристики. Текст предложений, уже без разметки, индексатор раз мещает отдельно, так что после осуществления поиска его можно получить и показать пользователю. При поиске слов или предло жений по их характеристикам (морфологическим, семантическим и прочим) сервер открывает соответствующие запрошенным ха рактеристикам индексы, после чего, в результате прохода по этим индексам, находит все нужные словопозиции. Для упрощения работы пользователя создан специальная фор ма, в которой пользователь может в достаточно понятном виде за дать запрос. Сформированный в этой форме запрос отправляется на поисковый сервер, где передаётся модулю формирования выда чи — специальной программе на языке C++, которая преобразует пользовательский запрос в формат запроса к поисковой системе, а затем по результатам поиска формирует выдачу. Модуль формирования выдачи представляет результат в xmlформате, на который затем нак ладывается xslt-преобразование, в результате чего пользователь получает искомый материал в фор мате html. Такой подход позволяет отделить поиск от оформления результатов, тем самым упрощая построение, поддержание и мо дификацию системы. Скорость поиска и проблема перемешивания характеристик слов Представленная выше схема, реализованная без особых модифи каций, работала вполне удовлетворительно, пока корпус был дос таточно мал и включал в себя только тексты со снятой омоними ей. Но со временем объём корпуса значительно увеличился, в том числе и за счёт большой коллекции автоматически размеченных текстов. Это, безусловно, привело к падению производительности поиска, но этим затруднения, возникшие в работе корпуса, не ог раничились. Основная проблема зак лючалась в том, что разные грамматические разборы, приписанные одному и тому же слову вследствие морфологической омонимии, стали смешиваться. Так,
НКРЯ верстка4.indd 278
22/06/2009 17:48
Поиск по корпусу: проблемы и методы их решения
279
например, слово берет, разбираемое и как неодушевлённое суще ствительное м у ж с к о г о р о д а , и как изъяв ительное нак лонение г л а г о л а , можно было получить по запросу ‘глагол мужского ро да’. Но если примеры такого рода вызывают лишь усмешку, то пе ремешивание более разумных характеристик (например, падежа и числа слова книжки — им,мн род,ед вин,мн) при поиске по кор пусу с неснятой омонимией могло принести пользователю немало неприятных сюрпризов. Как уже говорилось выше, при индексации строится инверти рованный индекс для каждого поискового атрибута. Поэтому если мы, скажем, ищем существительное в винительном падеже, поиск должен открыть индекс для существительного и индекс для вини тельного падежа и затем построить их пересечение. При этом чем больше размер корпуса, тем тяжелее становится подобная операция. К сожалению, если мы хотим не только найти несколько примеров, но и посчитать общее количество найденных по запросу слов, мы не можем отказаться от полного поиска. В то же время, если мы заведём отдельный индекс для сущест вительных в винительном падеже, поиск таких слов получится на столько быстрым, насколько это возможно на выбранной архитек туре. Таким образом, положив в индекс все возможные сочетания характеристик для каж дого слова, мы сможем не только решить проблему производительности, но и избавиться от перемешива ния характеристик, пускай и за счёт многократного увеличения индекса. Так как поисковые запросы обычно достаточно детализи рованы (существительное в некотором падеже спрашивают чаще, чем просто существительное), это решение более чем на порядок повысило скорость поиска. Компактное представление грамматической информации Для удобства пользователя в корпусе предусмотрена возможность просмотра характеристик словоформ при выдаче материала. Од нако первоначально механизм поиска в корпусе обладал двумя до вольно существенными ограничениями: требовалось, чтобы каж дое слово было представлено в тексте одной последовательностью литеральных символов и при этом чтобы каждое слово имело длину не более 50-ти символов. Первое ограничение не позволяло просто
НКРЯ верстка4.indd 279
22/06/2009 17:48
280
А. А. Аброскин
записать разборы в скобках прямо за словом, а вследствие второго ограничения было практически нереально зашифровать все необ ходимые характеристики словоформы, так как слова с несколькими разборами, не говоря уже о семантической разметке, невозможно уместить в 50 символов. Первоначально было принято решение для снятия этой пробле мы использовать внешний словарь разборов, а в передаваемом на индексацию тексте оставлять только номера разборов, зашифро ванные в виде букв. Однако, как и следовало ожидать, такой под ход оказался не вполне жизнеспособным из-за слишком большого размера соответствующего словаря. Тем не менее размер слова ря удалось значительно уменьшить, вынеся из него информацию о словоформе. Это было осуществлено следующим образом. Для каж дого раз бора словоформы берётся тройка: длина общего префикса формы и леммы, часть леммы после общего префикса и некоторым об разом нормализованное представление набора грамматических характеристик. Затем эти тройки определенным способом сор тируются и склеиваются в единый ключ, который и помещается в словарь. Например, для слова мамы (мама сущ,жен,од,им,мн | сущ,жен,од,род,ед) ключ может быть следующим: (3, а, ( (сущ,жен,од,им,мн), (сущ,жен,од,род,ед) ) ) Полученный таким образом словарь для корпуса объемом 140 мил лионов слов имеет 720 тысяч вхождений — против 5 миллионов, со держащихся в словаре всех разборов этого корпуса. В тексте при этом в зашифрованном виде хранится сама словоформа и номер соответствующей записи в словаре. Надо заметить, что при используемой технологии, вообще го воря, способ нормализации разборов, метод сортировки и склейки ключей могут быть произвольными, так как эти процедуры исполь зуются только для того, чтобы по различным образом записанным эквивалентным разборам получить один и тот же ключ. Расширение контекста Одним из базовых ограничений архитектуры Яндекс-Сервера явля ется то, что предложение в индексе не может быть длиннее 64 слов.
НКРЯ верстка4.indd 280
22/06/2009 17:48
Поиск по корпусу: проблемы и методы их решения
281
Поэтому все предложения большей длины при индексации разреза ются на несколько частей. Но что делать, если мы хотим при выдаче увидеть всё найденное предложение целиком и — более того — про смотреть его «окрестности»? В случае, если мы можем управлять способом получения пред ложений из архива, решение этой проблемы не составляет слож ности. Однако для этого мы должны иметь доступ к внутренним процедурам поискового сервера, а эта операция может оказаться слишком сложной или же вообще невозможной (например, если у вас есть уже готовая поисковая программа, но нет доступа к её исходному коду). В то же время, если для каждого предложения, которое мы хо тим расширить, направлять новый запрос серверу, это позволит в конечном итоге получить то, что нам требуется. Для того, чтобы это стало возможным, следует каж дому пред ложению присвоить его порядковый номер в документе. Документ при этом необходимо пометить его номером в коллекции. Таким образом, при поиске по корпусу каждому документу приписывает ся документный поисковый атрибут, соответствующий его номе ру в коллекции, причём этот атрибут можно получить из архива стандартными средствами взаимодействия модуля формирования выдачи и поискового сервера. Для предложения, к сожалению, этот механизм уже не работает, так как ввиду ограничений используе мой технологии мы не можем получить поисковые атрибуты пред ложения. Поэтому приходится первым словам частей предложения приписывать специальные пометки, в которых зашифрован номер предложения, и флаг, указывающий, является ли данное предложе ние завершённым или представляет собой лишь часть более круп ного предложения. Таким образом, при формировании выдачи, кроме самого текста предложения, мы получаем 1) его номер, 2) номер включающего его документа, 3) информацию о том, завершено ли это предложение или является лишь частью более длинного «составного» предложе ния. Для незавершённых предложений делается перезапрос, выдаю щий их полную версию. Аналогичным образом, если пользователю нужно, кроме самого предложения, получить ещё и его окрестности, следует — зная номер предложения (n) — запросить предложения
НКРЯ верстка4.indd 281
22/06/2009 17:48
282
А. А. Аброскин
с номерами из интервала (n–k, n+k). Такой метод используется для расширения по запросу пользователя и для расширения слишком маленьких предложений, например, фраз вроде «ага», «ну да» и то му подобных в корпусе устной речи. Заключение Зачастую при реализации поиска по корпусам в качестве поисково го механизма используются системы, построенные на основе реля ционных систем управления базами данных, или же самостоятель но разработанные программы поиска. Первые, в случае больших корпусов, как правило, работают довольно медленно, создание же специальных поисковых программ требует чрезмерных усилий. В этой статье я постарался показать, как при помощи стандартных средств текстового поиска свободно распространяемой поисковой системы можно построить довольно эффективный поиск, расска зать о возникающих при этом проблемах и возможных способах их решения. Литература Инструкция 2007 — Инструкция по пользованию Национальным корпусом русского языка http://www.ruscorpora.ru/instructionmain.pdf нкря 2005 — Национальный корпус русского языка: 2003–2005. Ре зультаты и перспективы. — М.: Индр ик, 2005. Яндекс.Сервер — http://company.yandex.ru/technology/server
НКРЯ верстка4.indd 282
22/06/2009 17:48
А. И. Зобнин, А. В. Сахарова
Универсальная система разметки текста ObjectATE 1. Предпосылки создания системы а данный момент отсутс твуют многофункциональные средства создания лингвистических тек стовых корпусов, позволяющие зан им атьс я линг вист ич ес кой разметкой корпуса начиная с того уровня (морфологического, по верхностно-синтаксического, семантического и т. п.), который выбирает разметчик и по тем параметрам, которые он задает сам. Однако именно такое средство необходимо для создания лингвис тически размеченного корпуса древних письменных памятников. Поскольку лексика и грамматика древних памятников не изуче ны в полном объеме, а сами тексты не свободны от разного рода ошибок и темных мест, их грамматическая разметка должна быть ручной. В то же время было бы хорошо, если бы применяемая для этой процедуры информационная система позволяла частично ав томатизировать разметку. На данный момент отсутствуют многофункциональные средства создания лингвистических текстовых корпусов, позволяющие заниматься лингвис тической разметкой корпуса начиная с того уровня (морфологического, поверхностно-синтаксического, семантического и т.п.), который выбирает разметчик и по тем параметрам, которые он задает сам. Однако именно такое средство необходимо для создания лингвистически размеченного кор пуса древних письменных памятников. Поскольку лексика и грамматика древних памятников не изучена в полном объеме, а сами тексты не свободны от разного рода ошибок и темных мест, их грамматическая разметка должна быть ручной. В то же время было бы хорошо, если бы применяемая для этой процедуры информационная система позволяла частично автоматизировать разметку. Создаваемая система обработки текста ObjectATE (Object-oriented ancient text editor) призвана решить эти проблемы. Она разрабатывается и используется в Отделе лингвистического источниковедения Институте русского языка им. В. В. Виноградова РАН. На данный момент отсутству ют многофункциональные средства создания лингвистических текстовых корпусов, позволяющие заниматься лингвистической разметкой корпуса начиная с того уровня (морфологического, поверхностно-синтаксического, семантического и т.п.), который выбирает разметчик и по тем параме трам, которые он задает сам. Однако именно такое средство необходимо для создания лингвистически размеченного корпуса древних письменных памятников. Поскольку лексика и грамматика древних памятников не изучена в полном объеме, а сами текс ты не свободны от разного рода ошибок и темных мест, их грамматическая разметка должна быть ручной. В то же время было бы хорошо, если бы применяемая для этой процедуры информационная система позволяла частично автоматизировать разметку. Создаваемая система обработки текста ObjectATE (Object-oriented ancient text editor) призвана решить эти проблемы. Она разрабатывается и используется в Отделе лингвистического источниковедения Институте русского языка им. В. В. Виноградова РАН. На данный момент отсутствуют многофункционал ьные средства создания лингвистических текстовых корпусов, позволяющие
НКРЯ верстка4.indd 283
22/06/2009 17:48
284
А. И. Зобнин, А. В. Сахарова
Создаваемая система обработки текста ObjectATE (Object-oriented ancient text editor) призвана решить эти проблемы. Она разрабаты вается и используется в Отделе лингвистического источниковеде ния Институте русского языка им. В. В. Виноградова РАН с 2006 г. [Зобнин, Маркелова 2006, 2008; Сахарова 2008; Пичхадзе 2005] и пришла на смену предыдущей системе ATE, с помощью которой велась ручная и полуавтоматическая разметка морфологии в древ нерусских текстах — переводных памятниках и летописях (перевод ная антология «Пчела», Киевская летопись по Ипатьевскому списку, Новгородская первая летопись и др.). Новая система создавалась для осуществления преж де всего ручной синтаксической разметки этих текстов. Однако рутинную часть работы в ней можно будет впоследствии автоматизировать с учетом имеющейся морфологической разметки и формулируе мых пользователем правил (морфологических и формально-синтак сических). При этом система призвана быть максимально гибкой и многофункциональной, позволяющей создателю корпуса строить в принципе любые единицы лингвистического анализа по своим собственным (а не только по тем или иным общепринятым) моде лям представления данных. Решение этой задачи было предложено на основе объектно-ори ентированного подхода, широко применяемого в программирова нии. На разработку программы оказала большое влияние информа ционно-аналитическая система «Манускрипт» [http://manuscripts. ru]. Уже в процессе создания ObjectATE авторы познакомились с такими системами обработки текста, как Emdros [http://emdros. org] и GATE [http://gate.ac.uk]. Эти системы сложно (или даже не возможно) приспособить к решению поставленной задачи, поэтому сомнений в необходимости создания собственной разработки не возникало. Однако знакомство с идеями, заложенными в этих сис темах, оказалось очень полезным. 2. Функциональные возможности Система ObjectATE разрабатывается как программное средство для создания, хранения и обработки текстов, проанализированных на любом лингвистическом уровне. Она позволяет заниматься в руч ном режиме морфологической разметкой предварительно уже раз
НКРЯ верстка4.indd 284
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
285
деленного на словоформы текста, т. е. присваивать словоформам значения морфологических категорий (полей словоформ); при этом пользователь может сам создавать или редактировать список этих категорий и их значений. Лемматизацию, автоподстановку морфологических параметров, создание словников и указателей предполагается внедрить в эту систему в будущем, а в настоящий момент (осень 2008 г.) для этих целей в Отделе лингвистического источниковедения применяется другое программное средство — Редактор древнерусских текстов ATE. Из него в систему синтакси ческой разметки тексты переносятся уже лемматизированными и морфологически размеченными, хотя при необходимости эту разметку можно дополнять и редактировать. Однако даже при отсутствии морфологической информации (т. е. если текст только разделен на словоформы) система ObjectATE обеспечивает возможность ручной синтаксической разметки тек ста, т. е. создания в базе данных новых объектов — единиц син таксического анализа. Чтобы разбирать текст, предположим, по зависимостям, пользователь должен создать список необходи мых ему типов синтаксических связей и начать связывать друг с другом пары словоформ: вершинную и подчиненную ей (т. е. «склеивать» из этой пары словоформ новый объект). После того как пользователь сформулирует, какой именно узел у каждой связи является вершинным, для размеченных предложений становится возможным построение ориентированного дерева зависимостей. Система обеспечивает и возможность создания вспомогательных для синтаксического анализа узлов, функционирующих как ана логи словоформ: например нулевых подлежащих личных глаголов или фантомных эллиптических нулей с указанием на опущенную словоформу. Но, как известно, синтаксические правила применяются к сло восочетаниям и группам слов, а не к отдельным словоформам. Сис тема ATE позволяет заниматься синтаксическим анализом предло жений и по группам. Самый примитивный способ такого анали за — просто выделять группу слов, вешая на нее ту или иную метку: скажем, найдя в тексте дательные самостоятельные, выделить все слова, входящие в конструкцию, и создать из них соответствующий объект. При необходимости все члены такой группы можно выде
НКРЯ верстка4.indd 285
22/06/2009 17:48
286
А. И. Зобнин, А. В. Сахарова
лить одинаковым образом, как равноправные объекты, или же одну или несколько словоформ такой группы можно выделить не так, как все остальные. Однако система предоставляет возможность не просто отме чать в тексте определенные отрезки, но и заниматься полноцен ным синтаксическим анализ ом по группам, образующим друг с другом иерархическую структуру. Это значит, что пользователь может создавать в базе синтаксические объекты из других уже су ществующих синтаксических объектов, которые только в частном случае представляют собой словоформы. Для этого, создав класс синтаксических объектов (в терминологии грамматики составляю щих — фразовую категорию), пользователь должен определить, чем он может быть представлен (например, сформулировать, что в ка честве сказуемого предложения может выступать одна словоформа, восстановленный ноль, аналитическая конструкция и т. п.). Для того чтобы описать это явление, в системе предусмотрено приме нение механизма надстроек (задаваемых пользователем множеств словоформ и синтаксических объектов, обладающих определен ными свойствами и, следовательно, могущих в силу этих свойств играть определенную синтаксическую роль). Например, надстрой ка «Глагол-связка» включает в себя как словоформу (глагол быти в личной форме), так и синтаксический объект под названием «Ана литическая личная форма» (еси былъ, былъ бы). Создав такую над стройку «Глагол-связка», мы должны оговорить, что синтаксическая группа «Глагол-связка» должна образовываться только из объектов, входящих в эту надстройку. Если морфологическая информация о словоформах для разби раемого текста уже имеется, система может использоваться для упрощения и частичной автоматизации синтаксической разметки. Для этого также применяется механизм надстроек: он позволяет задавать условия на морфологические свойства словоформы, при которых она может играть определенную синтаксическую роль. Предположим, можно создать надстройку «Сказуемое», в которую будут входить только все личные глаголы, и надстройку «Подлежа щее», куда попадут все субстантивы в именительном падеже. Вхо ждение в надстройку «Подлежащее» окажется в данном случае не достаточным, а только необходимым условием создания связи «Под
НКРЯ верстка4.indd 286
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
287
лежащее – Сказуемое», так как, как известно, имя в именительном падеже может играть и другую синтаксическую роль. Система позволит задавать морфологические условия и на вхо ждения целой группы во множество объектов (так, вводя группу «Словосочетание с числом» во множество потенциальных подле жащих, можно оговорить, что вершинное числительное в группе должно стоять в именительном падеже), для чего предполагается выводить параметры самой синтаксической группы из парамет ров входящих в нее словоформ. Можно задавать не только условия вхождения словоформы или синтаксического объекта в надстрой ку, но и ограничения самого синтаксического объекта — условия сочетания свойств словоформ, в него входящих (предположим, оп ределить согласование подлежащего и сказуемого по лицу: если лицо сказуемого — первое, то его подлежащее — либо ноль, либо местоимение первого лица). Также при необходимости можно ого варивать порядок словоформ относительно друг друга. Создавая надстройки, т. е. описывая условия на вхожд ение сло воформ и синтаксических объектов в определенное множество, мы можем использовать это множество не обязательно в качест ве класса синтаксических объектов, но и просто с целью создания запроса по сформулированным условиям (например, можно соз дать надстройку «Составное сказуемое с нулевой связкой» и сразу же запросить список всех подобных объектов). Все это означает, что благодаря наличию морфологической разметки и составлению простейших синтаксических правил языка (основных правил со гласования и управления, связанных с морфологическим обликом словоформ, а также с порядком слов) существенно снижается ве роятность ошибки при синтаксической разметке. Синтаксический объект не создастся, если его части не входят в соответствующие надстройки (скажем, существительное в косвенном падеже не бу дет трактоваться системой как подлежащее) или если ограниче ния самого объекта этого не позволяют (если, например, имя стоит в именительном падеже, но отличается от глагола по лицу, из них не получится создать объект «Подлежащее – сказуемое»). Информация о простейших синтаксических правилах языка, которой распола гает пользователь, позволяет ему сделать синтаксический анализ полуавтоматическим, используя конструктор объектов, создающий
НКРЯ верстка4.indd 287
22/06/2009 17:48
288
А. И. Зобнин, А. В. Сахарова
по сформулированным правилам несколько синтаксических объ ектов сразу. В разрабатываемой системе можно также осуществлять ручную разметку текста на более глубоких языковых уровнях, вводя спе циальные метки (коммуникативный статус, семантическая роль и т.п.) для синтаксических объектов или отрезков предложений. Наконец, для переводных текстов система ObjectATE предусмат ривает наличие простейших средств описания соответствий меж ду оригиналом и переводом. При необходимости в систему может помещаться второй текст (оригинал) в виде списка словоформ, что предоставляет пользователю возможность создавать особые объ екты анализа (фрагменты перевода), устанавливая соответствия между словоформами перевода и словоформами оригинала. 3. Объектная модель данных Такую гибкость и такой широкий набор функций система имеет потому, что, как уже было сказано, она решена на основе объект но-ориентированного подхода, широко применяемого в програм мировании. Этот подход тесно связан с понятием отнологии в ин форматике. Весь размеченный документ представляется как набор объектов. Процесс разметки состоит в создании и модификации объектов. В начале работы пользователь задает метаданные, т. е. данные о структуре будущих объектов. Метаданные состоят из шаблонов и надстроек над ними. Шаблон можно понимать как абстрактный тип данных, определяющий вид объекта. Например, в стандартных текстах, с которыми работает система разметки, предполагаются такие шаблоны, как «Страница», «Строка», «Словоформа». Напро тив, конкретные страница, строка или словоформа в тексте — это объекты соответствующих шаблонов. Всякий шаблон имеет уни кальное имя. Каж дому шаблону приписан определенный набор полей и ог раничений. С помощью полей одни объекты в документе могут быть связаны с другими. Так, строка текста относится к какой-то странице, слова расположены в определенных строках, а всякая сло воформа обладает определенной частью речи. Поля шаблона — это набор типов признаков, которые могут быть у объекта этого шабло
НКРЯ верстка4.indd 288
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
289
на. Соответственно, каждому полю шаблона приписано имя, а так же указано, какие объекты могут выступать в качестве значения этого поля у объектов данного шаблона. Так, пользователь может определить шаблон «Главные члены предложения» с полями «Под лежащее» и «Сказуемое». На поля такого шаблона могут быть нало жены естественные ограничения. Эти ограничения относятся и к типу данных значений полей (ясно, что подлежащее не может быть «Страницей», «Строкой» или «Частью речи») и на сами значения полей и их подполей (например, если подлежащее — это отдельная словоформа, имеющая падеж, то этот падеж должен быть имени тельным). Ограничения последнего вида можно нак ладывать на весь шаблон в целом. Такие ограничения записываются в виде ло гических условий на поля (и их подполя с любым уровнем вложен ности). Истинность этих ограничений зависит от потенциального набора значений полей. Предполагается, что для всякого объекта данного шаблона эти ограничения должны превращаться в тожде ственно истинные выражения. Шаблоны могут выстраиваться в иерархии наследования. Эта возможность оказывается очень удобной при описании метадан ных. Шаблон-наследник приобретает все свойства (поля и огра ничения) шаблона-предка, добавляя к ним, возможно, свой набор полей и ограничений. Шаблон-предок может быть объявлен абст рактным. Это значит, что он используется только как общий пре док для других шаблонов-наследников, а создавать объекты такого шаблона нельзя. Например, если пользователь хочет наделить все объекты синтаксической разметки полем «Комментарий», он может определить это поле у общего абстрактного шаблона «Синтаксиче ский объект» и вывести из этого шаблона другие шаблоны. В системе реализован механизм множественного наследования, позволяющий включать один и тот же шаблон в различные иерар хии. При этом от идеи условного наследования было решено отка заться. Вместо этого используется механизм надстроек. Надстройка отдаленно напоминает абстрактный шаблон. Она строится над уже существующими шаблонами или надстройками, которые называются кандидатами на вхождение в эту надстройку. Каж дому кандидату надстройки может быть приписано условие на его вхож дение в надстройку. Как и ограничение шаблона, это
НКРЯ верстка4.indd 289
22/06/2009 17:48
290
А. И. Зобнин, А. В. Сахарова
условие представляет собой логическое выражение, зависящее от конкретного объекта, его полей, подполей и т. д. Можно индук тивно определить понятие реализации объектом надстройки или шаблона. Всякий объект О реализует свой собственный шаблон и все шаблоны-предки этого шаблона. Далее, пусть К — кандидат надстройки Н и объект О реализует К. Тогда считается, что О реа лизует надстройку Н, если для объекта O выполнено условие на вхож дение кандидата К в Н. Надстройки появились в модели по крайней мере по двум при чинам. Во-первых, механизм надстроек позволяет детально задать условия на поля шаблонов, а во-вторых, надстройки позволяют описывать простые запросы к данным. Рассмотрим эти возмож ности подробнее. Ранее полю шаблона строго сопоставлялся его тип — другой шаблон. Считалось, что только объекты этого дру гого шаблона могут являться значениями полей. Это вызывало определенные трудности, преж де всего с «нулевыми» синтакси ческими объектами. Нужно было сделать так, чтобы синтаксиче ские нули наравне со словоформами могли быть полями других синтаксических объектов. Однако в случае, когда такие поля выра жены словоформами, должно было выполняться дополнительное условие. В нынешней модели типом поля шаблона может быть или шаблон, или надстройка. Соответственно, объект может быть значением такого поля, если он реализует его тип. Такой подход позволяет более гибким образом описать модель разметки. При этом в программе имеется возможность проверить, реализует ли данный объект указанную надстройку, вывести список надстро ек, реализуемых данным объектом, а также вывести все объекты, реализующие данную надстройку. Сами эти объекты могут иметь разные шаблоны; их объединяет лишь то, что при выполнении условий вхож дения мы относим их к данной надстройке. Поэтому надстройки удобно рассматривать как описания простых запро сов к данным, т. е. таких запросов, которые возвращают отдель ный список объектов. Надстройка, как уже было сказано, задает достаточные условия для отнесения объекта к некоторой категории. В системе преду смотрен простой механизм, позволяющий показать, что для дан ного объекта данная надстройка задает и необходимые условия.
НКРЯ верстка4.indd 290
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
291
Всякий объект имеет обязательную текстовую компоненту «Содер жание». Содержание объекта может либо задаваться пользователем, либо вычисляться по определенным правилам через содержания полей. Объекты имеют также два поля для сортировки и сравнения: дескрипторы начала и конца объекта. Считается, что все объекты данного фиксированного шаблона можно естественным образом упорядочить по их дескрипторам. Если дескрипторы начала и конца различаются, то объект считается «протяженным». Так, естествен ный порядок имеется на страницах, строках и словах текста. Удоб но считать слово «атомарным» объектом, а дескрипторы начала и конца строки приравнивать к дескрипторам первого и последнего слова в строке. Аналогично, дескрипторы начала и конца страницы приравниваются соответственно к дескрипторам первой и послед ней строки в этой странице. Правила назначения дескрипторов новым объектам можно задавать при описании метаданных. Де скрипторы позволяют строить запросы и ограничения на порядок слов (например, найти все связи «Субстантив–атрибут», в которых субстантив находится раньше атрибута). Поля шаблонов могут быть трех видов: обычные поля, коллекции и диапазоны (архитектурно предусмотрен четвёртый вид — кол лекция диапазонов, но он пока не реализован, так как на данный момент не востребован). Поле-коллекция отличается от обычного поля тем, что предполагает сразу несколько различных значений. Диапазон — это «связная» коллекция, т. е. множество объектов, иду щих подряд в смысле упорядочения по дескрипторам. Для диапа зона достаточно задать начальный и конечный объект. Типичный пример диапазонов — строки в странице или какие-либо естествен ные связные большие фрагменты текста (например, блоки, части, прямая речь и т. д.). Поля шаблонов делятся на обязательные и опциональные. Обя зательное поле заполняется при создании объекта (например, при синтаксической разметке). Для опциональных полей предлагается список возможных вариантов заполнения. Данный список фор мируется на основе ограничений шаблона и уже заполненных полей. Например, в «Киевской летописи» шаблон «Словоформа» имеет необязательные поля «Часть речи» и «Разряд», а также ог раничение
НКРЯ верстка4.indd 291
22/06/2009 17:48
292
А. И. Зобнин, А. В. Сахарова
IF ([Часть речи]= 'числительное', [Разряд] IN {'количественное', 'порядковое', 'собирательное'})
Таким образом, если часть речи для данной словоформы определе на как числительное, список допустимых вариантов для поля «раз ряд» будет состоять из трех указанных значений. Если все кандидаты надстройки имеют общие поля, то при за писи условия на поле типа этой надстройки такие поля можно ис пользовать в выражениях. Кроме того, надстройки могут иметь свои поля. Собственные поля надстройки всегда являются опцио нальными. Объект приобретает такое поле только в том случае, если он реализует надстройку. С помощью подобного механизма удобно описывать морфологическую разметку. Именно так была организована морфологическая аннотация в базе данных «Новго родская первая летопись». В этой модели, например, словоформа имела только поле «Часть речи», а другие морфологические поля появлялись у нее лишь в том случае, если она реализовывала какиелибо надстройки. Так, поле «Падеж» возникало только у словоформ, реализующих надстройку «Имя», и т. д. Условия и ограничения в метаданных задаются на специальном языке, который интерпретируется программой. Пользователь мо жет создавать их как с помощью конструктора ограничений, так и записывать вручную. Язык содержит основные логические опера торы AND, OR, NOT, операторы равенства (=), неравенства (), принадлежности (IN) и непринадлежности множеству (NotIN). В выражениях могут участвовать поля и их подполя с любым уров нем вложенности. Имена подполей задаются в квадратных скобках и разделяются точкой. Поле-коллекция всегда рассматривается как множество; кроме того, множество может описываться в явном ви де — перечислением входящих в него объектов, которые записыва ются в фигурных скобках. По умолчанию сравнение объектов про изводится по их содержанию. Вот пример ограничения на шаблон «Связь с согласованным атрибутом»: ([Атрибут].[Часть речи] IN {'прилагательное', 'причастие'}) OR (([Атрибут].[Часть речи] = 'местоимение') AND ([Атрибут].[Лицо] NotIN {'1-е', '2-е', '3-е'}) AND ([Атрибут].[Лексема] NotIN {'и'})) OR ([Атрибут].[Часть речи] = 'числительное').
НКРЯ верстка4.indd 292
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
293
(Записанное здесь условие на лицо атрибута просто означает, что это лицо отсутствует.) Перечислим еще некоторые важные операторы этого языка. 1. Оператор проверки реализации IS. Он позволяет проверить, реализует ли данное поле объекта указанную надстройку или шаб лон, ср., например, «[Атрибут] IS Словоформа». Также в синтаксис языка ограничений добавлено ключевое слово Me, обозначающее сам проверяемый объект. В условиях на вхож дение в надстройку удобно писать выражения вроде «Me IS Субстантив». 2. Условный оператор IF. С его помощью можно корректно об ращаться к полям объектов, которые, вообще говоря, не являются общими. Вместе с оператором IS он частично заменяет механизм надстроек, обеспечивая большую гибкость. Пусть, например, поле «Подлежащее» может быть выражено как словоформой, так и нулем. Пусть шаблоны «Словоформа» и «Ноль» безусловно входят в неко торую надстройку. У шаблона «Ноль» нет поля «Падеж»; к падежу можно обратиться только у «Словоформы». Поэтому условие на подлежащее можно записать так: IF ([Подлежащее] IS Словоформа, [Подлежащее]. [Падеж] = 'именительный').
3. Операторы сравнения = позволяют сравнивать объек ты по их дескрипторам сортировки и, в частности, строить запросы на порядок слов. 3. Интерфейс программы Большое внимание постоянно уделяется интерфейсу программы и повышению удобства работы с ней. Последние изменения связа ны с новой панелью свойств, новым подходом к выделению и под светке объектов, настраиваемой структурой программных окон, панелью для сортировки объектов, панелью шаблонов. Был усо вершенствован диспетчер шаблонов и надстроек. Кроме того, реа лизованы новые функциональные возможности, предусмотренные измененной объектной моделью (проверка реализации объектом надстройки, отображение всех объектов заданной надстройки или шаблона и т. д.). Ключевым понятием интерфейса программы является панель объектов. Панели объектов бывают разных видов; их основная за
НКРЯ верстка4.indd 293
22/06/2009 17:48
294
А. И. Зобнин, А. В. Сахарова
дача — отображать специальным образом определенные объекты. На данный момент предусмотрены следующие виды панелей объ ектов: • панель навигации (содержащая простой список, например, стра ниц или годов в летописи с возможностью поиска); • панель основного текста (центральное окно программы; содер жит текст в формате RTF, построенный из объектов типа «страни ца», «строка», «словоформа» и т. д.); • панель-список (содержит перечень объектов с указанием их шаблона); • панель с возможностью сортировки (помимо функций панелисписка она позволяет изменять взаимное расположение объектов, то есть переупорядочивать их). В первую очередь эта панель была создана для указания порядка слов в греческом тексте; • панель-дерево (для отображения иерархической информации, такой как словоуказатель, схема синтаксических связей, геомет рическая иерархия текста и т. д.); • панель свойств (содержит информацию о свойствах всех выде ленных объектов). Взаимосвязи между панелями, а также порядок действий по их на полнению описываеются в отдельном xml-файле. Это тоже своего рода «метаданные», относящиеся к интерфейсу. Пользователь может выделять в панелях группы объектов. Ка ждая группа имеет свой цвет (всего бывает четыре группы). Разде лением выделенных объектов на группы удобно пользоваться при создании новых объектов: в этом случае каждая группа выделенных объектов соответствует отдельным наборам обязательных полей. Список выделенных объектов теперь совмещен с панелью свойств. Возможности панели свойств по отображению форматированного текста существенно расширены. Кроме того, во внешнем xml-файле описаны правила подсветки других объектов при выделении. Подсветка — это дополнительное программное цветовое выделение отдельных объектов в панелях. Например, можно указать правило, по которому при выделении синтаксического объекта будут подсвечиваться все входящие в не го словоформы. Удобно также пользоваться правилом подсветки всех словоформ, имеющих тот или иной морфологический признак.
НКРЯ верстка4.indd 294
22/06/2009 17:48
Универсальная система разметки текста ObjectATE
295
Это позволяет «на месте» наглядно видеть результаты простейших запросов. При выделении нескольких объектов программа подсве чивает по заданным правилам их общие поля. Фрагменты окон работающей программы приведены на рис. 1, 2 и 3.
Рис. 1. Панели программы. Выделенные объекты и подсветка объектов
В системе создается механизм работы с фрагментами текста, связан ными синтаксическими связями. На уровне метаданных задаются правила перехода от шаблонов к их полям и обратно. Эти правила позволят строить деревья синтаксических зависимостей, автомати чески вычислять границы предложений (или иных фрагментов тек ста) по указанному объекту-представителю (главному слову) и т. д. Так, если размечены бинарные связи между членами предложения и указана вершина (сказуемое, причастие в причастном обороте и т. д.), то по этим связям можно, начиная с вершины, вычислить все объекты, входящие в это предложение, и отобразить их в виде дерева. Такой подход позволяет единообразно описывать правила конст руирования как синтаксических деревьев, так и словоуказателей. Текущая версия системы реализована на платформе Microsoft .NET Framework с использ ов анием реляционных баз данных Microsoft Access и Microsoft SQL Server.
НКРЯ верстка4.indd 295
22/06/2009 17:48
296
А. И. Зобнин, А. В. Сахарова
Рис. 2. Выполнение простейших запросов с помощью подсветки (запрос на словоформы среднего рода в именительном падеже)
Рис. 3. Диспетчер шаблонов и надстроек. Показаны свойства шаблона «Словоформа»
НКРЯ верстка4.indd 296
22/06/2009 17:48
Литература и ссылки на ресурсы в сети Internet Зобнин, Маркелова 2006 — Зобнин А. И., Маркелова А. В. Универ сальная система разметки текста ATE-2 // Современные инфор мационные технологии и письменное наследие: от древних ру кописей к электронным текстам: Материалы меж дународной научной конференции (Ижевск, 13–17 июля 2006 г.). Ижевск, 2006. С. 51‑55. Зобнин, Маркелова 2008 — Зобнин А. И., Маркелова А. В. Универ сальная система разметки текста ObjectATE // Современные ин формационные технологии и письменное наследие: от древних текстов к электронным библиотекам: Материалы международ ной научной конференции (Казань, 26–29 августа 2008 г.). Ка зань, 2008. С. 114–117. «Манускрипт» — Информационно-аналитическая система. http:// manuscripts.ru. Пичхадзе 2005 — Пичхадзе А. А. Корпус древнерусских переводов xi–xii веков и изучение переводной письменности Древней Руси // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М., 2005. С. 251–262. Сахарова 2008 — Сахарова А. В. Возможности применения универ сальной системы синтаксической разметки текста ObjectATE // Современные информационные технологии и письменное наследие: от древних текстов к электронным библиотекам: Ма териалы международной научной конференции (Казань, 26–29 августа 2008 г.). Казань, 2008. С. 247–249. Emdros — The database engine for analyzed or annotated text. http:// emdros.org. GATE — General Architecture for Text Engineering. http://gate.ac.uk.
НКРЯ верстка4.indd 297
22/06/2009 17:48
И. А. Пильщиков, А. С. Старостин
Основные проблемы
автоматизации базовых процедур
ритмико-синтаксиче ского анализа силлабо-тонических текстов
1
1. ундаментальная теоретическая проблема, в рамках которой ставятся и решаются вопросы, затронутые в статье, — это проблема формализации стиховед ческого знания и автоматизации стиховедческого труда (ср. [Вигурский, Пильщиков 2003]). Конкрет ная задача — это решение проблемы алгоритмизации и автомати зации основных процедур лингвостиховедческого анализа. Речь пойдет преимущественно об анализе силлабо-тонических поэти ческих текстов на русском языке, но многое из сказанного может быть распространено на силлаботонику немецкую или английскую. В статье излагается частично реализ ов анный план теорети ческого исследования и серии практических работ, нацеленных на развитие методов автоматизиров анной акцентологической Фундаментальная теоретическая проблема, в рамках которой ставятся и решаются вопросы, затронутые в статье, — это проблема формализации стиховедческого зна ния и автоматизации стиховедческого труда (ср. [Вигурский, Пильщиков 2003]). Конкретная задача — это решение проблемы алгоритмизации и автоматизации основных процедур лингвостихов едческого анализ а. Речь пойдет преимущес т венно об анализе силлабо-тонических поэтических текстов на русском языке, но многое из сказанного может быть распространено на силлаботонику немецкую или английскую.В статье излагается частично реализованный план теоретиче ского исследования и серии практических работ, нацеленных на развитие методов автоматизированной акцентологической и морфолого-синтаксической разметки силлабо-тонических текстов и адаптацию этих методов к нуж дам стиховедческих штудий (в круг которых входит анализ метрики, ритмики, строфики, рифмы, мор фологии и синтаксиса стиха). На начальном этапе исследования на первый план выходят проблемы, связанные с ритмикой и синтаксисом стиха. В коллективном исследовании принимают участие несколько человек, которых можтьи Общий ход исследования предусматривает постановку и решение ряда взаимосвязанных теоретических задач и получение в качестве основного практического результата нескольких программно-инструментальных и программно-информационных про дуктов. Важным побочным результатом (by-product) должны стать новые способы учета и поиска результатов лингвостиховедческого анализа — то есть новые способы аккумуляции стиховедческого знания. Фундаментальная теоретическая проблема, в рамках которой ставятся и решаются вопросы, затронутые в статье, — это проблема формализации стиховедческого знания и автоматизации стиховедческого труда (ср. [Вигурский, Пильщиков 2003]). Конкретная задача — это решение проблемы алго ритмизации и автоматизации основных процедур лингвостиховедческого анализа. Речь пойдет преимущественно об анализе силлабо-тонических поэтических текстов на русском языке, но многое из сказанного может быть распространено на силлабото нику немецкую или английскую.В статье излагается частично реализованный план теоретического исследования и серии практических работ, нацеленных на развитие методов автоматизированной акцентологической и морфолого-синтаксической раз метки силлабо-тонических текстов и адаптацию этих методов к нуж дам стиховедче ских штудий (в круг которых входит анализ метрики, ритмики, строфики, рифмы, морфологии и синтаксиса стиха). На начальном этапе исследования на первый план выходят проблемы, связанные с ритмикой и синтаксисом стиха. В коллективном исследовании принимают участие несколько человек, которых можтьи Общий ход исследования предусматривает постановку и решение ряда взаимосвязанных
1 Работа выполнена при поддержке Российского фонда фундаментальных ис следований (проект 08-06-00192).
НКРЯ верстка4.indd 298
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
299
и морфолого-синтаксической разметки силлабо-тонических тек стов и адаптацию этих методов к нуждам стиховедческих штудий (в круг которых входит анализ метрики, ритмики, строфики, риф мы, морфологии и синтаксиса стиха). На начальном этапе иссле дования на первый план выходят проблемы, связанные с ритмикой и синтаксисом стиха. В коллективном исследовании принимают участие несколько человек, которых можно считать соавторами настоящей статьи2 . Общий ход исследования предусматривает постановку и ре шение ряда взаимосвязанных теоретических задач и получение в качестве основного практического результата нескольких про граммно-инс трументальных и программно-информационных продуктов. Важным побочным результатом (by-product) должны стать новые способы учета и поиска результатов лингвостиховед ческого анализа — то есть новые способы аккумуляции стиховед ческого знания. 2. Начнем с общих задач алгоритмизации и автоматизации лин гвостиховедческого анализа. Таких задач, на наш взгляд, как ми нимум четыре. 2.1. Необходимо оптимизировать морфолого-акцентологическую разметку с учетом 1) особенностей русского стиха (слова, обычно безударные в прозе, могут принимать на себя ударение в контексте стихотворного метра), 2) особенностей русского синтаксиса (слова могут быть ударными либо безударными в зависимости от синтаксической позиции), 3) особенностей исторической акцентологии русского языка (ор фоэпические нормы xviii и xix веков значительно отличаются от сегодняшних). Отмечая расхож дения меж ду современными ударениями в сло воформах, которые предлагает программа-анализатор, и факти ческими ударениями, которые подсказывает метрическая схема 2
Это А. С. Белоусова, В. С. Белоусова, К. А. Головастиков и С. Е. Ляпин.
НКРЯ верстка4.indd 299
22/06/2009 17:48
300
И. А. Пильщиков, А. С. Старостин
стиха, мы можем продолжить сбор материалов к дифференциаль ному словарю ударений русского языка xvii i и xix веков, начатый Н. А. Еськовой, — фиксируя (в отличие от нее) не только расхож дения, но и совпадения между современной и старинной нормой, а также частотность вариантов ([Еськова 2008]; ср. [Перцов 2006]). В результатах такой работы будут заинтересованы не только сти ховеды, но и специалисты по исторической орфоэпии и лексико логии. 2.2. Необходимо поставить и разрешить практически задачу автоматического определения стихотворного метра конкретных текстов. Для этого должны быть 1) разработаны программы, соотносящие распределение факти ческих ударений слов в стихотворных строках с метрическими схемами, актуальными для данной культурной традиции; 2) найден теоретический и практический подход к проблеме ано малий в рамках метра, затрудняющих распознавание стихотвор ного размера, но не выводящих текст за его пределы. Чтобы решить эти проблемы, необходимо получить не дескрип тивные, а конструктивные определения основных понятий клас сической русской метрики. Напомним, что дескриптивным опре делением в методологии науки называют дефиницию, задающую объект перечислением требуемых его свойств или функций; а кон структивное определение — это явное описание строения соот ветствующего объекта [Яглом 1980]. (Компьютер понимает только конструктивные определения.) Как заметил М. И. Шапир, развивая мысли И. М. Яглома (1980), можно сказать, что прик ладные науки занимаются переводом дескриптивных определений в конструк тивные, а теоретические — переводом конструктивных определе ний в дескриптивные. Конструктивное определение стиха как такового науке пока не доступно, однако системы стихосложения определять мы можем (этому вопросу был посвящен доклад М. И. Шапира, состоявшийся летом 2005 г. на семинаре по лингвостиховедческому анализу по этических текстов, первоначально проходившем под руководством С. А. Старостина). Основная мысль доклада такова: если при чисто теоретическом подходе системы стихосложения следует (по Шапиру) определять прежде всего в зависимости от наименьшей парадигма
НКРЯ верстка4.indd 300
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
301
тической константы [Шапир 1995; 2000, с. 36–75] 3 , то конструктив ное определение, полученное путем конвертации из чисто теоре тического, может быть основано только на вероятностном подходе. Скажем, силлабика — это система стихосложения, в которой число слогов в строке неслучайно. Соответственно, в тонике неслучайно число тактов, а в силлаботонике неслучайно распределение ударных и безударных слогов (при этом неслучайно не значит постоянно). Чтобы это определение стало практическим, надо вычислить ве роятности распределения ритмических формант в строке и соот нести их с реальными показателями интересующего нас текста. Речь идет не о сравнении реальных показателей с так называемой «языковой» или «прозаической» моделью размера, а о более высо кой ударности маркированных элементов (например, иктов) по сравнению с немаркированными (в данном случае — с метрически безударными слогами). Также вероятностно (через решение про блемы порогов) должен решаться вопрос о логаэдах и переходных метрических формах4 . Из того, что метр рассматривается как инвариант, следует (по мысли Шапира) что он, метр, есть, преж де всего, характеристика не строки, а совокупности строк: фрагмента, произведения и т. д. Отсюда первостепенная роль контекста при диагностировании метра. Прямое следствие такого взгляда — это конструктивная де финиция концепта «определение метра»: установить (диагности ровать) метр — значит сначала соотнести фактическое звучание строк между собой в поисках общего и различного в их строении (то есть попытаться определить инвариант, модификациями которого являются соответствующие строки), а потом найти для этого инва рианта ближайшее соответствие в метрическом репертуаре данной культурной традиции (ср. [Шапир 2005]). Для наших дел важно, что 3
Для силлаботоники такой константой является стопа — простейшая мет рическая константа, образованная устойчивой комбинацией ударных и без ударных слогов и могущая выступать в качестве конструктивной единицы стихотворной строки. Важно добавить, что под «ударными и безударными» в этом определении понимаются слоги, имеющие разное акцентологическое ка чество: обязательно ударные, преимущественно ударные, произвольно ударные, преимущественно безударные и обязательно безударные (из доклада М. И. Ша пира). 4 Этим вопросом сейчас занимается А. С. Белоусова.
НКРЯ верстка4.indd 301
22/06/2009 17:48
302
И. А. Пильщиков, А. С. Старостин
эту процедуру можно в значительной степени автоматизировать. Преобразование дескриптивных определений основных понятий классической русской метрики в конструктивные представляет важный шаг на пути к формализации стиховедческого знания и по зволяет перевести важнейшие стиховедческие концепты на язык компьютерной системы. 2.3. Результаты автоматического акцентологического анализа должны быть подвергнуты филологическому редактированию. На основании полученной метаинформации, зафиксированной с по мощью языка разметки, становится возможной автоматическая квалификация ритмических форм в рамках установленного метри ческого инварианта. На этом этапе следует приступить к созданию корпуса русских поэтических текстов xviii–xxi веков с разметкой метрических и ритмических форм, регистрацией их в каталоге (указателе) и обеспечением поиска по ним (с возможностью пере хода от результатов поиска к полным текстам). Затем должна быть добавлена автоматическая каталогиз ация слов ораздельных ва риаций, а также диагностирование строфических и твердых форм (с обеспечением возможности поиска по всем этим параметрам). 2.4. Дальнейшим шагом должна стать более «глубокая» разметка сформированного русского поэтического корпуса. Внутри корпуса необходимо снимать морфологическую, синтаксическую и акцент ную омонимию. При этом омонимия на одном уровне часто разре шается за счет другого уровня. Так, например, при анализе русского ямба акцентная информация позволяет избавиться от большого количества морфологических омонимов. Оптимизация автомати ческой морфологической разметки с учетом особенностей русского синтаксиса позволит до определенной степени минимизировать «ручное» редактирование (но, конечно, не даст возможности пол ностью от него отказаться). Филологическая редактура предпола гает снятие (disambiguation) морфологической и синтаксической неоднозначности в разметке — или (NB!) фиксацию объективной неоднозначности, которая в стихе играет бо´льшую роль, чем в про зе: для поэтического текста неоднозначность (ambiguity) является
НКРЯ верстка4.indd 302
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
303
не привходящим, а конститутивным свойством5 . Отсюда возникает вопрос о способах фиксации и учета альтернативных интерпрета ций текста при поисках и подсчетах. При разработке алгоритмов автоматического лингвостиховедче ского анализа необходимо поставить следующую сверхзадачу — со вместить восходящий и нисходящий принципы (движение от текста к метру и от метра к тексту). На первом этапе морфо-акцентоло гические характеристики текста позволяют выдвинуть гипотезу о его стихотворном размере, которая может быть использована для дальнейшего анализа текста — прежде всего для снятия акцентной, морфологической и других видов омонимии. В идеальном анали заторе различные гипотезы должны оцениваться и ранжироваться по вероятности. Следующий шаг — обеспечение возможностей полнотекстового поиска по морфолого-синтаксическим параметрам. Необходимо предоставить исследователю возможность соотносить эти парамет ры с метрическими и ритмическими характеристиками стиха (то есть нужно организовать комбинированный поиск с заранее опре деленными значениями атрибутов). Отдельная подзадача — как при формировании такого рода запросов учитывать слого- и сто поделение. Параллельно должна быть решена проблема автомати зированной фонетической, грамматической и лексикологической квалификации рифм. 3. Для выполнения описанных выше работ целесообразно было соз дать информационную модель метаданных, которыми снабжаются тексты в результате анализа. Дескриптивный потенциал модели должен быть сопоставим с современным уровнем лингвистической и стиховедческой науки. Важным фактором является возможность последующего дополнения информационной модели без ущерба для данных, сформированных в рамках предыдущих версий модели. В текущей версии модели используется несколько базовых по нятий: 5
Актуальность проблеме поэтической неоднозначности, поставленной еще в 1930 г. английским поэтом и теоретиком литературы Уильямом Эмпсоном (см. [Empson 1930]), в последние годы вернули М. И. Шапир [Шапир 1999b] и Н. В. Перцов [Перцов 2000].
НКРЯ верстка4.indd 303
22/06/2009 17:48
304
И. А. Пильщиков, А. С. Старостин
• атрибут (именованная категория, которая может иметь зара нее определенный или неопределенный конечный или беско нечный набор значений); • значение атрибута (один из элементов указанного набора); • аннотация (набор пар вида , привязан ный к конкретному месту текста; каждая аннотация включает служебный атрибут, называемый типом аннотации, значением которого может быть строка из заранее определенного набора строк); • тринотация (расширение понятия ан нотации: кроме типа и набора атрибу тов тринотация может содержать в себе информацию о связях между входящими в нее аннотациями и другими тринота циями; таким образом, аннотация явля ется частным случаем тринотации); • хранилище тринотаций (множество три нотаций, допускающее такие операции, как удаление, добавление и модифика ция тринотаций, а также разнообразные средства поиска и выборки тринотаций по различным критериям); • иерархия атрибутов (дерево, в котором отражаются допустимые наборы атрибу тов и значений для того или иного типа аннотаций). В модели иерархии атрибутов задаются для каждого типа аннотаций, что позволяет хо рошо ее упорядочивать и структурировать. Модель включает в себя несколько част ных моделей: модель фонетики, модель мор фологии, модель синтаксиса (см. о ней ниже, п. 6) и модель стиховедческих метаданных. Для всех моделей разрабатываются типы аннотаций и строится иерархия атрибутов. Все иерархии являются пополняемыми, то есть при необходимости систему можно
НКРЯ верстка4.indd 304
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
305
дополнять новыми категориями и значениями. Фрагмент иерар хии атрибутов для аннотаций морфологического уровня приводится справа. На верхнем уровне иерархии представлен атрибут POS (part of speech), отражающий категорию части речи. Набор его значений (A, ADV, N и т.д.) отражает набор частей речи, которые выделяются для русского языка в рамках модели (прилагательное, наречие, су ществительное и т.д.). Далее, в поддереве, отвечающем значению N, представлены те категории, которые выделяются для существитель ных: падеж (CAS), число (NMB) и другие. Одному «уровню» метаданных обычно соответствует несколько типов аннотаций. Например, на фонетическом уровне выделяется как минимум три типа аннотаций: аннотации-звуки, аннотациислоги, аннотации-слова (фонетические). Значит, в плане автома тизации разметки возникают сразу три задачи: задача автоматиче ского транскрибирования поэтических текстов, задача автоматиче ской разбивки текста на слоги и задача автоматического разбиения текста на фонетические слова. Исходный набор звуков (например, выделяемый в кн. [Аване сов 1972]) присутствует в модели в качестве различных значений атрибутов для типа аннотаций, отвечающего за звуки. После авто матического транскрибирования на каждом отрезке поэтического текста появляется набор таких аннотаций-звуков, соответствующих прочтению отрезка. В модели присутствует тип тринотаций, соответствующий сло гам. Каж дая тринотация-слог содержит в себе одну или более ан нотаций-звуков. Среди атрибутов тринотаций-слогов следует вы и
с о лн ц е;
д е нь
М о р о з
ч у д е с н ы й!
i ь ш’: óʹ
ʹ м Λ р ó с ы с óʹ н ц ъ д’ êʹ´н’ ч у д’ éʹ с н ъ i
Е щ е
делить очень важный для дальнейшего анализа атрибут, характе ризующий ударность слога. Для этого атрибута можно ввести два или три значения (безударность и ударность; безударность, сла боударность и ударность). Ниже приводится пример разбивки на слоги. Ударные слоги отмечены символом ʹ. Для редактирования и пополнения информационной модели создан компьютерный инструментарий, а также система хранения и ви зуализации текстов и метаинформации, работающая в соответст
НКРЯ верстка4.indd 305
22/06/2009 17:48
306
И. А. Пильщиков, А. С. Старостин
вии с информационной моделью. Таким образом, для решения поставленных задач необходимы: 1) разработка специальных алгоритмов, позволяющих автомати зировать рутинные процессы стиховедческого анализа; 2) создание компьютерных программ автоматизированной лин гвостиховедческой разметки; 3) разработка и создание программно-информационной среды для представления результатов автоматизированного лингвостихо ведческого анализа конкретных текстов. Конечным практическим результатом работ должно стать создание корпуса русских поэтических текстов, снабженного лингвостихо ведческой метатекстовой информацией. Создаваемая компьютер ная среда должна обеспечить возможность поиска необходимых текстов и сегментов текста по заданным лингвостиховедческим параметрам. Такой подход позволяет, как уже говорилось, оптими зировать процессы аккумуляции стиховедческого знания: стихове ду уже не придется проделывать одни и те же подсчеты по нескольку раз, а при использовании чужих данных их проверка должна суще ственно упроститься. 4. Переходим теперь от общих проблем автоматизации стиховедче ских процедур к специальным алгоритмам и моделям, нацеленным на лингвостиховедческий анализ силлабо-тонических (в первую очередь русскоязычных) поэтических текстов. Исходный пункт исследования — это идентификация и учет (в целях статистического и компаративного анализа) схемных уда рений (ритмика иктов). А. С. Старостин разработал программу автоматизированного ак центологического анализа, позволяющую регистрировать и квали фицировать ритмические формы в рамках установленного метриче ского инварианта (например, восемь ритмических форм 4-стопного ямба). Алгоритм работы этой программы сводится к следующему: 1) Производится предварительная обработка. В нее входит выде ление в тексте трех видов тринотаций: • тринотаций-слогов,
НКРЯ верстка4.indd 306
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
307
• тринотаций, соответствующих строкам стихотворного текста, • морфологических тринотаций. 2) С каж дым словом текста соотносится набор потенциальных акцентных схем, информация о которых берется из словаря А. А. Зализняка. 3) Акцентные схемы, сгенерированные на предыдущем шаге, ком бинируются в рамках отдельных строк. Получаемые комбина ции динамически соотносятся с заранее заложенными в систему шаблонами форм соответствующего стихотворного размера. 4) Для каждой проанализированной строки возможны следующие варианты: • удается однозначно определить ритмическую форму; • удается предположить несколько ритмических форм; • не удается предположить никакой ритмической формы. Следует отметить, что в подавляющем большинстве случаев форму определить удается. Однако даже в тех случаях, когда это не так, сама по себе информация о неудаче представляет определенную ценность. Например, таким образом можно автоматически регист рировать отклонения от акцентных норм, зафиксированных в сло варе Зализняка (ср. выше, п. 2.1). Для разбивки на слоги можно использовать алгоритм, опираю щийся на принцип «волны звучности» (или сонорности): верши ну (ядро) слога нормально образует гласный (V), а в сочетаниях согласных внутри слога более близкую позицию к ядру занимает сонорный (R), а более дальнюю — шумный (T). Указанную тен денцию можно сформулировать как предпочтение универсаль ной схемы TRVRT. Любой вкладывающийся в эту схему слог (RV, TV, TRV, TVRT и т. д.) соответствует принципу «волны звучности», следуя которому, можно с высокой точностью разбить текст на слоги, после чего небольшой процент ошибок может быть легко исправлен вручную. В дальнейшем планируется дополнить анализ ритмики иктов, во-первых, анализом ритмики сверхсхемных ударений и, во-вто рых, анализом словораздельных вариаций стихотворной строки (Г. А. Шенгели называл их «ритмическими модуляциями») [Шенге ли 1923; Гаспаров 1974, с. 15, 207 – 219] — то есть анализом важнейших ритмических факторов силлаботоники после ритмики схемных уда
НКРЯ верстка4.indd 307
22/06/2009 17:48
308
И. А. Пильщиков, А. С. Старостин
рений. Для того, чтобы автоматизированный анализ сверхсхемной и словораздельной ритмики стал возможен, необходимо решить проблему акцентологической разметки моно- и полисиллабических клитик (то есть графически выделенных слов, не несущих само стоятельного ударения). В конечном счете это позволит решить проблему автоматического разбиения текста на «фонетические» и «метрические» слова (см. ниже). 5. Существует два упрощенных подхода к ритмике моносиллабов — условно говоря, «стиховой» и «языковой». При первом подходе од носложники — вне зависимости от их грамматической характери стики — считаются ударными, если попадают на икт, и безударны ми, если попадают на метрически безударное место. Второй поход, напротив, учитывает только грамматическую характеристику од носложников: им приписывается ударность или безударность в со ответствии со словарем А. А. Зализняка, без учета их места в стихе. В действительности моносиллабы должны быть разбиты не на две, а, как минимум, на три категории [Гаспаров 1974, с. 131–137]: 1) обязательно ударные, 2) обязательно безударные (собственно клитики), 3) атонирующиеся либо неатонирующиеся на метрически безудар ном месте в зависимости от синтаксической конструкции, в ко торую они входят (это «проблемные» клитики или, как их еще называют, «полуударные слова»)6 . Без правильного учета клитик невозможен подсчет ритмики слово разделов и сверхсхемных ударений (эту проблему сейчас изучают К. А. Головастиков и С. Е. Ляпин). Сложность проблемы клитик определяется тремя аспектами. Во-первых, наряду с клитиками, имеющими постоянное положение относительно опорного слова, существуют такие, которые могут находиться как в препозиции, так и в постпозиции по отношению к нему (Шалун у ж з а м о р о з и л пальчик и Онегин верно ж д е т у ж нас). Во-вторых, слово может принимать либо не принимать ударение в зависимости от разных факторов: от места в стихе (на метрически ударном или метриче ски безударном слоге), от синтаксической роли, от места во фра 6
Этим кругом вопросов (правда, не на стихотворном, а на прозаическом материале) занимается С. А. Крылов [Крылов 2006a, 2006b, 2008].
НКРЯ верстка4.indd 308
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
309
зе (под фразовым ударением или без него) и даже от частеречной принадлежности и, соответственно, реализуемого значения (среди служебных слов чрезвычайно развита омонимия). Наконец, очень усложняет автоматическую разметку клитик способность самостоя тельной части речи атонироваться, а служебной — принимать уда рение, как в примере Со сна´ садится в ванну со´ льдом (где первый предлог со безударен, а второй ударен). Однако даже сумев правильно разметить фонетические слова, мы не решим окончательно те задачи, которые ставит перед нами наука о стихе. Стих накладывает на текст свое собственное, специ фически стиховое (а не только общеязыковое) членение. Для под счета ритмики словоразделов стиховеды ввели единицу, которую М. Л. Гаспаров условно назвал «метрическим словом» (это группа слогов, объединенных вокруг одного метрического ударения) [Гас паров 1974, с. 144–145, 169–173 и др.]. Без введения этой единицы вряд ли возможно эффективно обобщать результаты подсчетов: при разбиении на фонетические слова в четырехстопном ямбе сущест вует около двухсот словораздельных вариаций строки, а подсчет по метрическим ударениям сводит это число к сорока. Выделение метрических слов, обычно осуществляемое стиховедом интуитивно, должно быть формализовано с учетом разных факторов, играющих роль при интонационном членении поэтического текста, в первую очередь с учетом синтаксиса. (Так, в строке из «Евгения Онегина» Давал три бала ежегодно метрическим словом является словосоче тание три бала, а вовсе не Давал три, поскольку синтаксическая связь меж ду числительным три и существительным бала сильнее, чем между глаголом Давал и числительным три.) Для достижения значимых результатов в этой области необходи мо в первую очередь автоматизировать процесс выделения фоне тических слов, составив словарь постоянно-безударных служебных моносиллабов и изучив механизмы их присоединения к значимым словам. Затем должен быть разработан алгоритм выделения «мет рических слов»: в цепочке графических слов каждые 1, 2 или более слов составляют слово фонетическое (при этом фонетические сло ва не пересекаются); в цепочке фонетических слов каж дые 1, 2 или более слов составляют слово метрическое (при этом метрические слова не пересекаются). Таким образом, множество «метрических»
НКРЯ верстка4.indd 309
22/06/2009 17:48
310
И. А. Пильщиков, А. С. Старостин
словоразделов мыслится как подмножество множества словоразде лов «фонетических». Следующим шагом в этом направлении должно стать использо вание компьютерной модели синтаксиса для выделения фонетиче ских и метрических слов и анализа «глубины» словоразделов. Рас смотрение системы словоразделов значимо, так как ритм строки, помимо прочего, может зависеть (как считал, например, Р. О. Якоб сон) от «метрической структуры заполняющих ее слов», то есть от «закономерностей распределения по строке словоразделов и их взаимодействия с системой оппозиций ударений» [Якобсон 1979]. Описание системы словоразделов будет неполным, если не учи тывать, что словоразделы «неодинаковы по величине»: иерархия словоразделов (что показал еще Люсьен Теньер в «Основах струк турного синтаксиса») «соответствует иерархии синтаксических свя зей» [Теньер 1988]. 6. Из вышеизложенного ясно, что ключом к решению целого ря да лингвостиховедческих вопросов является автоматизированный поверхностно-синтаксический анализ стиха. Возможность автома тического построения набора синтаксических структур, реализо ванных в стихотворном тексте, позволит исследователям (помимо оптимизации процессов снятия омонимии) решать такие актуаль ные задачи современного стиховедения, как • изучение распределения синтаксических связей внутри строки, • автоматический подсчет силы межстрочных связей, • изучение синтаксической организации строф и строфоидов.
Clause w на (P...)
НКРЯ верстка4.indd 310
adv
PREPG
w
preposit улица (N,f,inan...)
стемнеть (V,pf)fin,ind,pa...
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
311
Над компьютерной моделью русского синтаксиса и программой морфолого-синтаксического анализа работает А. С. Старостин. Про грамма оснащена графическим интерфейсом, который позволяет снабжать тексты тринотациями при помощи различных программ ных ресурсов (морфологического анализатора, фрагментатора и т.п.), а также редактировать отдельные тринотации вручную. Это даст возможность корректировать ошибки автоматических анализато ров. В системе предусмотрена возможность выгрузки текущего со стояния разметки в текстовый файл формата XML. Благодаря этому результаты работы можно загружать в систему хранения аннотаций. В модели синтаксиса использована оригинальная формальная сис тема, автором которой является А. С. Старостин [Мальковский, Ста ростин 2006] (идейно система восходит к работам А. В. Гладкого: [Гладкий 1985] и др.). Основные положения этой формальной систе мы хорошо выражаются в терминах тринотаций. Тринотация — это аннотация, которой приписан лес (множество корневых деревь ев), в узлах которого стоят другие тринотации, а дугам приписа ны синтаксические связи7 . Дополнительно выделяется служебный тип связи, символизирующий то, что одна тринотация является составляющей другой. Для описанной структуры должен выпол няться ряд аксиом, приведенных в [Мальковский, Старостин 2006]. На соседней странице приводится пример тринотации (пунктиром обозначены служебные связи). Все допустимые имена связей перечислены в синтаксической мо дели. Кроме того, для спецификации сочетаемости тринотаций используется специальный формализм, представляющий собой систему декларативных правил. Каж дое правило выражает один из двух смыслов: при условии, что некоторые тринотации удов летворяют определенным ограничениям (например, согласуются по атрибутам), они могут соединяться связью либо в рамках не кой уже существующей (контекстной) тринотации, либо в рамках некоторой новой тринотации (агрегат, составляющая), которая, в свою очередь, попадает внутрь контекстной тринотации. Пер 7 Корневым деревом называют ориентированное дерево (связный ацик ли ческий граф), в котором выделяются узлы трех видов: корень (узел, в которой не заходит ни одна дуга), терминальные узлы (листья) и промежуточные (нетерминальные) узлы (ветви).
НКРЯ верстка4.indd 311
22/06/2009 17:48
312
И. А. Пильщиков, А. С. Старостин
вый вариант соответствует обычному для модели дерева зави симостей выделению зависимости меж ду единицами, а второй соответствует обычному для модели составляющих выделению агрегата, который наделяется собственными синтаксическими атрибутами. О полнофункциональной реализации модели говорить пока рано, но первоначальное наполнение системы синтаксическими пра вилами уже произведено. Предстоит тщательная формализация тонких моментов русского синтаксиса, таких, как, например, по ведение частиц. Особый интерес для лингвостиховедческой про блематики представляют те синтаксические явления, которые ха рактерны для русской поэтической речи в большей степени, чем для прозаической. 7. Если взглянуть на ритмический анализ стихотворной строки с точки зрения возможностей его автоматизации, то в нем можно выделить четыре основных этапа: 1) расстановка ударений на основании морфологического анализа с автоматическим снятием омонимии при помощи синтаксиче ского анализа и сопоставления ритмических гипотез с метриче ской схемой; 2) регистрация сверсхемных ударений и выделение фонетических слов на основании идентификации клитик и анализа ударности моносиллабов; 3) выделение метрических слов путем соотнесения фонетических словоразделов с метрической схемой;
4) измерение соотносительной глубины словоразделов на ос новании синтаксического анализа строки и ее контекстного окружения. Анализ внутристрочных синтаксических связей должен идти еще в одном направлении: в сторону регистрации повторяющихся час теречевых последовательностей и других ритмико-грамматических формул и клише. Современная терминология, описывающая эти явления, была предложена М. Л. Гаспаровым [Гаспаров 1986] и несколько моди фицирована М. И. Шапиром [Шапир 2000, с. 380], который пред
НКРЯ верстка4.indd 312
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
313
ложил различать: 1) ритмические формулы (в образовании которых участвуют ритм и лексика), 2) ритмико-грамматические клише (в образовании которых уча ствуют ритм и грамматика), 3) ритмико-грамматические формулы (в образовании которых участвуют ритм, грамматика и лексика), 4) тавтологические стихи. Автоматическая регистрация и поиск перечисленных явлений по зволит сопоставлять по заданным и свободным параметрам одно язычные и разноязычные тексты и наборы текстов (например, ори гинал и пародии на него, подлинник и его переводы, подлинные и дубиальные произведения и т.д.). Помимо внутристрочного синтаксиса в дальнейшем необхо димо будет перейти к автоматизированному анализу силы меж строчных связей и — на основе последнего — к автоматическому анализу синтаксической организации строф и строфоидов. Эта проблема была поставлена в пионерском исследовании Г. О. Ви нокура [Винокур 1941], а новые подходы к ее изучению были найдены М. Л. Гаспаровым, Т. В. Скулачевой, М. Г. Тарлинской и М. И. Шапиром [Гаспаров, Скулачева 1993, 1999; Гаспаров 2001; Тарлинская 2000; Шапир 1999a, 2000, с. 163–164, 2003]. Представ ляется, что автоматизированная синтаксическая разметка стиха (с последующим филологическим редактированием) позволит по ставить вопрос об измерении силы грамматических связей на более прочную почву и ответить на целый ряд вопросов, сформулирован ных учеными — первооткрывателями этого научного направления.
Литература Аванесов 1972 — Аванесов Р. И. Русское литературное произношение. Изд. 5-е, перераб. и доп. М., 1972. Вигурский, Пильщиков 2003 — Вигурский К. В., Пильщиков И. А. Фи лология и современные информационные технологии: (К поста новке проблемы) // Известия РАН. Серия литературы и языка. 2003. Т. 62, № 2. С. 9–16.
НКРЯ верстка4.indd 313
22/06/2009 17:48
314
И. А. Пильщиков, А. С. Старостин
Винокур 1941 — Винок ур Г. Слово и стих в «Евгении Онегине» // Пуш кин: Сборник статей / Под ред. А. Еголина. М., 1941. С. 155–213. Гаспаров 1974 — Гаспаров М. Л. Современный русский стих: Метрика и ритмика. М., 1974. Гаспаров 1986 — Гаспаров М. Л. Ритмико-синтаксическая формуль ность в русском 4-стопном ямбе // Проблемы структурной лин гвистики 1983. М., 1986. С. 198. Гаспаров 2001 — Гаспаров М. Л. Синтаксическая структура стихо творной строки // Славянский стих: Лингвистическая и при кладная поэтика. Материалы меж дународной конференции 23–27 июня 1998 г. М., 2001. С. 121–129. Гаспаров, Скулачева 1993 — Гаспаров М. Л., Скулачева Т. В. Ритм и синтаксис в свободном стихе // Очерки истории языка русской поэзии ХХ века: Грамматические категории; Синтаксис текста. М., 1993. С. 20–43. Гаспаров, Скулачева 1999 — Гаспаров М. Л., Скулачева Т. В. Синтак сис четырехстопного полноударного ямба // Поэтика. История литературы. Лингвистика: Сборник к 70-летию Вяч. Вс. Иванова. М., 1999. С. 93–101. Гладкий 1985 — Гладкий А. В. Синтаксические структуры естествен ного языка в автоматизированных системах общения. М., 1985. Крылов 2006a — Крылов С. А. Фонетическое слово и его корреляты в русском письменном тексте (с точки зрения корпусной лин гвистики) // Корпусная лингвистика-2006. Труды международ ной конференции, 10–14 октября 2006 г. СПб., 2006. С. 190–200. Крылов 2006b — Крылов С. А. Фонетическое слово и его корреля ты в русском письменном тексте (с точки зрения корпусной лингвистики) // Пятая выездная школа-семинар «Порождение и восприятие речи». Череповец, 2006. С. 66–96. Крылов 2008 — Крылов С. А. О частотном словаре фонетических слов // Фонетика и нефонетика: К 70-летию Сандро В. Кодзасо ва. М., 2008. С. 387–399. Мальковский, Старостин 2006 — Мальковский М. Г., Старостин А. С. Модель синтаксиса в системе морфосинтаксического анализа «Treeton» // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая — 4 июня 2006 г.). М., 2006. С. 481–492.
НКРЯ верстка4.indd 314
22/06/2009 17:48
Автоматизированный анализ силлабо-тонических текстов
315
Перцов 2000 — Перцов Н. В. О неоднозначности в поэтическом языке // Вопросы языкознания. 2000. № 3. С. 55–82. Перцов 2006 — Перцов Н. В. Об одном случае акцентной вариант ности в русском литературном языке первой половины xix века // Известия РАН. Серия литературы и языка. 2006. Т. 65, № 5. С. 50–51. Теньер 1988 — Теньер Л. Основы структурного синтаксиса / Пер. с франц. под общ. ред. В. Г. Гака. М., 1988. С. 37–38. Шапир 1995 — Шапир М. И. «Versus» vs «prosa»: пространство-время поэтического текста // Philologica. 1995. Т. 2, № 3/4. С. 7–47. Шапир 1999a — Шапир М. И. Ритм и синтаксис ломоносовской оды: (К вопросу об исторической грамматике русского стиха) // По этика. История литературы. Лингвистика: Сборник к 70-летию Вяч. Вс. Иванова. М., 1999. С. 55–79. Шапир 1999b — Шапир М. И. Язык поэтический // Введение в лите ратуроведение: Литературное произведение: основные понятия и термины. М., 1999. С. 6. Шапир 2000 — Шапир М. И. Universum versus: Язык — стих — смысл в русской поэзии xviii—xx веков. М., 2000. Кн. 1. Шапир 2003 — Шапир М. И. Три реформы русского стихотворного синтаксиса: (Ломоносов — Пушкин — Иосиф Бродский) // Во просы языкознания. 2003. № 3. С. 31–78. Шапир 2005 — Шапир М. И. «Тебе числа и меры нет»: О возможно стях и границах «точных методов» в гуманитарных науках // Вопросы языкознания. 2005. № 1 (см. по расшир. переизд. в кн.: Ярхо Б. И. Методология точного литературоведения: Избранные труды по теории литературы. М., 2006. С. 883–885). Шенгели 1923 — Шенгели Г. Трактат о русском стихе. Изд. 2-е, пере раб. М.; Пг., 1923. Ч. I: Органическая метрика. С. 38, 57 сл., 138 сл. Яглом 1980 — Яглом И. М. Математические структуры и математи ческое моделирование. М., 1980. С. 13–14. Якобсон 1979 — Якобсон Р. Ретроспективный обзор работ по теории стиха [1979] / Пер. с англ. М. Л. Гаспарова // Якобсон Р. Избран ные работы. М., 1985. С. 255. Empson 1930 — Empson W. Seven Types of Ambiguity. London, 1930.
НКРЯ верстка4.indd 315
22/06/2009 17:48
vi.
Перспективы использования НКРЯ в различных областях Образование
НКРЯ верстка4.indd 316
22/06/2009 17:48
С. О. Савчук, Д. В. Сичинава
Обучающий корпус русского языка и его использование в преподавательской практике
адобность в создании Обучаю щего корпуса русского язы ка («ОК, русский язык!», или окря) возникла уже спустя год-два после возникновения «большого» Национального корпуса русского языка. Дело в том, что 2005–2007 годы стали этапом решающего «прорыва» и даже, можно сказать, «бума» в использовании Корпуса как средства обу чения русскому языку в высшей и средней школе. Впечатляющие творческие результаты в самых разных областях обучения русскому языку изложены в статье [Добр ушина 2005], где данная проблема тика, насколько мы понимаем, была представлена научному и об разовательному сообществу впервые. При помощи Национально го корпуса можно буквально в мгновение ока составлять самые разные задания для студентов, во многих отношениях превосхо дящие устаревшие и по необходимости «высосанные из пальца» упражнения и примеры современных пособий. Как употребляется в современной журналистике архаичная лексика? А чем одушев Надобность в создании обучающего корпуса русского языка («ОК, русский язык!», или ОКРЯ) возникла уже спустя год-два после возникновения «большого» Национального кор пуса русского языка. Дело в том, что 2005–2007 годы стали этапом решающего «прорыва» и даже, можно сказать, «бума» в использовании Корпуса как средства обучения русскому языку в высшей и средней школе. Впечатляющие творческие результаты в самых разных областях обучения русскому языку изложены в статье [Добрушина 2005], где данная про блематика, насколько мы понимаем, была представлена научному и образовательному сообществу впервые. При помощи Национального корпуса можно буквально в мгновение ока составлять самые разные задания для студентов, во многих отношениях превосходящие устаревшие и по необходимости «высосанные из пальца» упражнения и примеры современ ных пособий. Как употребляется в современной журналистике архаичная лексика? А чем одушевлённый персонаж отличается от неодушевлённого? Мы не говорим уже о созда нии простейших упражнений типа «расставить запятые» или «подобрать однокоренные слова». Оказывается, что при помощи нашего Корпуса можно делать даже экспертизу существующих учебных пособий, например, найти ответ на вопрос о том, надо ли застав лять школьников учить правило Надобность в создании обучающего корпуса русского языка («ОК, русский язык!», или ОКРЯ) возникла уже спустя год-два после возникновения «большого» Национального корпуса русского языка. Дело в том, что 2005–2007 годы стали этапом решающего «прорыва» и даже, можно сказать, «бума» в использовании Корпуса как средства обучения русскому языку в высшей и средней школе. Впечатляющие твор ческие результаты в самых разных областях обучения русскому языку изложены в статье [Добрушина 2005], где данная проблематика, насколько мы понимаем, была представлена научному и образовательному сообществу впервые. При помощи Национального корпу са можно буквально в мгновение ока составлять самые разные задания для студентов, во многих отношениях превосходящие устаревшие и по необходимости «высосанные из пальца» упражнения и примеры современных пособий. Как употребляется в современной журналистике архаичная лексика? А чем одушевлённый персонаж отличается от неоду шевлённого? Мы не говорим уже о создании простейших упражнений типа «расставить запятые» или «подобрать однокоренные слова». Оказывается, что при помощи нашего Корпуса можно делать даже экспертизу существующих учебных пособий, например, найти ответ на вопрос о том, надо ли заставлять школьников учить правило Надобность в созда нии обучающего корпуса русского языка («ОК, русский язык!», или ОКРЯ) возникла уже спустя год-два после возникновения «большого» Национального корпуса русского языка. Дело в том, что 2005–2007 годы стали этапом решающего «прорыва» и даже, можно сказать, «бума» в использовании Корпуса как средства обучения русскому языку в высшей и средней школе. Впечатляющие творческие результаты в самых разных областях обучения русско му языку изложены в статье [Добрушина 2005], где данная проблематика, насколько мы понимаем, была представлена научному и образовательному сообществу впервые. При
НКРЯ верстка4.indd 317
22/06/2009 17:48
318
С. О. Савчук, Д. В. Сичинава
лённый персонаж отличается от неодушевлённого? Мы не говорим уже о создании простейших упражнений типа «расставить запятые» или «подобрать однокоренные слова». Оказывается, что при по мощи нашего Корпуса можно делать даже э к с п е р т и з у сущест вующих учебных пособий, например, найти ответ на вопрос о том, надо ли заставлять школьников учить правило расстановки запятых в такой-то конструкции или не надо (поскольку такая конструкция в современных текстах просто не встречается ни разу). А это всего лишь немногие примеры из статьи Н. Р. Добрушиной. В 2007 году в Высшей школе экономики состоялась конференция «Национальный корпус русского языка и проблемы гуманитарно го образования», был проведён методический семинар для учите лей из регионов. По итогам конференции был издан одноименный сборник1 , демонстрирующий самые разные подходы к корпусу как средству образования: здесь и изучение иностранными студентами тонкостей употребления русских слов зачем и почему [Бьяджини 2007], и преподавание риторики [Левинзон 2007], и анализ кон цептов-мифологем на университетских занятиях [Абыякая 2007], и обучение школьника деловому стилю [Кыркунова 2007] — в об щем, многое такое, о чём мы при создании Корпуса специально не думали или вообще не догадывались. При этом выяснилось, что создание для обучающих целей под корпуса текс тов со снятой омонимией, специа льным образ ом отобранного и отредактированного, выглядит самостоятельной насущной задачей (разумеется, не отменяющей работы учителя и ученика также с «большим» нкря, а для ряда сложных заданий в вузах — и требующей её). При всех своих достоинствах Национальный корпус русского языка не всегда может безоговорочно использоваться в качестве корпуса обучающего, особенно ориентированного на среднюю об щеобразовательную школу. Причин тому несколько. Националь ный корпус русского языка создавался с ориентацией на решение самого широкого круга задач. Предполагалось и предполагается, что к нему могут обращаться все, кому интересны те или иные явления, связанные с языком — лингвисты, литературоведы, про 1
Национальный корпус русского языка и проблемы гуманитарного образо вания. М., ТЕИС, 2007.
НКРЯ верстка4.indd 318
22/06/2009 17:48
Обучающий корпус и его использование
319
граммисты, работающие над автоматическим анализом естествен ного языка, редакторы и другие. Режим подачи текстов и разметки был соответственно разработан максимально «демократический», не ограничивающий какую-то группу пользователей в решении своих задач. Так, нормализация орфографии и особенно пунктуации в На циональном корпусе минимальна: тексты сохранены в виде, наи более близком к тому, в котором они функционируют реально, что может представлять большую ценность для лингвиста (редактора и т. п.), интересующегося не кодифицированной нормой, а реаль ным узусом, частотностью тех или иных вариантов и т. п. Понятно, что такой подход неприемлем для обучающего корпуса, где орфо графия и пунктуация должна быть приближена к норме, изучаемой в общеобразовательной школе. Далее, значительный объём Национального корпуса диктует то, что омонимия слов с различными грамматическими разборами (по падающиеся на каждом шагу случаи вроде печь — существительное и печь — глагол, большой — именительный и винительный падеж мужского рода, родительный, дательный, творительный и пред ложный женского рода) снята (автоматически с ручной коррек цией) лишь в нескольких процентах текстов. Изучение языка в не профильном институте и тем более в школе — это преж де всего изучение ригористической литературной грамматической нормы и «школьной» грамматической модели (в последние годы размы вающейся в разнообразных пособиях и у разных преподавателей, но в основных чертах довольно устойчивой). Школьного и даже вузов ского преподавателя могут смутить и затруднить такие черты нкря, как неснятая омонимия в большинстве текстов, отсутствие помет словоизменительных категорий (первое, второе и третье склоне ние), а в других случаях — чрезмерная для нужд непрофессионала «дробность» частеречных и словоизменительных помет. В Обучаю щем корпусе (имеющем сравнительно небольшой объём) таких решений, которые могут поставить ученика и учителя в тупик, быть не должно; во всяком случае, без труда разграничиваемые случаи вроде вышеприведённого должны быть приведены к однозначному разбору. Наконец не очень подходит для Обучающего корпуса столь же предельный «демократизм», принятый в подборе текстов для
НКРЯ верстка4.indd 319
22/06/2009 17:48
320
С. О. Савчук, Д. В. Сичинава
корпуса; тексты, предлагаемые для обучения в школе, нуждаются в более тщательном отборе с дополнительным привлечением не скольких специфических критериев. С точки зрения состава текстов имеет, в частности, смысл поиск баланса между произведениями школьной программы по литературе, научными и художественны ми текстами, жанры которых изучаются в современной школе. Созданный согласно этим задачам Обучающий корпус русско го языка с ноября 2007 г. доступен в Интернете по адресу: http:// ruscorpora.ru/search-school.html. Ниже мы изложим ряд конкретных задач, появившихся при соз дании Обучающего корпуса, и принятых в связи с этим решений. 1. Состав корпуса 1.1. Сбалансированность и проблема определения функционального стиля Поскольку школьный курс русского языка предполагает обучение учащегося всем функциональным разновидностям русской речи, корпус должен включать в себя тексты, принадлежащие к различ ным сферам употребления языка: художественная литература, пуб лицистика, деловая, научная, разговорная речь. Таким образом, возможна постановка такой задачи, как анализ употребления слов, словосочетаний, грамматических форм в том или ином функцио нальном стиле русского языка. На данном этапе имеется методическая проблема, связанная c отнесением конкретного текста к тому или иному функциональ ному стилю (например, интервью учёного по разным формальным признакам, в том числе и упоминаемым в педагогической литерату ре, может быть отнесено и к учебно-научной, и к публицистической, и к устной речи). Кроме того, очевидно, что тот принцип пропорционального ба лансирования текстов различных жанров, который принят в Нацио нальном корпусе русского языка,— где, например, публицистические и научные тексты заметно превосходят художественные,— прямо на обучающий корпус перенести нельзя. «Литературоцентричность» школьного обучения продолжает оставаться выраженной, и объём художественных текстов должен составлять всё же не менее двух
НКРЯ верстка4.indd 320
22/06/2009 17:48
Обучающий корпус и его использование
321
третей от корпуса. Критерий литературного регистра, о котором ни же, препятствует и широкому включению в корпус записей устной речи. При этом публицистика и учебно-научные тексты в корпусе представлены довольно широко и разнообразно. Специфически методическую роль играют критико-филологические тексты, при нимая во внимание роль школьного курса словесности в подготовке к написанию сочинения, — это классики критического жанра, такие как Белинский и Гончаров, и современные филологи. Но в корпус включаются, разумеется, также и иные научные тексты, а также образцы официально-делового стиля. Навыки в создании такого рода текстов являются первоочередными для каждого грамотного человека. Ср. опыт обучения деловому стилю при помощи Нацио нального корпуса, представленный в [Кыркунова 2007]. Соображения баланса указывают, что тексты одного автора или схожей тематики не должны занимать в корпусе более 3% от его общего объёма (в данном случае — 20 тысяч слов от 630 тысяч со вокупного объёма). Большие по объем у тексты было решено вклю чить не целиком, а в виде фрагментов — нескольких глав, частей. 1.2. Проблема просторечия и нестандартных форм Так как школьные и вузовские курсы представляют собой курс русского литературного (стандартного в зарубежном понимании) языка, то корпус должен включать в себя лучшие образцы русской литературной речи, а также нейтральные образцы разговорной речи (в том числе письменной, такие, как письмо и дневник). Тек сты, активно использующие просторечие, при включении в кор пус должны избегаться, однако практика показывает, что разумно делать иск лючения для таких культурно значимых текстов, как, например, «Недоросль» Фонвизина, где просторечие используется для создания речевой маски некоторых героев. Это же относится и к встречающимся в литературе xviii–xx вв. устаревшим грамма тическим формам (которые даются со специальной пометой «ано мальная форма»). 1.3. Подбор текстов и школьная программа Выбор образцовых художественных текстов сам по себе представ ляет сложную и довольно субъективную проблему, но примени
НКРЯ верстка4.indd 321
22/06/2009 17:48
322
С. О. Савчук, Д. В. Сичинава
тельно к школьному преподаванию эта канонизирующая роль уже выполнена существующей школьной программой, которая задаёт хрестоматийный канон как имён, так и текстов. Подкорпус худо жественной литературы в Обучающем корпусе включает в себя преимущественно те произведения, которые входят в школьный курс и/или в программу для абитуриентов по русской литерату ре xviii–xx вв., или (в небольшом числе случаев) другие произве дения тех же авторов. Для общеязыкового фона добавлены также в небольших количествах произведения ряда авторов, не входящих в школьную программу, но язык которых показателен для русско го языка середины — второй половины ХХ в. (И. Грекова, Татьяна Толстая и другие). 1.4. Подбор текстов и орфографическая выверенность Тексты, входящие в корпус, исправлены с точки зрения соответст вия их орфографических и пунктуационных характеристик требо ваниям русской орфографии и пунктуации. Нужно отметить, что реальные тексты, включая даже тексты художественной литера туры, в ряде случаев от этого идеала отк лоняются. Особенно это относится к текстам xix–xx в., если речь идёт о художественной литературе (хорошо известная каждому школьному учителю про блема «авторской орфографии»); здесь мы просто следуем устояв шейся практике школьных изданий, в большинстве случаев норма лизующей орфографию, а в ряде случаев и пунктуацию классиков. Что касается бытовых текстов, текстов публицистики (восходящих к электронным версиям газет) и иных нехудожественных жанров, то здесь составители корпуса по мере обнаружения недочётов вы полняют функцию корректора (там, где публикации не было или же она оказалась почему-либо неудовлетворительной с точки зрения целей Обучающего корпуса). 1.5. Состав и структура Обучающего корпуса На ноябрь 2007 г. корпус содержит 216 текстов совокупным объёмом 630 тысяч словоупотреблений. Распределение текстов по основным разделам (соответствующим одной или нескольким функциональ ным сферам текста) таково:
НКРЯ верстка4.indd 322
22/06/2009 17:48
Обучающий корпус и его использование
323
Художественные тексты
385 259
61%
Официально-деловые тексты Публицистические тексты (включая ме муары) Разговорные тексты (устная публичная, непубличная речь, бытовая переписка) Учебно-научные тексты Всего
24 658 143 133
4% 23%
25 032
4%
52 162 8% 630 244 100%
В работе над определением состава Корпуса принимали участие Е. В. Рахилина, С. О. Савчук и Д. В. Сичинава. Консультацию и экс пертизу осуществляли Н. Р. Добрушина и А. И. Левинзон. 1.5.1. Художественные произведения Среди художественных произведений на ноябрь 2007 г. представ лены тексты следующих авторов: xviii век — Д. И. Фонвизин. xix век — С. Т. Аксаков, В. М. Гаршин, А. И. Герцен, Н. В. Гоголь, И. А. Гончаров, Ф. М. Достоевский, М. Ю. Лермонтов, Н. С. Лес ков, Д. Н. Мамин-Сибиряк, А. С. Пушкин, М. Е. Салтыков-Щедрин, Л. Н. Толстой, И. С. Тургенев, А. П. Чехов. xx век — В. П. Аксенов, Л. Н. Андр еев, Г. Я. Бакланов, М. А. Бул гаков, И. А. Бунин, Г. Газданов, И. Грекова, Ю. О. Домбровский, Э. Г. Казакевич, В. Г. Короленко, А. И. Куприн, В. Г. Распутин, Т. Н. Толстая, В. Т. Шаламов, В. М. Шукшин. Представлены следующие типы текстов: роман, повесть, рас сказ, сказка, очерк, киноповесть, пьеса. Хронотоп (место и время происходящих событий) большинст ва произведений связан с Россией соответствующей эпохи, однако представлен и фантастический мир (в сказке), и европейский хро нотоп разных веков («Ася» Тургенева, «Обезьяна…» Домбровского). Преобладают произведения, выдержанные в нейтральном стиле своей эпохи. Представлены также немногочисленные тексты с тем или иным отпечатком индивидуально-авторского стиля (Н. С. Лесков, Т. H. Толстая) либо просторечия (Д. И. Фонвизин, В. М. Шукшин).
НКРЯ верстка4.indd 323
22/06/2009 17:48
324
С. О. Савчук, Д. В. Сичинава 1.5.2. Публицистика
Отдел публицистики включает в себя, помимо публикаций и заме ток из прессы xx — начала xxi в., также критические тексты В. Г. Бе линского и И. А. Гончарова, очерково-мемуарную прозу А. Ф. Кони, Даниила Гранина, Ирины Архиповой, Игоря Кио. Основной принцип отбора текстов заключался в том, чтобы как можно полнее представить палитру современной прессы. Поэтому в корпус включены тексты как центральных газет и журналов («Из вестия», «Труд», «Аргументы и факты», «Итоги», «Еженедельный журнал», «Октябрь», «Юность»), так и местных («Вечерняя Москва», «Московский комсомолец», «Время МН», «Новороссийский рабочий», «МК в Саранске»). Наряду с периодикой общественно-политической тематики включены специализированные издания, ориентиро ванные на определенный круг тем — например, «Computerworld» (компьютеры); «Бизнес-журнал» (бизнес, экономика); «Поиск» и «Знание — сила» (наука); «Экран и сцена», «Народное творчест во» (искусство); «100% здоровья» (медицина и здоровье); «За рулем», «Автопилот» (автомобили); «Домовой», «Сад своими руками» (досуг, домоводство). При отборе текстов учитывалась и целевая аудитория изданий: в частности, в корпус включены тексты из детских, моло дежных («Мурзилка», «Трамвай», «Столица») и женских журналов («Даша», «Лиза»). Жанровый состав текстов разнообразен и отражает требования школьной программы: новостное сообщение, статья, интервью, ре портаж, очерк, отчет, рецензия, эссе. Разнообразие типов изданий, собранных в корпусе, позволит получить представление о моди фикациях основных жанровых типов в зависимости от тематики и направленности издания (например, интервью в деловой газете, в журнале для семейного досуга и в молодежном журнале при со блюдении общих принципов будут отличаться по отбору тем, стра тегии диалога и составу языковых средств). 1.5.3. Учебно-научные тексты Раздел учебно-научных текстов включает как предназначенные для квалифицированного читателя статьи из научных журналов, так и (в большинстве) научно-популярные статьи и публикации из
НКРЯ верстка4.indd 324
22/06/2009 17:48
Обучающий корпус и его использование
325
такой прессы, как «Знание — сила», «Первое сентября» и др. Пред ставлены следующие типы текста: аннотация к научной статье, ре цензия, статья. Наряду с академическими собственно научными текстами (на учная статья, рецензия, аннотация, реферат) включены заметки, интервью из научно-популярных журналов. Среди авторов учебнонаучных статей и интервью — филологи М. М. Бахтин, Ю. М. Лотман, психолог А. Н. Леонтьев, математик В. А. Успенский. 1.5.4. Разговорные тексты В этом небольшом разделе объединены такие тексты, как записи устной речи (интервью, дискуссия, беседа, телефонный разговор), а также непринуждённые письменные тексты, относящиеся к бы товой сфере (дневники и письма). 1.5.5. Официально-деловые тексты В данном разделе представлены подлинные законы, договоры, ха рактеристики, деловые письма, доверенности и некоторые другие типы текстов, характерные для официально-деловой письменности. Документы относятся к разным сторонам жизни — общественнополитической, бизнесу, праву, науке. Деловая речь представлена всеми жанрами, изучаемыми в вузе и школе: закон, договор, приказ, протокол, автобиография, резюме, заявление, расписка, деловое письмо и пр. 2. Усовершенствование морфологической разметки П р и н ц и п ы а д а п т а ц и и м о р ф о л о г и ч е с к о й л и н г в и с т и ч е с к о й р а з м е т к и к с т а н д а р т н ы м н о р м а т и в н ы м п о с о б и я м п о р у с с к о м у я з ы к у. Как уже было сказано выше, Обучающий корпус базируется на Национальном корпусе русского языка. Поскольку Национальный корпус ориентируется преж де всего на интересы профессиональ ных лингвистов, использующих современную научную термино логию, то эта внутренняя разметка (морфологическая и семан тическая) в Обучающем корпусе несколько упрощена и в целом адаптирована к требованиям школьной программы. При работе использовались следующие издания: Современный русский язык.
НКРЯ верстка4.indd 325
22/06/2009 17:48
326
С. О. Савчук, Д. В. Сичинава
М., 2002; Программа по русскому языку. 5–9-й классы. Под ред. ак. РАО А. А. Леонтьева. Основой лингвистической разметки в Корпусе является мор фологическая разметка, указывающая значения всех основных грамматических категорий русских слов — т.е., в школьных тер минах, дающая «грамматический разбор» каж дого слова. Конеч но, «грамматический разбор» в школьном понимании зачастую далек от современных научных представлений о том, как должны выглядеть грамматические характеристики исследуемого слова. Современная научная грамматика выделяет большее число па дежей у русского существительного, чем это принято в школе, иначе описывает противопоставление залоговых форм у глаго ла, более сложным образом трактует проблемы грамматической омонимии и разных форм слова и т.п. Однако для нужд школы в той части Корпуса, которая ориентирована на задачи школь ного преподавания и практическую помощь учителю-словесни ку, должен присутствовать именно традиционный, упрощенный грамматический разбор. Ещё одна особенность школьного преподавания — ориентация на орфографию. Во многом именно с необходимостью правильного написания слов и связан сам факт преподавания морфологии, «пра вописания приставок и суффиксов» в школе (при морфологическом принципе русского правописания это, действительно, неизбежная вещь). Знание о «первом и третьем склонении» полезно для того, чтобы не написать *в блокади и *в тетраде; о корне — для поис ка «проверочных слов», о приставке — для написания рас- и раз-, о падеже — для верного написания согласуемых адъективов (выбор между, допустим, –щем и –щим). Иногда это приводит и к прямому упрощению сущностей: например, в школе заучивают список гла голов ii спряжения с гласным инфинитива а или е (гнать, дышать, смотреть и видеть…), но в этот список входят только такие глаго лы, окончание которых оказывается без ударения и в написании ко торого возникает орфографическая проблема; над тем, что глаголы кричать или скрипеть также ii спряжения, в школе, как правило, не задумываются, поскольку их окончание всегда под ударением (при создании Обучающего корпуса полезно обратить внимание школьников на это обстоятельство).
НКРЯ верстка4.indd 326
22/06/2009 17:48
Обучающий корпус и его использование
327
Отсюда вытекают следующие решения, принятые при составлении и обработке Обучающего корпуса русского языка. Из Обучающего корпуса иск лючены некоторые дополнитель ные категории, используемые в современном научном описании русского языка: второй компаратив (на по-), счётная форма (два часа ´), звательная форма, местоимение-предикатив (некого, нече го). В то же время предусмотрена система дополнительного поиска тех форм, которые охватываются данными пометами. Особенности использования системы дополнительного поиска разъяснены в ин струкции для учителя. С другой стороны, в Обучающий корпус внесены дополнитель ные пометы на морфологическую классификацию лексики, исполь зуемую в школе (см. следующий подраздел). В Обучающем корпусе сводится к минимуму неоднозначность вида «краткие прилагательные — наречия — слова категории со стояния (предикативные наречия)»; «союзы — союзные слова (ме стоимения, местоименные наречия) — частицы». Все такие места специально проверялись (прежде всего Г. И. Кустовой). Р а с ш и р е н н ы й м о р ф о л о г и ч е с к и й с т а н д а р т. Морфологическая разметка Корпуса для нужд окря была пополне на новыми параметрами. Это преж де всего информация о типе словоизменения, вклю чающая в себя: • Стандартный инв ентарь трёх склонений (i склонение голо ва—головы, ii склонение стол — стола и iii склонение тет радь — тетради) пополнен также изучаемыми в школе особыми подтипами ii склонения на –ий, -ие и i склонения на –ия (сана торий, призвание, история), разносклоняемыми словами с –ен-, а также особыми морфологическими типами, такими, как адъ ективное склонение («склоняется как прилагательное»: военный, дежурная), склонение фамилий, слова только единственного и только множественного числа. • Типы спряжений: первое (болеть), второе (гасить), глаголы раз носпрягаемые (хотеть, бежать) и неправильные (есть, дать). Слова (в том числе отсутствующие в ранее использовавшемся грам матическом словаре корпуса) были распределены по типам скло
НКРЯ верстка4.indd 327
22/06/2009 17:48
328
С. О. Савчук, Д. В. Сичинава
нений и спряжений программно при помощи эвристики, ориен тирующейся на представленные в корпусе со снятой омонимией словоформы, с последующей ручной коррекцией получившегося грамматического словаря. В корпус внесена семантическая информация о лексико-грам матических разрядах частей речи, изучаемых в школе: • существительных (конкретные, абстрактные, вещественные, со бирательные); • прилагательных (относительные, притяжательные, качествен ные); • местоимений (личные, возвратное и т. п.). Для этой цели привлечён семантический словарь, использовавший ся при работе над Национальным корпусом русского языка (о нём подробнее см. [Кустова и др. 2005]), что потребовало в ряде случа ев редактирования словаря и изменения программы наложения признаков. В процессе работы над окря большую роль в усовершенство вании системы грамматических помет сыграли А. А. Аброскин, Н. В. Григорьев, Г. И. Кустова и О. Н. Ляшевская. Д о п о л н и т е л ь н а я г р а м м а т и ч е с к а я р а з м е т к а Тексты, отобранные для Обучающего корпуса русского языка, под вергались морфологической разметке разработанными коллекти вом программными средствами, с последующим редактированием результатов морфологической аннотации (общие сведения о дан ном — едином для Корпуса — технологическом процессе, включая инструкцию разметчика, отражены в публикациях [Поляков 2005], [Ляшевская, Плунгян, Сичинава 2005]). Ряд задач по дополнитель ной разметке текста и словаря (определение спряжения и склоне ния слов, разрядов части слов) выполнен алгоритмически, допол нительная корректировка материала — вручную. Принципиальным моментом работы является отсутствие в Обучающем корпусе тек стов с неснятой грамматической омонимией; двойной разбор до пускается лишь в случае реальной неоднозначности трактовки той или иной словоформы. Большинство текстов корпуса (за исключением небольшого ко личества художественных и официально-деловых текстов) прошли
НКРЯ верстка4.indd 328
22/06/2009 17:48
Обучающий корпус и его использование
329
полуавтоматическую акцентную разметку (расстановка ударений и буквы ё) на базе словаря с последующей ручной коррекцией омо нимичных случаев. Акцентуации не подвергались имена собствен ные, аномальные формы (поэтому, как правило, не кодифицир ованные с орфоэпической точки зрения) и слова, отсутствующие в Грамматическом словаре А. А. Зализняка. В работе над разметкой Обучающего корпуса русского языка принимали основное участие О. Л. Бирюк, Г. И. Кустова, Е. А. Пше хоцкая и Д. В. Сичинава. 3. Создание интерфейса пользователя и инструкции по пользованию корпусом Указанные усовершенствования и изменения режима разметки получают поддержку на уровне поискового интерфейса корпуса. Обучающий корпус организован в виде отдельного модуля в составе Национального корпуса русского языка; для пользования им раз работан самостоятельный поисковый интерфейс, учитывающий потребности преподавателей и учащихся и уровень их подготовки. В целях облегчения работы с Обучающим корпусом русского языка создана (Е. А. Гришиной) инструкция для потенциальных пользователей корпуса, написанная в доступной и наглядной фор ме (в настоящее время она размещена по адресу http://ruscorpora. ru/instruction-school.pdf). 4. Примеры образовательных задач, решаемых при помощи Обучающего корпуса При помощи Обучающего корпуса русского языка можно строить упражнения различного типа, в том числе недоступные при по мощи основного корпуса. Для создания упражнений достаточно провести минимальный отбор среди полученных в выдаче резуль татов; в ряде случаев наиболее эффективным оказывается поиск по сочетанию нескольких параметров (например, окончание слова на *еть + ii склонение + iii лицо). Вот несколько примеров. 1. Заполните пропуски (упражнение на типы склонения). При подготовке этого упражнения искались существительные второго склонения в предложном падеже; отдельно искался подтип скло
НКРЯ верстка4.indd 329
22/06/2009 17:48
330
С. О. Савчук, Д. В. Сичинава
нения на -ий и регулярный тип: • По их окончани... найденные на полях сражений останки фрон товиков со всеми почестями будут преданы земле на новгород ских воинских мемориалах. • 17 декабря в саранском профессиональном лице… №21 состоя лась научно-методическая конференция. • Только что она в радостном нетерпени… вспоминала пальцами клавиши, переворачивала воображаемые ноты. • В Европе в античные времена и в Средневековь… аконит был известен только как яд. • Он отметил, что взрыв произошёл в северной провинци… КНДР Янгандо, рядом с границей с Китаем. • Они проводили опыты в Нью-Йорке, в местном дельфинари… • Родились эти люди в снах, вышли из снов и прочнейшим образом обосновались в моей кель… 2. Заполните пропуски (упражнение на типы спряжения). Вёлся поиск разноспрягаемых глаголов и глаголов второго спряжения на -еть, -ать как в отклоняющейся форме (2 и 3 лицо настоящего времени), так и в форме прошедшего времени, где гласный у этой формы регулярный: • Ни ГК РФ, ни законодательство о страховании не содерж…т термин «характер ответственности». • Обращается особое внимание на то, что на территории соседне го Китая никто не вид…л и не слыш…л никаких взрывов. • Двигает рисунок ближе к себе, верт…т головой. • Фестиваль очень важен, потому что даёт новые впечатления, зрители вид…т новые формы. • У нас собрались мастерицы, прошедшие курсы лоскутного ши тья, которые умеют и (хотеть) шить современную одежду в на родном стиле, отталкиваясь от русской традиции. • «Полиров анная» — это когда нормальные шкурки стриг ут, бре…т, полируют по спецтехнологии и потом уже шьют пальто. • Все пришедшие просили у Филиппа Филипповича, все завис… ли от его ответа. • Кстати, это отчасти объясняет большую устойчив ость США
НКРЯ верстка4.indd 330
22/06/2009 17:48
Обучающий корпус и его использование
• • • •
•
331
и Англии к популярным в своё время идеям экспроприации, по тому что собственность в этих странах выгляд…т не как нечто единое, что можно забрать, а как запутанный социальный ин ститут, в котором ничего невозможно сделать в один ход. Дано самое невинное и безотказное кокетство — во всем: в том, как сидит, как расправляет трен или держ…т чашку. Кузов кареты и бричка начинают подпрыгивать по неровной до роге, и берёзы большой аллеи одна за другой (бежать) мимо нас. Выбежал из лесу — до будки сто сажен, не больше, осталось, слыш…т — на фабрике гудок загудел. Так вот, в 86 году я закончил школу и покорно пошёл на физфак, потому что мама и папа сказали: «Режиссёров всех разгон…т, а на военном заводе кусок хлеба будет всегда!» Как правило, результат по судебному делу завис…т от множе ства факторов.
3. В каких примерах слов а употреблены в конкретном, а в ка ких — в отвлечённом значении? Чтобы получить материал этого упражнения, нужно найти в корпусе лексемы, имеющие оба разбо ра — concr, abstr — семантическая неоднозначность не снята — а за тем подобрать примеры из поиска на каждое слово: • Работа поддержана РГНФ и Программой поддержки научных школ. • В 2002 г. мексиканские исследователи Карлос Веласко Масиас и Мануэль Неварес-де-лос-Рейес обнаружили не просто новый, никем ранее не виданный и не описанный кактус — они нашли растение, невообразимо отличающееся от всех, до сих пор из вестных. Настоящую химеру, сочетающую отличительные при знаки нескольких наиболее ярких представителей семейства. • Наверное, и погода (до этого дня холодная) ждала дня, когда у нас в Тверской области возродится древний праздник — День Ивана Купала. • Мне было важно показать, как совесть превращается в химеру. • В 1937 году, в школу, где я учился, нагрянула съёмочная группа, набиравшая актёров, персонажей для фильма. • Встаёт вопрос о необходимости более чёткого обоснования вы бора типовых методик для получения реальной картины уровня
НКРЯ верстка4.indd 331
22/06/2009 17:48
332
С. О. Савчук, Д. В. Сичинава
развития умственной работоспособности, следует также уточ нить область применения методик и правил служебного поль зования тестовым материалом психолога. 4. Найдите наречия причины и цели, подчеркните их по-разному (ср. [Бьяджини 2007] об обучении иностранцев схожей проблеме). Чтобы получить материал этого упражнения, нужно задать поиск «наречия причины» и «наречия цели»: • Как это? Всем генпрокуратурам назло? • Недаром бытует расхожее мнение, что критиками становятся неудавшиеся режиссёры, сценаристы и телеведущие. • Мой папаша был мужик, идиот, ничего не понимал, меня не учил, а только бил спьяна, и всё палкой. • Так будет правильно для домика, где нет места для светских раз говоров, в котором поневоле оказываешься так близко к собесед нику, что ничего не значащие репл ики превращаются… • Дом Обломовых был когда-то богат и знаменит в своей сторо не, но потом, бог знает отчего, все беднел, мельчал и наконец незаметно потерялся между не старыми дворянскими домами. • Ведь неспроста во всех крупных театрах и концертных залах из давна существовали царские, теперь правительственные, ложи. • — Ира? Ты что это дома сегодня? — Да я на работу не пошла, дома работаю. • Ничего не было видно, как в подземелье, и Маргарита невольно уцепилась за плащ Азазелло, опасаясь споткнуться. • Может быть, и бакенбардами своими он дорожил потому, что видел в детстве своём много старых слуг с этим старинным, ари стократическим украшением. 5. Раскройте скобки (задание на правописание неопределённых ме стоимений). В корпусе ищутся неопределённые местоимения; для разрывно пишущихся — частица кое; для примеров с раздельным не, которые к неопределённым местоимениям не относятся — поиск «не+кто» и т. п. В примере не какой-нибудь эти запросы сочетаются; первая скобка не относится к правописанию сложных местоимений, а вторая относится.
НКРЯ верстка4.indd 332
22/06/2009 17:48
Обучающий корпус и его использование
333
• Кого теперь удивить «Волгой»; «самый быстроходный в мире трактор», с усмешкой говорят о ней, но тогда «Волга» кое(что) значила и кое(что) о хозяине говорила. • Враг этот не(кто) другой, как наш северный мороз, хотя, впро чем, и говорят, что он очень здоров. • Без фокусов остаться с собою наедине — и спросить себя кое(о) (чём), не боясь огорчить правдивым ответом. • И кое(с)(кем) начинал о чем(то) заговаривать, причём, сколько я понимаю, в тумане и дыму получал твёрдые отказы. • Не(кто) Ивлев ехал однажды в начале июня в дальний край сво его уезда. • Он не(какой)(нибудь) мелкий исполнитель чужой, готовой мыс ли; он сам творец и сам исполнитель своих идей. Таким образом, Обучающий корпус русского языка — новое сред ство, позволяющее, с одной стороны, «рафинировать» с точки зре ния школьной программы и надёжности результатов возможности «большого» Национального корпуса русского языка, а с другой сто роны, расширить их тем, что отсутствовало в прежней версии (это касается, преж де всего, новых возможностей морфологического поиска).
НКРЯ верстка4.indd 333
22/06/2009 18:05
334
С. О. Савчук, Д. В. Сичинава Литература
Абыякая О. В. Актуализация признаков концептов-мифологем (на материале Национального корпуса русского языка) // Нацио нальный корпус русского языка и проблемы гуманитарного об разования: учебно-методическое пособие. М., 2007, с. 129–135. Бьяджини Ф. Составление упражнений на употребление зачем и почему для студентов-иностранцев при помощи нкря // На циональный корпус русского языка и проблемы гуманитарного образования: учебно-методическое пособие. М., 2007, с. 101–108. Добр ушина Н. Р. Как использовать Национальный корпус русского языка в образовании? // нкря 2003–2005. Результаты и перспек тивы. М., 2005, с. 308–329. Кустова Г. И., Ляшевская О. Н., Падучева Е. В., Рахилина Е. В. Семан тическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // нкря 2003–2005. Результаты и перспективы. М., 2005, с. 155–174. Кыркунова Л. Г. Дидактико-методические аспекты использования «Национального корпуса русского языка» в речеведческих кур сах (на примере курса «Деловой русский язык») // Националь ный корпус русского языка и проблемы гуманитарного образо вания: учебно-методическое пособие. М., 2007, с. 192–200. Левинзон А. И. Использование нкря в преподавании дисципли ны «риторика» в вузе // Национальный корпус русского языка и проблемы гуманитарного образования: учебно-методическое пособие. М., 2007, с. 160–173. Ляшевская О. Н., Плунгян В. А., Сичинава Д. В. О морфологическом стандарте Национального корпуса русского языка // нкря 2003– 2005. Результаты и перспективы. М., 2005, с. 111–154. Поляков А. Е. Технология подготовки информации в Национальном корпусе русского языка // нкря 2003–2005. Результаты и пер спективы. М., 2005, с. 175–192.
НКРЯ верстка4.indd 334
22/06/2009 18:05
Н. Р. Добрушина
Корпусные методики обучения русскому язык у 1. о, что в сборнике 2005 года казалось личными преподав ательскими на ходками [Добрушина 2005], облег чающими и делающими более зани мательной повседневную практику, за три года переросло в своего рода общественную деятельность. В 2006–2007 гг. прошли три семинара для учителей и преподавате лей московских вузов по нкря и преподаванию русского языка, кур сы повышения квалификации для преподавателей региональных вузов и международная конференция «Национальный корпус рус ского языка и современное гуманитарное образование». За это же время вышел ряд статей, описывающих возможности применения Корпуса в преподавании [Добрушина, Левинзон 2006a,b; Левин зон 2007a], а в конце 2007 года — целый сборник статей, связанных с этой проблематикой1 . В конце настоящей статьи приведена биб лиография известных нам российских работ на эту тему. Поскольку в ближайших планах — открытие портала, посвященного развитию Tо, что в сборнике 2005 года каз алось личными преподавательскими находками [Добрушина 2005], облегчающими и делающими более занимательной повседневную практику, за три года переросло в сво его рода общественную деятельность. В 2006 — 2007 гг. прошли три семинара для учителей и преподавателей московских вузов по нкря и преподаванию русского языка, курсы повышения квалификации для препо дав ателей региональных вуз ов и меж дународная конференция «Национальный корпус русского языка и современное гуманитарное образование». За это же время вышел ряд статей, описывающих возможности применения Корпуса в преподавании [Добрушина, Левинзон 2006a,b; Левинзон 2007a], а в конце 2007 года — целый сборник статей, связанных с этой про блематикой�. В конце настоящей статьи приведена библиография известных нам российских работ на эту тему. Поскольку в ближайших планах — открытие портала, посвященного развитию новых методик преподавания на баз е нкря, мы будем благодарны информации о любой другой деятельнос ти в этом направлении о, что в сборнике 2005 года казалось личными преподав ательскими находками [Доб рушина 2005], облегчающими и делающими более занимательной повседневную практику, за три года переросло в своего рода общественную деятельность. В 2006 — 2007 гг. прошли три семинара для учителей и преподавателей московских вузов по нкря и препо даванию русского языка, курсы повышения квалифи
1
Национальный корпус русского языка и проблемы гуманитарного образо вания. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007.
НКРЯ верстка4.indd 335
22/06/2009 17:48
336
Н. Р. Добрушина
новых методик преподавания на базе нкря, мы будем благодарны информации о любой другой деятельности в этом направлении. В настоящей статье будет сделан беглый обзор тех областей при менения Корпуса, которые были намечены за минувшие три года, и рассказано об опыте работы, накопленном за это короткое время. Три направления обсуждались наиболее активно: • составление заданий и упражнений, • организация самостоятельной исследовательской работы сту дентов и школьников, • верификация данных учебников и словарей. 2. Составление заданий и упражнений Этот — наиболее очевидный — способ использовать нкря мы обсу ждали еще в статье [Добрушина 2005]. 2.1. «Пассивные» упражнения Основным преимуществом корпуса как источника упражнений является скорость подборки примеров. Благодаря этому препо даватель может найти необходимый иллюстративный материал или составить нужное упражнение н е п о с р е д с т в е н н о п е р е д з а н я т и е м — в связи с конкретной поставленной перед учащими ся проблемой, обнаружившейся лакуной в знаниях студентов или в качестве ответа на вопрос, возникший на семинаре. Так, напри мер, на занятиях со студентами-политологами автору пришлось анализировать публицистический текст, который носил заголовок «Эко его разобрало». В ответ на возникшее у некоторых студентов смутное ощущение стилистической неправильности, содержащейся в заголовке, с помощью корпуса было составлено небольшое упраж нение на устаревшие слова эк и эко. Прочитайте приведенные ниже примеры употребления слов эк и эко в текстах XIX века (часть А). Сформулируйте, чем отличаются контексты этих слов. Сре ди примеров из современных текстов (часть Б) найдите те, в которых слова эк и эко употреблены не в соответствии с нормами XIX века. А. 1) Эко слово, спасенная душа, ты молвила! [П. И. Мельников-Печерский. В лесах. Книга первая (1871–1874)] 2) Эко блюдо изготовили! [М. Н. Загоскин. Вечер на Хопре (1834)] 3) Эко счастье привалило; да я столько родясь и не видывал… [Д. И. Фон визин. Недоросль (1782)]
НКРЯ верстка4.indd 336
22/06/2009 17:48
Корпусные методики обучения русскому языку
337
4) Инспектор духовного училища, иск лючивший Ахиллу Десницына за его «великовозрастие и малоуспешие» из синтаксического класса, говорил ему: «Эко ты дубина какая протяженно-сложенная». [Н. С. Лесков. Боже домы (1868)] 5) Эко воронье пугало! [М. Н. Загоскин. Рославлев, или Русские в 1812 году (1830)] 6) Эк его носит! [Д. В. Григорович. Кошка и мышка (1857)] 7) …Эк они храпят, окаянные — всех бы разом; так и концы в воду. [А. С. Пушкин. Дубровский (1833)] 8) — Эк тебя угораздило, Спирька. [Д. Н. Мамин-Сибиряк. Озорник (1896)] 9) Эк куда метнул! [Гоголь Н. В. Ревизор (1836)] 10) Эк он их цепл яет! [А. В. Сухово-Кобылин. Свадьба Кречинского (1855)] Б. 11) …Я снова остановилась. Эк меня заносит! Надо поспокойнее. [Дарья Донцова. Уха из золотой рыбки (2004)]. 12) — Эко дело, — хмыкнул Дима, — дураков полно. Мне, промеж ду прочим, тоже не по душе, когда под окнами машины заводят, я на первом этаже живу. [Дарья Донцова. Уха из золотой рыбки (2004)] 13) Парень вдруг расслабился и даже разулыбался. «Эко его кидает», — поду мала Лизавета. Но странные перепады настроения узкоглазого немед ленно разъяснились [Елизавета Козырева. Дамская охота (2001)] 14) — Эк куда тебя понесло! При чем тут президент? Я с ним встречаться не собираюсь. Документы ты передашь. [Семен Данилюк. Бизнес-класс (2003)] 15) ...»Эко хватил г-н Огарев! А на практике, после женитьбы, оказалось проще простого: не сошлись характерами и разошлись. Ох, уж эти рево люционные демократы! [Юрий Безелянский. В садах любви (1993)] 16) «Эк разрезвилась сестренка, — думал Павел, стараясь подняться до обыч ного своего покровительственного тона с младшими. [Ирина Ратушин ская. Одесситы (1998)] 17) Не нравится мне этот конец дикостью своей, нелепостью и тем, что вроде бы и не вытекает из всего сказанного выше. Так сочини другой, эко дело! [Кураев Михаил. Разрешите проявить зрелость!.. // «Знамя», 2000]
Поняв на основе примеров xix века (1–10), что слово эк сочетается с глаголами, а эко — с существительными, студенты без труда обна ружили распространенную сегодня ошибку: использовать слово эко в контекстах, характерных для слова эк, то есть при глаголах (примеры 13 и 15). Для многих оказалась полезной функция создания подкорпусов: благодаря ей преподаватель может подбирать примеры н а м а т е р и а л е , б л и з к о м е г о с т у д е н т а м , — например, связанном с его будущей профессией. Это свойство корпуса оказывается особен
НКРЯ верстка4.indd 337
22/06/2009 17:48
338
Н. Р. Добрушина
но важным, когда мы работаем со студентами нефилологических направлений. Распространенные в вузах страны курсы «Русский язык и культура речи» и «Риторика» представляются более осмыс ленными студентам экономистам, менеджерам, юристам или по литологам, если мы предлагаем им языковой материал, связанный с их профессией. Например, С. А. Анохина, преподающая лексику будущим учителям младших классов2 , создает задания на базе под корпуса детской литературы [Анохина 2007]. Укажите предложение, в котором слово «украшение» употреблено в прямом (не в метонимическом) значении: а) Майский жук оделся в костюм шоколадного цвета, жук-носорог — в корич невый, да ещё присадил себе в виде украшения на голову длинный рог. [Ге оргий Скребицкий. Счастливый жучок (1958)]; б) Испанские моряки были бедными, у них не было дорогих украшений и бо гатой одежды. [Валентин Постников. Карандаш и Самоделкин в стране фа раонов (1997)]; в) Даже из стен домов и из мостовых, где были не изумруды, а просто куски хрусталя, все украшения были вынуты. [Александр Волков. Урфин Джюс и его деревянные солдаты (1963)]; г) Она [пеночка-пересмешка] свила себе гнездышко на березовой ветке, убра ла его лишайником и легкой березовой кожуркой и вплела для украшения кусочки разноцветной бумаги, что валялись в саду какой-то дачи. [Виталий Бианки. Лесные были и небылицы (1923–1958)].
Возможность создавать подкорпуса имеет большое значение для преподавания русского языка как иностранного. Как известно, по давляющая часть примеров в учебных пособиях среднего и про двинутого уровня представляет собой либо отрывки из произведе ний русской классики конца xix — начала xx века, либо газетные и журнальные тексты бытовой тематики. Такого рода материал может заинтересовать главным образом будущих славистов. Между тем большинство студентов, изучающих русский язык как в Рос сии, так и на Западе, не являются филологами; времена романти ческой моды на Россию, когда студенты мечтали читать Толстого в подлиннике, тоже прошли. Сегодня мы значительно чаще имеем дело с теми, для кого русский язык должен стать инструментом в их профессиональной деятельности. Составив задания на основе при 2 С. А. Анохина освоила Корпус в апреле 2007 года, на школе повышения квалификации для преподавателей, организованной ГУ–ВШЭ.
НКРЯ верстка4.indd 338
22/06/2009 17:48
Корпусные методики обучения русскому языку
339
меров, выбранных в тематическом подкорпусе, преподаватель про демонстрирует студенту возможности применения полученных на уроке сведений в реальной деловой практике — об этом пишут А. И. Левинзон [Левинзон 2007а] и Лукаш Грабовски [Grabowski 2007]. При составлении упражнений можно воспользоваться возмож ностью с о з д а в а т ь п о д к о р п у с а о п р е д е л е н н ы х п е р и о д о в . Как правило, цель таких заданий — показать, что язык изменяется даже на протяжении вполне обозримого периода времени, — факт, который далеко не всегда очевиден для студентов. Студентам-поли тологам или социологам это открытие может оказаться полезным для исследовательской деятельности. Вот пример задания, демон стрирующего изменение употреблений слова революция на про тяжении xx века (анализировать это слово предложено в статье [Кузьмина, Абросимова 2007: 143]): Ниже даны примеры употребления слова «революция» в трех временных пе риодах. На основании этих примеров попытайтесь сформулировать, чем отли чаются контексты этого слова в разные периоды. 1950–1970 1) Ваше живое слово поможет ярче воскресить героическую летопись рево люции. [И. Зверев. Записки красногвардейца // «Северный колхозник», 1957.10.05] 2) До Великой Октябрьской социалистической революции трудящиеся нашей страны не имели права на образование. [А. Носкова. От темноты к свету // «Северный колхозник», 1957.09.28] 3) Мы должны приложить все силы к выполнению грандиозных и трудных за дач революции и строительства. [Китайская народная республика // «Ти хоокеанская звезда», 1953.03.09] 4) Отличаясь глубоким знанием трудов Маркса и Энгельса и ведя пропаганду марксистского мировоззрения, Г. В. Плеханов совершил подлинную рево люцию в умах передовой русской революционной интеллигенции. [Тор жественное заседание в Большом театре Союза ССР // «Красная звезда», 1956.12.12] 1990–1996 5) Для моделирования русской революции был подожжен макет усадьбы Ива на Тургенева «Липки» масштаба 1: 40, размещенный в правом дальнем углу зала. [Виктор Пелевин. Откровение Крегера (1991)] 6) Помню, меня уже после спросили в Норвегии, когда кончилась у нас револю ция, и я очень удивился вопросу: как революция может кончиться? [Игорь Дьяконов. Книга воспоминаний (1995)]
НКРЯ верстка4.indd 339
22/06/2009 17:48
340
Н. Р. Добрушина
7) Какие только не были революции и перемены, трагедии и ужасы в истории Церкви вообще, но именно в этом она находила своё главное, единое на потребу. [Иоанн Мейендорф. Духовное и культурное Возрождение xiV века и судьбы Восточной Европы (1992)] 8) И чьи головы полетят в первую очередь? Конечно, интеллигенции, которая всегда виновата, ну и евреев, разумеется, их, жидов пархатых, жидомасонов, агентов мирового сионизма, давно замысливших погубить святую матуш ку-Русь, сначала христианством, потом шинками, потом революцией и со циализмом. .. [Евгений Шкловский. Последние (1990–1996)] 2002 – 9) В Грузии почти одновременно произошла первая в постсоветской истории «бархатная», то есть бескровная, революция, свергнувшая президента Эду арда Шеварднадзе. [Судьбы революций // «Неприкосновенный запас», 2004] 10) В среду вечером в результате падения самолета погибли 302 человека — все они служили в элитных частях Корпуса стражей исламской революции. [Владимир Дунаев. Террористический след. Иранский «Ильюшин» могли взорвать противники режима аятолл // «Известия», 2003.02.21] 11) Проект нового закона вопреки решению Верховного суда разрешает орга нам власти этих субъектов РФ совмещать государственные и муниципаль ные функции, что фактически ликвидирует право жителей мегаполисов на местное самоуправление. Так что муниципальная революция доберется до них в самую последнюю очередь. [Сергей Митрохин. Революция местного масштаба // «Независимая газета», 2003.06.01] 12) «То, что сегодня происходит на Украине, в значительной степени имеет чер ты антиолигархической революции. [Борис Вуйко. Двухцветная страна // «Эксперт», 2004] 13) Пластинчатые теплообменники — это подлинная революция в технике ком мунального теплоснабжения. [Почему нужны тепловые пункты, оснащенные пластинчатыми теплообменниками и современными средствами автомати зации? // «Пермский строитель», 2003.09.22]
Наряду с текстами профессиональной тематики востребованны ми оказались в Корпусе и такие тексты, с которыми обычному носителю языка приходится сталкиваться каждый день. Упражне ния, составленные на этом материале, в конечном счете принесут бо´льшую практическую пользу: нашим ученикам едва ли придется в будущей жизни писать диктанты из Толстого или Горького, а с электронными письмами будет иметь дело каждый. С другой сто роны, знакомый, близкий и понятный студенту материал позволяет сократить расстояние между учебной дисциплиной и повседневны ми нуждами. Начиная разговор о речевом манипулировании, мы
НКРЯ верстка4.indd 340
22/06/2009 17:48
Корпусные методики обучения русскому языку
341
со студентами-политологами пытались выяснить, почему речевое воздействие эффективнее тогда, когда оно маскируется. Для иллю страции тезиса о том, что человек обычно сопротивляется прямому давлению, были предложены типичные примеры повседневного использования слова риторика: 1) Патриотическая риторика партии власти просто неуклюжа. [Г. А. Зю ганов: Только коммунисты поправят положение // «Советская Россия», 2003.08.23] 2) Та и другая всё менее пересекающиеся культуры имели уже самое каса тельное отношение к советской власти. Первая её вяло игнорировала []. Вторая, пыхтя и комбинируя, использовала партийную риторику для поворота в самую дремучую глубь славянского домостроя с хворо стиной и всевластием сельского схода. [Денис Горелов. Москва кирзам верит. «Молодые». Режиссер Николай Москаленко. Год 1971. // «Извес тия», 2002.07.14] 3) Впрочем, все сказанное выше — риторика, эмоции и сплошной субъек тивизм. [Вадим Самодуров. Клоны, которые играют в карты // «Вечер няя Москва», 2002.02.07]
По этим контекстам нетрудно заметить, что риторика — это почти всегда плохо, поскольку подразумевает обман (см. об этом [Левин зон 2007b: 161]). Увлекаться риторикой — значит быть фальшивым, напыщенным и неискренним. Почти так же сильно окрашено и сло во красноречие: 1) Их красноречие будет потрясать только коллег-депутатов и журнали стов: Михаила Касьянова в правительственной ложе не будет. [Анаста сия Матвеева. Кремль и есть правительство // «Газета», 2003.06.19] 2) С другой стороны, для массы, очарованной и опьяненной блеском соб ственного красноречия, самим звуком собственного голоса, стояние на митинге было чуть ли не самоцелью. [Нодар Ладариа. «Революция роз» -исторический контекст // «Неприкосновенный запас», 2004] 3) …Впрочем, где уж Вам, для Вас важнее ярлык повесить и, не разобрав шись, пофантазировать на заданную тему, блеснув красноречием. [Женщина + мужчина: Брак // Форум на eva.ru, 2005]
Красноречие в языковой картине мира сродни пустословию: оно бессодержательно и неискренне, поскольку красноречив тот, для кого форма важнее смысла, кто пользуется языком как осознанным инструментом обольщения.
НКРЯ верстка4.indd 341
22/06/2009 17:48
342
Н. Р. Добрушина
Наличие современных текстов самых разнообразных стилей и жан ров принципиально для тех, кто преподает русский язык вне России (см. [Славкова 2007, Янда 2007]). Корпус выполняет функцию м о д е л и р о в а н и я е с т е с т в е н н о й я з ы к о в о й с р е д ы : «Учебники, с присущей им упрощенной грамматикой и лексикой, не помогают студентам подготовиться к употреблению естественного русского языка. Русский человек не говорит и не пишет, как в учебниках, и эта разница приводит студентов, особенно лучших, к фрустра ции» [Янда 2007: 61]. 2.2. «Активные» упражнения Составляя задания и упражнения на материале Корпуса, препо даватель остается в рамках наиболее традиционной модели обу чения, в которой студенту отводится пассивная роль потребителя образовательного продукта. Меж ду тем практически сразу стано вится очевидно, что отношения студента с Корпусом могут быть более творческими: многие преподаватели предлагают студен там составлять упражнения самостоятельно, то есть не просто анализировать уже подобранный материал, а сначала найти его в корпусе. Педагогический эффект такого подхода очевиден: «…Одно дело выполнить «пассивную» работу: определить частеречную принад лежность слова в тексте, подобранном преподавателем, и совсем другое — «активная» работа: самому отыскать в корпусе случаи употребления заданного слова и выбрать из них хотя бы по одно му на каждую возможную часть речи. При этом даже не так важно, будет ли студент использовать корпус со снятой омонимией или нет: в любом случае есть место для самостоятельного анализа. Зада ния «активного типа» требуют от студента гораздо большей работы мысли, оказываются более интересными и полезными» [Добруши на, Иванова-Алленова 2007: 175]. Е. Р. Добрушина и Т. Ю. Ивано ва-Алленова предлагают почти три десятка таких заданий для сту дентов-филологов: по лексике, морфологии, синтаксису и культуре речи. Приведем один пример: Составьте упражнение на определение функции слова так, для этого: (1) вы пишите из «Грамматического словаря» А. А. Зализняка части речи, в функциях
НКРЯ верстка4.indd 342
22/06/2009 17:48
Корпусные методики обучения русскому языку
343
которых может использоваться слово так; (2) подберите в нкря шесть таких примеров со словом так, чтобы это слово было представлено в функции каждой из возможных частей речи; (3) составьте упражнение из этих примеров. О б р а з е ц в ы п о л н е н и я У п р а ж н е н и е 1 . По А. А. Зализняку, так может быть ( 1 ) частью союза, ( 2 ) частицей, не требующей ударения, ( 3 ) наречием, ( 4 ) частицей, требую щей ударения (омограф к (2)). Определите частеречную принадлежность слова так и обоснуйте свое решение. 1) Сие предприятие исполнено было удачно, и медведь так ( 3 ) больно был от них бит, что насилу мог оттуда назад дотащиться. [Д. И. Фонвизин. Мед ведь и лисица (1788)] 2) Так ( 2 ) кто же они — именитые пациенты Корпорации Семейной Медицины? [Богатая статистика // «100% здоровья», 2002] 3) Но уйти просто так ( 3 ) , не потратив ни копейки, мы так ( 2 ) и не смог ли. [Николай Качурин. Mitsubishi Pajero 3,2 DI-D: 4000 км // «Автопилот», 2002.05.15] 4) Так ( 4 ) , одной из тематических особенностей психологической войны против России перед нападением американцев на Ирак стали угрозы высо копоставленных чиновников США отказать нашей стране в инвестициях и материальной поддержке. [Психологическое оружие // «Рекламный мир», 2003.04.28] 5) Так ( 3 ) медики называют подкожные жировые отложения, которые делают кожу некрасивой (эффект апельсиновой корки). [В. Воронова. Чтобы расста вание не было мучительным // «Сочи», 2002.08.22] 6) Этот пропагандистский тезис появлялся как в зарубежных, так ( 1 ) и в российских СМИ. [Психологическое оружие // «Рекламный мир», 2003.04.28]
Опыт разных преподавателей показывает, что студенты с удоволь ствием выполняют задания такого рода: многие из них любят ра ботать в Интернете, а задание, содержащее некоторый исследо вательский компонент, имеет еще большие шансы на успех. Так используют корпус Н. А. Кузьмина и Е. А. Абросимова в курсе «Ак тивные процессы в современном русском языке» (государственный образовательный стандарт специальности «Издательское дело и ре дактирование»). В их статье [Кузьмина, Абросимова 2007] предла гается целая подборка интересных заданий на активные процессы семантической деривации. Например: Одним из семантических процессов, характерных для современного языка, яв ляется деполитизация. Рассмотрите этот процесс на примере слова «привати зация». Задайте в поиск существительное «приватизация» и глагол «привати
НКРЯ верстка4.indd 343
22/06/2009 17:48
344
Н. Р. Добрушина
зировать». Какая часть речи чаще иллюстрирует деполитизацию понятия? По пытайтесь назвать экстралингвистические причины развития нового значения.
Задания активного типа, которые предполагают подбор в корпусе материала, иллюстрирующего те или иные явления, как правило, используются в качестве домашних заданий, поскольку препода ватель редко имеет достаточно аудиторных часов для того, что бы студенты собирали материал непосредственно на занятии. Да и компьютерные классы с доступом в Интернет существуют не во всех российских вузах. 3. Исследовательская работа со студентами Наиболее интересная часть работы с корпусом начинается тогда, когда преподаватель ставит перед студентами исследовательские задачи. Благодаря скорости, с которой подбираются примеры, сту дент получает возможность сделать небольшую, но вполне творче скую работу за короткий срок. Если речь не идет о курсовой работе или дипломе, то есть сту дент (школьник) располагает сроком не более двух-трех недель, то наиболее удачными оказываются такие темы, которые не требуют «ручной» обработки корпуса примеров и позволяют сделать какието выводы на основании статистических данных. Например, в рам ках курса «Современный русский язык. Морфология» (журналисты, 1 курс) мои студенты выполняют небольшую исследовательскую ра боту. Им предлагается на выбор 25 тем по морфологии, как правило, нацеленных на анализ вариативности некоторого грамматического явления. Например: Вариативность глагольной основы: «мучать» и «мучить» («мучает»—«мучит», «мучал»—«мучил»): статистика, чем регулируется выбор, динамика изменения на протяжении XIX– XX вв. Приведем некоторые наблюдения, которые удалось сделать студентке на этом языковом материале (работа Д. Киреевой, 2007 г.). Наиболее интересными оказались данные по формам 3-го лица ед. числа: соотношение формы мучит и мучает изменилось за два века на противоположное. Любопытно, что раздельный подсчет в подкорпусах художественных и нехудожественных текстов пока зал, что инновации в художественных текстах происходят быстрее, чем в нехудожественных:
НКРЯ верстка4.indd 344
22/06/2009 17:48
Х у д о ж е с т в е н н ы е т е к с т ы Мучит (проценты, кол-во приме ров) xix век 1900–1950 1950–1999
74% (60) 43% (31) 29% (41)
Мучает (проценты, кол-во приме ров) 26% (21) 57% (42) 71% (100)
Н е х у д о ж е с т в е н н ы е т е к с т ы
xix век 1900–1950 1950–1999
Мучит (проценты, кол-во приме ров)
Мучает (проценты, кол-во приме ров)
72% (25) 51% (36) 35% (30)
28% (7) 49% (35) 65% (55)
Конечно, эти данные далеки от серьезных научных результатов, но сама возможность найти ответ на реальный лингвистический во прос имеет большое значение для студентов. Особенно если сту денты — будущие филологи. Лора Янда говорит о корпусе как об инструменте воспитания ученых: «Наши студенты одновременно являются и нашим будущим. Некоторые из них станут учеными и сменят нас. Нам надо подготовить следующее поколение лин гвистов, и нкря может нам помочь. Сегодняшние студенты выросли с компьютерами, они их хорошо понимают и ценят интерактивные ресурсы. Для них поиски в корпусе естественны и привлекательны. При помощи нкря студенты понимают, что они тоже могут ставить вопросы, собирать материал и интерпретировать его, — так они ста новятся самостоятельными учениками-учеными. Конечно, не все студенты пойдут нашим путем, но хорошо было бы, если бы они все понимали, что такое лингвистика и почему она интересна и полез на. Здесь нкря играет роль посла нашей профессии» [Янда 2007: 62]. В удачном случае — при наличии достаточного количества аудиторных часов и заинтересованных студентов — исследова ние входит в основной курс как его составная часть. Анализируя реальный языковой материал, студенты могут самостоятельно извлекать из него теоретические принципы, освоение которых
НКРЯ верстка4.indd 345
22/06/2009 17:48
346
Н. Р. Добрушина
предусматривает программа их обучения. Так, Светлана Славко ва учит студентов-итальянцев, будущих переводчиков. Теорети ческий курс русского языка, предусмотренный на продвинутом этапе обучения, «может способствовать решению практических коммуникативных задач именно через посредство такого важ ного инструмента, как Национальный корпус текстов русского языка» [Славкова 2007: 87]. Проводимое совместно со студентами исследование устойчивых глагольно-именных сочетаний помога ет им научиться находить и правильно употреблять полувспомо гательный функциональный глагол. Что касается студентов нефилологических направлений, то мно гие преподаватели уже обнаружили возможность использовать кор пус как источник информации для социолингвистических, культу рологических, политологических и других исследований. В моем личном опыте — руководство курсовой работой студентки-социо лога, исследовавшей изменения в отношении к концепту свобода. Предметом ее анализа, в частности, была сочетаемость слова свобо да с прилагательными и с существительными в родительном падеже (личная свобода и свобода личности, духовная свобода и свобода духа). Статистические данные показали разную частотность этих сочетаний в зависимости от рассматриваемого периода. Приве дем небольшие фрагменты статистической таблицы, составленной в ходе исследования (из курсовой работы М. Бутюгиной). Процен ты употребления того или иного словосочетания подсчитывались относительно общего объема примеров со словом свобода за рас сматриваемый период. Определе ние/годы (конт.)
Внутренняя Личная Личности Духовная Духа Экономи ческая
НКРЯ верстка4.indd 346
1901–1921 кон тексты 13 11 26 6 17 2
1922–1945
кон тексты 1.96 16 1.66 15 3.9 14 0.9 17 2.55 54 0.3 0 %
% 2.4 2.25 2.24 2.56 8.66 0
1946–1990 кон тексты 41 33 20 11 23 1
% 6.26 5.04 3.2 1.68 3.68 0.15
1991–2008 кон тексты 72 68 97 36 27 87
% 3.32 3.14 2.8 1.66 0.78 4.02
22/06/2009 17:48
Корпусные методики обучения русскому языку
347
Важными для студентки были языковые показатели того, что в пе риод 1946–1990 гг. обнаруживается явный рост значимости понятий внутренняя свобода и личная свобода, меду тем как в последний период интерес к этим сочетаниям упал. Полезно было также по лучить доказательство того, что понятие экономической свободы возникло в последнее тридцатилетие практически из небытия. Эти данные не только содержат некоторую интересную социо логу информацию относительно изменений популярности разных типов свобод, но и позволяют сделать наблюдения лингвисту: ду ховная свобода и свобода духа с точки зрения частотности ведут себя практически одинаково (рост в период 1922–1945), а сочетания личная свобода и свобода личности обнаруживают расхож дения (личная свобода переживает значимый рост в период 1946–1990 гг., в то время как для сочетания свобода личности такого роста не происходит). Небольшие исследования подобного рода могут быть и состав ной частью преподавания русского языка как иностранного. Напри мер, Лора Янда предлагает своим студентам, пользуясь семанти ческим поиском, исследовать употребление и построение русских отчеств — явления для иностранцев экзотического и, тем самым, вызывающего интерес (Янда 2007: 62). 4. Верификация данных словарей и учебников Эта область применения корпуса пока практически не освоена. Тем интереснее уже возникший опыт такого рода занятий. Е. В. Мура венко рассказывала о том, как корпус служит для тестирования за даний Всероссийского конкурса-игры «Русский медвежонок — язы кознание для всех». Количество участников в этом конкурсе при ближается уже к полутора миллионам; такие масштабы требуют особой выверенности конкурсных вопросов. Приведем пример того, как данные корпуса могут сыграть роль при обсуж дении заданий: З а д а ч а 4 (автор И. Рубанов) После нулевой ... со Словакией сборная России не попала в финал Чемпионата мира по футболу. Какое слово мы заменили многоточием? (А) ничей; (Б) ничьи; (В) ничьей; (Г) ничьёй; (Д) нечьей.
НКРЯ верстка4.indd 347
22/06/2009 17:48
348
Н. Р. Добрушина
Эта задача на склонение существительного ничья. Оно склоняет ся, в силу своего происхож дения, как местоимение, однако в речи (особенно людей, близких к футболу, шахматам и другим спортив ным играм) очень часты ошибки с использованием субстантив ного склонения типа «скамья»: после ничьи. В текстах Интерне та подобная ошибка встречается очень часто, и, несмотря на то, что ни один словарь такой возможности не допускает, некоторые участники методкомиссии считали, что такое употребление уже возможно. По данным нкря употребление варианта ничьи в каче стве формы род. падежа крайне редко, причем встречается только в газетных текстах, так что задачу решено было дать [Муравенко 2007: 40]. О верификационной функции Корпуса говорит Т. В. Шмелева, приводя в качестве примера собственный опыт участия в процес се лингвистической экспертизы судебного иска, где ей пришлось с помощью данных корпуса доказывать, что слово виновник имеет оценочное значение лишь в определенных сочетаниях, в то время как словосочетание виновник случившегося является нейтральным [Шмелева 2007: 27]. Верификационные задачи нередко возникают в процессе пре подавания русского языка как иностранного, когда, например, су ществующие словари не дают ответа на возникший вопрос. Лукаш Грабовски приводит пример из своей практики обучения польских студентов. Перевод польского сочетания dekorator wnętrz потребо вал обращения к Корпусу: словари не дали ответа на вопрос, являет ся ли в современном узусе тот, кто оформляет интерьер, дизайнером или декоратором [Грабовски 2007: 57]. На использовании Корпуса для решения проблем, связанных с переводом финансовых текстов, настаивает А. И. Левинзон: «До пустим, в английском тексте речь идет о «securitization» — превра щении кредита в ценные бумаги. Полагаясь на свое языковое чутье, переводчик решает сохранить в русском варианте «секьюритиза цию», резонно замечая, что для русского уха она звучит не хуже привычной «приватизации». Далее следует проверка в корпусе: результат — два случая употребления «секьюритизации», оба с по следующим толкованием. Выясняется, таким образом, что искомое
НКРЯ верстка4.indd 348
22/06/2009 17:48
Корпусные методики обучения русскому языку
349
слово не является общеупотребительным в современной речи» [До брушина, Левинзон 2006a: 175]. 5. Корпус и содержание образования Три направления применения корпуса в преподавании, рассмот ренные выше, не исчерпывают всех возможностей. Нам уже при ходилось говорить о том, что корпус может повлиять на само содер жание образовательных программ [Добр ушина 2005: 325]. Приве дем пример, почерпнутый на 8-й международной конференции по преподаванию и языковым корпусам (TALC-8). Группа английских исследователей составила собственный корпус студенческих работ, написанных в университетах Великобритании на разных факуль тетах, разных объемов и жанров (British Academic Written English Corpus) [Nesi 2008]. В метаразметку текстов входит информация не только о тематике, жанре и курсе, на котором учится автор, но и об оценке, полученной за работу. Один из способов практического применения такого корпуса очевиден: можно проанализировать, какие типы текстов чаще всего приходится создавать студентам и какими свойствами обладают те из них, которые получают вы сокую оценку. В конечном счете такое исследование могло бы быть использовано в курсах “Academic Writing” или в нашем отечествен ном курсе «Русский язык и культура речи»: мы ведь тоже рассказы ваем нашим студентами о жанрах академических текстов и типич ных моделях их организации, однако наши знания об этом весьма умозрительны. Между тем исследование студенческих работ могло бы приблизить наше преподавание к реальным нуждам учащихся. Значит, впереди новые корпуса…
НКРЯ верстка4.indd 349
22/06/2009 17:48
Литература Абросимова Е. А., Кузьмина Н. А. Изучение активных процессов семантической деривации с помощью нкря // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Анохина С. А. Использование материалов нкря при изучении лек сических категорий // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Добрушина Н. Р. Как использовать Национальный корпус русского языка в образовании? // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. — М., 2005. Добрушина Н. Р., Левинзон А. И. Информационные технологии в гуманитарном образовании: Национальный корпус русского языка // Вопросы образования, 2006 год, № 4. Добрушина Н., Левинзон А. Национальный корпус русского язы ка в образовании // Cuadernos de Rusística Española. nº 2, ISSN: 1698–322x, pp. 43–62, 2006. Добрушина Н. Р. Корпусные методики преподавания — начало пути. (от редактора и составителя) // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Выс шая школа экономики. — М.: Теис, 2007. 14,5 п.л. Добрушина Е. Р., Иванова-Алленова Т. Ю. Обучение студентовфилологов лингвистическому анализу русского текста // На циональный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Левинзон А. И. Использование Национального корпуса русского языка в обучении русскому языку англоязычных студентов // Русский язык за рубежом. 2007, № 4. Левинзон А. И. Использование нкря в преподавании дисципли ны «Риторика» в вузе // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Муравенко Е. В. Учёт колебания грамматической нормы при со ставлении тестовых конкурсных заданий // Национальный кор пус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007.
НКРЯ верстка4.indd 350
22/06/2009 17:48
Корпусные методики обучения русскому языку
351
Славкова С. Устойчивые глагольно-именные словосочетания, лек сические функции и нкря в преподавании русского языка ино странным студентам // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Шмелева Т. В. Задачник корпуса // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Выс шая школа экономики. — М.: Теис, 2007. Янда, Лора А. Студенты-пользователи нкря // Национальный кор пус русского языка и проблемы гуманитарного образования. Гос. ун-т — Высшая школа экономики. — М.: Теис, 2007. Grabowski, Lukasz. The National Russian Corpus as a teaching tool — ge neral observations and case studies from the perspective of Russian language teaching in Poland // Национальный корпус русского языка и проблемы гуманитарного образования. Гос. ун-т — Выс шая школа экономики. — М.: Теис, 2007. Nesi, Hilary. BAWE: an introduction to a new resource // Proceedings of 8th Teaching and Language Corpora Conference. 3–6 July 2008, ISLA, Lisbon.
НКРЯ верстка4.indd 351
22/06/2009 17:48
Наука
НКРЯ верстка4.indd 352
22/06/2009 17:48
М. Д. Воейкова
Проблемы использования подкорпуса устной разговорной речи (на примере анализа русских диминутивов)
1. Введение В первой части статьи рассматриваются некоторые проблемы расшифровки записей устной разго ворной речи на основ е трехлетнего опыта сбора данных устной речи в ИЛИ РАН (Санкт-Петербург), вторая — иллюстративная — часть посвящена анализу функционирования диминутивов от имен существи тельных на материале этого подкорпуса. Как показы вает практика, нкря в течение ряда лет используется как уникальная по объему база данных, снабженная мощной системой поиска, позволяющая за короткое время собрать статистически обрабатываемый путем сплошной выборки материал. Создание и пополне ние подкорпуса устной разговорной речи (а также диалектного подкорпуса) относится к одной из при оритетных задач, в первую очередь потому, что рус ская разговорная речь обладает рядом существенных отличий от речи письменной. В первой части статьи рассматриваются некоторые проблемы расшифровки записей устной разговорной речи на основе трехлет него опыта сбора данных устной речи в ИЛИ РАН (Санкт-Петербург), вторая — иллюстративная — часть посвящена анализу функционирования диминутивов от имен существительных на материале этого под корпуса. Как показывает практика, нкря в течение ряда лет используется как уникальная по объему база данных, снабженная мощной системой поиска, по зволяющая за короткое время собрать статистически обрабатываемый путем сплошной выборки материал. Создание и пополнение подкорпуса устной раречи (а
перв ой части статьи рассматрив а ются некоторые проблемы расшиф ровки записей устной разговорной речи на основе трехлетнего опыта сбора данных устной речи в ИЛИ РАН (Санкт-Петербург), вторая — иллюстративная — часть посвя щена анализу функционирования диминутивов от имен существи тельных на материале этого подкорпуса. Как показывает практика, нкря в течение ряда лет используется как уникальная по объем у база данных, снабженная мощной системой поиска, позволяющая за короткое время собрать статистически обрабатываемый путем сплошной выборки материал. Создание и пополнение подкорпуса устной разговорной речи (а также диалектного подкорпуса) отно сится к одной из приоритетных задач, в первую очередь потому, что русская разговорная речь обладает рядом существенных отличий от речи письменной.
НКРЯ верстка4.indd 353
22/06/2009 17:48
354
М. Д. Воейкова
Благодаря исследованиям группы Е. А. Земской, работам М. Я. Гловинской, Е. В. Красильниковой, О. А. Лаптевой, О. Б. Сироти ниной, основные особенности русской разговорной речи внима тельно анализировались с конца 70-х гг. xx столетия. Детальное описание этих особенностей позволило включать русский язык, наряду с немецким и английским, в сопоставительные работы по синтаксису устной речи [Miller, Weinert 1998]. Разговорная раз новидность русского языка попадает в поле внимания лингвис тов, в первую очередь, из-за особенностей ее «фрагментарного синтаксиса» — не встречающихся в письменной речи конструкций с эллипсисом опорных именных компонентов типа С зелеными балконами/ это ваш, Молоко разносит/ не приходила еще? У окна лежала/ капризная очень…[Земская 1973: 227] или конструкций с «конденсацией относительного местоимения»: У тебя нет чем писать? Папе надо кресло сидеть, Возьми на чем сидеть, Где здесь касса платить? (примеры из [Земская и др. 1981]). Обращает на себя внимание то обстоятельство, что сфера имени оказывается более «уязвимой» для эллипсиса, чем сфера глагола: называние предмета с определенными свойствами становится излишним, ненужным и поэтому выводится за рамки эксплицитной инфор мации. Особенности употребления имен существительных в раз говорной речи связаны с намерениями говорящего. Нейтрально имена существительные употребляются в номинативной функции, т.е. называют участников ситуации или объекты. Особая интен циональность в употреблении имен связана с подчеркиванием их морфологических признаков, или деталей номинации. Когда в фокусе внимания оказывается морфологическая информация, говорящий прибегает к запретным или стоящим на грани нормы формам имен существительных. Примерами этого могут служить окказиональные или инновационные формы, привлекающие вни мание собеседника и придающие высказыванию неформальный или иронический оттенок, ср. примеры из записей спонтанной речи или из работ: Я остаюсь в *казинах Лихтенштейна, А меня не приковывали к *пианине, и теперь я об этом жалею (приме ры из [Гловинская 2007: 180]), Здесь *дошираки продаются, Хочу стены расписать. *Матами? [Горбова и др. 2006: 26], Пригласим
НКРЯ верстка4.indd 354
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
355
хороших *девушков (Записи 2004). Свобода в обращении с форма ми существительных создает непринужденность, ощущение опыта в обращении с объектами номинации. Намеренное подчеркивание деталей самой номинации связано с тем, что говорящий применяет не общепринятое название ли ца или предмета, а окказиональное или экспрессивно-оценочное, например: И не хочу там мешать *тупизмом своим (пример из [Горбова и др. 2006]), Вот тебе *крестик, я сидел и ждал твоего звонка, Я не понимаю, с чем связаны *замороки по оформлению с той машиной, которая есть (Записи 2006). В экспрессивном употреблении говорящий или изобретает новое слово по сущест вующей модели, или употребляет уменьшительно-ласкательный суффикс, или даже, как в последнем примере, образует от ложного диминутива несуществующий симплекс (*замороки от заморочки). Такие употребления наводят на мысль о том, что использование диминутивов в речи не всегда связано с особенностями их семан тики, но зависит от контекста и ситуации общения. Употребляе мые окказиональные образования показывают, что в подходящей ситуации могут нарушаться как семантические, так и морфоноло гические запреты на образование диминутивов или антидими нутивов (ложных симплексов). Такие примеры свидетельствуют о прагматической направленности в употреблении диминутивов (см. ниже, подпункт 5). Использование слов с уменьшительно-ласкательными суффик сами относится к идиоэтническим феноменам: в каж дом языке сфера их употребления определяется индивидуально. Функцио нирование таких номинаций в разговорном русском языке мо жет быть адекватно описано только с помощью материала нкря. В данной работе формулируются задачи поиска и анализа дими нутивов в устной речи и характеризуются первые результаты та кого описания. 2. Особенности кодировки данных разговорной речи Наши материалы готовились в соответствии с общим форматом представления данных устной разговорной речи в нкря [Гришина
НКРЯ верстка4.indd 355
22/06/2009 17:48
356
М. Д. Воейкова
2005]. Собирая данные1 , мы пользовались внутренней инструкцией нкря, однако были вынуждены расширить ее, так как в процессе работы расшифровщики записей постоянно сталкивались с таки ми особенностями звучащей речи, передача которых на письме нуждается в обсуждении. Большинство решений было предложено членом нашей группы сотрудником ИЛИ РАН И. А. Магиным, имею щим опыт полевой работы с диалектным материалом, и обсужда лось далее с другими участниками, которые были заняты практиче ской расшифровкой записей. Так, стяженные формы типа щас вме сто сейчас сохранялись только в тех случаях, когда они приобретают особое значение, например: —Так я и побежала! Щас! (в значении нежелания совершить действие). В других случаях форма сейчас давалась в обычной орфографии. Принятое решение продиктовано тем, что сохранение единообразия написания желательно даже при передаче неформальной устной речи. Его возможный минус состо ит в том, что, заменяя стяженные формы на полные, мы не сможем проследить развития потенциальных новых значений в будущем. Именно поэтому нам представляется необходимым создание ар хива звуковых записей текстов разговорной речи, собираемых для нкря, которые могли бы в дальнейшем использоваться для специ ального анализа. Такой архив, не обязательно открытый для всех пользователей, позволил бы и в других случаях уточнить приня тые в нкря параметры расшифровки, например, восстановить фо нетические паузы, которые отсутствуют в современном формате. Архивы звучащей речи существуют в некоторых меж дународных корпусах (например, в системе обмена данными по детской речи CHILDES [MacWhinney 2000, Sokolov, Snow 1995], http://childes.psy. cmu.edu). Удобное для использования оформление такого архива предполагает специальную обработку данных, после которой части расшифрованного текста связываются с вырезанным куском зву 1
Сбор данных разговорной речи поддерживался программой Президиума РАН "Русский язык, литература и фольклор в информационном обществе ИМЛИ ЗОИФ. Дальнейшая обработка осуществляется в рамках проекта «Семантическая и формальная избыточность текста в современном русском литературном язы ке» по Программе фундаментальных исследований ОИФН РАН СЛЯ «Текст во взаимодействии с социокультурной средой: уровни историко-литературной и лингвистической интерпретации».
НКРЯ верстка4.indd 356
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
357
кового файла таким образом, что при помощи простой команды можно немедленно послушать интересующую реплику или более крупный фрагмент. Эта работа, даже при имеющемся объеме дан ных устной речи, потребует больших финансовых вложений и зай мет много времени. Не случайно подкорпус устной речи в любом корпусе является одной из наиболее трудоемких частей. По оцен кам создателя Международной системы обмена данными детской речи CHILDES Б. МакУинни, только расшифровка магнитофонной записи (без разметки и дополнительной обработки) требует в 12 раз больше времени, чем длится сам разговор. Однако, думая о бу дущем нкря, необходимо предусмотреть и дополнительные, в том числе и дорогостоящие, пути его обогащения. Далее приводятся те особенности звуковой речи, которые пока не отражаются в текстах нкря, но могут быть учтены в дальнейшем или восстановлены с помощью архива звуковых данных. 2.1. Комментарии к репликам включают те невербальные сред ства коммуникации, которые полноправно участвуют в диалоге, но не имеют кодифицированной формы, например: Информант@ знаешь, есть такие вещи #вертит пальцем у виска#. Эти жесты существенно дополняют разговор и могут даже изменить смысл звучащей реплики: разводит руками, показывает пальцем и т.д.
При первичной обработке данных такие комментарии за писываются так, как показано в примере (между знаками дие за — «решетками» #). Так же оформляются важные для понима ния коммуникации действия говорящего, например: #выбегает# или жесты, имеющие звуковую сторону: смеётся, щёлкает по кадык у, фыркает, хлопает в ладоши, щёлкает пальцами, чиха ет, стучит по столу. Заполненные паузы хезитации и междометия должны быть унифицированы. В противном случае при любом статистическом анализе одно и то же междометие, записанное разными способа ми (например, гм и хм) будет означать новое слово. До сих пор мы применяли следующий примерный список пауз хезитации и меж дометий: мм, ага, угу, э (для обозначения согласия и заполнения своей реплики (turn-taking)), ц-ц (цоканье для выражения скепсиса, в значении ‘всё не так-то просто, есть некоторые затруднения’), хм (скептическое), бэ (знак отвращения, имитирующий тошноту), ф-ф
НКРЯ верстка4.indd 357
22/06/2009 17:48
358
М. Д. Воейкова
(выдыхание, обозначает затруднение). Специально отмечаются те случаи, когда собеседник начал говорить, но его перебили или он задумался и не закончил реплику, например: Информант@ Это же +. Этот случай отличается от «приёма умолчания» или произ несения слова одними губами (см. далее). 2.2. Необходимо учитывать также некоторые особенности произ ношения при имитации чужой речи. Если в речи встречаются ино язычные вставки, то их, насколько возможно, следует записывать на языке оригинала. Выбор между русской записью и иностранной можно сделать, следую намерению говорящего, т.е. произносит ли он «битлс» или на английский манер «beatles». Во всех случа ях, когда произнесение слова искажается, в расшифровке вслед за произносимой формой под звёздочкой указывается стандартное написание слова. Так, если в речи встречается имитация иностран ного акцента, её записывают так: Информант@ Так сказать, FIN: тоска, но не тот тоска, который терефо{*дерево}, а тот, кото рый крусть {*грусть} :FIN. Согласно нашей конвенции, эта запись означает, что говорящий имитирует «финский» акцент (оглушение звонких согласных). Двойная запись слов, содержащих имитацию акцента, позволяет при необходимости включить их в морфоло гическую разметку. При этом также разграничиваются иноязыч ные вставки и пародирование иноязычного акцента. До сих пор в практических целях мы применяли следующий список акцентов: ANG (английский), ASI (центрально азиатский, азербайджанский, таджикский, узбекский, турецкий, восточный вообще), DEU (не мецкий), EST (эстонский), FIN (финский), FRA (французский), HEB (еврейский), GEO (грузинский), KAV (кавказский, если непонятно, что изображает информант — ASI или GEO), RUS (нарочито русский, т.е. содержащий имитацию диалектной речи, окания и т.п.), UKR (украинский), INO (иностранный вообще). В наших записях слу чаи имитации иностранного акцента были очень редки, и в этих ситуациях ни одного диминутива не встретилось. Этих употребле ний явно недостаточно, чтобы сделать вывод о том, что, имитируя «чуждость» речи, говорящие сознательно избегают тех словообразо вательных средств, которые призваны обозначать «свой» микромир [Апресян 1995: 145; Протасова 2001а, 2001б], однако эту гипотезу можно будет проверить в дальнейшем. В записях встречаются так
НКРЯ верстка4.indd 358
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
359
же случаи «буквального» произношения, например: И что ты BUK: чувствуешь :BUK? или исковерканные слова типа: Павел@ Ну хоро шо, давай BUK: пыкрасим{*покрасим} дыверь{*дверь} :BUK #смеёт ся#. Существенным для понимания реплики может оказаться и то, что некоторые слова произносятся шепотом или беззвучно, одними губами, например: Пётр@ Он такой _осёл_, Василий@ Это полное _+_/ эта история//. Для темы настоящей статьи важно то, что аф фектированное произношение и в этом случае скорее препятствует использованию диминутивов. Если говорящий переходит на язык нянь («сюсюкает», напри мер, произносит холосенький вместо хорошенький), эта часть ре плики выделяется символом BAB. Такой стиль речи может встре чаться не только в разговоре с детьми и домашними животными: Наталья@ Ой, у меня BAB: клузецька{*кружечка} :BAB разбилась. Давно замечено, что речь, обращенная к детям, животным или интимным партнерам, содержит повышенный процент диминути вов, как семантических, так и эмоционально-оценочных [Dressler, Merlini-Barbaresi 1999: 5, Гаврилова 2002, Savickiene, Dressler 2007, Protassova, Voeikova 2007]. В этих ситуациях говорящие не скупятся на средства интимизации речи, используя как фонетические, так и словообразовательные и лексические маркеры. Однако эти осо бенные речевые регистры пока что отсутствуют в нкря. Сбои согласования, которые часто происходят в спонтанной речи, в текстах корпуса специально не маркировались. Их можно найти, используя программу морфологического поиска. В нашей внутренней инструкции мы, однако, просили расшифровщиков от мечать такие случаи для удобства дальнейшего анализа, например: Наташа@ В телефон, по-моему звонит. Отме ченные особенности текстов не входят в тот минимум разметки, которая применяется в нкря. Однако в других корпусах применя ются единые знаки для кодирования ошибок, так что можно было бы ввести подобные правила и для записи текстов в нашем корпусе. 3. Структура подкорпуса устной речи. В настоящее время подкорпус устной речи нкря включает записи спонтанной речи, интервью (устная публичная речь), расшифровки текстов кинолент (см. подробнее статью Е. А. Гришиной и С. О. Сав
НКРЯ верстка4.indd 359
22/06/2009 17:48
360
М. Д. Воейкова
чук в наст. сборнике). Непубличная речь в целом составляет немно гим более 8% всего массива текстов. Это объясняется трудоемко стью сбора данных устной речи, большими затратами времени на расшифровку текстов. Сходное соотношение объемов материала (за исключением того, что мы совсем не занимались языком кино) было и в нашем подпроекте: расшифровки устной публичной речи составляют 83% всех собр анных данных. Данные разговорной ре чи, собираемые для нкря, поступали из разных источников. Часть материала мы получили от Санкт-Петербургского Центра незави симых социологических исследований. Эти файлы представляют собой расшифрованные социологические интервью, характеристи ки которых близки к бытовой диалогической речи. Другие записи производились специально, в большинстве случаев с ведома инфор мантов, хотя в таких условиях мы получали в основном однородную в социальном отношении и непредставительную выборку, так как только хорошие знакомые, понимающие цели и задачи подобного сбора материала, соглашались на то, чтобы их речь была зафик сирована, и чувствовали себя непринужденно в условиях записи. Наиболее серьезной проблемой подкорпуса устной речи оста ется его социальная несбалансированность: большинство записей сделано с участием студентов или лиц, имеющих высшее образо вание. Для большинства текстов, описываемых как разговорные, характерен высокий образовательный статус участников. В нашей выборке лишь 11% текстов записаны с участием информантов, не имеющих высшего образования, — а в эту группу попадают и люди, образовательный уровень которых нам неизвестен. Понятно, что это искажает статистическую картину функционирования устной разговорной речи в целом. Образовательный статус влияет на лек сическую и синтаксическую составляющие текстов; морфология, по нашим предварительным наблюдениям, в меньшей степени зави сит от социального статуса говорящих. Особенности словопорядка также, на первый взгляд, не зависят от того, является ли разговор бытовым или публичным, и от того, насколько высок образователь ный уровень участников диалога. Однако эти первые впечатления нуждаются в статистической проверке. Необходимо в целом опре делить, какие социальные параметры могут оказать влияние на речевые характеристики. До сих пор в Корпусе учитывались только
НКРЯ верстка4.indd 360
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
361
возраст, пол и уровень образования участников общения, а также место записи (в нашем случае — Санкт-Петербург). Действительно, простая интуиция говорит о том, что речь двух мужчин или двух женщин, находящихся в одно и то же время в Петербурге и закон чивших одинаковое количество классов или имеющих высшее об разование, может сильно различаться. Однако исследований того, какие еще социальные параметры (например, род занятий, уровень дохода, сфера интересов, отношение к религии и т.д.) влияют на различные речевые характеристики, на материале современной разговорной речи не проводилось. Неясно также, какие именно ре чевые параметры могут зависеть от социального статуса. Например, можно предположить, что возраст, пол и род занятий отражают ся в особенностях произношения (естественности основного тона и соотношении ударных и редуцированных гласных), однако эти характеристики не попадают в расшифрованные данные и остают ся только в виде звуковых файлов. Для нашей темы (употребление диминутивов) такие особенности речи играют только косвенную роль. Более того, улавливаемые на слух признаки «аффектирован ного» произношения в речи молодых девушек (повышение тона на границах синтагм, затягивание ударных слогов и нарочитое со кращение редуцированных) скорее препятствуют употреблению диминутивов. Уменьшительно-ласкательные суффиксы в общении взрослых людей чаще встречаются в дружеских и интимных беседах, лишенных аффектации. Публичная речь на современном этапе может рассматриваться как образец устной неформальной речи, так как отсутствие внеш ней и внутренней цензуры заметно во всех областях неформально го публичного общения. Однако тексты, записанные в аудитории, отличаются малой диалогичностью: обычно участники интервью говорят значительно больше, чем журналисты и диалог становится неравноправным. В таких условиях создается меньше возможно стей для эллипсиса, так как нарушается характерная для бытовой диалогической речи спаянность соседних реплик. Кроме того, спе цифика устной публичной речи фактически иск лючает разгово ры на бытовые темы, что может повлиять на ее лингвистические особенности. Например, в сфере диминутивов наблюдается почти иск лючительное использование таких диминутивов первой сту
НКРЯ верстка4.indd 361
22/06/2009 17:48
362
М. Д. Воейкова
пени образования, которые фактически только содержат специ альные суффиксы, но не имеют диминутивной семантики (напри мер, книжка или скверик). Функционируя наравне с диминутивами второй ступени, содержащими два и более суффикса, такими как книжечка, диминутивы первой ступени полностью утрачивают се мантический компонент уменьшительности или развивают новое значение и постепенно лексикализуются. Например, слово сетка в 89 % употреблений (из 34 документов, 98 контекстов) встрети лась в сочетании тарифная сетка, телевизионная сетка, и лишь в 8 контекстах из фильма «Особенности национальной охоты» оно попадается в значении «рыболовная сеть». Всего один раз сетка употреблена в значении «верхняя часть металлической кровати», а в целом вполне живое значение «сумка для переноски продуктов или для хранения некоторых видов овощей (картошки, лука и т.д.)» не встретилось ни разу, что лишний раз показывает необходимость пополнения корпуса за счет бытовой устной непубличной речи. 4. Поиск диминутивов в нкря Диминутивы в нкря представлены в семантической разметке как словообразовательная характеристика. Поиск по семантическим признакам для предметных и личных имен предусматривает воз можность выбора их диминутивных вариантов. Отметим сразу, что жесткая структура поиска не предполагает выдачу диминутивов от непредметных имен, хотя теоретически они образуются от любого имени существительного. Ограничения в образовании диминути вов рассматриваются в работе [Спиридонова 1999]. Автор приводит список морфонологических запретов и подробно рассматривает, ка кие семантические компоненты словарного значения, а также ког нитивные особенности представлений говорящих по-русски людей препятствуют образованию слов с уменьшительно-ласкательными суффиксами. Так, главными препятствиями для диминутивной де ривации являются ингерентно большие и ингерентно малые раз меры объектов, а также наличие у них постоянной, четко очерчен ной функции (ср. гитара, рояль, холодильник) [Спиридонова 1999: 15–16]. Ингерентно малые размеры, особенно у животных и птиц, все же не являются серьезным препятствием: в работе отмечается, что слова типа ежик, синичка, мышка «в плане обозначения разме
НКРЯ верстка4.indd 362
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
363
ра вполне нейтральны», в то время как употребление симплекса скорее указывает на превышение обычных размеров [Спиридонова 1999: 15]. Критерий закрепленности функции в основном выполня ется, и хотя слово гитарка все же один раз встретилось в контексте: [Респондент, муж] В квартире у кого-нибудь танцуют, музыкаль ные, приходишь, всегда составчик у каждого. [Респондент, муж] Там гитарка, домра... 4–5, а я всегда руководил. [Биография (беседа лингвиста с информантом) // «Архив Хельсинкского университе та», 1997], — другие существительные с отмеченным семантическим ограничением не попались ни разу. Отметим, что некоторые морфонологические препятствия гово рящие также преодолевают, если есть специальные прагматические условия. Так, ссылаясь на исследование А. К. Поливановой [Поли ванова 1967], Н. Ф. Спиридонова указывает на то, что образование уменьшительно-ласкательных производных от существительных автобус и бульдог невозможны. В нкря, однако, и такие образова ния встречаются, правда, только по одному разу: [Информант, муж, 51] Автобусик так толкали / кто там есть / вытал кивали его на улицу / на главную дорогу. [Биография (беседа лингвиста с информантом) // «Русская разговорная речь европейского северовостока России / Под ред. Н. С. Сергиевой и А. С. Герда, Сыктывкар, 1998», 1982] [Коля, Никита Михалков, муж, 18, 1945] Пока вы там богу молитесь / эта бульдожка людей кусает. [«Георгий Данелия, Геннадий Шпаликов. Я шагаю по Москве, к/ф» 1963].
Важно, что эти примеры встретились нам только тогда, когда было набрано конкретное слово, в результаты общего поиска по семан тическому параметру они почему-то не попали. Таким образом, од нократная встречаемость слова действительно указывает на то, что его диминутивизация затруднена, хотя и преодолима. Результаты семантического поиска заставляют думать, что ди минутивы размечены формально, по суффиксу, поэтому в их число попадают существительные типа носки, коробка, картошка, пет рушка, кабачки, фамилии типа Лужков и Порожков, выражения типа в рамках. Основанием для выделения диминутива является на личие симплекса, поэтому бабушка и дедушка попадают в их число, а внучка нет, хотя и понятно, что слова баба или бабка не являются
НКРЯ верстка4.indd 363
22/06/2009 17:48
364
М. Д. Воейкова
симплексами по отношению к слову бабушка. Здесь семантические связи между производящим и производным затемнены, диминутив можно считать отдельным словом. Разные значения одного и того же слова могут ввести в заблуждение: так, среди «диминутивов от названий продуктов питания» оказалось слово ушки. Хотя ушками, действительно, называют особый вид печенья (Вот ушки берлин ские. [Разговор о пончиках (2006.11)]; [собаке] Нора / ты берлин ские хочешь пончики или берлинские ушки? [Разговор о пончиках (2006.11)]), а в юго-западных говорах — и разновидность пельменей, тем не менее эти употребления далеко разошлись по семантике с исходным словом ухо и по критерию наличия симплекса не могут считаться диминутивами. Результатом поиска в подкорпусе устной речи часто являются отдельные реплики диалога. При этом контекст «от точки до точки» оказывается недостаточным, так как может содержать только одно слово, например пивка; блинчики тока я; еще пирожок; на Горбушке. В целом оказалось, что из-за большого процента ошибочно най денных слов воспользоваться статистическими данными поиска невозможно. Однако первоначальный семантический поиск дими нутивов-существительных на материале подкорпуса устной речи дал 1146 документов и 15950 контекстов использования диминути вов, что составляет основу для значительной выборки, если учесть, что соотношение ошибок и истинных диминутивов доходило до 9% ошибочного поиска в первых 500 произвольно взятых контекстах. Более специализированный поиск позволяет снизить число таких ошибок: так, поиск диминутивов от наименований еды и напитков в устном подкорпусе дает 391 документ с 1195 контекстами, причем процент ошибок значительно ниже (3,8%). Ошибки здесь связа ны с многозначностью и омонимией найденных форм, например: [Болтянская, жен] Пришла аннотация на себя / «Я пенсионерка / но ныть / что мало платят / не буду / это и так у всех в печенках». [Беседа И. Хакамады со слушателями радиостанции «Эхо Москвы» // 2003–2004], [Илюхин, муж] Что ответил Юрий Яковлевич Чайка / министр юстиции РФ / о том / что Грызлов может совмещать партийную деятельность в «Единой России» и одновременно быть министром внутренних дел. [Беседа О. Бычковой с В. Илюхиным в эфире радиостанции «Эхо Москвы» // 2003–2004]. Количество
НКРЯ верстка4.indd 364
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
365
ошибочно найденных диминутивов понижается в различных па дежных формах: так, во 2-м род. падеже процент ошибок ниже (4,8%), чем в винительном (8,2%), что объясняется частотностью образования родительного отделительного от названий продуктов питания. Ошибки и в этом случае связаны с индивидуальной омо нимией отдельных словоформ ([Венедиктов, муж] Месяц тому на зад здесь был ваш заместитель / директор финансовой разведки господин Зубков), а также с системной омонимией, ср. род. пад. ед. ч. и им. пад. мн. ч. у слов ж. р. на –а ([Венедиктов, муж] Нам в свое время объясняли / как Чаушеску / режим строгой экономики / мы тратим только то / что мы зарабатываем / лампочки в подъездах / дежурный по подъезду / чтобы не горело / не прорывалось и так далее. [Беседа А. Венедиктова с А. Илларионовым в эфире радио станции «Эхо Москвы» // 2003–2004]). Интуитивно ограничивая параметры поиска, можно больше или меньше приблизиться к ти пичной сфере употребления диминутивов. Если более детальное обследование покажет, что ограничение параметров поиска влияет на процент «истинных» диминутивов в выдаче, это будет дополни тельно свидетельствовать о том, что прагматическое объяснение употребления диминутивов (см. ниже) более соответствует картине их функционирования в русском языке, чем исходно семантическое объяснение. В последнем случае никакой зависимости от контекста быть не может. Существенно также, что многие виды общения не попадают в сферу записей: практически не встретились примеры коммуникации с детьми и животными или ситуации флирта, уха живания, а ведь известно, что это типичные прагматические кон тексты употребления диминутивов. 5. Диминутивы в устной речи: семантика и функционирование Наш интерес к диминутивам, или словам с уменьшительно-ласка тельными суффиксами, в русской разговорной речи основан на на блюдениях за усвоением русского языка детьми. Распространенное в регистре общения с детьми и в речи самих детей употребление диминутивов и гипокористик (уменьшительных личных имен) яв ляется общеизвестным фактом [Гаврилова 2002: 108]. Однако эта особенность не универсальна: процент диминутивов в речи взрос лых, обращенной к детям, в разных языках различен [Savickiene,
НКРЯ верстка4.indd 365
22/06/2009 17:48
366
М. Д. Воейкова
Dressler 2007]. Например, несмотря на то, что в немецком языке существуют продуктивные диминутивные суффиксы, сами умень шительно-ласкательные наименования в языке взрослых встреча ются не так часто и преимущественно в австрийском варианте не мецкого [Korecky-Kröll, Dressler 2007: 207–208]. В иврите количество диминутивов в языке взрослых, обращенном к ребенку, значитель но ниже, чем, например, в славянских и балтийских языках. Это заставляет предположить, что их употребление связано также и с языковой структурой и не может объясняться только семантически ми и прагматическими особенностями, которые должны были бы привести к универсальному предпочтению диминутивов в ситуа циях общения с детьми. Для объяснения этих фактов необходимо рассмотреть основные особенности диминутивов в русском языке. Русский язык, подобно другим славянским (и некоторым бал тийским) языкам, обладает разветвленной системой диминутив ных суффиксов, позволяющих образовать уменьшительно-ласка тельные наименования не только от существительных, но и от при лагательных, наречий, междометий и некоторых глаголов [Bratus 1969]. Несмотря на все разнообразие средств, можно заметить, что большинство русских диминутивных суффиксов оканчивается на –к, попадающий в позицию непосредственно перед вокалическими падежными окончаниями. Диминутивы м.р. могут содержать рас пространенные суффиксы -ик, -ок\-ек, -онок\-ёнок: котик, коток, котенок; гипокористики м.р. и ж.р. оканчиваются на -ша, -а: Анд рюша, Маша, Боря, Люба, деда, котя; среди суффиксов диминути вов ж.р. — -ичк-, -оньк/-еньк-, -ечк-/-очк-, -ушк-, ишк-, -уш: книжка, кисонька, кисочка, хвальбуша; в ср. р. основы диминутивов окан чиваются суффиксами -ц-, -к- (-ышк-, -ушк-, -ечк-): оконце, окошко, солнышко, семечко. Отметим, что форма ж.р. *семечка в названии подсолнечного масла «*Золотая семечка» выходит за пределы лите ратурной нормы: изменение рода диминутива по сравнению с сим плексом нехарактерно для русского языка, в отличие от немецкого, где род имени существительного определяется суффиксом. Значение диминутивов некоторые исследователи связывают с семой «малого размера», производными от которой являются и их остальные семантические особенности: сторонники семанти ческого подхода, такие как Д. Журавски, считают, что представле
НКРЯ верстка4.indd 366
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
367
ние о малом размере, свойственном детям (или женщинам), лежит в основе уменьшительно-ласкательной семантики и предопреде ляет сферу употребления [Jurafsky 1996]. Последователи разрабо танной В. У. Дресслером концепции морфопрагматики, напротив, считают первичными прагматические функции и не усматривают никакого следа количественной семантики, например, в ситуаци ях смягчения просьбы или неформального общения. Наши данные также показывают, что употребление диминутивов в дружеском общении не может объясняться представлениями о малом размере или количестве, ср. [Шойгу, муж] Они идут на лед ловить рыбк у / получать удовольствие. [Беседа А. Венедиктова с С. Шойгу в эфире радиостанции «Эхо Москвы» // 2003–2004]. Речь, разумеется, идет не о ловле маленькой рыбы или о небольшом ее количестве, а о том, что рыбная ловля является одной из сфер неформального общения. Если ситуация в диалоге напряженная, диминутивы отсутствуют. В русском языке возможно образование двойных и даже трой ных диминутивов (ср. нормативное книжоночка и детское *камуше чек (пример Е. Ю. Протасовой). В таких случаях первый диминутив обычно приобретает более специальное лексическое значение по сравнению с производящим словом и не ассоциируется ни с пред ставлениями о малом размере, ни с известными прагматическими функциями диминутивов, такими как установление фамильярно сти общения или смягчение просьбы. Так, например, разорвались семантические связи меж ду словами сеть и сетка, причем дими нутив стал обозначать более узкую разновидность сетей. В проти воположность этому, у слов клеть и клетка диминутив приобрел более широкую систему значений по сравнению с симплексом. В цепочке, содержащей двойные диминутивы, типичные для этого класса слов прагматические или семантические особенности харак терны лишь для второй или третьей ступени диминутивизации (ср. триады: сеть — сетка — сеточка, дочь — дочка — доченька, в которых лишь третий компонент имеет собственно диминутивный смысл). Н. Ф. Спиридонова приводит целый ряд диминутивов с утрачен ным симплексом (исходным членом пары): клетка, кусок, платок, пятка, пучок, шматок, хорек [Спиридонова 1999: 15]. Обращает на себя внимание тот факт, что все утраченные симплексы обладали редким и непривычным для русского языка звучанием, особенно
НКРЯ верстка4.indd 367
22/06/2009 17:48
368
М. Д. Воейкова
в финальной части: все слова мужского рода односложные, и их конечная часть — -ус, -ат, -ук, -орь — является редкой, по крайней мере с точки зрения type frequency: так, в словаре А. А. Зализняка отмечено 7 односложных слов на –ус, 17 односложных слов на –ат, в том числе такие редкие, как пшат (буквальный смысл текста — из иврита) или непонятный тат, 13 слов на –ук, два односложных сло ва на –орь, включая искомое хорь. Можно предположить, что поми мо морфонологических запретов, отмеченных А. К. Поливановой, семантических ограничений, установленных Н. Ф. Спиридоновой, и с учетом прагматических условий употребления диминутивов, от части снимающих указанные запреты (см. работы В. У. Дресслера), в русском языке существуют еще и морфонологические предпочте ния, заставляющие выбирать более «благозвучную» и распростра ненную или в большей степени отвечающую языковому типу форму. Не случайно в рамках естественной морфологии стремление слово формы как минимум к двусложности считается более естественным, чем односложность. В силу такого свойства, как «системная адек ватность» [Dressler 1999: 137], некоторые (например, германские) языки предпочитают неестественно короткие односложные формы, для русского же языка односложные слова нехарактерны, и язык пытается избавиться от них, в том числе и путем вытеснения этих коротких форм их диминутивными соответствиями. Наиболее ин тересным продолжением этой темы могло бы быть выяснение дру гого вида частотности — token frequency (частота встречаемости), вычисляемой не по словарю, а по количеству употреблений слов с определенным морфонологическим обликом в текстах, однако построить поиск с такими параметрами нам пока не удалось. Для осуществления подобного анализа требуется, чтобы запрос можно было задать списком слов, которые встречаются в контекстах не все вместе, на каком-либо расстоянии, а по отдельности (т. е. не «по и», а «по или»). Для этого в лексико-грамматическом поиске должна быть опция «ввести список слов» или «искать все слова из файла». Пока что такая опция нами не обнаружена. В литературе присутствуют многочисленные указания на то, что употребление диминутивов приводит к упрощению системы склонения [Olmsted 1994], облегчает усвоение родовой принадлеж ности существительных [Kempe et al. 2001, 2003, 2005], помогает
НКРЯ верстка4.indd 368
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи 369 сегментации речевого потока [Kempe et al. 2007]. Все это привело нас к мысли о том, что особенную роль в усвоении языка детьми играют созвучия конечной части слов [Protassova, Voeikova 2007: 63]. Именно они позволяют грамматически группировать суще ствительные, легче вычленять их в речевом потоке и быстрее ос ваивать систему их словоизменения. Более пристальный взгляд на соотношение слов с уменьшительно-ласкательными суффиксами и соответствующих им производящих слов не позволяет сделать однозначного вывода о том, что частое использование диминути вов делает систему склонения более простой для усвоения. С одной стороны, их употребление сводит к минимуму набор слов непродук тивного 3-го женского склонения на согласный (наблюдение Х. Ол мстеда), ср. пары дверь — дверка, мышь — мышка. При образовании диминутивов от слов среднего рода часто отмечается переход уда рения с окончания на основу (яйцо — яичко, колесо — колесико), что позволяет соотнести эти безударные окончания с окончаниями про дуктивного 2-го женского склонения (птичка — яичко), ср. марку растительного масла, ошибочно названную «Золотая семечка». Эти тенденции, действительно, можно рассматривать как упрощение системы склонения. С другой стороны, уменьшительно-ласкатель ные образования от слов мужского рода с наиболее продуктивными суффиксами отличаются большей сложностью при склонении по сравнению с производящими словами. Мужские личные имена при этом получают «женское» окончание –а, ср. Михаил — Миша, Вла димир — Вова. У имен нарицательных при склонении нерегулярно утрачивается гласный в суффиксе, ср. ключика — замочка, к тому же в уменьшительном варианте они удлиняются на целый слог, что создает дополнительные произносительные трудности. Что же за ставляет взрослых и детей использовать уменьшительные наиме нования мужского рода так же часто, как и диминутивы женского рода? В некоторых случаях производящие слова даже не встречают ся в записях спонтанной речи, т. е. уменьшительные варианты на время становятся единственным способом номинации объекта. Примерами таких слов мужского рода могут служить слова пупок, зайчик (или зайка) и мишка. В этих существительных обращает на себя внимание то, что все они происходят от слов с редкими
НКРЯ верстка4.indd 369
22/06/2009 17:48
370
М. Д. Воейкова
финалями (пуп, заяц, медведь). По данным «Грамматического сло варя русского языка» А. А. Зализняка, слов, оканчивающихся на – уп и –яц, меньше десятка, а слов, оканчивающихся на –едь, около двух десятков. Используя уменьшительную форму, говорящие ин туитивно избегают редких и неблагозвучных финалей, стремясь к определенному «единообразию концов слов», которое, вероятно, помогает членить речевой поток [Protassova, Voeikova 2007: 67–68]. Наблюдения Н. Ф. Спиридоновой дают более богатый материал для этого утверж дения, так как оказывается, что в большинстве утраченных симплексов присутствовало сочетание непривычной финали с односложностью. 6. Предварительные выводы Первичное обследование уменьшительно-ласкательных наимено ваний от имен существительных предметной семантики показыва ет большие потенциальные возможности подкорпуса устной речи нкря. Корпус служит уникальным источником данных, которые можно собрать за считанные минуты. Сопоставимый по количе ству отбор материала в прежние годы потребовал бы нескольких месяцев работы, а во многом оказался бы невозможным. Однако само по себе количество примеров не может быть положено в ос нование статистических подсчетов из-за того, что в выборку попа дают омонимы, многозначные слова и личные имена. Дальнейший анализ выбранных примеров, сделанный вручную, позволяет оце нить «степень чистоты выборки», которая может оказаться важным параметром для описания функционирования диминутивов. Пер спективной является также комбинация грамматического и семан тического поиска: отдельные формы диминутивов оказываются «более чистой» выборкой по сравнению с недифференцированным поиском. Материалы нкря, таким образом, дают возможность раз работки новых методов лингвистического анализа данных. Даже самые первые шаги в этом увлекательном обследовании текстов по зволяют уточнить и проверить выводы предшественников и сфор мулировать новые гипотезы, объясняющие загадочную склонность некоторых языков к диминутивам.
НКРЯ верстка4.indd 370
22/06/2009 17:48
Литература Виноградов 1947 — Виноградов В. В. Русский язык: грамматическое учение о слове. М.–Л., 1947. Гаврилова 2002 — Гаврилова Т. О. Регистр общения с детьми: струк турный и социолингвистический аспекты (на материале русско го языка). Диссертация на соискание ученой степени кандидата филологических наук. СПб., СПбГУ, 2002. Гловинская 2007 — Гловинская М. Я. Язык интернета как средство обнаружения неустойчивых участков языка // Ш Международ ный конгресс исследователей русского языка «Русский язык: ис торические судьбы и современность». Труды и материалы. Мо сква, МГУ 20–23 марта 2007. — С. 180. Горбова и др. 2006 — Горбова Е. В., Слепокурова Н. А., Чернигов ская Т.В,, Комовкина Е. П., Матвеева Т. В., Риехакайнен Е. И. и А. С. Романова. Предварительные результаты мониторинга современной русской устной спонтанной речи. Современная русская речь: состояние и функционирование. СПб. Филфак СПбГУ. 2006. — С. 7–30. Гришина 2005 — Гришина Е. А. Устная речь в Национальном корпусе русского языка // Национальный корпус русского языка 2003– 2005. Результаты и перспективы. М.: Индр ик, 2005. — С. 94–110. Земская 1973 — Земская Е. А. Русская разговорная речь. М.: Наука, 1973. Земская и др. 1981 — Земская Е. А., Китайгородская М. В., Ширяев Е. Н. Русская разговорная речь. Общие вопросы. Словообразо вание. Синтаксис. М., Наука, 1981. Красильникова 1990 — Красильникова, Е. В. Имя существительное в русской разговорной речи. М., Наука, 1990. Поливанова 1967 — Поливанова А. К. Образование уменьшительных существительных мужского рода // Русский язык в националь ной школе, №4, 1967. Протасова 2001а — Протасова Е. Ю. Овладение категорией «свое – чу жое» в детской речи // Теоретические проблемы функциональ ной грамматики. СПб.: Наука, 2001. — С. 238–246. Протасова 2001б — Протасова Е. Ю. Роль диминутивов в современ ном русском языке // Русский язык: система и функционирова ние. Tartu: Tartu ülikool, 2001. — С. 72–88. РРР 1978 — Земская Е. А. (Отв. ред.) Русская разговорная речь. Тек
НКРЯ верстка4.indd 371
22/06/2009 17:48
372
М. Д. Воейкова
сты. М.: Наука, 1978. РРР 1983 — Земская Е. А. (Отв. ред.) Русская разговорная речь. Фо нетика. Морфология. Лексика. Жест. М.: Наука, 1983. Русский язык 1996 — Земская Е. А. (Отв. ред.) Русский язык конца ХХ столетия (1985–1995). М.: Языки русской культуры, 1996. Спиридонова 1999 — Спиридонова Н. Ф. Русские диминутивы: про блемы образования и значения // Известия АН, СЛЯ, 1999, том 58, № 2, с. 13–22. Bratus 1969 — Bratus Boris V. The Formation and Expressive Use of Di minutives. Studies in Modern Russian Language 6. Cambridge Uni versity Press, 1969. Dressler 1994a — Dressler W.U. Diminutivbildung als nicht-prototypische Wortbildungsregel // K.-M. Köpcke (ed.) Funktionale Untersuchung en zur deutschen Nominal- und Verbalmorphologie. Tübingen: Nie meyer 1994. 131–148. Dressler 1994b — Dressler W.U. Evidence of the rst stages of morphology acquisition for linguistic theory: extragrammatic morphology and diminutives // Acta Linguistica Hafniensia 27,1. 1994. 91–108. Dressler 1999 — Dressler W.U. What is natural in natural morphology? // Prague Linguistic Circle Papers, V. 3. pp.135–144. Dressler, Merlini Barbaresi 1999 — Dressler W.U., Merlini Barbaresi L. Morphopragmatics // J Verschueren, J.-O. Östman, J. Blommaert and Ch. Bulcaen (eds.) Handbook of Pragmatics. Amsterdam: Benjamins, 1999. 1–14. Jurafsky 1996 — Jurafsky, D. 1996. Universal tendencies in the semantics of the diminutive // Language 72, 533–78. Korecky-Kröll, Dressler 2007 — Korecky-Kröll, K., Dressler W.U. Dimi nutives and hypocoristics in Austrian German (AG) // I., Savickiene W.U. Dressler (eds.) The acquisition of diminutives. A cross-linguistic perspective. Amsterdam: Benjamins, 2007. 207–230. Kempe et al. 2001 — Kempe V., Brooks P., Pirott L. How can child-directed speech facilitate the acquisition of morphology? // M. Almgren, A. Barreña, M.-J. Ezeizabarrena, i. Idiazabal, B. MacWhinney (eds.) Research on Child Language Acquisition. Proceedings of the 8th Conference of the International Association for the Study of Child Language, 2001. 1234–1244. Kempe et al. 2003 — Kempe V., Brooks P., Mironova N., Fedorova O. Di
НКРЯ верстка4.indd 372
22/06/2009 17:48
Проблемы использования подкорпуса разговорной речи
373
minutivisation supports gender acquisition in Russian children // Journal of Child Language 30, 2003. 471–485. Kempe et al. 2005 — Kempe V., Brooks P. The role of diminutives in the acquisition of Russian gender: Can elements of child-directed speech aid in learning morphology? // Language Learning, 55, 2005. Supplement: The Best of Language Learning. 139–176. Kempe et al. 2007 — Kempe V., Brooks P., Gillis S., Samson G. Diminuti ves facilitate word segmentation in natural speech: Cross-linguistic evidence // Memory & Cognition, 35(4), 2007. 762–773 MacWhinney 2000 — MacWhinney B. The CHILDES Project. Tools for Analysing Talk. LEA Publ. Hillsdale, N.J., Hove & London, 2000 (3rd ed.). Miller, Weinert 1998 — Miller J., Weinert R. Spontaneous spoken lan guage: Syntax and discourse. Clarendon Press, Oxford, 1998. Olmsted 1994 — Olmsted H. Diminutive morphology of Russian children: A simplied subset of nominal declension in language acquisition // Alexander Lipson: In memoriam. Slavica Publishers Inc. Columbus, Ohio, 1994. 165–207. Protassova, Voeikova 2007 — Protassova E.Ju., Voeikova M. Diminutives in Russian at the early stages of acquisition // Savickiene I. & Dressler W.U. (eds.) The Acquisition of Diminutives: A Cross-linguistic per spective. John Benjamins. Amsterdam–Phil., 2007. 43–72 Savickiene, Dressler 2007 — Savickiene I. & Dressler W.U. (eds.). The Acquisition of Diminutives: A Cross-linguistic perspective. John Ben jamins. Amsterdam–Phil., 2007. Sokolov, Snow 1995 — Sokolov J., Snow C. Handbook in Language Ana lysis Using CHILDES. LEA Publ. Hillsdale, NY, 1995.
НКРЯ верстка4.indd 373
22/06/2009 17:48
Е. В. Падучева
НКРЯ как ресурс при исследовании предметной соотнесенности имен
татья является продолжением исследований, начатых еще в 80-е годы и отраженных в книге Падучева 1985, которая посвящена предметной соотнесенности имен и именных групп (ИГ), то есть р е ф е р е н ц и и . Одно дело, если имя имеет к о н к р е т н о - р е ф е р е н т н ы й статус, т. е. обозначает объект, а другое — если у него п р е д и к а т н ы й статус, т. е. оно обозначает свойство — употребляется в преди катной позиции, в контексте существования или всеобщности. Имя в предикатной позиции не соотносится с объектом; в частности, не может быть антецедентом местоимения 3 лица:
Статья является продолжением исследований, нача тых еще в 80-е годы и отраженных в книге Падучева 1985, которая посвящена предметной соотнесенности имен и именных групп (ИГ), то есть референции. Одно дело, если имя имеет конкретно-референтный статус, т.е. обозначает объект, а другое — если у него преди катный статус, т.е. оно обозначает свойство — упот ребляется в предикатной позиции, в контексте су ществования или всеобщности. Имя в предикатной позиции не соотносится с объектом; в частности, не может быть антецедентом местоимения 3 лица Ста тья является продолжением исследований, начатых еще в 80-е годы и отраженных в книге Падучева 1985, которая посвящена предметной соотнесенности имен и именных групп (ИГ), то есть референции. Одно дело, если имя имеет конкретно-референтный статус, т.е. обозначает объект, а другое — если у него предикат ный статус, т.е. оно обозначает свойство — употребля ется в предикатной позиции, в контексте существова ния или всеобщности. Имя в предикатной позиции не соотносится с объектом; в частности, не может быть антецедентом местоимения 3 лица Статья является продолжением исс ледов аний, начатых еще в 80-е годы и отраженных в книге Падучева 1985, которая посвящена предметной соотнесенности имен и имен ных групп (ИГ), то есть референции. Одно дело, если имя имеет конкретно-референтный статус, т.е. обо значает объект, а другое — если у него предикатный статус, т.е. оно обозначает свойство — употребляется
(А) Моя мать врач. Она (*он) работает в городской больнице. (Б) Пришел врач. Он (*она) сейчас осматривает больного. До последнего времени оставались загадкой референциальные свойства именных групп со структурой вида «такой Х, как Y», где Х — имя существительное нарицательное в ед.числе (или ИГ того же
НКРЯ верстка4.indd 374
22/06/2009 17:48
Предметная соотнесенность имен
375
типа; например, Х — это может быть, скажем, писатель и известный писатель), а Y — имя собственное; например: (1) «Челси» может только мечтать о таком тренере, как Гус Хид динк. Так какой же смысл имеет предложение (1)– (1.i) или (1.ii)? (1.i) «Челси» может только мечтать о Гусе Хиддинке в качестве тре нера; (1.ii) «Челси» может только мечтать о тренере с такими свойствами, как у Гуса Хиддинка, т.е. такого же класса, как Гус Хиддинк. Для решения этой проблемы необходим большой текстовый мате риал. Небывалые возможности открыл перед исследователем рефе ренции Национальный корпус русского языка (сокращенно — н кря). Никакой GOOGLE не может дать лингвисту ничего похожего на ту информацию, которую поставляет нкря, позволяющий произ водить поиск конструкций. (К о н с т р у к ц и е й называется цепоч ка словоформ, каж дая из которых представлена лексемой и/или набором грамматических и/или семантических признаков.) Итак, тема статьи — референциальные свойства конструкции вида «та кой Х, как Y». Судя по внутренней структуре сочетаний вида «такой Х, как Y», они должны иметь значение типа (1.ii): ‘объект из класса Х, обладающий с в о й с т в а м и Y-а’. В принципе, собственному имени нормально иметь референцию к конкретному объекту. Меж ду тем, в составе данной конструк ции имя Y не должно обозначать объект: должен иметься в виду не объект Y, а с в о й с т в а Y-а — при этом не уточняется, какие именно свойства. В этом значении ИГ вида «такой Х, как Y» имеет предикатный статус, т.е. употребляется в предикатной позиции, в контексте су ществования или всеобщности: (2) а. Возможно, беда Хаккинена в том, что у него никогда н е б ы л о такого менеджера, как Вилли Веббер. [= ‘ не было менеджера с такими свойствами, как у Вилли Веббера’];
НКРЯ верстка4.indd 375
22/06/2009 17:48
376
Е. В. Падучева б. Такой менеджер, как Вилли Веббер, в с е г д а найдет выход [= ‘ менеджер с такими свойствами, как у Вилли Веббера, всегда найдет выход’.
Ясно, что ИГ вида «такой Х, как Y» в этом значении нереферентна и должна быть уместна только в контекстах нереферентности, т.е. как в примере (А) или (2а,б). Однако сочетания вида «такой Х, как Y» допускают и другое понимание. В состав ИГ Х может входить эксплицитное указа ние свойства объекта Y, которое имеется в виду. В таком контек сте происходит перераспределение акцентов: собственное имя Y действительно обозначает соответствующий объект, а Х указы вает свойство (свойства) объекта Y. Так, (3) означает, что гравю ры и литографии были по достоинству оценены Брыгиным, ко торый является знатоком (или: Брыгиным, поскольку он знаток). (3) Эти гравюры и литографии были по достоинству оценены та ким знатоком, как Брыгин. [директор Одесского литератур ного музея] Предложение (3) предполагает референцию к объекту, обозначен ному собственным именем Y, а опорная ИГ, т.е. Х, всего лишь задает атрибут Y-а — описательное определение, эпитет: Брыгин назван знатоком. Предметная интерпретация Y-а возникает у ИГ вида «такой Х, как Y» в следующих контекстах. • Если имя Х имеет оценочную семантику. Этого одного доста точно, чтобы Х стало коммуникативным фокусом высказыва ния, как в (3); то же в (4): (4) Конечно, такому дровосек у как Чубайс отказыв аться от сделанного б е с п о л е з н о , но нужен характер и расчет, что бы публично, опять и опять брать ответственность на себя. [«ПОЛИТКОМ.РУ», 2003.07.13] •
Если в составе Х имеется определение, которое выявляет тот аспект Y-а, который имеется в виду:
(5) У барышни тоже была судимость, и поэтому родители в ы н у ж д е н ы были купить ей путевку в такое демократическое
НКРЯ верстка4.indd 376
22/06/2009 17:48
Предметная соотнесенность имен
377
место, как Саматиха: сто пятая верста, ничего не поделаешь. [Н.Мандельштам. Воспоминания] (6) У человека, к которому приставили такого крупного работ ника, как Костырев, были большие шансы попасть на Дальний Восток. [Н.Мандельштам. Воспоминания] •
В определенном контексте в фокусе оказывается и м п л и ц и т н ы й оценочный компонент; так, (7) понимается примерно как (7') (здесь играет роль даже, которое выстраивает шкалу на множестве игроков):
(7) После травмы Дайслера в ней почти не осталось игроков, способных пасовать, а конструировать игру и заби вать голы одновременно н е с м о ж е т даже такой игрок, как Баллак; (7') ‘ даже такой о т л и ч н ы й игрок, как Баллак’. Принадлежность объекта Y к классу Х-ов (например, Баллака к классу игроков) скорее предполагается заранее известной слу шающему, так что коммуникативно значимым в Х является именно имплицитный компонент ‘отличный’. Предложение (7) имеет два значения — оно может пониматься с референцией к Y-у и без. Первое значение конструкции, когда она отсылает к свойс т ву Y-а, можно назвать п р е д и к а т и в н ы м , а второе, когда имеет место референция к самому Y-у, — п р е д м е т н ы м . В этом втором случае ИГ Х задает всего лишь аппозитивное определение — эпи тет — объекта Y. Значение такой в этом контексте можно тоже на звать аппозитивным. Аппозитивное такой отличается от того, которое в Landman, Morzycki 2003 было названо с к а л я р н ы м (ср. также Siegel 1994). Так, в примерах типа (8) возникает шкала степеней значения при знака: (8) Ты такой невнимательный = ‘ты невнимательный в высокой степени’. Между тем в примере (5) Саматиха — это п р о с т о «демократиче ское» место, а не ‘демократическое в высокой степени’. Аналогично в (3): Брыгин — просто знаток, а не знаток высшей категории.
НКРЯ верстка4.indd 377
22/06/2009 17:48
378
Е. В. Падучева
Атрибуты, которые приписываются объекту Y именной группой Х в контексте аппозитивного такой, могут быть выписаны экспли цитно — как аппозитивные определения (синтаксически их надо считать входящими в состав Х): (9) Аракчеев н е м о г не полюбить такого человека, как Тюфяев: без высших притязаний, без развлечений, без мнений, человека формально честного, снедаемого честолюбием и ставящего по виновение в первую добродетель людскую. [А. И. Герцен. Былое и думы. Часть вторая. Тюрьма и ссылка (1854–1858)] Итак, именная группа вида «такой Х, как Y» может иметь интер претацию, при которой синтаксически главное имя в ее составе, Х, и синтаксически подчиненное, Y, как бы меняются местами, так что ИГ Y получает синтаксически «незаконную» (но коммуникативно оправданную) референцию к объекту, называемому собственным именем. Парадокс состоит, однако, в том, что ИГ как целое и при этой второй интерпретации не становится конкретно-референт ной и свободно употребляется только в контекстах, не требующих референтности. В самом деле, во всех примерах (кроме, разве что, (3)) контекст нереферентный: экзистенциальный, модальный или родовой. Т.е. это условие — нереферентность контекста — сохраня ется для конструкции в целом, несмотря на то, что ИГ Y в ее составе имеет референцию к объекту, как полагается собственному имени. Нельзя, однако, сказать, что употребление нереферентной по своей внутренней форме ИГ вида «такой Х, как Y» в контексте, который требует референтной ИГ, полностью невозможно. Так, в примере (10) ИГ вида «такой Х, как Y» употребляется в контексте, требующем конкретной референции; она имеет при этом своего рода например-интерпретацию: (10) Это мы видим у такого писателя, как Мельников-Печерский. (Б.Успенский) В (10) имеется референция непосредственно к объекту Y (а не к свойствам Y-а), и предполагается известной слушающему пре суппозиция о том, что Y принадлежит к классу Х: то, что Мельни ков-Печерский — писатель, скорее предполагается известным, чем сообщается. Так что Х не выражает никакого специального атри
НКРЯ верстка4.indd 378
22/06/2009 17:48
Предметная соотнесенность имен
379
бута объекта Y — ни в явном виде, как в (3), (4), ни в имплицитном, как в (7). Фраза (10) отличается от (10'), где нет конструкции «такой Х, как Y», пожалуй, только импликацией о том, что на месте Y мог бы быть и какой-то другой объект класса Х (на месте МельниковаПечерского — какой-то другой, хотя и не всякий другой, писатель): (10') Это мы видим у писателя Мельникова-Печерского. Так что идея ‘например’ — это единственное, что содержится в со четании такой писатель, как Мельников-Печерский по сравнению с сочетанием писатель Мельников-Печерский. В примере (11) например-интерпретация эксплицирована: (11) С этим связан общий упадок московской литературы, отмеченный, н а п р и м е р , таким исследователем, как Буслаев (А. В. Исаченко) Можно думать, роль эксплицитного и имплицитного например в том, что они отменяют и н т е р п р е т а ц и ю и с ч е р п ы в а ю щ е г о п е р е ч и с л е н и я , свойственную собственным именам в конечной позиции в предложении (Sgall, Hajicˇova 1977). Как мы видим, конструкция «такой Х, как Y» имеет о с ц и л л и р у ю щ у ю с е м а н т и к у (см. Апресян 1974: 179 со ссылкой на Stern 1931): незначительный коммуникативный сдвиг склоняет то к од ной интерпретации, то к другой, а в некоторых контекстах, как в (1), допустимы оба понимания. Неудивительно, что сочетания вида «такой Х, как Y» очень часто употребляются неправильно. Так, в (12) как лишнее; словом такой говорящий хотел выразить н е о п р е д е л е н н о с т ь — отсутствие предположения об известности референта собственного имени слушающему (о подобной функции слова этот см. Иомдин, Бер дичевский 2006): (12) Скажите мне, пожалуйста, вы знаете такого человека как Глазьев, вам знакомо это имя? [ФОМ (2003.08.26)] В (12) спрашивающему безусловно нужна референция к Глазьеву, и надо было сказать: … такого человека — Глазьева. Говорящий употребил как, видимо, пытаясь избежать аппозитивной связи, по скольку она практически лишена внешнего выражения.
НКРЯ верстка4.indd 379
22/06/2009 17:48
380
Е. В. Падучева
Фраза (13а) тоже неправильная; автор хотел сказать либо (13б), с ре ференцией к Березовскому, либо (13в), имея в виду не самого Бере зовского, а только его свойства: (13) а. Такой человек / как Березовский / он на много вперед про считывает ходы. [Беседа с социологом на общественно-по литические темы, Москва // ФОМ (2004.02.10)] б. Березовский — такой человек, который на много вперед про считывает ходы. в. Такие люди, как Березовский, на много вперед просчитыва ют ходы. Фраза (14) воспринимается просто как аномальная: (14) По словам заместителя директора Музея революции Мао Цзэ дун впервые в своей жизни встретился с такой женщиной, как Цзян Цин. В референтном контексте примера (14) (сказуемое — встретился) должна быть референция к Цзян Цин; но например-интерпретация иск лючена, поскольку смысл требует единственности женщины, а значение ‘с такой замечательной женщиной’ не проходит, посколь ку ни с какой женщиной нельзя встретиться (в значении ‘познако миться’) дважды. Следует подчеркнуть, что неправильные употребления конструк ции «такой Х, как Y» характерны только для единственного числа именной группы Х. Если Х стоит во множественном числе, то оче видно, что ИГ как целое обозначает класс объектов и неуместна в позиции, требующей референтности. Так, в (15) ИГ вида «такие Х, как Y» употреблена в модальном контексте и имеет законное понимание с референцией к с в о й с т в а м Y-а: (15) Далее автор «делает мне выволочку» за наивность, которая выражается в том, будто я считаю, что м о ж н о переубедить таких людей, как Макашов [«Дружба народов», 1999] Денотатом ИГ вида «такие Х-ы, как Y», с ИГ Х во мн. числе, является подкласс объектов класса Х, обладающих каким-то свойством (или свойствами) объекта Y. Иными словами, если опорное имя Х стоит во мн. числе, то ИГ в целом однозначно понимается как задающая
НКРЯ верстка4.indd 380
22/06/2009 17:48
Предметная соотнесенность имен
381
класс объектов, и во мн. числе у нее не засвидетельствовано упот реблений с референцией к Y-у, а не к свойству Y-а, задающему класс ему подобных Х-ов. Коллизия, состоящая в том, что нереферентная ИГ помещается в контекст, требующий референтной ИГ, возникает только в том случае, если опорное имя Х имеет ед. число, так что ИГ в целом может быть понята как обозначающая единичный объект. Представляет интерес пример (16), где мн. число носит, так сказать, согласовательный характер: (16) Даже такие железные женщины, как Елена Дмитриевна Ста сова и Екатерина Ивановна Калинина, говорили мне, что не встречали мужчин более обаятельных, нежели Глеб Иванович. [Лев Разгон. Непридуманное/Иван Михайлович Москвин (1988)] Упростим (16) до (17а), и мы увидим, что простая аппозитивная кон струкция, как в (17б), стилистически более уместна, чем «такой Х, как Y». Чтобы спасти (17а), надо признать в нем скалярное такой (т.е. не просто «железная», а «железная в высшей степени») — кото рое, скорее всего, в (16) не имелось в виду: ?
(17) а. Даже такая железная женщина, как Екатерина Ивановна Калинина, говорила мне, что не встречала мужчин более обаятельных, нежели Глеб Иванович; б. Даже железная женщина Екатерина Ивановна Калинина го ворила мне, что не встречала мужчин более обаятельных, нежели Глеб Иванович. Итак, конструкция «такой Х, как Y», где Y — имя собственное, не референтная по своей внутренней форме, может, наряду с преди кативной интерпретацией, иметь конкретную референцию к объ екту Y и употребляться в контексте, требующем референтной ИГ; но в этом последнем случае в семантике конструкции возникают семантические приращения.
НКРЯ верстка4.indd 381
22/06/2009 17:48
Литература Апресян 1974 – Апресян Ю. Д. Лексическая семантика: Синонимиче ские средства языка. М.: Наука, 1974. Иомдин, Бердичевский 2006 — Иомдин Б. Л., Бердичевский А. С. А кто этот этот? Имена собственные и неопределенная опре деленность // Компьютерная лингвистика и интеллектуальные технологии: Труды международной конференции «Диалог 2006» (Бекасово, 31 мая — 4 июня 2006 г.). / Под ред. Н. И. Лауфер, А. С. Нариньяни, В. П. Селегея. М.: Изд-во РГГУ, 2006, с. 196–201. Падучева 1985 – Падучева Е. В. Высказывание и его соотнесенность с действительностью. М.: Наука, 1985; 5-е изд. — М.: УРСС, 2007. Landman & Morzycki 2003 — Landman, M., Morzycki M. Event kinds and the representation of manner. In Proceedings of the Western Conference in Linguistics 2002 (WECOL 11), eds. Nancy Mae Antrim et al. Fresno: California State University Fresno. Siegel M.E.A. 1994. Such: Binding and the Pro-Adjective. Linguistics and Philosophy 17: 481–498. Sgall, Hajicˇova 1977 — Sgall P., Hajicˇova E. Focus on focus. i. — Prague bull. math. linguistics, v. 28, 5–54, 1977. Stern 1931 — Stern G. Meaning and change of meaning. Göteborg 1931.
НКРЯ верстка4.indd 382
22/06/2009 17:48
Д. О. Добровольский
Корпус параллельных текстов в исследовании культурноспецифичной лексики 1
1. ринципы пос троения и за дачи корпуса параллельных текстов (КоПарТ), входящего в качестве самостоятельного модуля в Национальный кор пус русского языка, описаны в наших предыдущих публикациях; ср. [Добровольский, Кретов, Шаров 2005]. Здесь хотелось бы лишь от метить, что КоПарТ постоянно пополняется новыми текстами. Это касается как русско-английской, так и англо-русской части. В ста дии подготовки находится немецко-русский корпус, включающий следующие произведения: Принципы построения и задачи корпуса параллельных текстов (Ко ПарТ), входящего в качестве самостоятельного модуля в Национальный корпус русского языка, описаны в наших предыдущих публикациях; ср. [Добровольский, Кретов, Шаров 2005]. Здесь хотелось бы лишь отметить, что КоПарТ постоянно пополняется новыми текстами. Это касается как русско-английской, так и англо-русской части. В стадии подготовки находится немецко-русский корпус, включающий следую щие произведения Принципы построения и задачи корпуса параллель ных текстов (КоПарТ), входящего в качестве самостоятельного модуля в Национальный корпус русского языка, описаны в наших предыдущих публикациях; ср. [Добровольский, Кретов, Шаров 2005]. Здесь хотелось бы лишь отметить, что КоПарТ постоянно пополняется новыми текста ми. Это касается как русско-английской, так и англо-русской части. В стадии подготовки находится немецко-русский корпус, включающий следующие произведения Принципы построения и задачи корпуса па раллельных текстов (КоПарТ), входящего в качестве самостоятельно го модуля в Национальный корпус русского языка, описаны в наших предыдущих публикациях; ср. [Добровольский, Кретов, Шаров 2005]. Здесь хотелось бы лишь отметить, что КоПарТ постоянно пополняется новыми текстами. Это касается как русско-английской, так и англо-рус ской части. В стадии подготовки находится немецко-русский корпус, включающий следующие произведения Принципы построения и за дачи корпуса параллельных текстов (КоПарТ), входящего в качестве самос тоятельного модуля в Национальный корпус русского языка, описаны в наших предыдущих публикациях; ср. [Добров ольский, Кретов, Шаров 2005]. Здесь хотелось бы лишь отметить, что КоПарТ постоянно пополняется новыми текстами. Это касается как русско-анг лийской, так и англо-русской части. В стадии подготовки находится немецко-русский корпус, включающий следующие произв едения
1
Работа выполнена в рамках проекта «Пополнение и развитие корпуса парал лельных текстов» (программа ОИФН РАН «Русский язык, литература и фольклор в информационном обществе: формирование электронных научных фондов») при поддержке РГНФ (грант 08-04-00173а) и программы фундаментальных ис следований ОИФН РАН «Русская культура в мировой истории» (проект «Эволю ция русской языковой картины мира в аспекте культуры речи»).
НКРЯ верстка4.indd 383
22/06/2009 17:48
384
Д. О. Добровольский
Г. фон Клейст. «Михаэль Кольхаас»; Э. Т. А. Гофман. «Золотой горшок»; «Крошка Цахес»; «Щелкунчик и Мышиный Король» Ф. Кафка. «Процесс»; Т. Манн. «Волшебная гора»; Г. Гессе. «Сиддхарта»; Э.-М. Ремарк. «Черный обелиск»; Г. Бёлль. «Глазами клоуна»; П. Зюскинд. «Парфюмер»; М. Энде. «Момо». Частично немецко-русский параллельный корпус уже доступен в режиме online. 2. Понятно, что корпуса параллельных текстов могут использовать ся с самыми разными целями. Наиболее интересные результаты мо гут быть, очевидно, получены в теории перевода и в различных раз делах сопоставительного языкознания (ср. [Андреева 2006; Добро вольский 2003; 2004; Михайлов 2002; 2005; Bowker 2000; Varadi, Kiss 2001]). Причем из всех возможных сопоставительных задач — по крайней мере на данной стадии разработки КоПарТ — предпочте ние отдается задачам контрастивно-лексикологическим. Поскольку для поиска конкретных словоформ в корпусе не требуется никакой специальной разметки, задачи из области лексической семантики могут решаться и с помощью корпусов, еще не прошедших этап морфо-синтаксического аннотирования. Исследование лексических единиц разных языков, традиционно считавшихся эквивалентными, с опорой на КоПарТ часто позволяет выявить ряд нетривиальных семантических различий. Так, в [Доб ровольский, Левонтина в печати] было показано, что у русского слова нет есть специфические значения, которые отсутствуют у не мецкого слова nein. Ср. — Вы опоздали. И юбка у вас слишком корот ка. — Нет, а юбка-то здесь причем? — Sie kommen zu spät! Und Ihr Rock ist definitiv zu kurz. — *Nein, was hat denn mein Rock damit zu tun? Обращение к параллельным корпусам показало, в частности, что приимперативное нет более типично для русского языка; ср. Halt, warte! — Нет, подожди, постой! (Т. Манн. Волшебная гора). Анализ
НКРЯ верстка4.indd 384
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
385
подобных примеров позволил сделать вывод, что русское нет может быть связано как с диктумом, так и с моду сом вы сказы ва ния, в то время как немецкое nein в целом более тес но связано с диктумом, с пропозицией [Добровольский, Левонтина в печати]. В известном смысле безэквивалентной (или не полностью эк вивалентной) оказывается чуть ли не вся непредметная лексика. Причины этого очевидны: если денотат некоторого слова не при вязан к миру физических сущностей, его значение отсылает к оп ределенному ментальному конструкту. Поскольку нет никаких оснований предполагать, что концептуальные структуры, фикси рованные в лексике разных языков, должны совпадать, неудиви тельно, что соответствующие слова не имеют полных эквивален тов, т.е. оказываются, в строгом смысле, лингвоспецифичными. Приведем пример. В [Добровольский, Падучева 2008] было показано, что в немец ком языке есть огромное количество слов с пространственно-дейк тическими элементами her (≈ ‘сюда’) и hin (≈ ‘туда’), выражающими идею направления движения. Слова hin и her употребляются также и самостоятельно в различных комбинациях с глаголами и адвер биальными конструкциями для выражения пространственных от ношений между участниками ситуации. В русском языке нет таких системно организованных (т.е. почти грамматических) средств для выражения соответствующих дейктических смыслов. Так, глаголы hereinführen и hineinführen оба переводятся на русский язык с по мощью глаголов вводить / ввозить, так что идея ‘вводить/ввозить сюда, т.е. по направлению к говорящему’ vs. ‘вводить/ввозить туда, т.е. по направлению от говорящего’2 в русском языке часто вообще не выражается. Подобные случаи отсутствия полной эквивалентности обуслов лены особенностями языковой структуры. В этом смысле они ин тересны в первую очередь с точки зрения сопоставления языковых систем и отражения соответствующих несовпадений в организации дискурса. Встречаются, однако, случаи межъязыковых расхож де ний, которые обусловлены совсем другими причинами. Имеются 2
Точнее ‘по направлению к говорящему или к лицу, точку зрения которого принимает говорящий’ vs. ‘по направлению от говорящего или от лица, точку зрения которого принимает говорящий’. Ср. [Добровольский, Падучева 2008].
НКРЯ верстка4.indd 385
22/06/2009 17:48
386
Д. О. Добровольский
в виду лексические единицы, непереводимость которых основыва ется на их культурной специфике. Явления такого рода исследуются, в частности, в известных работах А. Вежбицкой. Из работ других авторов ср. [Тер-Минасова 2000; Зализняк, Левонтина, Шмелев 2005]. Сущностное отличие чисто лингвоспецифичных явлений от явлений культурно-специфичных состоит в том, что системно обу словленные межъязыковые расхождения, как правило, могут быть разрешены на уровне текста или даже отдельного высказывания3 , в то время как культурно обусловленные различия ставят перевод чика перед необходимостью выбора решения, в любом случае ве дущего к тем или иным информационным потерям. 3. Объектом исследования в данной статье являются особенности некоторых русских обращений в сопоставительном аспекте. В каче стве источников эмпирического материала использованы материа лы Национального корпуса русского языка (в частности КоПарТ), а также корпус параллельных текс тов AAC — Austrian Academy Corpus Австрийской академии наук в Вене. Форма обращения часто довольно много говорит о речевой си туации, в частности о возрасте, социальном статусе участников, от ношениях между ними, а также о соответствующей эпохе. Ср. такие обращения, как эй, женщина! и милостивая государыня! Здесь нас прежде всего интересуют обращения типа брат, браток, матушка, мамаша, папаша, отец, мать, бабуся, дед, дочка, сынок, т.е. обра щения, во внутренней форме которых содержится идея родствен ных отношений. Понятно, что эти обращения могут использоваться и в своей первичной функции, когда, например, обращаясь к сыну, говорящий использует форму сынок. Культурно-специфичными яв ляются, естественно, не эти — первичные — употребления, а контек сты, в которых подобные обращения используются по отношению 3
В связи с этим встает вопрос соотношения двух (обычно плохо различаемых) категорий: межъязыковой эквивалентности лексических единиц на системном уровне (например, как она представлена в двуязычном словаре), с одной сто роны, и функциональной эквивалентности этих же единиц как элементов кон кретного текста — с другой. В первом случае мы имеем дело с категорией со поставительной лексикологии (контрастивной лексической семантики), а во втором — с категорией теории перевода или сопоставительной лингвистики текста.
НКРЯ верстка4.indd 386
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
387
к «неродственникам». Ср. Далеко ли, братишка, до берега? или А где здесь мебельный, дочка? Все эти лексемы можно разделить на две довольно четко проти вопоставленные группы: (а) современные, социально маркированные и (б) устаревшие формы обращения. Ср. контексты (1–6), с одной стороны, и (7–10) — с другой. (1) В наш двор стали заходить бодрые, жизнерадостные компа
(2)
(3) (4)
(5)
(6)
(7)
нии. — А чо, папаша, — дружески обращались они к деду, усаживаясь за столик у крыльца веранды, — давай, не жмись, подваливай сюда! Закусон тоже наш! Звенели стаканы. Дед, выжимая бессильную улыб ку, уходил к сараю и там плакал. (М. Палей. «Поминовение») Вера Максимовна отступила вглубь зала, постояла с минуту и тихо вышла. Неизвестный мужчина догнал ее у двери и протянул булку хлеба в полиэтиленовом пакете. — Ты бы просто попросила, мамаш. Понимаю. А кому сейчас легко? — он усмехнулся, от него пахло пивом. (А. Маслов. «Химера») Подержи-ка, сынок, нашу лодочку, а я молоточком пройдусь, материю набью. (О. Павлов. «Карагандинские девятины, или Повесть послед них дней») — Спасибо, очень хорошее вино, — поблагодарила Таня, вернув ста кан. Пьянчужка встрепенулась: — Ты ня пей вина, дочка. Говор у неё был не московский, с сильным «я» вместо «е». (Л. Улицкая. «Путеше ствие в седьмую сторону света») Но ранним утренним часом у широкого мраморного крыльца (куда позже арестантов уже не пускали) один простецкий зэк, косолапый слесарь, столкнулся с новичком лицом к лицу. — Ну, браток, — толкнул он его в грудки, — откуда? На чём погорел? Садись, покурим. Но при езжий в брезгливом ужасе отшатнулся от слесаря. (А. Солженицын. «В круге первом») Я сейчас наберу номер, а вы скажете в трубку вот эти слова. — Она протянула ему листок с текстом. — Читать умеете? — Обижаешь, се стренка, — приосанился нищий, — я кандидат наук. (Е и В. Гордеевы. «Не все мы умрем») А ведь ты у меня на руках родился, пострел эдакой! Ну, да это все равно; где тебе было обо мне вспомнить! Только ты умница, что прие хал. А что, мать моя, — прибавила она, обращаясь к Марье Дмитриев не, — угостила ты его чем-нибудь? — Мне ничего не нужно, — поспеш но проговорил Лаврецкий. — Ну, хоть чаю напейся, мой батюшка. Гос поди боже мой! (И.C. Тургенев. «Дворянское гнездо»)
НКРЯ верстка4.indd 387
22/06/2009 17:48
388
Д. О. Добровольский
(8) Как завижу, бывало, рысьи шапки, да как заслышу их визг, веришь ли, отец мой, сердце так и замрет! (А. С. Пушкин. «Капитанская дочка»)
(9) Костыль вертелся на стуле и толкал соседей локтями, мешал говорить, и то плакал, то хохотал. - Деточки, деточки, деточки... — бормотал он быстро. — Аксиньюшка-матушка, Варварушка, будем жить все в мире и согласии, топорики мои любезные... (А. П. Чехов. «В овраге») (10) — Да мы разве не уважаем тебя? — сказал старик. — Нам тебя нельзя не уважать, потому мы у тебя в руках; ты из нас веревки вьешь. — Ну, брат, вас не обидишь; вы бы не обидели. (Л. Н. Толстой. «Воскресе ние»)
Достаточно очевидно, что инвентарь обращений группы (а) и груп пы (б) не совпадает. Для группы (а) характерны такие формы обра щений, как мамаша, папаша, мать, отец,4 браток; как несколько устаревающие воспринимаются формы сынок, дочка, встречаю щиеся сегодня только в речи весьма пожилых людей; ср. (11). (11) Бабка (с живостью): Да я уж отплачу, доченька, я уж отплачу. Отра ботаю, довольна будешь. (Е. Хаецкая. «Синие стрекозы Вавилона»)
Таким образом, здесь работает не только временна´я динамика, но и социально-возрастные факторы. Маркированными в этом смысле оказываются также формы бабушка, дедушка, тетя, дядя, характер ные для речи детей (ср. контекст 12, хотя они возможны и в крайне просторечном дискурсе взрослых: например, Садитесь, бабушка!; Куда ты прешь, дядя?!). (12) Но турникет ей пройти не удалось, потому что не было денег, и Нат ка подошла к какой-то пожилой женщине и попросила: — Тетенька, можно, я как будто с вами? Женщина посмотрела на ее мокрые тапки, потом — на зареванное, тоже мокрое лицо и сказала: — Что с тобой, де вочка... обидел кто-нибудь? (И. Безладнова. «Такая женщина»)
4
Интересно, что современно-просторечным формам мать и отец в норме противопоставлены формально близкие обращения мать моя и отец мой, отно сящиеся к группе (б). Последние обращения, хотя и встречаются в литературе XX века, воспринимаются либо как принадлежащие культуре предшествующих эпох, либо как несколько устаревшие варианты просторечных мать, отец: — Пе ли-то хорошо. Да мне, мать моя, плохо. Опять колотье и тут и тут. Везде. Вот какой грех. (Б. Пастернак. «Доктор Живаго»); Всю дорогу он хвалил Александру Сергеевну. — Ну и поешь же ты, мать моя! — говорил он. — Спасибо тебе, това рищ певица. От всех ребят спасибо. (А. Пантелеев. «Ленька Пантелеев»).
НКРЯ верстка4.indd 388
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
389
Хотя все обращения группы (а) могут быть охарактеризованы как просторечные, они до известной степени разнородны в социальном отношении. Ср. формы братан, брательник и — возможно, в мень шей степени братишка — характерные для представителей соци альных низов; ср. (13) и (14). (13) Выслушав через переводчика предложение канадской стороны, тот буркнул что-то вроде «заметано» и принялся доставать из карманов широченных штанин пачки долларов, перехваченные аптечной резин кой: «Какой там банк, какой контракт, меньше бюрократии, больше бабок, братан...» Таким был первый опыт дебюрократизации нашей экономики. (Б. Грищенко. «Посторонний в Кремле») (14) Слышь, братишка, всех их сразу-то не пореши, — хохотнул ему вслед Крюков. (Д. Быков. «Орфография»)
Заметим попутно, что б р а т -обращения отличаются особенной социально-временной разнородностью. В то время как браток, бра тишка, братан, брательник однозначно относятся к группе (а), а брат — к группе (б) (см. подробнее раздел 4), обращение братец осциллирует между (а) и (б). Ср. контексты (15), с одной стороны, и (16) — с другой. (15) а. Послушай, братец, — спросил у него штабс-капитан, — чья эта чудес ная коляска? (М. Ю. Лермонтов. «Герой нашего времени»); б. Скажи, братец, какую девушку держишь ты у себя под караулом? (А. С. Пуш кин. «Капитанская дочка»); в. За работу же, братцы! (Н. В. Гоголь. «Тарас Бульба») (16) а. Единственный, кто говорил со мной откровенно, был сосед по койке, тоже «газовик», как нас тогда называли. «Помрём мы с тобой, братец, как пить дать помрём, а жить-то до чего охота!» (И. Грекова. «Пере лом»); б. Михайлов медлительно обдумывает это и облизывает губы. Плохо, братец. Не дойдём, братец. Ну так доползём... Он сидит на ступеньках лестницы в подъезде своего дома, сползший вдруг вдоль стены и обмякший. (В. Маканин. «Отдушина»)
Обращения группы (б) — это, в первую очередь, матушка, батюш ка, батенька, мать моя, отец мой, брат. Некоторая временна ´я динамика наблюдается и внутри этой группы. Так, если обращения типа матушка, батюшка ассоциируются в сознании современных носителей языка с миром романов русской классической литера туры xix века, то батенька вызывает преж де всего ассоциации с анекдотами про Ленина (17), а также с речью чеховских персо
НКРЯ верстка4.indd 389
22/06/2009 17:48
390
Д. О. Добровольский
нажей (18) или с шутливой имитацией старомодного врачебного дискурса (19). (17) а. — Правда ли, что установят памятник Ленину на коне? — Это бред, батенька, любая нормальная лошадь будет соскальзывать с броне вичка... (Н. Баяндина. «Хож дения по мукам бронзового Ленина»); б. это очень, знаете ли, по-ленински: приезжайте к нам, ба тенька, через десять лет («Криминальная хроника», 2003.06.10); в. Касательно кино дедушка Ленин был совершенно прав — архиваж нейшее, батенька, искусство... (М.Колодочкин. «Как два тумана»); г. — Да вы, батенька, прос то кремлевский мечтатель! — покачал головой Балуев. — Боец невидимого фронта. (Н. Леонов, А. Макеев. «Ментовская крыша»); д. Запомните, батенька: законность относится к числу архиважнейших признаков социализма. (В. Войнович. «Мону ментальная пропаганда») (18) а. Нынче, батенька, двенадцатилетняя девчонка норовит уже иметь любовника, и все эти любительские спектакли и литературные вече ра придуманы для того только, чтобы легче было подцепить богатого кулака и пойти к нему на содержание... (А. П. Чехов. «В усадьбе»); б. — Дайте мне только в Москву съездить! У меня будут такие фильтры и всякие научные усовершенствования, что вы с ума посойдете, одним словом. Науку, батенька, нельзя игнорировать. Не-ет! (А. П. Чехов. «История одного торгового предприятия»); в. — Что-с? У вас в Петер бурге холодно? А у нас тут, батенька мой, благорастворение воздухов и изобилие плодов земных. (А. П. Чехов. «Именины») (19) — Да, батенька, вы страдаете от комплекса неполноценности. — Да нет, доктор, это было бы всё ещё ничего, только вот комплекс этот у ме ня какой-то не очень полноценный... (Из коллекции Ю. Дейнекина)
Обращения группы (б) раньше обладали, видимо, определенной социальной окрашенностью, которая сегодня, однако, уже не вполне ощущается. Доминирующая сегодня черта — это их при надлежность миру некоторых — легко отождествляемых — текстов, т.е. определенному типу дискурса или (по М. М. Бахтину) рече вому жанру. Переход от обращений группы (б) к использованию обращений группы (а) связан, по-видимому, с социальными переворотами пер вой половины xx века (революцией и последующим переструкту рированием российского общества). Эти вопросы, сами по себе заслуживающие внимания как с социолингвистической, так и с диа хронической точки зрения, здесь обсуждаться не будут. Наиболее интересным с точки зрения культурной специфики представляется
НКРЯ верстка4.indd 390
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
391
вопрос, почему при полной смене парадигмы обращений, тем не менее, сохранилась лежащая в их основе языковая и концептуаль ная модель. С лингвистической точки зрения эта модель описыва ется как использование терминов родства в функции обращения к знакомым (или даже незнакомым) людям, которые не находятся с говорящим в соответствующих родственных отношениях. Кор релирующая концептуальная модель может быть приблизительно описана следующим образом: «я обращаюсь к тебе, как если бы мы были родными». Важно, что интенция говорящего может быть при этом весьма агрессивной, что опять-таки объясняется обращением к данной концептуальной модели: как известно, отношения между родственниками могут быть достаточно напряженными. Все эти формы обращений являются культурно-специфичными и представляют, соответственно, серьезные проблемы для перевода и лексикографического описания. Когда мы говорим о культурной специфичности того или иного явления языка, необходимо объ яснить, что конкретно имеется в виду, поскольку данный термин используется в лингвистических работах в весьма различных зна чениях и, как правило, не слишком строго. В [Добровольский 1997] предложено различать два подхода к изучению культурной специ фики лексических единиц: • сопоставительный и • интроспективный подход. При всей своей условности такое разграничение оправдано тем, что при сопоставительном анализе одним из важнейших критериев оказывается возводимость установленных межъязыковых разли чий к специфике соответствующих культур (в семиотическом смыс ле), в то время как интроспективный подход предполагает обра щение к интуиции носителей языка, характеризующих некоторые явления как «свои и только свои». При сопоставительном подходе некоторое явление может быть охарактеризовано как культурноспецифичное относительно какого-то другого языка, в то время как при интроспективном подходе решающими являются внутриязы ковые характеристики данного явления. Исследуемые здесь обращения являются специфичными и в том и в другом смысле. С интроспективной точки зрения они специ фичны, поскольку мы явственно ощущаем их принадлежность
НКРЯ верстка4.indd 391
22/06/2009 17:48
392
Д. О. Добровольский
к определенному культурно значимому слою лексики. А с сопоста вительной точки зрения они специфичны в силу отсутствия в евро пейских языках, традиционно привлекаемых для контрастивного анализа, коррелирующих форм обращения. Так, в немецком языке из подобных «родственных» форм могут реально использоваться только Tante и Onkel при обращении маленьких детей к незнако мым взрослым. 4. В данном разделе на примере формы обращения брат мы попы таемся выяснить, какими возможностями располагают немецкий и английский языки для перевода культурно-специфичных русских обращений группы (б). Материалом исследования послужил ро ман Ф. М. Достоевского «Идиот» и его немецкие переводы (рус ско-немецкий корпус параллельных текстов, созданный в рамках исследовательской программы «Корпус Австрийской Академии»), а также «Капитанская дочка» А. С. Пушкина (перевод: М. де Зе линска) и «Герой нашего времени» М. Ю. Лермонтова (перевод: Дж. Уиздом и М. Мюррей) из русско-английского КоПарТ нкря. Из существующих переводов романа «Идиот» для включения в корпус были отобраны три: два последних по времени — перевод Хартмута Хербота (1986) и Светланы Гайер (1996), а также перевод Э. К. Разин (псевдоним известной переводчицы Элизабет Керрик), изданный в начале ХХ века и затем многократно переиздававшийся. Рассмотрим сначала функционирование обращения брат в рус ско-немецком КоПарТ. Всего эта форма обращения встречается в романе 24 раза (из них 21 раз в «чистом виде» и 3 раза в комбина ции с именем или титулом: брат Парфен, брат князь). Что касается этих последних случаев, мы остановимся на них несколько ниже. Возможности перевода этого обращения на немецкий язык весь ма разнообразны, хотя и небезграничны; см. таблицу 1. Та б л и ц а 1 . Geier: Freund, 0, mein Lieber, mein Bester, Freundchen, du..., 0, mein Lieber, mein Lieber, mein Lieber, mein Lieber, 0, mein Lieber, mein Lieber, Bruder, mein Lieber, mein Lieber, mein Guter, 0, 0, Bruder; Herboth: Bruder, mein Lieber, Verehrtester, mein Lieber, mein Lieber, mein Lieber, mein Lieber, Bruder, Bruder, Bruder, Bruder, 0,
НКРЯ верстка4.indd 392
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
393
mein Lieber, mein Freund, Bruder, Bruder, Bruder, Bruder, Bruder, Bruder, Bruder; Rahsin: Freund, mein Freund, Freund, mein Lieber, 0, Bruder, 0, Freund, Freund, 0, Bruder, Freund, Freund, 0, Bruder, mein Freund, mein Bester, mein Freund, Bruder, Bruder, Bruder. П о я с н е н и я к т а б л и ц е 1 : Немецкие эквиваленты формы об ращения брат сгруппированы по трем рассматриваемым здесь пе реводам и расположены в порядке следования соответствующих контекстов в романе. «0» означает отсутствие обращения в немец ком тексте. В количественном отношении доминируют переводы, лишенные «родственных» коннотаций, которые в тексте оригинала безусловно несут определенную культурно значимую информацию (ср. при мер 20). (20) — А я, брат, продолжаю не постигать, — задумчиво заметил генерал, несколько вскинув плечами и немного расставив руки. [Достоевский] «Und ich, mein Lieber, kann es immer noch nicht begreifen», bemerkte der General nachdenklich, indem er die Schultern leicht anhob und die Arme spreizte . [Geier] «Ich begreife das nicht, Verehrtester», sagte der General nachdenklich, wobei er die Schultern hob und leicht die Arme ausbreitete. [Herboth] «Tja, Freund, ich begreife wahrhaftig nicht!» sagte der General, indem er mit gehobenen Schultern die Hände ausbreitete und wieder sinken ließ. [Rahsin]
Каж дый из предложенных в (20) переводов фокусирует какой-то один из семантических компонентов, содержащихся в русском брат. Так, форма mein Lieber, встречающаяся в речи пожилых людей еще и сегодня, звучит несколько покровительственно (ср. русское доро гой мой). Verehrtester (≈ почтеннейший) — явно устаревшее обраще ние и в этом смысле хорошо передает временные характеристики русского выражения, сохраняя ощущение эпохи, но идеи социаль ной и эмоциональной близости, своего рода равенства между уча стниками ситуации при этом теряются. Обращение Freund (друг) встречается как в произведениях xix века, так и в современных текстах довольно редко и, с этой точки зрения, не отражает праг матические характеристики русского обращения брат, достаточно широко функционировавшего в xix веке. Интересна форма обра
НКРЯ верстка4.indd 393
22/06/2009 17:48
394
Д. О. Добровольский
щения Freundchen (ср. русское дружочек), использованная С. Гайер в (21). Эта форма явственно фокусирует агрессивные интенции го ворящего, что очень хорошо отражает иллокутивную составляю щую данной реплики Рогожина. (21) Я и теперь тебя за деньги приехал всего купить, ты не смотри, что я в таких сапогах вошел, у меня денег, брат, много, всего тебя и со всем твоим живьем куплю... захочу, всех вас куплю! [Достоевский] Und jetzt bin ich mit Geld gekommen, um dich mit Haut und Haaren zu kaufen, an meinen Stiefeln brauchst dich nich’ zu stören, ich hab’ Geld, sehr viel Geld, Freundchen, und werd’ dich samt deinem ganzen Anhang kaufen... wenn ich will, kauf ich euch, samt und sonders! [Geier] Ich bin auch jetzt hier, um dich zu kaufen, denk nicht, weil ich in solchen Stiefeln komme, hätte ich kein Geld – nein, mein Lieber, ich habe Geld, viel Geld, ich kann dich kaufen samt deinem Anhang... Euch alle kaufe ich, wenn ich will! [Herboth] Ich bin jetzt auch gekommen, um dich für Geld zu kaufen, Leib und Seele kaufe ich dir ab; du, sieh nicht darauf, daß ich mit solchen Stiefeln hereingekommen bin, ich hab’ jetzt viel Geld, Bruder, kaufe dich mitsamt deinem ganzen Leben... wenn ich will, kauf’ ich euch alle! [Rahsin]
Далее, хотелось бы обратить внимание на использование букваль ного перевода — Bruder в версии Э. К. Разин в (21). Это способ пе ревода, следующий — в отличие от всех прочих — принципам так называемой «стратегии формы», а не «стратегии смысла» (подроб нее см. Добровольский 2007). В ряде случаев этот способ перевода оказывается весьма удачным. Как видно из таблицы 1, выражение Bruder используют и другие переводчики, причем Х. Хербот весь ма часто. Что касается контекста (21), здесь наиболее значимым представляется сохраненное в переводе С. Гайер ощущение агрес сивного настроя Рогожина, в то время как нарочитая «русскость» формы Bruder в этом случае не навязывается условиями контекста. Целесообразность использования этой формы особенно хорошо вы является в тех редких случаях, когда все три переводчика предпочли именно эту — весьма и весьма экзотичную с точки зрения культуры немецкоязычных стран — форму; ср. (22). (22) Потому оно, брат, — начал вдруг Рогожин, уложив князя на левую, лучшую подушку и протянувшись сам с правой стороны, не разде ваясь и закинув обе руки за голову, — ноне жарко, и, известно, дух. [Достоевский]
НКРЯ верстка4.indd 394
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
395
«Weil’s, Bruder», begann Rogoschin plötzlich, nachdem er den Fürsten auf das beste Kissen links gebettet und sich selber, in Kleidern, beide Arme unter dem Kopf verschränkt, zu seiner Rechten ausgestreckt hatte – «heut heiß is’ un’, man weiß es ja, stinken wird. » [Geier] «Bei solcher Hitze wie heute, Bruder», begann Rogoshin plötzlich, nachdem er den Fürsten auf die linke, bessere Unterlage gebettet und sich selbst, ohne sich auszukleiden, auf der rechten ausgestreckt und beide Hände unter den Kopf geschoben hatte, «da riecht es ja schnell. » [Herboth] «Denn sieh, Bruder», begann plötzlich wieder Rogoshin, nachdem er den Fürsten zur Linken auf den besseren Kissen gebettet und sich selbst zur Rechten hingestreckt hatte, indem er beide Hände unter den Kopf schob, «bei der Hitze, weißt du, geht das schneller. » [Rahsin]
Контекст (22) относится к одному из самых эмоционально напря женных эпизодов романа — когда после убийства Настасьи Филип повны Рогожин позвал к себе князя Мышкина. Вполне допустимым представляется предположение, что в данной ситуации Рогожин употребляет по отношению к князю слово брат не только и не столько в значении конвенционального обращения, сколько выра жая этим как бы братские чувства, испытываемые к нему в данный момент. Очевидно, выбор формы Bruder в качестве перевода моти вирован здесь именно этими соображениями. Интересно отметить также, что в большинстве контекстов, в которых переводчики вы брали Bruder в качестве эквивалента обращения брат, говорящим является Рогожин; см. таблицу 2. Та б л и ц а 2 . 1: 2: 3: 4: 5: 6: 7: 8: 9: 10: 11: 12:
Freund / Bruder / Freund (Рогожин) 0 / mein Lieber / mein Freund mein Lieber / Verehrtester / Freund (генерал Иволгин) mein Bester / mein Lieber / mein Lieber (генерал Иволгин) Freundchen / mein Lieber / 0 (Рогожин) du / mein Lieber / Bruder (Рогожин) 0 / mein Lieber / 0 mein Lieber / Bruder / Freund (Рогожин) mein Lieber / Bruder / Freund (Рогожин) mein Lieber / Bruder / 0 (Рогожин) mein Lieber / Bruder / Bruder (князь) weißt du / 0 / Weißt du, Freund (князь)
НКРЯ верстка4.indd 395
22/06/2009 17:48
396
Д. О. Добровольский
13: 14: 15: 16: 17: 18: 19: 20: 21:
mein Lieber / mein Lieber / Freund mein Lieber / mein Freund / 0 (генерал Иволгин) Bruder / Bruder / Bruder (Рогожин) mein Lieber / Bruder / mein Freund (Рогожин) mein Lieber / Bruder / mein Bester (генерал Иволгин) mein Guter / Bruder / mein Freund 0 / Bruder / Bruder (Рогожин) 0 / Bruder / Bruder (Рогожин) Bruder / Bruder / Bruder (Рогожин)
П о я с н е н и я к т а б л и ц е 2 : Немецкие эквиваленты формы об ращения брат сгруппированы по контекстам оригинала в порядке их следования и расположены внутри каж дой пронумерованной позиции соотв етс тв енно трем рассматрив аемым здесь перев о дам: Geier / Herboth / Rahsin. «0» означает отсутствие обращения в немецком тексте. В скобках — там, где это содержательно значи мо — приводится указание на персонаж, в речи которого использо вано данное выражение. Типичность использования обращения Bruder в речи Рогожина мотивирована, видимо, представлением о социальной маркиро ванности формы брат в русском языке. Такое ощущение действи тельно в какой-то степени присутствует у носителей современного русского языка. Однако оно не вполне верно. Как показал анализ контекстов, это обращение используют не только представители малообразованных слоев общества, но и, например, генерал Ивол гин (20) и князь Мышкин (23); ср. также позиции 3, 4, 11, 12, 14, 17 в таблице 2. (23) Я, брат, тогда под самым сильным впечатлением был всего того, что так и хлынуло на меня на Руси; ничего-то я в ней прежде не понимал [Достоевский] Ich stand damals, weißt du, unter dem gewaltigen Eindruck all dessen, was mich in Rußland einfach überflutete; nichts hatte ich früher davon verstanden [Geier] Auf mich machte das, was da an typisch Russischem förmlich auf mich niederprasselte, einen tiefen Eindruck, denn ich weiß ja von früher nichts mehr [Herboth] Weißt du, Freund, ich war damals noch so unter dem Einfluß all der
НКРЯ верстка4.indd 396
22/06/2009 17:48
Корпус параллельных текстов в исследовании лексики
397
Eindrücke, die hier in Rußland auf mich eingestürmt waren, daß ich mitunter glaubte, sie würden mich erdrücken. [Rahsin]
Остановимся кратко на случаях употребления обращения брат в комбинации с именем или титулом. В романе встречаются три контекста такого рода. В двух их них это выражение брат Парфен (в речи князя Мышкина), переводимое, как правило, с опущением первого компонента: weißt du, Parfen, или lieber Parfen, или просто Parfen. Форма Bruder Parfen встретилась только один раз в перево де Х. Хербота. В контексте, где комбинированная форма обраще ния встречается в речи Рогожина (брат князь), в качестве экви валентов предлагаются выражения mein lieber Fürst [Geier], Bruder Fürst [Herboth] и Bruder [Rahsin]. Это подтверж дает сложившееся впечатление, что форму Bruder переводчики чаще используют при передаче особенностей прямой речи Рогожина. Тенденция к опуще нию слова брат (или его замены другим выражением) в переводе комбинированных обращений прослеживается и на материале анг лийской версии «Героя нашего времени»; ср. (24). (24) — Ну, брат Грушницкий, жаль, что промахнулся! — сказал капи тан, — теперь твоя очередь, становись! [Лермонтов] «Well, my dear Grushnitski, it is a pity that you have missed! » said the captain, «now it is your turn, take your stand. » [Wisdom, Murray]
Рассмотрим способы перевода обращения брат в «чистом виде» на английский язык. Ср. контексты (25) из «Капитанской дочки» и (26) из «Героя нашего времени». (25) а. — Что, брат, прозяб? [Пушкин] «Well, are you cold? » [de Zielinska]; б. — С дамою! Где же ты ее подцепил? Эге, брат! [Пушкин] «A lady! where did you sh her out? » [de Zielinska]; в. Когда я кончил, он покачал головою и сказал: «Все это, брат, хорошо; одно не хорошо; зачем тебя черт несет жениться?» [Пушкин] He shook his head: «That's all very well; but why will you marry?» [de Zielinska]; г. «Ты, брат, востер», — сказал он мне нахмурясь; — «но видали мы и не таких!» [Пушкин] «You are a bold fellow, » said he, frowning; «but we have seen others like you. » [de Zielinska]
(26) а. — Да, брат, Бог знает когда мы отсюда уедем! [Лермонтов] «Yes, my friend; goodness only knows when we shall get away!» [Wisdom, Murray]; б. — Я встретил сегодня черноморского урядника, он мне знаком — был прошлого года в отряде, как я ему сказал, где мы остановились, а он
НКРЯ верстка4.indd 397
22/06/2009 17:48
398
Д. О. Добровольский мне: «Здесь, брат, нечисто, люди недобрые!» [Лермонтов] I met an under-ofcer from the Black Sea today — he's an acquaintance of mine — he was in my detachment last year; when i told him where we were staying, he said, «That place is uncanny, old fellow; they're wicked people there!» [Wisdom, Murray]
Как видно из этих примеров, форма обращения брат либо не пе реводится вообще (25), либо переводится с помощью лишенных «родственных» коннотаций выражений my friend и old fellow. Весьма сходным образом переводится на английский язык и обращение братец; ср. (27). (27) а. — Эх, братец! [Лермонтов] « Ah, my dear fellow. » [Wisdom, Murray]; б. — Дурак же ты, братец, — сказал он, — пошлый дурак! [Лермонтов] «You are a fool, then, my friend», he said: «a common fool. » [Wisdom, Murray]
Заметим, что ни в одном из зафиксированных в русско-английском КоПарТ нкря контекстов с формой брат или братец буквальный перевод не встретился. Это позволяет предположить, что обраще ния типа brother для английского языка еще более экзотично, чем Bruder для немецкого. Если последнее еще как-то можно исполь зовать для придания тексту перевода национального колорита, то употребление слова brother в качестве обращения (когда адресат не является братом говорящего или членом монашеского ордена), видимо, воспринимается как полное нарушение коммуникативных норм. Естественно, это предположение нуж дается в дальнейшей проверке. 5. В зак лючение отметим, что продолжение этой линии исследо ваний позволит продвинуться сразу в нескольких направлениях. Во-первых, мы обогатим наши предс тавления о функциониро вании русских культурно-специфичных лексем в разные эпохи и, соответственно, о динамике кодов русской культуры. Во-вторых, подобные штудии выявляют едва осознаваемые межкультурные различия и способы их языковой манифестации. В-третьих, описа ние приемов, используемых при переводе подобных языковых вы ражений на языки «иных культур», способствует развитию теории перевода. И наконец, у исследований такого плана имеется и чисто лингвистический — контрастивно-лексикологический и лексико
НКРЯ верстка4.indd 398
22/06/2009 17:48
графический — аспект. Понятно, что слова типа брат, отец, мать, папаша, мамаша, батюшка, матушка, помимо своего основного, традиционно учитываемого словарями значения, имеют еще и до полнительные, культурно-специфические режимы употребления (в частности, в функции обращения), которые должны отдельно описываться в одноязычных и двуязычных словарях. Корпус па раллельных текстов оказывается при этом весьма эффективным инструментом.
Литература Андреева Е. Г. Анализ переводческих соответствий на материале параллельного корпуса текстов // Компьютерная лингвистика и интеллектуальные технологии. Труды меж дународной конфе ренции «Диалог 2006». М.: РГГУ, 2006. С. 26–30. Добровольский Д. О. Национально-культурная специфика во фра зеологии (i) // Вопросы языкознания 6/1997. С. 37–48. Добровольский Д. О. Корпус параллельных текстов и литературный перевод // НТИ сер.2, 10/2003. С. 13–18. Добровольский Д. О. Корпус параллельных текстов в исследовании лексической семантики // Компьютерная лингвистика и интел лектуальные технологии. Труды международной конференции «Диалог 2004». М.: Наука, 2004. С. 179–184. Добровольский Д. О. Еще раз о непереводимом в переводе (на ма териале романа Ф. М. Достоевского «Идиот») // Язык и дейст вительность: Сб. научн. трудов памяти В. Г. Гака. М.: ЛЕНАНД, 2007. С. 324–334. Добровольский Д. О., Кретов А. А., Шаров С. А. Корпус параллельных текстов: архитектура и возможности использования // Нацио нальный корпус русского языка: 2003–2005. Результаты и пер спективы. М.: Индрик, 2005. С. 263–296. Добровольский Д. О., Левонтина И. Б. 500 способов сказать «нет» (русско-немецкие соответствия) // Ассерция и негация. Под ред. Н. Д. Арутюновой. М.: Индр ик, в печати. Добровольский Д. О., Падучева Е. В. Дейксис в отсутствие говоряще го: о семантике немецких дейктических элементов hin и her //
НКРЯ верстка4.indd 399
22/06/2009 17:48
400
Д. О. Добровольский
Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Выпуск 7 (14). М.: РГГУ, 2008. С. 140–146. Зализняк Анна А., Левонтина И. Б., Шмелев А. Д. Ключевые слова русской языковой картины мира. М.: Языки славянской культу ры, 2005. Михайлов М. Н. Черная кошка в темной комнате, или можно ли автоматизировать поиск переводных эквивалентов в параллель ном корпусе текстов? // Алфавит: Филологический сборник. Смоленск: СГПУ, 2002. С. 181–188. Михайлов М. Н. Частица и целое: к вопросу о поиске соответствий служебных слов в параллельном корпусе текстов // Компьютер ная лингвистика и интеллектуальные технологии. Труды между народной конференции «Диалог 2005». М.: Наука, 2005. Тер-Минасова С. Г. Язык и межкультурная коммуникация. М.: Сло во/Slovo, 2000. Bowker L. Towards a methodology for exploiting specialized target language corpora as translation resources // International Journal of Corpus Linguistics. Vol. 5, 1/2000. P. 17–52. Varadi T., Kiss G. Equivalence and non-equivalence in parallel corpora // International Journal of Corpus Linguistics. Vol. 6 (Special Issue), 2001. P. 167–177.
НКРЯ верстка4.indd 400
22/06/2009 17:48
VII.
НКРЯ и другие корпуса
НКРЯ верстка4.indd 401
22/06/2009 17:48
Т. И. Резникова
Славянская корпусная лингвистика: современное состояние ресурсов
1
оследнее десятилетие было отмечено бурным раз витием корпусных ресурсов для славянских языков. Всплеск активности был обусловлен преж де всего переосмыслением роли корпуса в лингвистической исследовательской деятельности. Если ранние опы ты собрания электронных текстовых коллекций были нацелены в основном на статистический анализ языка и лексикографическую практику (ср., например, разработанный в конце 60-х — начале 70-х гг. польский корпус (500 тыс. словоупотреблений), использо вавшийся для составления словаря [Kurcz et al. 1990], одномилли онный корпус русского языка, создававшийся в 1970-е гг. и ставший основой для частотного словаря [Засорина 1977]; корпус хорватско го языка М. Могуша (1 млн., 1976–1996) и созданный на его базе сло варь [Moguš et al. 1999]) и тем самым оставались на периферии ин тересов лингвистического сообщества, то с осознанием важности корпуса как эффективного самостоятельного инструмента, корен ным образом меняющего исследовательские возможности лингвис Последнее десятилетие было отмечено бурным развитием корпусных ресурсов для славянских языков. Всплеск активности был обусловлен прежде всего переосмыслением роли корпуса в лингвистической иссле довательской деятельности. Если ранние опыты собрания электронных текстовых коллекций были нацелены в основном на статистический анализ языка и лексикографическую практику (ср., например, разра ботанный в конце 60-х — начале 70-х гг. польский корпус (500 тыс. сло воупотреблений), использовавшийся для составления словаря [Kurcz et al. 1990], одномиллионный корпус русского языка, создававшийся в 1970-е гг. и ставший основой для частотного словаря [Засорина 1977]; корпус хорватского языка М. Могуша (1 млн., 1976–1996) и созданный на его базе словарь [Moguš et al. 1999]) и тем самым оставались на периферии интересов лингвистического сообщества, то с осознанием важности корпуса как эффективного самостоятельного инструмен та, коренным образом меняющего исследовательские возможности лингвиста в самых различных научных областях, создание корпусов стало актуальной задачей для широкого круга специалистов в разных странах. Такой подход к предназначению корпуса выдвигал новые требования к его основным параметрам: он должен был характери зоваться, во-первых, многомиллионным объемом, во-вторых, нали чием лингвистической разметки и, в-третьих, доступностью через Интернет. Эти требов ания заложили программную основу целого ряда проектов, возникших во второй половине 90-х — первых годах нового века. Результатом их работы стало появление значительного числа лингвистических ресурсов, существенно преобразующих си туацию в современной славистике. Задача настоящего очерка — дать общее представление о существующих на сегодняшний день в Интер нете корпусах славянских языков, описать принципы их составления,
1
Настоящая статья является актуализованной и расширенной версией публикации [Резникова 2008].
НКРЯ верстка4.indd 402
22/06/2009 17:48
Славянская корпусная лингвистика
403
та в самых различных научных областях, создание корпусов стало актуальной задачей для широкого круга специалистов в разных странах. Такой подход к предназначению корпуса выдвигал новые требования к его основным параметрам: он должен был характери зоваться, во-первых, многомиллионным объемом, во-вторых, нали чием лингвистической разметки и, в-третьих, доступностью через Интернет. Эти требования заложили программную основу целого ряда проектов, возникших во второй половине 90-х — первых годах нового века. Результатом их работы стало появление значительно го числа лингвистических ресурсов, существенно преобразующих ситуацию в современной славистике. Задача настоящего очерка — дать общее представление о суще ствующих на сегодняшний день в Интернете корпусах славянских языков, описать принципы их составления, лингвистический ап парат, поисковые возможности. Обсуждаемые корпуса будут пред ставлены по языкам, соответственно, читатель сможет оценить сте пень корпусной оснащенности интересующего его языка и выбрать ресурс, в наибольшей степени отвечающий его исследовательской задаче. В то же время описание корпусов будет строиться по одной и той же схеме, что позволит читателю сопоставить потенциал раз ноязычных ресурсов. За пределами обзора останутся диахронические и параллельные корпуса: создание корпусов обоих типов сопряжено с целым ря дом дополнительных трудностей, тем самым их описание требует иного в сравнении с синхронными и одноязычными корпусами набора параметров. 1. Западнославянские языки Чешский В 90-е гг. Чехия стала форпостом корпусной лингвистики в сла вянском мире. Именно здесь был создан первый для славянского языка большой представительный корпус — Ч е ш с к и й н а ц и о н а л ь н ы й к о р п у с , отвечающий мировому стандарту, заданному Британским национальным корпусом, и именно здесь был разрабо тан первый для славянского языка корпус с синтаксической аннота цией — P r a g u e D e p e n d e n c y Tr e e b a n k . На сегодняшний день
НКРЯ верстка4.indd 403
22/06/2009 17:48
404
Т. И. Резникова
Чешский национальный корпус объед иняет в себе ряд подкорпу сов, отражающих различные формы функционирования чешского языка и предлагающих широкие возможности поиска и статисти ческого анализа языковых данных, что, безусловно, позволяет говорить о хорошей оснащенности чешского языка корпусными ресурсами. Чешский национальный корпус (ЧНК). Возникшая в начале 90-х гг. идея создания корпуса обрела институциональный ста тус в 1994 г.: при Карловом университете Праги был основан Ин ститут Чешского национального корпуса. Разработчики корпуса рассматривают Институт как проект с открытыми временными рамками, призванный постоянно расширять состав корпуса, в том числе за счет вновь появляющихся текстов. С о с т а в . Корпуса, объединенные под названием ЧНК, распада ются на диахроническую (719 тыс. словоупотреблений) и синхрон ную части. Интересующая нас синхронная часть в свою очередь подразделяется на корпуса письменного и устного языка: пись менная часть, включающая как оригинальные, так и переводные тексты (всего 500 млн. словоупотреблений), объединяет 2 предста вительных корпуса по 100 млн. (SYN2000 и SYN2005), подкорпус на базе SYN2000 — FSC2000 (96 млн.), 2 специализированных кор пуса — публицистики (SYN2006PUB, 300 млн.) и частной коррес понденции (KSK, 800 тыс.) и небольшой корпус ORWELL (80 тыс.); устная часть (всего 2,17 млн.) включает 3 корпуса, распределенных по месту записи текстов: Прага (PMK, 675 тыс.), Брно (BMK, 490 тыс.), различные диалектные регионы Чехии (ORAL2006, 1 млн.). Наименования SYN2000 (100 млн.) и SYN2005 (100 млн.) отра жают год открытия соответствующего корпуса и тем самым ука зывают временные различия входящих в их состав публицистиче ских текстов: в SYN2000 — это тексты, написанные с 1990 по 1999 гг., в SYN2005 — с 2000 по 2004 гг. Две другие составляющие — ху дожественная литература и специализированные тексты — не раз личаются с точки зрения нижней временной границы включения текстов: специализированная литература в SYN2000 охватывает период c 1990 по 1999 гг., в SYN2005 — с 1990 по 2004 гг., основная масса художественных текстов относится к тем же временным промежуткам, хотя незначительную долю образуют более ран
НКРЯ верстка4.indd 404
22/06/2009 17:48
Славянская корпусная лингвистика
405
ние тексты, созданные с 1959 г. Существенно при этом, что два корпуса не содержат никаких одинаковых текстов. Разработчики корпуса очень тщательно подошли к проблеме сбалансирован ности типов текстов. Для выявления их реальных соотношений в функционировании языка авторы каждый раз проводили новые социолингвистические исследования, которые легли в основу про центных долей типов текстов в корпусах. Интересным образом результаты исследований существенно различаются для корпу сов, появившихся с промежутком в 5 лет. Основные типы текстов представлены в SYN2000 vs. SYN2005 соответственно следующим образом: художественная литература (15 vs. 40 %), специализиро ванная литература (25 vs. 27 %), публицистика (60 vs. 33 %). Корпус FSC2000 (96 млн.) разрабатывался как основа для час ˇermák, Krˇen 2004]. Он представляет собой не тотного словаря [C сколько улучшенный вариант корпуса SYN2000: для аккуратности статистического анализа были иск лючены тексты, случайно по павшие в корпус дважды, а также исправлены некоторые ошибки автоматической лемматизации. Корпус SYN2006PUB (300 млн.) — несбалансированный кор пус публицистики, включающий тексты с 1989 по 2004 гг., не во шедшие в корпуса SYN2000 и SYN2005. Этот корпус представляет интерес преж де всего для решения исследовательских задач, тре бующих работы с большим объемом языковых данных. Корпус KSK (800 тыс.) призван отразить последнюю стадию су ществования традиционного эпистолярного жанра. В него вклю чено 2000 написанных от руки писем, созданных 2000 разных людей в период с 1990 по 2004 гг. Корпус ORWELL (80 тыс.) создавался в рамках меж дународ ного проекта Multext-East (1995–97 гг.), задача которого состояла в разработке ресурсов для автоматической обработки текста на материале нескольких языков Восточной и Центральной Евро пы. Одним из основных результатов проекта стало создание па раллельного корпуса, в состав которого вошел текст романа Дж. Оруэлла «1984» и его переводы на анализируемые языки. Чешский перевод романа и образует подкорпус ORWELL в составе ЧНК. Корпус PMK (675 тыс.) включает свыше 300 записей устной ре чи, проведенных с 1988 по 1996 гг., BMK (490 тыс.) — 250 записей
НКРЯ верстка4.indd 405
22/06/2009 17:48
406
Т. И. Резникова
с 1994 по 1999 гг. Оба корпуса сбалансированы с точки зрения пола, возраста и уровня образования участников, а также типа разго вора (формальный, т.е. монологические ответы на вопрос интер вьюера, vs. неформальный, т.е. диалоги знакомых друг с другом людей). Корпус ORAL2006 (1 млн.) содержит 220 записей, про веденных с 2002 по 2006 гг. Все разговоры носят неформальный характер. М е т а р а з м е т к а т е к с т о в . Письменные тексты характери зуются по следующим параметрам: имя автора, название текста, тип текста (для художественных: роман, рассказ/сборник расска зов…, для специализированных: научный, популярно-научный, учебник…, для публицистики: собственно публицистика и «эфе мерные тексты»), жанр текста (сюда попадает тематика для спе циализированных текстов — история, география, право, домашнее хозяйство и т. п., жанры для художественных — детектив, фан тастика, мемуары и т. п., а также в ряде случаев цель создания произведения (напр., развлечение) или целевая аудитория — ли тература для детей), тип носителя (книга, журнал, интернет…), библиографические данные (издательство, год и место издания, ISBN/ISSN). Кроме того, в корпусах SYN2005 и SYN2006PUB про работана зона переводов: указываются язык исходного текста и имя переводчика. Отсутствие подобной информации является определенным недочетом SYN2000: пользователь не может ог раничить поиск только оригинальными или только переводны ми текстами. В целом следует отметить, что метаразметка пись менных текстов ЧНК не лишена некоторых недостатков. Так, как можно видеть из приведенного выше перечня, параметр «жанр текста» предполагает классификацию текстов по разным основа ниям: указание тематики для специализированной литературы делает невозможным ее распределение по жанрам (ср. статья, монография, диссертация и т.д.), цель создания текста и целевая аудитория могут накладываться как на тематику, так и на жанр, ср. вполне естественные комбинации книга по истории для де тей или развлечение как назначение мемуаров. Вообще говоря, склеенные здесь характеристики в мировой практике создания корпусов нередко образуют отдельные параметры классифика ции текстов (ср. в частности рекомендации EAGLES по разметке
НКРЯ верстка4.indd 406
22/06/2009 17:48
Славянская корпусная лингвистика
407
корпусов [EAGLES 1996]): цель создания текста и информация об аудитории (помимо возраста включающая также ее предполагае мый размер и ограничения на пол и уровень образования). Кроме того, при метаразметке не учитывается ряд других параметров, су щественных для характеристики языковых особенностей текста: возраст автора в момент написания текста (или год его рождения), пол автора, год создания текста (который, особенно в случае худо жественной литературы, может отличаться от года его издания). Среди письменных корпусов особая система метаразметки, приближенная к разметке устных текстов, принята в KSK. И в устных корпусах, и в KSK тексты классифицируются по полу го ворящего/пишущего, его возрасту (в устных корпусах — до 35 vs. выше 35, в KSK — 4 возрастные группы), его уровню образования (высшее vs. невысшее), в KSK и ORAL2006 — по диалектной при надлежности говорящего/пишущего (в PMK и BMK этот параметр менее релевантен, т.к. все тексты записаны в одном городе, хотя во внимание можно принимать и тот факт, что диалектные осо бенности говорящего могли сформироваться в ином месте). Кро ме того, в KSK учитываются параметры пола, возраста и уровня образования адресата, а в PMK и BMK — формат разговора (фор мальный vs. неформальный). М о р ф о л о г и ч е с к а я р а з м е т к а . На основном массиве пись менных корпусов (SYN2000, SYN2005, SYN2006PUB и ORWELL) была пров едена лемматиз ация и морфологическая разметка. Процедура осуществлялась автоматически, с использованием статистических методов снятия грамматической омонимии. На материале небольшого подкорпуса ORWELL (80 тыс.) проводилась ручная коррекция ошибок программы автоматического снятия омонимии. Морфологическая разметка для каж дой словоформы хранится в виде 16-местной цепочки букв и цифр, каждая позиция в которой соответствует определенному грамматическому при знаку с заданным набором возможных значений. В позиции, не релевантной для данной словоформы (напр., падеж для глагола), ставится прочерк. Отметим, что характеристика глагола по виду была добавлена на более позднем этапе разработки корпуса и от сутствует в корпусе SYN2000. Как уже отмечалось, в FSC2000 по сравнению с SYN2000 усовершенствована лемматизация, однако
НКРЯ верстка4.indd 407
22/06/2009 17:48
408
Т. И. Резникова
отсутствует морфологическая аннотация. В KSK и устных корпу сах лемматизация и морфологическая разметка не проводились. П о и с к в к о р п у с е . Для поиска в корпусе используется графи ческий пользовательский интерфейс Bonito программной систе мы корпусного обеспечения Manatee, разработанной П. Рыхли (Университет им. Масарика, Брно). Наряду с ЧНК эта поисковая система используется в Словацком и Хорватском национальных корпусах. Программа позволяет строить разнообразные запросы с использованием регулярных выражений (специальной системы записи шаблонов для поиска) и логических операторов. Поиск может вестись по любому атрибуту корпуса: словоформе или ее части, лексеме или ее части (в корпусах с лемматизацией), после довательности словоформ/лексем с указанием расстояния между ними или с заданием структурного единства (напр., предложе ние), в пределах которого заданные единицы должны встретить ся, а также по любой комбинации грамматических признаков (в корпусах с морфологической разметкой). При поиске могут учитываться знаки препинания и положение искомой единицы относительно начала/конца предложения. После получения конкорданса можно осуществить фильтра цию найденных примеров (т.е. удалить часть найденных контек стов). Конкорданс выдается в формате KWIC (key word in context), т.е. искомое слово отображается в центре экрана, что позволяет быстро просматривать его левый и правый контекст. В командном меню предусмотрена опция отображения леммы и/или граммати ческих признаков при искомом выражении или во всех выданных словах. Возможно упорядочение выданных контекстов по первой или последней словоформе искомого выражения, по левому или правому контексту (с возможностью указания количества учиты ваемых позиций), а также по любому атрибуту этих словоформ (по лемме или грамматическим признакам в тех корпусах, где эти атрибуты включены в разметку). При сортировке можно задавать комбинацию из нескольких условий, каждое их которых отвечает одной позиции, относительно которой сопоставляются разные строки. Удобной для изучения типов встретившихся в корпусе контекстов представляется также возможность оставить в выдаче по одному примеру из тех, в которых совпадают упорядочиваемые
НКРЯ верстка4.indd 408
22/06/2009 17:48
Славянская корпусная лингвистика
409
элементы (словоформы, леммы или грамматические признаки) в заданном интервале. Упорядочить выдачу можно и вручную: по группам, на которые с помощью расстановки соответствующих номеров пользователь раск лассифицировал выданные контек сты. Максимальный контекст выдачи составляет по 500 знаков или по 50 слов справа и слева от найденного выражения или по 1 предложению справа и слева от того, в котором оно было найдено. Поиск может вестись как по всему заданному корпусу (т.е. по одному из корпусов в составе ЧНК), так и по определенному поль зователем подкорпусу (ограничение может производиться по од ному или нескольким из доступных метаатрибутов, т.е., например, по году издания текста, фамилии автора, типу текста и т. п.). Одной из особенностей системы Manatee являются широкие возможности вычисления различных статистических параметров корпуса. Предусмотрена возможность составления частотных спи сков для заданных значений одного из доступных атрибутов (т.е. для заданных словоформ, лексем (в корпусах с лемматизацией) или грамматических признаков (в корпусах с морфологической разметкой)). Тем самым, например, можно получить частотное распределение словоформ корпуса по частям речи. Кроме того, для заданной словоформы (леммы, грамматического признака) можно получить частотный список словоформ (лемм, граммати ческих признаков), в контексте которых (на заданном пользова телем расстоянии) она встречается. На выдаче пользователь по лучает таблицу с указанием для каждой коллокации абсолютной и относительной частотности, а также статистических характе ристик T-score и MI-score (взаимная информация). Д о с т у п к к о р п у с у . Для доступа к ЧНК в полном объеме и к использованию всех предусмотренных поисковых возможностей необходимо пройти регистрацию (для исследовательских целей осуществляется бесплатно). Без этой процедуры пользователь имеет доступ к корпусу SYN2000, однако выдача ограничена 50 контекстами (при этом указывается и общее число имеющихся в корпусе примеров, удовлетворяющих заданному запросу). Prague Dependency Treebank (PDT). PDT разрабатывается с 1995 г. в Институте формальной и прикладной лингвистики Кар лова университета (с 2000 по 2004 гг. при участии Центра ком
НКРЯ верстка4.indd 409
22/06/2009 17:48
410
Т. И. Резникова
пьют ерной лингвистики). PDT представляет особое направление корпусной лингвистики, в рамках которого создаются корпуса, нацеленные не на объем ресурса, а на детальность его лингвисти ческой разметки, предполагающей в значительной степени руч ную обработку языковых данных. С о с т а в . В корпус вошли взятые из ЧНК тексты нескольких ежедневных газет и специализированных журналов, охватываю щие период с 1991 по 1995 гг., общим объем ом 2 млн. словоупот реблений. Небольшой объем и однородность типов текста в кор пусе делает их метаразметку не столь обязательной. М о р ф о л о г и ч е с к а я р а з м е т к а . На всем объеме корпуса была проведена лемматизация и морфологическая разметка. Про цедура осуществлялась автоматически с последующим ручным снятием омонимии. Морфологический тэг представляет собой 15-местную цепочку букв и цифр (ср. ЧНК). Следует заметить, что, как и в первой версии ЧНК SYN2000, морфологическая разметка не учитывает глагольную категорию вида (ее значения приписы ваются только на семантическом уровне аннотации). С и н т а к с и ч е с к а я р а з м е т к а . Синтаксическая аннотация на сегодняшний день осуществлена в подкорпусе объемом 1,5 млн. словоупотреблений. Разметка на синтаксическом (в терминах раз работчиков корпуса — аналитическом) уровне предполагает при писывание каждой единице в тексте ее синтаксической функции (тем самым элементы аналитических словоформ трактуются как отдельные единицы) и построение дерева зависимостей для каж дого предложения (т.е. указание для каждой текстовой единицы ее порядкового номера в предложении и порядкового номера ее вершины). На основе свыше 19 тыс. построенных вручную деревь ев был создан автоматический парсер, работающий с точностью 80%, результаты его анализа проверяются вручную. Синтаксиче ские функции приписываются после построения деревьев авто матически и также проходят ручную постобработку. С е м а н т и ч е с к а я р а з м е т к а . Разметка самого глубинного уровня (в терминах разработчиков — тектограмматического) на сегодняшний день осуществлена в подкорпусе объемом 0,8 млн. словоупотреблений. Принципы аннотации основаны на теории функциональной порождающей грамматики П. Сгалла. Разметка
НКРЯ верстка4.indd 410
22/06/2009 17:48
Славянская корпусная лингвистика
411
предполагает построение дерева, отражающего глубинную струк туру предложения; лемматизацию тектограмматического уровня (несколько отличающуюся от грамматической лемматизации: так, аналитическим формам приписывается общая лемма смысловой составляющей, притяжательным прилагательным — лемма соот ветствующего существительного и т. д.); приписывание семан тических частей речи (также частично отличающихся от лекси ко-семантических разрядов); указание значений грамматем (тек тограмматического коррелята грамматических категорий — их значения могут расходиться со значениями соответствующих морфологических категорий: например, число у существитель ных pluralia tantum указывается в соответствии с количествен ной характеристикой денотата; кроме того, здесь учитываются такие семантико-грамматические категории, не включенные в морфологическую разметку, как, например, результативность, итеративность, деонтическая модальность и др.); приписывание тектограмматических функций — семантического аналога син таксических функций (например, агенс, пациенс, направление, принадлежность и др.); разметку коммуникативной структуры предложения (топик-фокус); указание отношения кореферентно сти между узлами дерева. Подробнее с данным типом разметки в PDT можно ознакомиться на сайте http://ufal.mff.cuni.cz/pdt2.0/ doc/manuals/en/t-layer/html/index.html. П о и с к в к о р п у с е . В PDT реализовано две возможности обращения к языковым данным: просмотр синтаксических и тек тограмматических деревьев и поиск по заданным параметрам. Пользователь может, во-первых, открыть один из доступных фай лов и последовательно просматривать структуры зависимостей с разметкой имеющихся атрибутов (синтаксического или текто грамматического уровня) и, во-вторых, построить запрос при по мощи специально разработанной программы Netgraph с удобным графическим интерфейсом. Она позволяет осуществлять поиск по заданной форме дерева и по произвольной комбинации зна чений атрибутов одного или нескольких узлов дерева (например, по лемме, грамматическим признакам, синтаксическим функ циям в предложениях с синтаксической разметкой или по текто грамматической лемме, по грамматемме, семантическим функ
НКРЯ верстка4.indd 411
22/06/2009 17:48
412
Т. И. Резникова
циям в предложениях с семантической разметкой). Для упроще ния работы пользователю предлагаются в поисковом окне списки доступных атрибутов и их возможных значений. Предусмотрена возможность фильтрации результатов предыдущего запроса в со ответствии с заданным условием. Д о с т у п к к о р п у с у . PDT распространяется на платной осно ве через LDC (Linguistic Data Consortium, http://www.ldc.upenn.edu). В сокращенном варианте корпус доступен также в Интернете, од нако для его использования необходимо пройти регистрацию. Словацкий В распоряжении исследователей словацкого языка в настоящее время имеется один общедоступный ресурс — С л о в а ц к и й н а ц и о н а л ь н ы й к о р п у с — большой корпус с лемматиз ацией и морфологической разметкой. В 2005 году была начата работа по созданию корпуса с синтаксической разметкой Slovak Dependency Treebank, во многом опирающаяся на опыт PDT, однако результа ты этой работы пока недоступны. Словацкий национальный корпус (СНК). Проект по соз данию представительного корпуса начал свою работу в 2002 г. с открытием отдела Словацкого национального корпуса в рамках Института языкознания Словацкой академии наук. Наряду с од ноязычным корпусом в институте ведется разработка двух па раллельных корпусов — русско-словацкого (см. [Гарабик, Захаров 2006]) и французско-словацкого (см. [Vasilišinová, Garabík 2007]). С о с т а в . СНК в отличие от ЧНК включает только синхронные тексты, однако нижней временной границей включения текстов является 1955 г. (ср. 1990 для большинства текстов в ЧНК). На дан ный момент СНК не ставит и задачу сбора устной речи. Основной корпус (prim-3.0-public-all) объемом 339 млн. словоупотребле ний образуют оригинальные и переводные тексты в следующей пропорции: публицистика (60,6 %), художественная литература (17,5 %), специализированные тексты (11,6 %), другое (10,3 %). Дос тупен также подкорпус объемом ок. 200 млн. словоупотреблений, считающийся сбалансированным (prim-3.0-vyv), доли разных ти пов текстов в котором однако не столь значительно отличаются от целого корпуса (60 % публицистики, 20 % художественной ли
НКРЯ верстка4.indd 412
22/06/2009 17:48
Славянская корпусная лингвистика
413
тературы, 20 % специализированных текстов). Отдельный под корпус образуют тексты с ручной морфологической разметкой (r-mak-2.0, 511,5 тыс. словоупотреблений). М е т а р а з м е т к а . В СНК метаразметка сделана с учетом боль шего числа параметров, чем в ЧНК, и тем самым более адекватно представляет текстовые типы. Она включает среди прочих сле дующие атрибуты: имя автора, его пол, название текста, год его издания, год его первого издания, оригинал/перевод, язык-источ ник, имя и пол переводчика, тип текста (художественный с подти пами поэзия, проза, драма; информативный, в т.ч. публицистика, реклама и др., профессиональный, в т.ч. научный, учебник и др.; коммуникация); жанр текста (стихи, роман, очерк, статья и др.); предметная область (тематика для специализированной литера туры); тип носителя (книга, газета, интернет и др.), вариант языка (стандартный/нестандартный). Среди неучтенных пара метров здесь можно отметить характеристики целевой аудитории и цель создания текста. М о р ф о л о г и ч е с к а я р а з м е т к а . На основном массиве тек стов была проведена автоматическая лемматизация и морфоло гическая аннотация, основанная на статистических методах сня тия грамматической омонимии. В части корпуса (доступной как подкорпус r-mak-2.0, 511,5 тыс. словоупотреблений) осуществлена ручная морфологическая разметка. Система аннотации несколько отличается от ЧНК: для каж дой части речи предусмотрена своя схема тэга, в которой учитываются только релевантные для нее категории. Таким образом, тэги представляют собой не длинные цепочки с большим количеством прочерков для обозначения не релевантных параметров, а более компактные и удобные для про чтения и воспроизведения в запросе последовательности. П о и с к в к о р п у с е . Предусмотрено два вида обращений к корпусу. Первый — непосредственно с сайта СНК — подразуме вает несколько ограниченные возможности обработки запросов. Благодаря используемому языку регулярных выражений поиск может вестись по всем тем параметрам, которые описаны вы ше для ЧНК (словоформа, лексема, их последовательность, раз личные условия их взаимного расположения, грамматические признаки). Конкорданс выдается в формате KWIC. По команде
НКРЯ верстка4.indd 413
22/06/2009 17:48
414
Т. И. Резникова
пользователя система может отображать леммы и/или грамма тические признаки при искомом выражении. Для каж дой строки конкорданса предусмотрена возможность просмотра большого контекста (до 100 текстоформ справа и слева от искомых) и ме таинформации о тексте-источнике. Однако при данном типе ра боты с корпусом пользователь не может задавать собственный подкорпус (поиск ведется по всему корпусу или по r-mak-2.0). Эта и многие другие возможности, связанные с фильтрацией контекстов, сортировкой их выдачи, статистической обработ кой данных предусматривает второй вид обращения к корпусу, требующий предварительной регистрации. В этом случае работа с корпусом осуществляется при помощи системы Bonito, описан ной выше для ЧНК и аналогичным образом функционирующей для СНК. Д о с т у п к к о р п у с у . Возможен как доступ с предваритель ной регистрацией (для исследовательских целей осуществляется бесплатно), предоставляющий расширенные возможности обра ботки данных, так и поиск непосредственно с сайта СНК (об ог раничениях см. выше). Польский В отличие от чешского и словацкого польский до сих пор не имел собственного национального корпуса, что, безусловно, отража лось на общем уровне развития корпусных ресурсов языка. Од нако в настоящее время работа над его созданием уже ведется2 . Наряду с Институтом польского языка Польской академии наук в Консорциум Национального корпуса польского языка вошли организации, ранее уже разрабатывавшие корпусные ресурсы для польского. Именно на базе этих ресурсов и создается новый — На циональный — корпус (НКПЯ). Однако на нас тоящий момент возможности исследователей-полонистов в целом все еще огра ничиваются этими корпусами–«предшественниками», поэтому о них и пойдет речь ниже. Необходимо тем не менее отметить, что в рамках проекта по созданию Национального корпуса уже были собраны новые текстовые коллекции, и демонстрационные вер сии НКПЯ предоставляют к ним доступ через поисковые системы 2
С проектом можно ознакомиться на сайте корпуса: http://nkjp.pl
НКРЯ верстка4.indd 414
22/06/2009 17:48
Славянская корпусная лингвистика
415
двух ранее разработанных корпусов (IPI и PELCRA). Ниже, при описании этих корпусов, мы будем кратко останавливаться и на характеристиках демо-версий нового корпуса. Каждый из уже разработанных общедоступных корпусов поль ского языка по некоторым параметрам не соответствует пред ставлению о современном корпусе как эффективном инструмен те исследования определенного языкового состояния. (Собст венно, это и побудило их создателей к запуску проекта НКПЯ). Наибольшим потенциалом в этом смысле обладает к о р п у с I P I PA N — большой корпус, снабженный лемматизацией и морфо логической разметкой, однако он довольно однороден по своему составу. Корпуса P E L C R A и P W N представляют уступающие по объему, но более сбалансированные коллекции, однако в них от сутствует морфологическая разметка (в корпусе PWN проведена только лемматизация). Корпус IPI PAN. Корпус разрабатывался в Институте основ информатики Польской академии наук в рамках проекта, под держанного Государственным комитетом научных исследований, с 2001 г. Именно Институт основ информатики в настоящее время является координатором проекта по созданию Национального корпуса польского языка. С о с т а в . Создавая корпус, авторы включали в него все доступ ные тексты вне зависимости от их типа или даты возникновения, поэтому в своем полном варианте (250 млн. словоупотреблений3 ) он крайне нерепрезентативен. Основную часть корпуса образуют газетные, юридические тексты и стенограммы парламентских слушаний. С целью создания более представительной (с т. зр. типа текста) коллекции была подготовлена выборка объемом 30 млн. (доступна также ее предыдущая версия объемом 15 млн., вклю чающая газетные тексты (49,3 %), художественную литературу (20,3 %, в т.ч. классическую конца xix — начала xx вв. (9,7 %)), стенограммы парламентских слушаний (15,5 %), научные тексты (10 %), юридические тексты (4,9 %), см. [Przepiórkowski 2006]; со став 30-миллионной выборки разработчики не указывают, неиз 3
Демонстрационная версия НКПЯ через поисковую систему IPI предостав ляет доступ к корпусу объемом 430 млн. текстоформ, однако сведений о соста ве этой текстовой выборки на сайте корпуса нет.
НКРЯ верстка4.indd 415
22/06/2009 17:48
416
Т. И. Резникова
вестно и распределение текстов по дате создания). Отдельный подкорпус составляет также разработанный в 60–70-е гг. корпус, ставший основой для словаря [Kurcz et al. 1990], который в рамках данного проекта был вычищен и снабжен новой разметкой (под корпус freq, объем 0,5 млн.). В нем по 20 % приходится на попу лярно-научные тексты, художественную прозу, драму, новостные и длинные публицистические статьи. М е т а р а з м е т к а . Данный тип аннотации включает только 5 ат рибутов: имя автора, название произведения, год издания, год первого издания и год создания. М о р ф о л о г и ч е с к а я р а з м е т к а . Как и в ЧНК и СНК, в кор пусе IPI сначала осуществлялась автоматическая лемматизация и морфологическая разметка, которая приписывала каж дой сло воформе все возможные варианты разбора, а затем на основе статистических закономерностей было проведено автоматиче ское снятие омонимии. Примечательным при этом является то, что в корпусе сохраняются варианты разбора, отвергнутые про граммой снятия омонимии, так что при желании пользователь может вести поиск по всем вариантам разбора. Такое решение открывает целый ряд дополнительных возможностей: например, позволяет выявлять все омонимичные формы определенного типа или искать ошибки автоматической программы снятия омонимии. Каж дой грамматической категории при разметке соответствует отдельный атрибут с заданным набором значе ний (напр., число (единств./множ.), лицо (1/2/3) и т.д.) — фор ма, которая в силу своей традиционности является удобной для пользователя. В корпусе freq лемматизация и морфологическая разметка осуществлялись вручную. П о и с к в к о р п у с е . Для поиска в корпусе была специально разработана система Poliqarp, основанная на синтаксисе языка регулярных выражений. Как и в ЧНК и СНК, поиск может вестись по заданному значению любых атрибутов: словоформе или ее час ти, лексеме или ее части, последовательности словоформ/лексем с указанием расстояния между ними или с заданием структурного единства (предложение, абзац), в пределах которого заданные
НКРЯ верстка4.indd 416
22/06/2009 17:48
Славянская корпусная лингвистика
417
единицы должны встретиться, а также по любой комбинации грамматических признаков (как по разметке с автоматически сня той, так и по разметке с неснятой омонимией). При поиске могут учитываться знаки препинания и положение искомой единицы относительно начала/конца предложения/абзаца. При помощи языка запросов можно ограничить поиск заданными значениями метаатрибутов (например, по году создания текста). Конкорданс выдается в формате KWIC. По команде пользователя возможно отображение леммы и/или грамматических призна ков при искомом выражении или во всех выданных словах. Не предусмотрено получение метаинформации об источнике текста. Максимальный контекст выдачи составляет по 20 текстоформ сле ва и справа от искомого выражения, выбранный контекст может быть расширен до 200 текстоформ. Возможна сортировка выдан ных контекстов по искомому выражению, а также по первому слову левого или правого контекста (заметим, что упорядоче ние по началу левого контекста осмысленно только в том случае, если задан размер левого контекста, равный единице; гораздо более удобная система предусмотрена в программе Bonito, где сортировка начинается с ближайшего от искомого слова слева, вслед за которым учитывается второе от него слово слева и т.д.). Предусмотрена и обратная сортировка по искомому выражению, левому или правому контексту (т. е. по концу соответствующего фрагмента). Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Корпус PELCRA. Разработка корпуса ведется с 1996 г. на Кафед ре английского языка университета г. Лодзь в рамках совместного проекта с Отделением лингвистики и современного английского языка университета Ланкастера. Наряду с одноязычным польским корпусом ведется работа над созданием англо-польского парал лельного корпуса, а также польского учебного корпуса англий ского языка. С о с т а в . Структура корпуса строилась во многом по модели Британского национального корпуса. Планируемый объем корпу са — 100 млн. словоупотреблений, на сегодняшний день для поис
НКРЯ верстка4.indd 417
22/06/2009 17:48
418
Т. И. Резникова
ка доступно 93 млн.4 90 % корпуса образуют письменные тексты (в т.ч. 13,5 % художественные, 76,5 % — остальные), 10 % — устные. Основной массив текстов относится к 1992–2003 гг., нижней вре менной границей включения текстов является 1989 г., иск люче ние делается только для некоторых художественных текстов. Уст ный подкорпус состоит из двух неравных частей: осуществленные в рамках проекта записи непубличных разговоров (всего свыше 160, объем — 600 тыс. словоупотреблений, планируется довести до 1 млн.) и транскрипции устной речи официального характера (публичные выступления, дебаты, интервью и т. п.) М е т а р а з м е т к а . Аннотация письменных текстов учитывает довольно мало параметров: автор, название, источник текста, тип текста (письменный, устный — официальный или неформальный), тип носителя (книга, интернет и т.д.), дата публикации. Для уст ных текстов размечаются пол, возраст говорящего и уровень его образования. М о р ф о л о г и ч е с к а я р а з м е т к а . Потенциал корпуса зна чительно снижает фактическое отсутствие лемматизации и мор фологической разметки. Единственная опция в области лемма тического поиска, которую предполагает корпус, — это выдача по заданной словоформе всей парадигмы в виде списка (с возможно стью указания частотности для каждой формы) с последующим поиском по каж дой словоформе в отдельности5 . П о и с к в к о р п у с е . Корпус предполагает несколько типов поиска, незначительно различающихся по синтаксису запроса и параметрам выдачи. Ниже обобщаются основные поисковые возможности. Предусмотрен поиск по словоформе или ее части, 4 Демонстрационная версия НКПЯ через поисковую систему PELCRA предо ставляет доступ к корпусу объемом 350 млн. текстоформ, полученному в ре зультате объединения материалов трех ресурсов – корпуса IPI PAN, самого корпуса PELCRA и корпуса PWN (см. ниже), а также добавления ряда новых текстов. Точный состав и процентное соотношение типов текстов в итоговой выборке разработчики не указывают. 5 Возможности поисковой системы PELCRA были расширены для текстов НКПЯ, доступных в демонстрационной версии нового корпуса: эти тексты прошли лемматизацию, тем самым по запросу пользователь может получать все словоформы заданной лексемы.
НКРЯ верстка4.indd 418
22/06/2009 17:48
Славянская корпусная лингвистика
419
нескольким словоформам или их частям (следующим непосред ственно друг за другом или находящимся в пределах одного пред ложения/абзаца, нельзя задать расстояние меж ду единицами). При запросах на словоформы в составе предложения/абзаца дос тупны также логические операторы ИЛИ и НЕ. Поиск можно ог раничить определенным типом и/или носителем текста и годом его публикации для письменных текстов и определенным полом, возрастом и уровнем образования говорящего — для устных. Еще один — необычный — параметр, по которому могут накладываться ограничения в письменных текстах, — это тип предложения (ут вердительное, вопросительное, восклицательное)6 . Формат выдачи — KWIC или обычный текст (в зависимости от типа запроса). Упорядочение выдачи возможно по искомому вы ражению, первому слову левого или правого контекста (неудоб ство сортировки по первому слову левого контекста уже обсуж далось выше в связи с корпусом IPI), а также по источнику текста. Максимальный контекст выдачи — 1 предложение или 1 абзац (в зависимости от типа запроса). В окне результатов существует воз можность расширения выбранного контекста до 3 абзацев (по 1 до и после того, в котором встретилось искомое выражение). Коли чество выдаваемых контекстов ограничено 250 примерами. При 6
Несколько иные возможности предоставляет поисковая система PELCRA для текстов НКПЯ: здесь также предусмотрен поиск по словоформе или ее части, нескольким словоформам или их частям, однако в данном случае поль зователь может и задавать расстояние между единицами. Кроме того, как уже отмечалось, доступен поиск по лемме или комбинации из нескольких лемм. При формулировании запроса возможно использование логического оператора ИЛИ. По выбору пользователя искомые слова в итоговых контекстах могут располагаться в произвольном порядке или же только в заданной после довательности. Результаты выдаются в формате KWIC. Возможна сортировка получаемых контекстов по ключевому слову, по левому или правому контексту (учитывается сначала ближайшее слово слева или справа от искомого выра жения, потом второе и т.д.). При этом, однако, сортируются только результаты в пределах каждой отдельной страницы выдачи (ее объем выбирает пользова тель — от 10 до 1000 контекстов). По запросу выдается расширенный кон текст — три предложения (по одному слева и справа от того, в котором встре тилось искомое выражение), а также метаинформация — автор, название и год создания текста.
НКРЯ верстка4.indd 419
22/06/2009 17:48
420
Т. И. Резникова
этом если поиск ведется по одной словоформе (не по группе), сис тема создает сбалансированный подкорпус в 10 тыс. текстов, на материале которого ведется поиск. При повторном запросе фор мируется новый подкорпус, который, соответственно, может вы дать другие примеры. Для каждого контекста можно просмотреть информацию о его источнике. Система позволяет получать ряд статистических данных. Кро ме уже упомянутой выше частотности словоформ в составе па радигмы возможна выдача списка (до 2000 единиц) самых час тотных словоформ в корпусе, частотного списка для выбранного текста, а также списка коллокаций для данной словоформы, упо рядоченного по абсолютной частотности (учитывается по выбору левый или правый контекст) или по статистическому параметру MI3 (задается размер контекста, в пределах которого ищутся кол локации). Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Корпус PWN. Корпус разработан Польским научным издатель ством и служит основой для выпускаемых им словарей. С о с т а в . Корпус состоит из двух частей — коллекции текстов различных типов (общий объем 22 млн. словоупотреблений, в т. ч. художественная литература 20 %, книги non-ction 21 %, газеты и журналы 45,5 %, устная речь 4,5 %, тексты «эфемерных жанров» 5,5 %, тексты из Интернета 3,5 %) и текстов из газеты Rzeczpospolita (18 млн.). Временной охват текстов в корпусе PWN довольно ши рок: с 1925 по 2005 гг. для прессы и с 1903 по 1997 гг. для книг, хотя основной массив корпуса образуют все же тексты, создан ные во второй половине века. В подкорпус Rzeczpospolita вошли отдельные номера газеты с 1997 по 2005 гг. В открытом доступе находятся уменьшенные варианты двух составляющих корпуса: 3,7 млн. — общий корпус и 3,6 млн. — Rzeczpospolita. Отметим, что вопреки современному стандарту создания корпусов в общий раз дел корпуса PWN включались не целые тексты, а их фрагменты. М е т а р а з м е т к а . Тексты аннотируются по автору, его полу, возрасту (по принадлежности одной из 7 групп) и уровню об разования, по названию, году издания, типу (учитывается 8 ти пов — рассказ, статья, разговор, письмо и др.), однако для пользо вателя эти данные не имеют практического значения, поскольку
НКРЯ верстка4.indd 420
22/06/2009 17:48
Славянская корпусная лингвистика
421
не могут учитываться при поиске. Кроме того, ряд элементов мар кируется внутри текста — это, например, единицы иностранно го происхож дения, неправильные формы (с указанием соответ ствующей правильной), диалектные формы, цитаты из текстов, значительно отстоящих по времени создания от основного тек ста, в устных текстах — паузы, наложения реплик и др. По запросу пользователя эта разметка может отображаться при выдаче. М о р ф о л о г и ч е с к а я р а з м е т к а . Корпус лемматиз ов ан (грамматическая омонимия не снята), однако морфологическая разметка отсутствует. П о и с к в к о р п у с е . Поиск можно осуществлять по словоформе или ее части, лексеме или ее части (причем по умолчанию поиск ведется именно по лексеме), по нескольким словоформам/лек семам, расположенным на заданном расстоянии друг от друга (в открытой версии корпуса возможен поиск только по следующим друг за другом единицам). Размер контекста выдачи устанавлива ется пользователем и фактически не ограничен. Пользователь мо жет регулировать и количество выдаваемых примеров. Возможна сортировка контекстов по искомому выражению, первому слову левого или правого контекста (проблема сортировки по левому контексту здесь, как и в корпусах IPI и PELCRA, решена неопти мальным способом). Контексты выдаются в формате KWIC. Для каждого контекста можно получить информацию о его источнике. Доступна версия контекста с метатекстовыми тэгами (т. е., на пример, с разметкой неправильных форм, диалектных элементов и т. п., см. выше в разделе «Метаразметка»). Д о с т у п к к о р п у с у . Доступ к полной Интернет-версии кор пуса осуществляется на платной основе, в открытом доступе на ходится небольшая часть корпуса с несколько ограниченными поисковыми возможностями (см. выше). 2. Южнославянские языки Словенский Уровень корпусной оснащенности южнославянских языков в це лом ниже, чем западнославянских. Пожалуй, наиболее разрабо танной областью в этом отношении является словенский язык. На
НКРЯ верстка4.indd 421
22/06/2009 17:48
422
Т. И. Резникова
сегодняшний день только для него созданы большие представи тельные корпуса с лингвистической разметкой — к о р п у с F I D A и его существенно расширенная версия — к о р п у с F i d a P L U S . В распоряжении исследователей словенского есть и другой боль шой ресурс — N o v a b e s e d a , однако он нерепрезентативен и не снабжен аннотацией лингвистического уровня. Еще одним ин струментом изучения словенского может стать система W W W C o n c o r d a n c e , представляющая маленькую коллекцию специа лизированных текстов, в части которой была проведена морфо логическая разметка. Наконец, следует отметить другой неболь шой специализированный корпус, представляющий ответвление проекта FidaPLUS, — к о р п у с K o R P — это морфологически анно тированная коллекция текстов по тематике «Связи с обществен ностью». В настоящее время ведется также работа по созданию корпуса с синтаксической разметкой — S l o v e n e D e p e n d e n c y Tr e e b a n k , который строится по образцу PDT. На данном этапе подготовлен небольшой фрагмент этого корпуса. Корпуса FIDA и FidaPLUS. FIDA представляет собой коммер ческий продукт, создававшийся с 1997 по 2000 гг. в университе те Любляны и Институте им. Йозефа Стефана при поддержке коммерческих организаций DZS и Amebis. Впоследствии на базе этого корпуса был создан новый, существенно расширенный ре сурс — корпус FidaPLUS (проект поддержан Министерством обра зования Словении). С о с т а в . Разработчики FIDA ориентировались на стандарт, за данный Британским национальным корпусом — ресурс задумы вался как 100-миллионный представительный корпус современ ного языка. Новый корпус FidaPLUS существенно превышает ста рый по объему: он содержит 621 млн. словоупотреблений. Тексты в FIDA относятся ко второй половине xx в., при этом большинство создано в 90-е гг., основной массив текстов в FidaPLUS охватывает временной интервал с 1990 по 2006 гг. Пропорции типов текстов в двух корпусах в некоторой степени отличаются (поскольку при этом оба корпуса считаются сбалансированными, можно пред положить, что различия состава отражают произошедшие меж ду выпуском FIDA и FidaPLUS изменения в функционировании словенского языка, хотя в отличие от ЧНК авторы не сообщают
НКРЯ верстка4.indd 422
22/06/2009 17:48
Славянская корпусная лингвистика
423
о социолингвистических исследованиях, позволяющих сделать подобный вывод). Типы текстов, с одной стороны, и типы носи телей — с другой, представлены в FIDA и FidaPLUS соответственно в следующих соотношениях: художественные тексты (6 vs. 3,47 %), научные (18,5 vs. 10 %), другие (75,5 vs. 86,34 %); книги (22,7 vs. 8,74 %), газеты (46,6 vs. 65,26 %), журналы (23,9 vs. 23,26 %), тексты из Интернета (электронные тексты) (0,02 vs. 1,24 %), другое (в т. ч. незначительная доля устной речи — стенограмм парламентских слушаний) (6,78 vs. 1,5 %). М е т а р а з м е т к а . При параметризации текстов большое вни мание уделялось типу носителя (книга, газета, журнал с класси фикацией последних по периодичности и т.д.). К другим мета атрибутам, учитываемым при поиске, относятся тип текста (ху дожественные — проза, поэзия, драма; научные — гуманитарные и технические; прочие) и год его создания. М о р ф о л о г и ч е с к а я р а з м е т к а . В корпусе проведена лем матизация и морфологическая разметка. Аннотация выполнена на основе рекомендаций для словенского языка, выработанных в рамках международного проекта по развитию языковых ресур сов Multext-East (http://nl.ijs.si/ME). Грамматический тэг пред ставляет собой цепочку символов, в которой каждая позиция со ответствует значению определенной грамматической категории. Для каждой части речи предусмотрена своя схема тэга (тем самым принципы морфологической разметки в FIDA и FidaPLUS сходны с разметкой в СНК). Грамматическая омонимия в корпусах сня та частично, процедура осуществлялась автоматически на осно вании статистических закономерностей. При этом пользователь имеет доступ к разборам, отвергнутым автоматической програм мой снятия омонимии. П о и с к в к о р п у с а х . Запрос может строиться по словофор ме/ее части, лексеме/ее части, последовательности словоформ/ лексем, находящихся на заданном расстоянии друг от друга или в пределах одного предложения, а также по грамматическим при знакам. При формулировании запроса возможно использование логических операторов. Конкорданс выдается в формате KWIC. Контекст выдачи составляет по несколько слов слева и справа от искомого. По команде пользователя высвечивается подробная
НКРЯ верстка4.indd 423
22/06/2009 17:48
424
Т. И. Резникова
информация об источнике текста, а также выдается расширен ный контекст — абзац, в котором встретилось искомое выражение. Предусмотрена возможность просмотра контекста с полной мор фологической разметкой. Выдачу можно упорядочить по левому или правому контексту (как и в ЧНК, в общем случае сортировка сначала учитывает бли жайшее к искомому слово — по выбору пользователя слева или справа, затем следующее и т. д. Кроме того, пользователь может сам задать позицию — от 1-й до 4-й вправо или влево от искомо го выражения, по которой будет осуществляться сортировка). К сожалению, упорядочивание собственно по искомой цепочке не предусмотрено, что при наличии поиска по грамматическим признакам было бы удобной опцией. К другим возможностям об работки полученного конкорданса относится фильтрация найден ных примеров (т. е. можно отсеять не подходящие пользователю контексты, в качестве условий фильтрации задаются значения любых атрибутов — определенные словоформы, лексемы, грамма тические признаки, которые должны — или же не должны — нахо диться на заданном расстоянии от искомого выражения). Поиск можно ограничить по метаатрибутам (типу текста, ти пу носителя, году создания). Предусмотрены также некоторые функции, связанные со статистической обработкой данных, в ча стности, выдача для заданной единицы частотного списка кол локаций, включающего значения статистических параметров MI и MI3, с возможностью определения размера учитываемого контекста. Д о с т у п к к о р п у с а м . Доступ к корпусу FIDA осуществляет ся на платной основе. В демонстрационной версии, находящейся в открытом доступе, по запросу пользователя выдается не более 10 контекстов. Для доступа к FidaPLUS необходимо пройти регист рацию (для исследовательских целей осуществляется бесплатно). Корпус Nova beseda (NB). Корпус разрабатывается с 1999 г. в Институте словенского языка Словенской академии наук. Ис следователи рассматривают нынешний корпус как шаг на пути к созданию Словенского национального корпуса. С о с т а в . В своем нынешнем виде корпус несбалансирован. Коллекцию объемом 240 млн. словоупотреблений образуют 7 под
НКРЯ верстка4.indd 424
22/06/2009 17:48
Славянская корпусная лингвистика
425
корпусов: тексты газеты DELO за 1998–2007 гг. (70,4 %), стенограм мы парламентских слушаний 1996–2007 гг. (12,9 %), оригинальная и переводная художественная литература (5 %), литература nonction (0,83 %), научная и техническая литература (1,25 %), жур нальные тексты (8,75 %), тексты законодательства Словении (5%). М е т а р а з м е т к а . Тексты классифицируются по следующим параметрам: автор, название, оригинальный vs. перев одной, жанр и тип (проза, поэзия, драма — для художественной литера туры, мемуары, эссе и т.д. — для non-ction, тематика, т.е. есте ственно-, гуманитарно-научные или юридические тексты, — для научно-технической литературы). М о р ф о л о г и ч е с к а я р а з м е т к а . Лемматизация и грамма тическая аннотация в корпусе отсутствует. П о и с к в к о р п у с е . Поиск может осуществляться по слово форме, ее начальной части или по нескольким словоформам (их начальным частям), следующим непосредственно друг за другом. Формат выдачи — KWIC. Сортировка контекстов не поддержива ется. Максимальный контекст выдачи — по 1 предложению слева и справа от того, в котором встретилось искомое выражение. По запросу пользователя выдается информация об источнике текста. Поиск можно ограничить по любому метапараметру (заметим, что год создания текста, не вынесенный в метаатрибуты, соответ ственно, не может учитываться при поиске). Другой вид запроса, предусмотренный в NB, — это запрос на список слов, отвечающих определенным параметрам. Здесь поиск может вестись по любым буквенным последовательностям, входящим в состав словофор мы, по количеству букв в ее составе, по частотности словоформы в корпусе. Запрос может включать логические операторы. Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Система WWW-Concordance. Система позволяет осуществ лять поиск по нескольким специализированным коллекциям тек стов разного уровня аннотации. С о с т а в . Система включает следующие текстовые собр ания: перевод на словенский романа Дж. Оруэлла «1984» (корпус, под готовленный и размеченный в рамках международного проекта Multext-East, см. подробнее выше в связи с ЧНК, объем — 90 тыс. словоупотреблений), коллекция газетных статей конца 80-х гг.
НКРЯ верстка4.indd 425
22/06/2009 17:48
426
Т. И. Резникова
о Югославской национальной армии (270 тыс.) и записи электрон ной конференции по горному делу (300 тыс.), DSI — материалы Словенской конференции по информатике за 2003–2007 гг. (1,4 млн., корпус подготовлен Отделом языка Словенского общества информатики как основа для электронного словаря по информа тике). Однородность текстовых коллекций не предполагает осу ществления метаразметки. М о р ф о л о г и ч е с к а я р а з м е т к а . Лемматизация и граммати ческая разметка проведены для двух подкорпусов — корпуса «1984» (осуществлены в рамках проекта Multext-East, о принципах раз метки см. FIDA), а также для корпуса DSI. Обратим внимание, что в двух корпусах использовались разные аннотационные форма лизмы, соответственно, для правильного построения запросов каж дая система требует отдельного изучения. Грамматическая омонимия снята. П о и с к в к о р п у с е . При поиске может использоваться мощ ный аппарат языка регулярных выражений. Запрос может стро иться по словоформе/ее части, нескольким словоформам/их частям, находящимся на заданном расстоянии друг от друга или в пределах одного предложения. В корпусах «1984» и DSI все те же типы поиска могут осуществляться и по значениям других доступных атрибутов — лемм и грамматических признаков. Фор мат выдачи — KWIC или обычный текст. В формате KWIC поль зователь может установить размер контекста выдачи — от 10 до 160 знаков справа и слева от искомого выражения, при этом чем больше заданный размер контекста, тем меньше максимально возможное число выдаваемых примеров (при контексте в 10 знаков пользователь получает не более 2000 контекстов, при ограничении в 160 знаков — не более 125). В формате обычного текста количество примеров не ограничено, однако размер кон текста составляет примерно по 20 знаков справа и слева от ис комого выражения. Предусмотрена также выдача в виде списка слов, отвечающих заданному условию, с указанием частотности для каж дого из элементов списка. Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Корпус KoRP. Корпус текстов по тематике «Связи с обществен ностью» разрабатывается с 2006 г. на социологическом факуль
НКРЯ верстка4.indd 426
22/06/2009 17:48
Славянская корпусная лингвистика
427
тете университета Любляны как основа для терминологического словаря данной предметной области. С о с т а в . В корпус вошли оригинальные (73,2 %) и переводные (26,8 %) тексты нескольких типов — научные, специальные и по пулярные статьи, тезисы конференций, монографии, учебники, интервью, дипломные и магистерские работы, рецензии и под., связанные с изучаемой предметной областью. Временной охват текстов — с 1994 по 2007 гг., основная доля (70%) приходится на 2002–2006 гг. Общий объем корпуса — 1,8 млн. словоупотребле ний. М е т а р а з м е т к а . При поиске могут учитываться следующие метапараметры — год создания текста, функциональная сфера (все тексты по этому признаку делятся на научные, специальные и популярные), тип носителя (книга — электронная публикация), исходный язык текста (оригинал — перевод). М о р ф о л о г и ч е с к а я р а з м е т к а . Как уже отмечалось, KoRP является ответвлением проекта FidaPLUS, соответственно, прин ципы лемматизации и морфологической разметки двух корпусов совпадают (см. описание выше). П о и с к в к о р п у с е . Поисковый интерфейс корпуса KoRP также повторяет систему поиска, реализованную в FidaPLUS, тем самым пользователь KoRP имеет столь же широкий спектр воз можностей в области построения запросов и обработки выданных контекстов (см. FidaPLUS). Д о с т у п к к о р п у с у . Для доступа к KoRP необходимо прой ти регистрацию (для исследовательских целей осуществляется бесплатно). Slovene Dependency Treebank (SDT). Работа над созданием синтаксически аннотированного корпуса ведется с 2003 г. в Ин ституте им. Йозефа Стефана и Институте словенского языка Сло венской академии наук. С о с т а в . Подготовленная на сегодняшний день версия SDT представляет собой фрагмент корпуса, созданного в рамках про екта Multext-East (см. WWW-Concordance), а именно, в SDT вошла первая часть словенского перевода романа Дж. Оруэлла «1984» объемом 30 тыс. словоупотреблений (2 тыс. предложений). В даль нейшем предполагается расширение состава корпуса, в частности,
НКРЯ верстка4.indd 427
22/06/2009 17:48
428
Т. И. Резникова
за счет интернет-текстов как наиболее приближенных к сфере возможного применения будущего корпуса (см. [Džeroski et al. 2006]). С и н т а к с и ч е с к а я р а з м е т к а . Поскольку аннотация морфо логического уровня с ручным снятием омонимии была осущест влена уже на этапе проекта Multext-East, то в рамках подготовки SDT вся работа была направлена на синтаксическую разметку. Последняя строилась по образцу PDT, однако пока что разработ чики SDT реализуют только аннотацию «аналитического» уровня, не обращаясь к более глубокому «тектограмматическому» слою языковой информации (ср. PDT). На первом этапе разметка осу ществляется автоматически, затем построенные таким образом деревья зависимостей проверяются вручную. Д о с т у п к к о р п у с у . Желающим работать с корпусом предла гается написать электронное письмо с соответствующей просьбой его разработчикам (адрес указан на сайте корпуса). Хорватский Хорватский является единственным среди южнославянских язы ков, для которого на сегодняшний день разработан н а ц и о н а л ь н ы й к о р п у с ( Х Н К ). ХНК характеризуется широкими поис ковыми возможностями, но пока что довольно незначительным объем ом лингвистически аннотированных текстов и несбаланси рованностью состава. На основе фрагмента ХНК c 2006 г. ведет ся работа по созданию синтаксически аннотированного корпуса Croatian Dependency Treebank, который строится по образцу PDT. Результаты этой работы пока недоступны. Кроме ХНК разрабаты вается корпус C r o a t i a n L a n g u a g e R e p o s i t o r y ( C L R ) , на целенный на отражение стандартного хорватского языка и вклю чающий, соответственно, ограниченный набор типов текстов. Лингвистическая разметка CLR пока не осуществлена. Хорватский национальный корпус (ХНК). Работа над ХНК ведется с 1996 г. в Институте лингвистики Загребского универ ситета. С о с т а в . Статус национального определяет тот факт, что ХНК естественно задумывался как сбалансированный: были заранее определены процентные соотношения разных типов текстов в со
НКРЯ верстка4.indd 428
22/06/2009 17:48
Славянская корпусная лингвистика
429
ставе будущего 100-миллионного корпуса. Однако на настоящий момент не все типы текстов собр аны в предусмотренном для них объеме, поэтому пользователю временно открыты все имеющиеся коллекции текстов без соблюдения их пропорций в корпусе об щим объем ом 101 млн. словоупотреблений: это газетные и жур нальные тексты с 1990 по 2005 гг. (97 млн., разбиты на несколько подкорпусов по названию издания) и художественная литература с xvi в. (ок. 4 млн., 2 подкорпуса — классическая литература и про изведения М. Марулича). М е т а р а з м е т к а . Для корпуса разработана типология тек стов, учитывающая тип носителя, тематику, жанр и др. (см. [Tadić 2002]), однако она в полном объеме не включена в разметку кор пуса. М о р ф о л о г и ч е с к а я р а з м е т к а . В небольшой части кор пуса (подкорпус текстов газеты Croatia Weekly за 2000 г., cw2000, объем 118 тыс. словоупотреблений) была проведена лемматиза ция и морфологическая разметка с последующим ручным сняти ем омонимии. Аннотация выполнена на основе рекомендаций для хорватского языка, выработанных в рамках международного проекта по развитию языковых ресурсов Multext-East, тем самым разметка ХНК сходна с реализованной в FIDA. П о и с к в к о р п у с е . Для поиска используется обсуждавшаяся выше программа Bonito (см. ЧНК), соответственно, пользователю предоставляется широкий потенциал поисковых возможностей, настройки параметров выдачи и статистической обработки ин формации. Нужно, однако, иметь в виду, что в связи с особенно стями разметки ХНК все типы запросов, основанные на лемме или грамматических признаках, доступны пока только в маленьком подкорпусе cw2000. Не поддерживается пока и поиск с ограниче ниями по метаатрибутам. Д о с т у п к к о р п у с у . В период разработки корпус находится в открытом доступе. Croatian Language Repository (CLR). CLR разрабатывается с 2005 г. в Институте хорватского языка и лингвистики при под держке Министерства образования, науки и спорта. С о с т а в . Нацеленность проекта на отражение стандартного хорватского языка определяет особенности его состава. В него
НКРЯ верстка4.indd 429
22/06/2009 17:48
430
Т. И. Резникова
включаются только письменные тексты — в первую очередь ху дожественная и публицистическая литература, переводные тек сты выдающихся переводчиков, научные тексты разной тематики, учебники, интернет-журналистика. Нижней временной границей включения текстов определена середина xix в. (в рамках проекта планируется создать также корпуса древне- и среднехорватского языков). Объем корпуса на настоящий момент составляет 71 млн. словоупотреблений, планируется его расширение до 180 млн. М е т а р а з м е т к а . Для аннотации текстов используется не значительное число параметров: автор, название, год создания, объем текста, язык оригинала и некоторые библиографические сведения (место и год публикации, издательство). М о р ф о л о г и ч е с к а я р а з м е т к а . На данном этапе леммати зации и морфологической разметки в корпусе нет. П о и с к в к о р п у с е . Запросы осуществляются по всему кор пусу или отдельно по художественным и газетным текстам. Поиск может вестись по словоформе или ее части, последовательности словоформ, находящихся на заданном расстоянии друг от друга или в пределах одного предложения/абзаца. Возможно исполь зование регулярных выражений. Поиск с учетом знаков препина ния не поддерживается. По заданной последовательности можно найти близкие по буквенному составу словоформы с указанием частотности для каждой (это в некоторой степени заменяет поиск словоформ в составе парадигмы, но в отличие от опции, реализо ванной в корпусе PELCRA, в данном случае в списке, безусловно, окажутся лишние формы и могут потеряться нужные). Формат выдачи — KWIC (5 текстоформ слева и 7 справа от искомого) или обычный текст (примерно по 40 текстоформ слева и справа). По запросу можно просмотреть расширенный контекст (вплоть до 3 страниц исходного печатного текста или 3 абзацев для газетных статей). Возможна сортировка контекстов по искомому выра жению, соседнему левому или правому слову, а также по мета данным (автору, названию текста, году создания). Поиск можно ограничить любыми метаатрибутами. Для изучения роли слова в коммуникативной структуре предложения предусмотрена воз можность поиска словоформы отдельно в начальной, конечной или срединной части клаузы.
НКРЯ верстка4.indd 430
22/06/2009 17:48
Славянская корпусная лингвистика
431
Корпус позволяет проводить различные типы статистического анализа данных. Кроме частотных списков словоформ для все го корпуса и каж дого из входящих в его состав текстов можно по заданной словоформе получить ее распределение по различ ным метахарактеристикам текста, т.е. изучить ее встречаемость (абсолютную или относительную к общему числу слов) у разных авторов, в разных текстах, в разные периоды времени (при этом временной интервал распределения может составлять от одного года до века). Кроме того, предусмотрена возможность получения для заданной словоформы списка 100 самых частотных коллока ций с указанием размера учитываемого контекста (во избежание получения случайных коллокаций при поиске могут не учиты ваться 120 самых частотных слов корпуса). Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Боснийский Корпусные ресурсы для боснийского языка на сегодняшний день довольно ограниченны. Разработанный в Осло К о р п у с б о с н и й с к и х т е к с т о в , открывшийся в Интернете в 1998 г., был од ним из первых среди славянских языков общедоступных ресурсов. С тех пор корпус не претерпел значительных изменений. Неудиви тельно поэтому, что с точки зрения современных стандартов этот корпус несколько устарел: он характеризуется небольшим объе мом и отсутствием лингвистической разметки. Маленький корпус устной речи (К о р п у с б о с н и й с к и х и н т е р в ь ю ), созданный в рамках исследовательского проекта в университете г. Тюбинген, будет рассмотрен вместе с другими корпусами, разработанными по тем же принципам, в разделе о сербских корпусах. Корпус боснийских текс тов (КБТ). КБТ разрабатыв ался с 1996 г. в университете Осло в рамках совместного проекта От деления восточноевропейских исследований и Лаборатории по обработке текстов. В настоящее время ресурс, по всей вероятно сти, не развивается. С о с т а в к о р п у с а . В корпус вошли следующие типы текстов: художественная литература (43 %), эссеистика (29,6 %), публици стика (16,9 %), книги для детей (6 %), религиозные тексты (2,8 %), юридические тексты (1,5 %), фольклор (0,2 %). Большинство тек
НКРЯ верстка4.indd 431
22/06/2009 17:48
432
Т. И. Резникова
стов относятся к 90-м гг. xx в. Общий объем корпуса составляет 1,5 млн. словоупотреблений. М е т а р а з м е т к а . Тексты в корпусе классифицируются по ав тору, названию, году издания и типу (типы соответствуют состав ляющим корпуса — худ. литература, эссеистика и т.д.) М о р ф о л о г и ч е с к а я р а з м е т к а . В корпусе отсутствуют лем матизация и морфологическая разметка. П о и с к в к о р п у с е . Поиск может вестись по словоформе, ее части или по последовательности словоформ, находящихся на за данном расстоянии друг от друга (но запрос не может строиться с учетом структурных единств, так как в корпусе не размечены границы предложений и абзацев). Поддерживается поиск с уче том знаков препинания. Формат выдачи — KWIC или обычный текст. Максимальный общий размер выдаваемого контекста — 500 знаков или 200 слов. Сортировка контекстов не поддерживается. Д о с т у п к к о р п у с у . Для доступа к корпусу необходимо прой ти регистрацию (для исследовательских целей осуществляется бесплатно). Сербский Ситуацию в сербской корпусной лингвистике можно оценивать двояко: с одной стороны, существует текстовая коллекция — К о р п у с с е р б с к о г о я з ы к а , снабженная подробной лингвистиче ской разметкой и предназначенная для размещения в Интернете, с другой — планировавшаяся вывеска так и не состоялась, и про ект в настоящее время, по-видимому, не развивается. Тем самым корпус не представляет практического интереса для пользователя. Ниже будут кратко охарактеризованы основные параметры разра ботанного корпуса, а также представлены маленькие специализи рованные корпуса (в т.ч. Н о в о с а д с к и й к о р п у с у с т н о й р е ч и и С е р б с к и й к о р п у с к о м и к с о в ), созданные в Тюбингенском университете. Корпус сербского языка (КСЯ). В основу корпуса легла тексто вая коллекция, собранная в 1957–62 гг. в Институте эксперимен тальной фонетики и патологии речи под руководством Д. Костича. Работа над электронным корпусом была начата в 1996 г. в рамках совместного проекта Института с Лабораторией эксперименталь ной психологии Белградского университета.
НКРЯ верстка4.indd 432
22/06/2009 17:48
Славянская корпусная лингвистика
433
С о с т а в . Общий объем корпуса составляет 11 млн. словоупотреб лений. Его образуют 5 подкорпусов: корпус современного языка (включающий художественную литературу, публицистику, науч ные тексты общим объемом 7 млн.) и 4 исторических подкорпуса литературы xii-xix вв., разбитых по хронологическому принципу (4 млн.). М о р ф о л о г и ч е с к а я р а з м е т к а . КСЯ был вручную лемма тизован и снабжен подробными грамматическими пометами. На ряду с этим для каждой словоформы указывалось количество ее букв и слогов и фонологическая структура. П о и с к в к о р п у с е . Как уже указывалось, собственно поиск по корпусу недоступен. Единственная текстовая информация, к которой пользователь имеет доступ — это образцы разметки (объемом по 500 словоформ) для каждого из пяти подкорпусов. Тюбингенские боснийско-сербско-хорватские корпус а (ТБСХК). Данные корпуса разрабатывались с 1999 по 2001 гг. в рамках проекта по исследованию дейктических элементов. Те матика проекта определяет специфику вошедших в их состав тек стов и их разметки. С о с т а в . Данную группу корпусов образуют три подкорпуса: Сербский корпус комиксов (57 тыс. словоформ), Новосадский кор пус разговорной речи (включает записи спонтанных разговоров, 25 тыс. словоформ), Корпус боснийских интервью (интервью с бе женцами из Боснии, среди которых есть как этнические босний цы, так и сербы и хорваты, 45 тыс.). Тем самым все коллекции ориентированы на представление устной речи (тексты комиксов, будучи письменными, призваны имитировать нормы разговор ного языка). Р а з м е т к а . К элементам аннотации в корпусе относится ми нимальная информация о говорящем, позволяющая идентифи цировать высказывания одного и того же человека (социолин гвистические данные отсутствуют), маркируется также язык вы сказывания. Лингвистическая разметка проводится только для дейктических элементов, которые подразделяются на временные, локативные и т. д. П о и с к в к о р п у с а х . Поиск может вестись по словоформе или элементам разметки. Для построения комплексных запро
НКРЯ верстка4.indd 433
22/06/2009 17:48
434
Т. И. Резникова
сов используется язык XML QUERY, характеризующийся довольно сложным синтаксисом. Д о с т у п к к о р п у с а м . Корпус находится в открытом доступе. Болгарский Ситуация в болгарской корпусной лингвистике характеризует ся отсутствием доступных через Интернет аннотированных кор пусов, снабженных механизмом поиска. На будущие изменения позволяют надеяться несколько сообщений о ведущихся в на стоящий момент работах по созданию корпусов для болгарско го языка. Одним из центров этих разработок является Институт болгарского языка, в котором хранится электронный текстовый архив, призванный стать основой национального корпуса. Другой проект осуществляется в Лаборатории лингвистического моде лирования Института параллельной обработки информации при Болгарской академии наук. Его цель — создание синтаксически аннотированного корпуса, основанного на формализме HPSG (BulTreeBank). В рамках проекта был собран архив объемом 72 млн. слов, включающий тексты разных типов и жанров. Неболь шой фрагмент этой коллекции доступен на сайте проекта в про стом текстовом формате. Кроме того, была разработана програм ма автоматического снятия грамматической омонимии, и с ее помощью корпус объемом 2600 предложений (примерно 53 тыс. текстоформ) получил морфосинтаксическую (т. е. частеречную) разметку. Размеченный корпус находится в открытом доступе в виде одного файла в формате XML (соответственно, поисковый интерфейс не предусмотрен). Для работы с остальными ресур сами, созданными в рамках проекта BulTreeBank, пользователю необходимо направить запрос разработчикам корпуса (для иссле довательских целей материалы высылаются бесплатно). Речь идет о двух текстовых коллекциях — во-первых, это морфологически аннотированный корпус объем ом 214 тыс. текстоформ (разметка осуществлялась на основе рекомендаций, выработанных в рам ках меж дународного проекта по развитию языковых ресурсов Multext-East, ср. корпуса FIDA и FidaPLUS, ХНК и др., см. [Simov et al. 2004]) и, во-вторых, это синтаксически аннотированный корпус объемом 196 тыс. текстоформ (на данном этапе работы,
НКРЯ верстка4.indd 434
22/06/2009 17:48
Славянская корпусная лингвистика
435
по крайней мере в доступной версии корпуса, разметка строится в терминах деревьев зависимости). Среди созданных ранее коллекций болгарских текстов следует отметить одномиллионный представительный корпус, созданный Болгарской ассоциацией по компьютерной лингвистике по модели Брауновского корпуса: он включает 500 текстовых фрагментов по 2000 слов. К сожалению, корпус недоступен в Интернете. Целый ряд текстовых коллекций представлен на сайте Отделения болгар ского языка и литературы университета Осло (http://www.hf.uio. no/east/bulg/mat). Это прежде всего два собрания текстов устной речи, включающие разговоры в семейном кругу, а также в бытовых ситуациях в различных общественных местах. Там же размеще ны коллекции стенограмм парламентских дебатов и электронной переписки в чате. Все эти коллекции доступны только в простом текстовом формате, но сложность сбора записей устной речи и, соответственно, редкость такого типа ресурсов делает их ценным материалом, который, хотелось бы надеяться, войдет в будущий большой корпус болгарского языка. Македонский Македонский язык на сегодняшний день, к сожалению, не име ет общедоступных корпусных ресурсов. Однако совсем недавно в сфере его электронного обеспечения произошло событие, кото рое, возможно, изменит эту ситуацию к лучшему: речь идет об от крытии в Интернете Архива македонского языка (см. http://damj. manu.edu.mk/index.html). В настоящий момент на сайте размеще ны различные тексты, посвященные македонской лингвистике (в т. ч. грамматики и словари, самый старый из них относится к 1875 г.). Разработчики полагают, что нынешний ресурс ляжет в основу будущего Национального корпуса македонского языка. Восточнославянские языки Русский Русский язык долгое время оставался неохваченным разработ ками в области современной корпусной лингвистики. Ситуация существенно изменилась за последние несколько лет, когда прак
НКРЯ верстка4.indd 435
22/06/2009 17:48
436
Т. И. Резникова
тически одновременно в Интернете появился целый ряд корпус ных ресурсов. Прежде всего следует назвать Н а ц и о н а л ь н ы й к о р п у с р у с с к о г о я з ы к а (НКРЯ) — большую представитель ную коллекцию, снабженную подробной метаразметкой и бога той лингвистической аннотацией. Поскольку различным аспек там функционирования НКРЯ посвящено большинство статей настоящего сборника, здесь мы не будем на нем подробно оста навливаться (основные параметры НКРЯ приведены в обзорной таблице в Приложении). Первым по времени появления в откры том доступе русскоязычным корпусом стал ресурс, разработан ный в университете Тюбингена (Т ю б и н г е н с к и й к о р п у с ). Одним из его достоинств является эффективный язык запросов. К сожалению, объем лингвистически размеченного языкового материала в нем довольно невелик. Совсем небольшой корпус ХАНКО был разработан в университете Хельсинки, к его отли чиям относится тщательная ручная разметка. Специализирован ный К о р п у с р у с с к и х г а з е т подготовлен в МГУ им. М. В. Ло моносова. Наконец, относительно недавно в Интернете появил ся еще один ресурс — Н а ц и о н а л ь н ы й к о р п у с р у с с к о г о л и т е р а т у р н о г о я з ы к а , нацеленный преж де всего на охват стандартной формы языка, однако пока что этот корпус сильно ограничен в своих возможностях. Тюбингенский корпус (ТК). Тюбингенский корпус русского язы ка создавался в рамках проекта по исследованию форм обращения и вежливости в славянских языках с 1999 по 2004 гг. С о с т а в . ТК разрабатывался в условиях отсутствия каких-ли бо открытых ресурсов для русского языка, поэтому тексты соби рались во многом по принципу доступности. Тем самым корпус представляет собой набор разнородных коллекций. В основу ТК лег знаменитый Уппсальский корпус, который благодаря тюбин генскому проекту стал доступен онлайн и получил лингвистиче скую разметку (1 млн. слов, 600 текстовых фрагментов, пример но в равной пропорции распределенных между художественной прозой, созданной с 1960 по 1988 гг., и публицистикой 1985–88 гг.). Следующая коллекция отражает специальные исследовательские интересы создателей корпуса — это тексты интервью из различных журналов и газет, а также транскрипции радиоинтервью (с 1996 г.,
НКРЯ верстка4.indd 436
22/06/2009 17:48
Славянская корпусная лингвистика
437
290 тыс.). К остальным подкорпусам относятся тексты журнала «Огонек» (1996–2002 гг., 9,19 млн.), собрание детективных рома нов и другие коллекции художественной литературы xix и xx вв., разделенные по авторам (более 14 млн.). Общий объем корпу са — более 25 млн. слов. М е т а р а з м е т к а . Кроме разбиения текстов на подкорпуса классификация текстов не производилась. М о р ф о л о г и ч е с к а я р а з м е т к а . Морфологической анно тацией в ТК снабжены 3 подкорпуса: Уппсальский и коллекции текстов М. А. Булгакова и И. С. Тургенева. Общий объем морфо логически аннотированных текстов — 2,3 млн. словоупотреблений. Разметка осуществлялась при помощи статистического морфоло гического анализатора. Однако даже в морфологически размечен ной части корпуса отсутствует лемматизация. П о и с к в к о р п у с е . Поиск может вестись по словоформе или ее части, последовательности словоформ/их частей, находящих ся на заданном расстоянии друг от друга или в пределах одного предложения, а также — для корпусов с морфологической размет кой — по грамматическим признакам. При построении запросов используется язык регулярных выражений, характеризующийся мощным поисковым потенциалом. Однако существенное неудоб ство для пользователя составляет отсутствие в открытом доступе списка атрибутов, используемых при грамматической разметке, и их возможных значений. Формат выдачи — обычный текст. Сортировка контекста воз можна только по искомому слову. Максимальный контекст вы дачи — по 120 слов или по 6 предложений слева и справа, соот ветственно, от самого искомого выражения или предложения, в котором оно встретилось. При поиске по морфологически ан нотированному корпусу существует возможность отображения при каждом слове в выдаваемом контексте его грамматических характеристик. Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Корпус ХАНКО. Работа над ХАНКО ведется на Отделении сла вянских и балтийских языков и литератур Хельсинкского универ ситета с 2001 г. Одним из основных принципов построения корпуса является его направленность на максимальный охват граммати
НКРЯ верстка4.indd 437
22/06/2009 17:48
438
Т. И. Резникова
ческой информации, а не на объем материала. В настоящее время в корпусе проведена морфологическая и синтаксическая разметка, планируется осуществление подробной семантической аннотации (подробнее см. [Мустайоки и др. 2005]). С о с т а в . В корпус вошли все крупные статьи из журнала «Ито ги» за январь 2001 г. Общий объем корпуса составляет 100 тыс. словоупотреблений. М е т а р а з м е т к а . Будучи довольно однородным по текстовым параметрам, ХАНКО содержит минимальную метаинформацию: номер журнала и тип текста (статья, рецензия, интервью), однако эти параметры не предназначены для задания подкорпуса. М о р ф о л о г и ч е с к а я р а з м е т к а . Корпус снабжен леммати зацией и морфологической разметкой. Процедура осуществлялась автоматически с последующим ручным снятием омонимии. Наце ленность проекта на детальность аннотации и небольшой объем определяют более подробную и аккуратную по сравнению с ос тальными корпусами русского языка систему морфологической аннотации. Это проявляется, например, в разметке аналитических форм, составных и дробных числительных, разрывных форм ме стоимений (н и от к о г о ) и др. С и н т а к с и ч е с к а я р а з м е т к а . В основу разметки положе на система синтаксического анализа, традиционная для грамма тических описаний русского языка. В корпусе учитываются сле дующие типы синтаксической информации: параметры предло жений (простое или сложное с дальнейшим делением по типам связи — сочинительной, подчинительной, бессоюзной), парамет ры клауз (роль — самостоятельная, главная или зависимая; струк тура — одно- или двусоставная, фразеологизированная; эллипти ческая), функция слова в предложении (подлежащее; сказуемое; части именного сказуемого — связочная и присвязочная; главный член односоставного предложения; дополнение; определение; об стоятельство; слово, не являющееся членом предложения — обра щение). П о и с к в к о р п у с е . Поиск может вестись по словоформе или ее части, по лексеме или ее части, последовательности словоформ/ лексем, находящихся на заданном расстоянии друг от друга, по морфологическим и синтаксическим признакам. В случае запроса
НКРЯ верстка4.indd 438
22/06/2009 17:48
Славянская корпусная лингвистика
439
по морфологическим или синтаксическим атрибутам пользова тель может получить для каждого из них список всех возможных значений и выбрать интересующие его параметры (тем самым система поиска здесь сходна с реализованной в НКРЯ). Возможен поиск с учетом знаков пунктуации. Формат выдачи — обычный текст. По запросу пользователь получает расширенный контекст (по 5 предложений слева и справа от того, в котором встретилось искомое выражение), а также информацию о грамматических при знаках словоформ и синтаксических параметрах членов выданного предложения. Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Корпус газетных текс тов (КГТ). «Компьютерный корпус га зетных текстов русского языка конца xx века» был подготовлен в течение 2000–2002 гг. в Лаборатории общей и компьютерной лексикологии и лексикографии филологического факультета МГУ им. М. В. Ломоносова. С о с т а в к о р п у с а . В КГТ вошли полные тексты избранных номеров ряда российских газет на русском языке, опубликованных в 1994–1997 гг. При отборе материала авторы ставили задачу соз дания репрезентативной выборки с учетом периодичности изда ния, его политической направленности, аудитории (центральные vs. региональные, общие vs. профессиональные). Общий объем корпуса — свыше 11 млн. словоупотреблений, однако доступная в Интернете версия существенно отличается от исходной: она на считывает 200 тыс. слов, планируется ее увеличение до 1 млн. М е т а р а з м е т к а . Метаописания включают название газеты, дату ее выпуска, а также жанр в терминах детальной жанровой класси фикации статей. На основе анализа материала был выявлен круг основных жанрообразующих факторов, характеризующих пред мет сообщения, его коммуникативную цель и композиционностилевую форму. По этим параметрам было выделено 9 жанровых типов (собственно информационные, информационно-публици стические, собственно публицистические, художественно-публи цистические, рекламные жанры и др.), которые распределяются меж ду 96 конкретными жанрами. Использование такой подроб ной жанров ой классификации предс тавляется небесспорным. Во-первых, для исследования лингвистических особенностей то
НКРЯ верстка4.indd 439
22/06/2009 17:48
440
Т. И. Резникова
го или иного жанра необходимо, чтобы каждому из них соответ ствовало значительное количество статей в корпусе. Очевидно, что при нынешнем числе статей (446) разбиение на 96 жанров не имеет практического смысла для пользователей. Во-вторых, в этом случае, как кажется, трудно избежать произвольных реше ний при отнесении той или иной статьи к конкретному жанру. Так, например, не вполне понятно, можно ли провести четкую грани цу меж ду жанрами «Очерк проблемный + Репортаж» и «Репор таж + Очерк проблемный» или «Статья аналитическая» и «Статья аналитическая + Статья проблемная». Кроме того, метаразметка КГТ не учитывает ряд параметров, традиционно используемых для классификации текстов; и если, например, характеристика по полу и возрасту автора действительно не столь существенна в применении к газетным текстам, то тематика статьи (политика, спорт и т. п.) в некоторой степени определяет ее лингвистические особенности. М о р ф о л о г и ч е с к а я р а з м е т к а . Лемматизация и морфо логическая разметка осуществлялась автоматически на основе оригинальной системы аннотирования, разработанной автора ми КГТ. Процесс приписывания словоформам грамматических показателей соответствует в этой системе, как правило, их раз биению на непересекающиеся классы. Так, признак см приписы вается существительным мужского, сж — женского и сс — средне го рода. При этом признак с получают не все существительные, а только существительные с неустановленным родовым оформле нием. Аналогичным образом трактуются и омонимичные формы. Им приписываются особые кластерные признаки. Так, например, дескриптор е-ив получают имена, у которых совпадают формы именительного и винительного падежа единственного числа. При этом дескриптор е-и присваивается только тем именам, у которых форма именительного падежа единственного числа не омонимич на какой-либо другой или же была однозначно распознана как та ковая. К сожалению, сайт КГТ не содержит подробного описания системы морфологической разметки, что существенно затрудняет работу с корпусом для неподготовленного пользователя. С и н т а к с и ч е с к а я и с е м а н т и ч е с к а я р а з м е т к а . Поми мо морфологической в КГТ включены некоторые элементы лин
НКРЯ верстка4.indd 440
22/06/2009 17:48
Славянская корпусная лингвистика
441
гвистической аннотации других языковых уровней. На синтакси ческом уровне размечаются предложные группы (предлог + имен ная группа в заданном падеже, с определением существительного по признаку одушевленность/неодушевленность, всего выделяет ся 109 типов таких сочетаний). Словообразовательная разметка состоит в приписывании каждой лемме морфемной модели, т. е. схемы с заполненными аффиксальными позициями и переменной для корня. Аннотация семантического уровня включает, во-пер вых, присвоение некоторым леммам семантических признаков на основании таксономической классификации лексики (при этом, однако, из выделенных 70 классов 60 образуют имена, обозначаю щие лиц и животных), во-вторых, разметку синонимических отно шений меж ду отдельными лексическими единицами. П о и с к в к о р п у с е . Поиск может вестись по словоформе, лексеме, грамматическим признакам, а также атрибутам других уровней разметки (по предложным группам определенного вида, по заданной морфемной модели, семантическим признакам или по синонимам к заданной лексеме). Главным недостатком систе мы поиска в КГТ является невозможность построения запроса на последовательность словоформ или лексем. Все формулируемые при запросе условия (в том числе грамматические признаки) мо гут относиться только к одной единице текста или же к несколь ким, разделенным логическим оператором ИЛИ. Формат выда чи — обычный текст. Максимальный контекст выдачи — по 30 слов справа и слева от искомого. Ограничено и количество выдаваемых контекстов — не более 30. Поиск может вестись по всему корпусу или по подкорпусу, сформированному на основе заданных поль зователем значений метаатрибутов. КГТ позволяет пользователю осуществлять различные виды статистической обработки данных, правда, его потенциал огра ничен небольшим объемом. Все лексемы в корпусе распределены по 20 группам, соответствующим рангам их частотности, что по зволяет, например, ограничивать поиск какого-либо лингвистиче ского явления словами определенного уровня частотности. Кроме того, предусмотрена возможность просматривать частотное рас пределение заданного значения любого из доступных атрибутов (словоформ, лексем, лингвистических и металингвистических
НКРЯ верстка4.indd 441
22/06/2009 17:48
442
Т. И. Резникова
признаков) по значениям любого другого атрибута, например, оп ределенного существительного по типам предложных групп или словоформ, характеризующихся определенными грамматическим признаками, по жанровым типам статей. Д о с т у п к к о р п у с у. Интернет-составляющая корпуса нахо дится в открытом доступе. Национальный корпус русского литературного языка (НКРЛЯ). НКРЛЯ разрабатывается с 2001 г. сотрудниками С.-Пе тербургского университета и Института лингвистических исследо ваний Российской академии наук, однако в открытом доступе он находится только с 2006 г. Как и CLR, НКРЛЯ нацелен на отражение стандартного письменного языка. С о с т а в . В настоящий момент Интернет-версия корпуса вклю чает свыше 1 млн. словоупотреблений, в том числе беллетристику (33,7 %), публицистику (28,8 %), драматургию (18,6 %), научно-по пулярную литературу (18,9 %). Временной охват текстов — с сере дины xx в. по настоящее время. Отметим, что в корпус помеща ются не целые тексты, а их фрагменты. М е т а р а з м е т к а . Тексты в корпусе классифицируются по че тырем типам, соответствующим составляющим корпуса (беллет ристика, публицистика и т. д.). М о р ф о л о г и ч е с к а я р а з м е т к а . Лемматизация и морфоло гическая разметка в корпусе пока отсутствуют. П о и с к в к о р п у с е . Поиск может вестись только по одной сло воформе. Формат выдачи — обычный текст. Выдаваемые примеры сортируются по типам текста. Все словоформы в выдаче акцен туированы. Возможен также запрос на частотное распределение заданной словоформы по типам текста. Д о с т у п к к о р п у с у . Корпус находится в открытом доступе. Украинский Для украинского языка на сегодняшний день еще не создано обще доступного электронного корпуса текстов. Из работ в этой сфере следует отметить деятельность, осуществляемую в Украинском языково-информационном фонде НАН Украины под руководством В. А. Широкова. К основным задачам фонда относится создание различных электронных словарей — грамматических, синоними
НКРЯ верстка4.indd 442
22/06/2009 17:48
Славянская корпусная лингвистика
443
ческих, фразеологических и др. (см. http://lcorp.ulif.org.ua/dictua), и базой для этих словарей служит разрабатываемый сотрудни ками фонда Национальный корпус, см. [Широков 2005]. Однако у широкого пользователя доступа к этому корпусу пока что нет. * * * Завершая обзор славянских корпусных ресурсов (их основные па раметры в кратком виде представлены в таблице в Приложении), хотелось бы обозначить ряд вопросов и задач, актуальных на ны нешнем этапе их развития. Первый комплекс проблем очевиден: он связан с оснащением корпусами языков, для которых они еще не созданы или находятся в стадии разработки (украинский, бело русский, сербский, болгарский, македонский), а также совершен ствованием (а в некоторых случаях и значительной доработкой) уже существующих ресурсов. Пути этого совершенствования вы текают, в частности, из сопоставления различных корпусов. Ряд параметров, относящихся к разным аспектам структуры и функ ционирования корпуса, можно признать бесспорно положитель ными характеристиками данного вида ресурсов, соответственно, их отсутствие в той или иной степени уменьшает эффективность корпуса для пользователя. Если речь не идет о специализирован ных коллекциях, это, конечно, объем и репрезентативность состава (хотя отражение картины реального употребления и представляет самостоятельную исследовательскую задачу для каж дого языка, отдельную для разных периодов его функционирования (ср. [Шим кова 2005]), тем не менее в ряде корпусов (например, IPI, ХНК, NB) проблема сбалансированности является заведомо не решенной. Следующей областью параметризации корпуса является метараз метка, которая в больших корпусах, безусловно, может и должна становиться инструментом социолингвистических, стилистиче ских и — в случае достаточного временного охвата — исторических исследований. В этом смысле бесспорно полезным кажется учет при аннотации таких однозначно определяемых параметров, как имя, пол и возраст автора, год создания текста, характеристики це левой аудитории, тип носителя. Между тем в большинстве рассмот ренных корпусов, в том числе таких, которые включают достаточно подробную метаразметку (например, в ЧНК), некоторые из этих
НКРЯ верстка4.indd 443
22/06/2009 17:48
444
Т. И. Резникова
параметров не учитываются. Исследовательски более творческую задачу представляет собственно типология текстов, включающая их распределение по типам, жанрам, тематике и т. п. Здесь на ма териале славянских корпусов (тех из них, которые вообще учиты вают этот параметр, ср. обратное, напр., в CLR, IPI) можно просле дить различные решения — от чрезмерно обобщающего деления, ср. FIDA, где выделяются только художественные (проза, поэзия, драма), научные (гуманитарные, естественные) и прочие тексты, до классификации по 5 различным параметрам (ср. НКРЯ) — сфера функционирования, тематика, хронотоп, жанр, тип, — со значи тельным набором конкретных значений для каждого из атрибутов. Как кажется, в этой области предпочтительным является решение в пользу увеличения параметров, на основе которых строится ти пология текстов. В обратном случае разметчик оказывается вы нужденным каждый раз произвольным образом выбирать, какое значение из разнородного набора признаков следует приписывать данному типу текстов — например, статья или физика, публицисти ка или эссе и т. д. (ср. выше обсуждение метапараметра «жанр» для ЧНК). Вообще говоря, чем больше метаинформации помещается в корпус, тем шире его потенциал при решении различных лин гвистических задач. В то же время следует иметь в виду, что дроб ность классификации приобретает практическое значение только при больших объемах языковых данных (ср. КГТ). Очевидной необходимостью для корпуса является наличие мор фологической разметки. В этом отношении, к сожалению, многие славянские корпуса (и в худшем положении здесь находятся юж нославянские языки) требуют качественных изменений. Ряд желательных функций связан и с параметрами выдачи. Сор тировка различного типа (как алфавитная — по искомому выраже нию, левому и правому контексту, так и по метаатрибутам, напри мер, по времени создания текста), возможность получения данных об источнике текста и просмотра лингвистической разметки для каж дой из единиц выдаваемого примера — все эти опции, безус ловно, являются нужными для пользователя и требуют внесения в систему тех корпусов, где они пока отсутствуют. Наконец, еще одним направлением совершенствования корпуса является внесе ние в него информации, относящейся к статистическому анали
НКРЯ верстка4.indd 444
22/06/2009 17:48
Славянская корпусная лингвистика
445
зу языковых данных, и возможности построения статистических запросов. Таким образом, очерченный выше круг проблем носит, так ска зать, привативный характер: речь шла в основном о таких эле ментах или свойствах корпуса, наличие которых повышает его эффективность. Второй комплекс вопросов соотносится скорее с эквиполентной оппозицией: анализ характеристик различных ресурсов позволяет выявить ряд спорных решений и противопо ложных тенденций в принципах создания корпусов, при этом ка ждый из подходов имеет свои положительные и отрицательные стороны. Ниже будут обозначены некоторые проблемные зоны. Широко известно, что потенциал корпуса как инструмента лингвистических исследований тем выше, чем полнее и разно образнее его разметка. Очевидным кажется и один из постулатов аннотирования корпусов, сформулированный Дж. Личем, согласно которому схема разметки должна основываться на общеприня той классификации языковых данных, не связанной с какой-либо конкретной теорией [Leech 1993: 275]. Объединение этих уста новок таит в себе противоречие: об общепризнанной типологии признаков можно гов орить, пожалуй, только применительно к морфологии. Уже на синтаксическом уровне разработчики кор пусов вынуждены жертвовать или детальностью разметки, или ее теоретической нейтральностью (ср. [Резникова, Копотев 2005]). Два противоположных в этом смысле подхода можно проследить на материале синтаксически аннотированных корпусов русского языка. Одну тенденцию представляет корпус ХАНКО: его созда тели ориентировались преж де всего на то, чтобы разметка бы ла понятна как можно большему числу пользователей, поэтому в ее основу и была положена известная по школьной программе классификация по членам предложения (см. выше). Другой под ход реализован в синтаксическом подкорпусе НКРЯ: здесь под разметкой понимается построение для каждого предложения его синтаксической структуры в виде дерева зависимостей, в котором все связи получают имена соответствующих им синтаксических отношений. Всего используется около 80 таких отношений, их перечень представляет собой существенно расширенную версию списка, предложенного в теории И. А. Мельчука «Смысл⇔Текст»
НКРЯ верстка4.indd 445
22/06/2009 17:48
446
Т. И. Резникова
(см. [Апресян и др. 2005]). Тем самым очевидно, что эту разметку никак нельзя признать теоретически нейтральной, и действитель но, пользователю, незнакомому с теорией Мельчука, потребуется немало времени, чтобы освоить разработанную классификацию синтаксических отношений и применять ее для своих поисковых задач. Но столь же очевидно, что данный тип разметки включает в себя гораздо более детальный анализ явлений синтаксического уровня, чем аннотация, реализованная в ХАНКО. При дальнейшем движении вглубь языковых уровней разра ботчик корпуса еще неизбежнее сталкивается с необходимостью выбора формализма, в рамках которого должна строиться схема аннотации. Отдавая предпочтение какой-либо теории, автор тем самым значительно ограничивает возможности применения соз данной разметки для исследователей, работающих в рамках других научных парадигм. Показательным здесь является пример PDT: с одной стороны, подробная семантическая информация, вноси мая авторами, представляет собой ценный лингвистический ма териал, с другой стороны, обращение к нему пользователя может быть продиктовано скорее интересом к теории функциональной порож дающей грамматики, чем необходимостью решения неза висимой исследовательской задачи. В этом смысле любопытно, как будут развиваться опирающиеся на опыт PDT проекты по соз данию глубоко аннотированных корпусов для других славянских языков — приведут ли они к созданию аналогичных ресурсов, пре терпят ли при этом принципы разметки какие-либо изменения и не выработается ли при этом новый стандарт семантического аннотирования корпуса. Можно предположить, что в области семантической разметки сформируются два различных направления корпусных разработок, как это уже фактически имеет место в сфере грамматического аннотирования. Неизбежно сталкиваясь с дилеммой «объем кор пуса vs. точность его обработки», создатели корпусных ресурсов или делают выбор в пользу большого объема и автоматических программ морфологической разметки, или ограничиваются не большим количеством данных, подвергая их тщательной ручной обработке на морфологическом и синтаксическом уровнях (ср., например, ХАНКО). Материал славянских корпусов обозначает
НКРЯ верстка4.indd 446
22/06/2009 17:48
Славянская корпусная лингвистика
447
возможность такого расхож дения и для разработок семантиче ского уровня. Опыту детального аннотирования PDT можно про тивопоставить менее сложную семантическую разметку НКРЯ, выполненную в автоматическом режиме на материале многомил лионного корпуса. При этом принципы разметки НКРЯ, апелли рующей к понятным широкому кругу пользователей таксономи ческим категориям, могли бы в свою очередь заложить основу развития стандарта для семантического аннотирования больших корпусов. Следующей зоной расхождения славянских корпусов является подход к грамматической омонимии на больших массивах текста. В ряде корпусов (напр., ЧНК, СНК) грамматическая омонимия снимается при помощи статистических программ, обученных на размеченных вручную текстах, в других корпусах (напр., НКРЯ, fida) грамматическая омонимия не снимается или снимается лишь частично. Тем самым в первом случае при поиске пользова тель получает большую долю отвечающих его запросу примеров и незначительное количество «шума», при этом незначительная доля подходящих под запрос контекстов окажется потерянной вследствие неправильных разборов, во втором случае пользова тель получает значительно большее количество «шума», но не рис кует потерять какие-либо соответствующие запросу контексты. Эффективность того или иного поискового метода определяется исследовательской задачей пользователя, поэтому кажется есте ственным, чтобы именно ему был предоставлен выбор той или иной стратегии. В этом отношении чрезвычайно интересным ви дится решение, реализованное в корпусе IPI: в нем сохраняются и открыты для поиска все разборы, отвергнутые автоматической программой снятия омонимии. Наконец, славянские корпуса обнаруживают разные принци пы организации пользовательского интерфейса и языка запросов. Здесь можно выявить две тенденции: системы, ориентирован ные в первую очередь на удобство широкого круга пользовате лей, и системы, характеризующиеся мощностью языка запросов. Как ни странно, эти дополняющие друг друга принципы оказыва ются отчасти противоречащими друг другу. Первый тип систем представляют, например, НКРЯ и ХАНКО: пользователь должен
НКРЯ верстка4.indd 447
22/06/2009 17:48
448
Т. И. Резникова
самостоятельно вводить только искомые словоформы и лексемы, остальные атрибуты и их значения предлагаются ему в виде спи ска, из которого он может выбрать нужные ему признаки. Для определения различных параметров поиска (например, расстоя ния меж ду искомыми единицами) предусмотрены специальные окна, при которых имеются соответствующие комментарии. Вто рой тип систем реализован, например, в корпусах, использующих программу Bonito (ЧНК, СНК, ХНК): здесь имеется одна поисковая строка, в которой пользователь в соответствии с синтаксисом язы ка запросов задает поисковые параметры. Тем самым человеку, который обращается к корпусу, необходимо предварительно ос воить принципы построения запроса, ознакомиться с системой используемых в корпусе атрибутов и их значений, изучить соот ветствующие им аббревиатуры, а также способ их представления. Все дополнительные параметры поиска (например, расстояние меж ду искомыми единицами или ограничение запроса опреде ленным типом текста) задаются в рамках того же формализма. Очевидно, что системы первого типа более удобны для работы с корпусом неподготовленного пользователя. В то же время язык запросов, применяемый в системах второго типа, часто основан на использовании аппарата регулярных выражений, которые позво ляют накладывать некоторые дополнительные ограничения на ус ловия поиска и тем самым решать более сложные и разнообразные исследовательские задачи. Попытку соединить удобство пользо вательского интерфейса и мощность языка запросов представляет поисковая система НКРЯ: с одной стороны, как уже отмечалось, НКРЯ организован по принципам систем первого типа, с дру гой — за последние годы корпус пополнился новыми поисковыми функциями (например, построение запросов на конструкции с по вторами лексем и/или определенных грамматических значений), что сблизило его поисковый потенциал с возможностями систем второго типа. И все же эффективность последних остается выше. Дело в том, что в системах первого типа жесткая структура, при которой пользователю предлагается выбор из заданного списка параметров, по-видимому, просто не может вместить в себя все мыслимые комбинации типов запрашиваемой информации и ог раничений на их выдачу. Между тем в системах, основанных на
НКРЯ верстка4.indd 448
22/06/2009 17:48
Славянская корпусная лингвистика
449
языке регулярных выражений, необходимые признаки можно со вершенно произвольно комбинировать посредством логических операторов. Так, запрос на повторы в НКРЯ ограничен, во-первых, содержательно — искаться могут конструкции с дублированием лексемы, части речи, падежа, числа и т. д., но не семантических признаков, во-вторых, структурно — под повторами понимается только отношения меж ду двумя непосредственно следующими друг за другом словами, но не конструкции со «вставными эле ментами» между тождественными единицами, ср. сказать-т о о н сказал. Понятно, что в НКРЯ ради сохранения удобства интер фейса приходится выбирать из всех возможных типов запросов те, которые, скорее всего, будут в наибольшей степени востребованы пользователем, иначе мы будем иметь дело с необозримыми пе речнями всех возможных комбинаций (ведь, напомним, все поис ковые параметры, кроме конкретного лексического наполнения, в НКРЯ задаются списками). Между тем в системах второго типа таких сложностей не возникает: например, в данном случае отно шение тож дества накладывалось бы на любые элементы и любые признаки, которые учтены в разметке. Таким образом, раз удобство пользования корпусом заставляет отчасти жертвовать мощностью языка запросов, решение этой ди леммы, как и проблемы снятия грамматической омонимии, могло бы лежать в объединении обоих типов поиска в системе корпуса, с предоставлением пользователю возможности выбора между ними. Итак, сопоставление различных корпусных ресурсов, разра ботанных к настоящему времени для славянских языков, позво ляет выявить спектр исследовательских подходов к методике их создания, очертить круг возможностей, реализованных в разных системах, и тем самым обозначить потенциал развития как для каж дого из ресурсов в отдельности, так и для славянской корпус ной лингвистики в целом.
НКРЯ верстка4.indd 449
22/06/2009 17:48
Список литературы Апресян, Ю. Д.; Богуславский, И. М..; Иомдин, Б. Л.; Иомдин, Л. Л.; Санников А. В.; Санников В. З.; Сизов В. Г.; Цинман, Л. Л. Син таксически и семантически аннотированный корпус русского языка: современное состояние и перспективы // Националь ный корпус русского языка: 2003–2005. М.: Индрик, 2005. — 193– 214. Гарабик, Р.; Захаров, В. П. Параллельный русско-словацкий кор пус // Tруды меж дународной конференции «Корпусная лин гвистика — 2006». СПб.: Изд-во С.-Петербургского унив ер ситета 2006. — 81–87. http://korpus.juls.savba.sk/publications/ block1/2006-garabik-russian-slovak-corpus/2006-garabik-zacharovparalelnij.pdf Засорина Л. Н. (ред.) Частотный словарь русского языка. Л.: Нау ка, 1977. Кустова, Г. И.; Ляшевская, О. Н.; Падучева, Е. В.; Рахилина, Е. В. Семантическая разметка лексики в Национальном корпусе русского языка: принципы, проблемы, перспективы // На циональный корпус русского языка: 2003–2005. М.: Индрик, 2005. — 155–176. Мустайоки А.; Копотев М. В.; Гурин, Г. Б.; Саломатина М. С. Прин ципы синтаксической разметки Хельсинкского аннотированно го корпуса русских текстов ХАНКО // Труды международной конференции «MegaLing'2005. Прик ладная лингвистика в по иске новых путей». СПб., 2005. — С. 90–95. Резникова Т. И. Корпуса славянских языков в интернете: Обзор ресурсов // Die Welt der Slaven liii, 2008. Резникова Т. И., Копотев М. В. Лингвистически аннотированные корпуса русского языка (обзор общедоступных ресурсов) // Национальный корпус русского языка: 2003–2005. Результаты и перспективы. М.: Индрик, 2005. — С. 31–61. Шимкова М. Репрезентативность корпуса как лингвистическая проблема // Труды меж дународной конференции «Mega Ling'2005. Прик ладная лингвистика в поиске новых путей». СПб., 2005. — С. 130–139. Широков В. А. (отв. ред.) Корпусна лінгвістика. Киïв: Довiра, 2005. Cˇermák, F.; Krˇen, M. Frekvencní slovník ˇceštiny. Praha 2004.
НКРЯ верстка4.indd 450
22/06/2009 17:48
Славянская корпусная лингвистика
451
Džeroski, S.; Erjavec, T.; Ledinek, N.; Pajas, P.; Žabokrtský, Z.; Žele, A. Towards a Slovene Dependency Treebank // Proceedings of Fifth International Conference on Language Resources and Evaluation, LREC'06, 24–26 May 2006. Genoa. http://nl.ijs.si/sdt/bib/SDTLREC06.pdf EAGLES (Expert Advisory Group on Language Engineering Standards). Preliminary recommendations on text typology. [EAGLES Document EAG-TCWG-TTYP/P], 1996. http://www.ilc.cnr.it/EAGLES96/ texttyp/texttyp.html Kurcz, i., A. Lewicki, J. Sambor, K. Szafran, and J. Woronczak. Słownik frekwencyjny polszczyzny współczesnej. Kraków: Wydawnictwo Instytutu Języka Polskiego PAN, 1990. Leech G. Corpus annotation schemes // Literary and Linguistic Computing, 1993. — 8/4. — Pp. 275–281. Moguš, M.; Bratanic´, M.; Tadic´, M. Hrvatski ˇcestotni rjecˇnik. Zagreb: Zavod za lingvistiku, Školska knjiga, 1999. Przepiórkowski, A. The potential of the IPI PAN corpus // Poznan ´ Studies in Contemporary Linguistics, 2006. — Vol. 41. — 31–48. Simov, K.; Osenova, P.; Slavcheva, M. BTB-TR03: BulTreeBank Morpho syntactic Tagset. BulTreeBank Project Technical Report № 03, 2004. http://www.bultreebank.org/TechRep/BTB-TR03.pdf Tadic´, M. Building the Croatian National Corpus // Proceedings of the Third Conference on Language Resources and Evaluation (LREC2002), Las Palmas, Spain, ELRA, 2002. — Pp. 441–446. Vasilišinová, D.; Garabík, R. Parallel French-Slovak Corpus // Computer Treatment of Slavic and East European Languages. Proceedings of the conference Slovko 2007. Eds. J. Levická, R. Garabík. Brno: Tribun 2007. http://korpus.juls.savba.sk/~garabik/publications/22/ french_slovak_parallel_corpus.pdf
НКРЯ верстка4.indd 451
22/06/2009 17:48
Список корпусов КБТ Корпус боснийских текстов (Осло) http://www.tekstlab.uio.no/Bosnian/Corpus.html КГТ Корпус газетных текстов русского языка http://www.philol.msu.ru/~lex/corpus КСЯ Корпус сербского языка http://www.serbian-corpus.edu.yu/indexie.htm НКПЯ Национальный корпус польского языка http://nkjp.pl НКРЛЯ Национальный корпус русского литературного язы ка http://www.narusco.ru НКРЯ Национальный корпус русского языка http://ruscorpora.ru СНК Словацкий национальный корпус http://korpus.juls.savba.sk ТБСХК Тюбингенские боснийско-сербско-хорватские корпуса http://tusnelda.sfb.uni-tuebingen.de/tusnelda-query. html#b8 ТК Тюбингенский корпус русского языка http://www.sfb441.uni-tuebingen.de/b1/korpora.html ХАНКО Хельсинкский аннотированный корпус русского языка http://www.ling.helsinki.fi/projects/hanco ХНК Хорватский национальный корпус http://www.hnk.ffzg.hr ЧНК Чешский национальный корпус http://ucnk.ff.cuni.cz BulTreeBank Bulgarian Treebank http://www.bultreebank.org CDT Croatian Dependency Treebank http://hobs.ffzg.hr/default_en.html CLR Croatian Language Repository http://riznica.ihjj.hr FIDA Корпус словенского языка FIDA http://www.fida.net
НКРЯ верстка4.indd 452
22/06/2009 17:48
Славянская корпусная лингвистика
453
FidaPLUS Корпус словенского языка FidaPLUS http://www.fidaplus.net IPI Корпус Института основ информатики Польской акаде мии наук http://korpus.pl KoRP Корпус словенского языка (тематика текстов — «Связи с общественностью») http://www.korp.fdv.uni-lj.si NB Корпус словенского языка Nova beseda http://bos.zrc-sazu.si/a_beseda.html PDT Prague Dependency Treebank http://ufal.mff.cuni.cz/pdt PELCRA Polish and English Language Corpora for Research and Applications http://korpus.ia.uni.lodz.pl PWN Корпус польского языка издательства PWN http://korpus.pwn.pl/szukaj.php SDT Slovene Dependency Treebank http://nl.ijs.si/sdt WWW-Concordance Корпус словенского языка http://nl2.ijs.si/index-mono.html
НКРЯ верстка4.indd 453
22/06/2009 17:48
П р и л о ж е н и е
454
синтаксическая
снятие грамматичес кой омонимии (автоматическое/ ручное)
морфологическая
содержание
объем корпуса (в млн. словоупотреблений)
корпус
Типы разметки
ЧНК — коллекция сбаланси 500 подкорпуса рованных и специали письмен зированных корпусов ного языка (1990–2004)
+
ЧНК — записи устной речи подкорпуса из разных регионов устной речи Чехии
2,3
–
2
+
р
+ (1,5)* *
339
+
а (весь кор пус)/р (0,5)* *
–
IPI PAN
несбалансированная 250 коллекция текстов не скольких типов
+
а (сохраняют ся все вариан ты разбора)
–
PELCRA
письменные и устные тексты разных типов (1989–2003)
93
–
PWN
фрагменты письмен ных текстов различ ных типов, устная речь (1903–2005)
22/ 3,7*
PDT
газеты и журналы (1990–95)
СНК
письменные тексты разных типов (1955–2006)
НКРЯ верстка4.indd 454
только лемматиза ция
п о л ь с к и й
словацкий
чешский
яз ы к
Корпуса славянских языков в Интернете: основные параметры
а (весь кор пус)/р (0,08)* *
–
–
–
–
–
22/06/2009 17:48
455
Славянская корпусная лингвистика
ограничения на коли чество контекстов
–
нет +
+
+
–
≈1000 знаков/ 100 слов/ 3 предл. нет +
+
+
–
+
–
–
+
–
+ +
+
+
–
+ + +
+
+
–
–
≈200 слов
нет +
+
+
–
+ + +
+
+
–
–
200 слов
нет +
–
–
–
+ +
–
+
–
–
–
3 абзаца
250 +
–
+
–
+ + +
+
–
–
–
не ограничен
нет +
–
–
+ – (0,8)**
НКРЯ верстка4.indd 455
–
сортировка выдачи
–
максимальный контекст
статистическая обработка запроса
+ +
+
фильтрация выдачи (поиск в найденном)
–
+
семантическим признакам
+ + +
Параметры выдачи
синтаксическим структурам
–
словоформе
метаразметка
лексеме последовательности словоформ грамматическим признакам
Поисковые возможности: поиск по:
семантическая
Типы разметки
+ + (1,5)** (0,8)**
1 предл.
нет
22/06/2009 17:48
сбалансированный письменный (1990–1997)
100
FidaPLUS сбалансированный
621
+
несбалансированная 162 коллекция текстов не скольких типов
–
WWW- несколько разнопла Concordance новых текстовых кол
–
–
+
письменный (1990–2006)
NB
синтаксическая
18/ 3,6*
снятие грамматичес кой омонимии (автоматическое/ ручное)
статьи газеты PWN Rzeczpospo Rzeczpospolita (1997–2005) lita
FIDA
с л о в е н с к и й
содержание
Типы разметки
морфологическая
корпус
объем корпуса (в млн. словоупотреблений)
Т. И. Резникова
только лемматизация
польский
яз ы к
456
– частичное (а) (сохраняются все варианты разбора)
–
–
2,1
+ (0,09)**
р (0,09)* *
–
1,8
+
частичное (а) (сохраняются все варианты разбора)
–
лекций
KoRP
НКРЯ верстка4.indd 456
тексты по тематике «Связи с обществен ностью» (1994–2007)
22/06/2009 17:48
метаразметка
синтаксическим структурам семантическим признакам
максимальный контекст
– + + + + – – – не ограничен
– + + + + + – –
– + + + + + – –
– + + – + – – – 3 предл.
– –
(0,09)* * + +
(0,09)* * + – – ≈330 знаков
–
+ + +
+
+
–
–
1 абзац
НКРЯ верстка4.indd 457
статистическая обработка запроса
нет + – –
нет + + +
нет + + +
нет – – +
– – +
нет +
+
+
сортировка выдачи фильтрация выдачи (поиск в найденном)
+ 1 абзац
ограничения на коли чество контекстов
Поисковые возможности: поиск по:
125 (KWIC)/ нет
Типы разметки
лексеме последовательности словоформ грамматическим признакам
словоформе
семантическая
Славянская корпусная лингвистика
457
Параметры выдачи
22/06/2009 17:48
сербский боснийский
синтаксическая
содержание
Типы разметки снятие грамматичес кой омонимии (автоматическое/ ручное)
корпус
объем корпуса (в млн. словоупотреблений)
Т. И. Резникова
(0,118)* * + морфологическая
х о р в а т с к и й
яз ы к
458
ХНК
газеты, журналы (1990 –2005), худ. лит-ра с xvi в.
101
CLR
письменные тексты, отражающие стан дартную форму языка (с xix в.)
71
–
–
КБТ
письменные тексты разных типов (90-е гг.)
1,5
–
–
КСЯ
худ. лит-ра с xii в., публицистика, науч ные тексты xx в.
11
+
устная речь, комиксы 0,127
–
р
–
–
–
босн./серб./хорв.
ТБСХК
р (0,118)* *
НКРЯ верстка4.indd 458
22/06/2009 17:48
метаразметка
– + +
– + + – +
– + + – +
– –
для – дейкт. эле мен тов
+
НКРЯ верстка4.indd 459
– статистическая обработка запроса
– – не ограничен нет + + +
– – – 3 страницы/ 3 абзаца нет + – +
– – – 500 знаков/ 200 слов нет – – –
нет
–
–
–
–
–
по характеристикам дейкти ческих элементов
1 реплика
сортировка выдачи
Поисковые возможности: поиск по:
ограничения на коли чество контекстов фильтрация выдачи (поиск в найденном)
+ максимальный контекст
Поиск в корпусе невозможен
семантическим признакам
+
синтаксическим структурам
Типы разметки
(0,118)* * + лексеме последовательности словоформ грамматическим (0,118)* * + признакам
словоформе
семантическая
Славянская корпусная лингвистика
459
Параметры выдачи
22/06/2009 17:48
Т. И. Резникова
р у с с к и й
ТК
ХАНКО КГТ НКРЛЯ
НКРЯ верстка4.indd 460
сбалансированный 163 корпус с 1950 г. (в т. ч. устные тексты), худ. лит-ра, научн. тексты и публицистика с сер. xviii до сер. xx вв.
+
р (6)* *
+ (0,5)
синтаксическая
снятие грамматичес кой омонимии (автоматическое/ ручное)
НКРЯ
содержание
Типы разметки
морфологическая
корпус
объем корпуса (в млн. словоупотреблений)
яз ы к
460
Упсальский корпус; публицистика (1996– 2002); худ. лит-ра xix-xx вв.
25
+ (2,3)* * (нет лемма тиза ции)
а (2,3)* *
–
журнальные тексты (2001 г.)
0,1
+
р
+
газетные тексты (1994–1997)
11/ 0,2*
+
–
+
1
–
фрагменты письмен ных текстов, отра жающих стандартную форму языка (с сер. xx в.)
–
22/06/2009 17:48
461
Славянская корпусная лингвистика
фильтрация выдачи (поиск в найденном)
статистическая обработка запроса
+ (0,5)
+
7 предл.
нет +
–
–
+
–
–
≈240 слов/ 13 предл.
нет +
–
–
+ +
+
+
–
–
11 предл.
нет
–
–
–
+
+ + +
–
+
+
+
≈60 слов
30
–
–
+
–
+ +
–
–
–
–
≈40 слов
нет
–
–
+
метаразметка
+ + +
+
–
–
+
–
–
–
словоформе
семантическая +
–
сортировка выдачи
максимальный контекст
+
лексеме последовательности словоформ грамматическим признакам
семантическим признакам
ограничения на коли чество контекстов
Параметры выдачи
синтаксическим структурам
Поисковые возможности: поиск по:
(2,3)* * +
Типы разметки
* Формат записи объема X/Y применяется для тех корпусов, в которых общий объем корпуса (X) отличается от объема общедоступного корпуса (Y). ** Число в скобках после значения параметра соответствует объему текстов в миллионах словоупотреблений, на которых реализован данный тип разметки или доступен данный тип поиска.
НКРЯ верстка4.indd 461
22/06/2009 17:48
Б. В. Орехов
Параллельный корпус переводов «Слова о полку Игореве»: итоги и перспективы 1
орпусная лингвистика стимулирует создание разно образных исследовательских инструментов, среди ко торых один из самых любопытных — параллельный корпус: сложно организованная система текстов, ин туитивно ощущаемых как «идентичные», но создан ных на разных языках, то есть — в обиходном понимании — сопос тавленные друг другу текст-оригинал и текст-перевод на другой язык. Ещё в процессе создания корпуса между единицами текстов устанавливается соответствие, а дальнейшая пользовательская ра бота направлена на выявление общих и различных характеристик сопоставленных друг другу текстов. Имеющиеся на сегодняшний день параллельные корпуса, в ос новном, содержат прозаический текст и небольшое количество его переводов (в подавляющем числе случаев — один). См. The Regensburg Parallel Corpus, а также Корпус параллельных текстов Корпусная лингвистика стимулирует создание разнообразных иссле довательских инструментов, среди которых один из самых любопыт ных — параллельный корпус: сложно организованная система текстов, интуитивно ощущаемых как «идентичные», но созданных на разных языках, то есть — в обиходном понимании — сопоставленные друг другу текст-оригинал и текст-перевод на другой язык. Ещё в процессе создания корпуса меж ду единицами текстов устанавливается соответ ствие, а дальнейшая пользовательская работа направлена на выявление общих и различных характеристик сопоставленных друг другу текстов. Имеющиеся на сегодняшний день параллельные корпуса, в основном, содержат прозаический текст и небольшое количество его переводов (в подавляющем числе случаев — один). См. The Regensburg Parallel Corpus, а также Корпус параллельных текстов в составе Национально го корпуса русского языка. На сайте Национального корпуса русского языка имеется ссылка на не совсем обычный параллельный корпус, который, во-первых, организует не вполне прозаический текст (по этическая природа «Слова о полку Игореве» остаётся дискуссионной, но принципы организ ации этого произв едения выходят за рамки традиционной прозы), а во-вторых, выс тупает способом хранения сразу многих (в перспектив е — в сех) перев одов. Ниже излагаются некоторые концептуальные и технические подробности этого проекта. орпусная лингвистика стимулирует создание разнообразных иссле довательских инструментов, среди которых один из самых любопыт ных — параллельный корпус: сложно организованная система текстов, интуитивно ощущаемых как «идентичные», но созданных на разных языках, то есть — в обиходном понимании — сопоставленные друг другу текст-оригинал и текст-перевод на другой язык. Ещё в процессе создания корпуса меж ду единицами текстов устанавливается соответ ствие, а дальнейшая пользовательская работа направлена на выявление общих и различных характеристик сопоставленных друг другу текстов. Имеющиеся на сегодняшний день параллельные корпуса, в основном,
1 Работа выполнена при финансовой поддержке Российского гуманитарного научного фонда (грант № 08–04–12104в)
НКРЯ верстка4.indd 462
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 463 в составе Национального корпуса русского языка. На сайте На ционального корпуса русского языка имеется ссылка на не совсем обычный параллельный корпус, который, во-первых, организует не вполне прозаический текст (поэтическая природа «Слова о полку Игореве» остаётся дискуссионной, но принципы организации этого произведения выходят за рамки традиционной прозы), а во-вторых, выступает способом хранения сразу многих (в перспективе — всех) переводов. Ниже излагаются некоторые концептуальные и техни ческие подробности этого проекта. С февраля 2007 года в Интернете по адресу http://nevmenandr. net/slovo действует Параллельный корпус переводов «Слова о пол ку Игореве». Его появление стало попыткой ответа на вопрос, как следовало бы в удобной для читателя и исследователя форме соби рать и хранить многочисленные переводы «Слова о полку Игореве» (далее — СПИ). СПИ в этом смысле совершенно уникально. Если можно попро бовать найти произведение русской литературы, которое бы по спорило со СПИ в количестве переводов на другие языки, то уж, во всяком случае, никакой другой текст (включая знаменитую оду Горация iii, 30) на русский язык столько раз не переводился. Точно го количества хотя бы русских переводов не в силах назвать никто, тем более что их число постоянно растёт, однако можно сказать, что попыток перевести СПИ на современный русский язык было предпринято не меньше ста. Переводов на другие языки в сумме больше этого числа в полтора раза. Основных причин появления такого количества переводов две, хотя полный перечень, конечно, должен быть гораздо длиннее. Даже среди древних памятников, как правило, имеющих дра матичную судьбу, СПИ завоевало особую репутацию необычайно проблемного текста. Если не принимать во внимание спор о его подлинности2 , останется с трудом поддающееся счёту количество «тёмных» мест, каж дое из которых имеет целую серию конкури рующих версий прочтения. Если какой-то перевод не учитывает принятое исследователем чтение, он автоматически становится 2 После книги академика А. А. Зализняка [Зализняк 2004] версия о позднейшем происхождении СПИ фактически перешла из поля научного обсуждения в раз ряд суеверий.
НКРЯ верстка4.indd 463
22/06/2009 17:48
464
Б. В. Орехов
неправильным и, стало быть, требуется создание нового перевода. В отношении СПИ срабатывает формула «сколько интерпретаторов, столько и переводов». Но попыток передать содержание древнего текста средствами современного языка было бы гораздо меньше, не будь СПИ при знанным поэтическим образцом. Его художественные достоинства не ставились под сомнение даже теми, кто высказывался против его подлинности. В последнее время к двум очевидным причинам добавилась ещё одна: поэтический перевод СПИ превратился в особый жанр литературного упражнения, почти столь же традиционный, сколь и строгие стихотворные формы. Освящённая именами Жуковского, Пушкина (который собирался сделать свой перевод СПИ), Майкова, Заболоцкого традиция перевода СПИ настолько сильна, что привле кает любителей словесности, зачастую далёких в своих профессио нальных занятиях от чтения древних текстов. Таким образом, текст СПИ, из-за своей древности недоступный среднему читателю, существует в русской культуре сразу во многих переводах. Эту ситуацию принято называть поливариантным функ ционированием. «Каждый перевод, сколь бы он ни был превосхо ден, проецирует многомерную сложность подлинника на плоскость, делает оригинал упрощённым и представляет его односторонне. Сопоставляя два или несколько переводов, читатель может полу чить как бы стереоскопическое изображение оригинала, увидеть его с разных сторон» [Гаспаров 2006, с. 5]. Позиция Гаспарова, хотя и нуждается в перепроверке (в особенности уточнения заслуживает метафорический термин «стереоскопический»), отражает довольно стойкий и, по всей видимости, интуитивно обоснованный взгляд на предмет поливариантного функционирования иноязычного текста. В любом случае, задача собрания переводов в одном месте до вольно актуальна до сих пор, несмотря на то, что решать её пыта лись давно. Дело в том, что формат книги даёт для решения этой задачи очень ограниченные возможности. Издания, включающие сразу несколько переводов СПИ, разумеется, предпринимались, та кую эдиционную практику можно даже назвать вполне устоявшей ся. Но как расположить переводы в книге? Читателю удобнее всего иметь нужные тексты перед глазами, но определить, какие именно
НКРЯ верстка4.indd 464
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 465 тексты и в каком порядке понадобятся, а какие окажутся лишними, заранее невозможно; статический же характер бумажного издания предопределяет, что этот выбор должен быть осуществлен раз и на всегда. Неудобства для пользователя здесь очевидны. Вторая про блема в этом ряду — расположение текстов. Книжный формат даёт возможность предложить читателю для одновременного ознаком ления два, максимум — четыре текста, которые размещаются слева и справа на развороте или втиснуты в две-три колонки (большего не позволит ширина страницы) на одном листе. Но, как уже отмеча лось, в случае со СПИ количество переводов совсем другого порядка. Можно поместить другие переводы на следующих страницах, выдерживая линейную композицию книги, хотя трудно предста вить себе объём издания, включающего хотя бы половину общего числа переводов. Чаще всего, публикуя несколько переводов, из датели склоняются именно к этому решению. Но и такую форму трудно назвать удобной. Владимир Набоков (один из переводчиков СПИ), устами своего героя, настаивавшего на параллельном чте нии двух частей романа, предлагал, чтобы обойтись без хлопотного перелистывания вперёд-назад, либо разрезать книгу и скрепить вместе соответствующие страницы произведения, либо купить сразу два экземпляра, которые можно будет положить перед со бой: «I nd it wise in such cases as this to eliminate the bother of backand-forth leangs by either cutting out and clipping together the pages with the text of the thing, or, even more simply, purchasing two copies of the same work which can then be placed in adjacent positions on a comfortable table» [Nabokov 1962, p. 28]. Весьма утомительно даже сопоставление одного текста и одного перевода на развороте, так как это требует от читателя постоян ных усилий по поиску соответствий. Задача становится проще, если текст хорошо структурирован, как, например, в летописи, где мы наблюдаем естественное погодное членение материала, но другие жанры не предоставляют такого удобства. Увеличение числа пере водов создало бы читателю дополнительные сложности. Всё это довольно ясно свидетельствует не в пользу традицион ного книжного, а в пользу электронного собрания текстов, в пользу корпуса. Поскольку речь идёт не просто об электронной коллекции с надстроенной возможностью поиска, а о форме представления
НКРЯ верстка4.indd 465
22/06/2009 17:48
466
Б. В. Орехов
связанных друг с другом текстов, самым логичным решением пред стало создание параллельного корпуса. Параллельный корпус переводов СПИ решает перечисленные трудности следующим образом. Во-первых, изменено направление представления текстов, ко торые расположены не в привычных колонках, а в строках. Соот ветствующие фрагменты текста, таким образом, оказываются друг под другом и дают пользователю полную и наглядную информацию о сходствах и различиях вариантов, переводческих вольностях, разнообразии трактовок. В большинстве случаев это приводит к появлению горизонтальной прокрутки экрана, но традицион ные принципы HTML-вёрстки приходится приносить в жертву наглядности. «Вытянутые» в строку поэтические переводы также лишаются своего традиционного облика колонки, но такое фундаменталь ное свойство стихотворной речи, как деление на строки, в корпу се сохраняется, отмеченное специальным знаком — вертикальной чертой: «|». Строфы отграничиваются друг от друга двумя верти кальными чертами: «||». Деление на абзацы в прозаических перево дах не оговаривается. Деление на логические части, предпринятое рядом переводчиков, также не учитывается, их названия опущены. Не воспроизводится пагинация Первого издания и Екатерининской копии: пользователь может обратиться к любому дипломатическо му их воспроизведению. Пользователю также дана возможность по его желанию просматривать текст без символа «|», если граница стиха для него не важна, а вертикальная черта мешает восприятию. Кстати, по одним только расставленным в хронологическом поряд ке переводам СПИ можно было бы построить довольно внятную картину как стилистической эволюции русского художественного языка, так и ритмической эволюции русского стиха. Другое дело, что целесообразность создания именно такой модели сомнительна, а подобное упражнение вряд ли можно было бы расценить иначе, чем игру ума исследователя, но сама возможность такого упраж нения даёт представление о богатстве содержащейся в переводах информации. Теоретически можно представить и такое бумажное издание, в котором каждый следующий фрагмент текста для всех переводов
НКРЯ верстка4.indd 466
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 467 располагался бы на следующем развороте. Разница между книгой и корпусом здесь в том, что в книге количество переводов было бы ограничено длиной листа (около 40–45 строк), а в корпусе оно ог раничено только размером базы данных, которая может содержать миллионы записей. Как бы там ни было, воображаемому версталь щику, который вынужден был бы взяться за такую работу, можно только посочувствовать. Среди прочего ему, например, пришлось бы решать нетривиальную задачу сопоставления на бумажном лис те лаконичных прозаических переводов и зачастую пространных поэтических. Для «растяжимого» экранного представления это про блемой не является. Во-вторых, поскольку на экран теперь возможно вывести сколь ко угодно текстов, предусмотрена возможность их отбора самим пользователем. В соответствующей форме можно галочками от метить требуемые переводы и таким образом сформировать сво его рода подкорпус. В случае, если пользователь нажал на ввод, не отметив ни одного перевода, на экран будут выведены все имею щиеся в базе тексты. На момент написания этой статьи их около восьмидесяти, и в ближайшее время благодаря поддержке РГНФ это количество должно возрасти вдвое. Параллельный корпус СПИ — пример неаннотированного кор пуса. Вся метатекстовая информация, которая на данный момент доступна пользователю, — это сопоставленность данного отрывка текста отрывку как минимум ещё одного текста, то есть перед по мещением в корпус тексты проходят предварительный процесс руч ного выравнивания. Текст СПИ не слишком велик, но всё же в горизонтальном представлении вывести его на экран целиком было бы не луч шим решением, так как создало бы пользователю значительные неудобства. Поэтому каж дый перевод в корпусе разбит на 218 фрагментов («звеньев») в соответствии с членением СПИ, пред ложенным Р. О. Якобсоном. В процессе работы выяснилось, что это вполне универсальное членение, которое подходит не только для оригинала, но и для его переводов. На экран текст выводится по фрагментам, номер фрагмента можно задать в специальном поле в главной форме одновременно с выбором переводов. Пре дусмотрена возможность листать текст от фрагмента к фрагменту,
НКРЯ верстка4.indd 467
22/06/2009 17:48
468
Б. В. Орехов
сохраняя выбор переводов, то есть в рамках сформированного подкорпуса. Если в поле ввода номера фрагмента пользователь не ввёл ничего, по умолчанию будет выведен первый фрагмент. При вводе нечислового значения или значения не в диапазоне 1–218, система сообщит об ошибке. Допустим ввод как в виде «001», так и «01», и «1». В отдельных случаях — разумеется, это в большей степени ка сается поэтических переводов — адекватное разбиение текста на фрагменты (которое представляет собой процесс выравнивания) связано с некоторыми сложностями. В основном, это случаи инвер сии или исключения некоторого фрагмента переводчиком. В случае, если по причине инверсии эквивалентный эталону отрывок в пере воде попадает в другой фрагмент, даётся ссылка на этот фрагмент «См. фрагмент n» и во всплывающей подсказке воспроизводится текст. Например, в переводе Н. А. Заболоцкого содержание фраг мента 86 оказалось внутри текста, относящегося к фрагменту 87. В соответствующей выдаче, таким образом, показывается надпись «См. фрагмент 87», а при наведении курсора на эту строку высве чивается текст, который было бы логично сопоставить с фрагмен том 86: «И растет крамола меж князьями,| И не видно от князей добра.||» В случае, когда в переводе отсутствует эквивалент выбранного фрагмента, в строке перевода выводится тройной прочерк: «– — –», как, например, во фрагменте 51 перевода С. В. Шервинского. Отдельную сложность представляет обоснованная в своё время А. И. Соболевским и принятая в некоторых переводах перестановка отрывка «Тогда Игорь възрѣ на свѣтлое солнце … съ вами, русици, хощу главу свою приложити, а любо испити шеломомь Дону» (со ответствует фрагментам 8–14) дальше от начала. Сообразно с нуж дами корпуса эта перестановка элиминируется, текст приводится в последовательности Первого издания, а место перестановки обо значается специальной пиктограммой. Как именно СПИ разбито на фрагменты, можно посмотреть на отдельной странице, и там же осуществить выбор требуемых пе реводов. В ходе дискуссий уже после появления корпуса (например, на совместном заседании семинара «Информационные технологии
НКРЯ верстка4.indd 468
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 469 в исследованиях российских филологов» и Общества исследовате лей Древней Руси в Институте мировой литературы им. А. М. Горь кого 16 мая 2007 года) высказывались сомнения в целесообразности выбора разбиения текста «по Якобсону» как основы для выравнива ния. Однако разработчикам этот выбор позже сослужил хорошую службу, так как многие западные переводы СПИ публикуются уже разбитыми на фрагменты именно таким образом, что, безусловно, облегчило их подготовку к помещению в корпус. Это закономерно объясняется весом Якобсона в среде западных славистов, а в Рос сии предложенное им членение фактически стало стандартом бла годаря авторитету А. А. Зализняка после выхода его книги о СПИ [Зализняк 2004]. Сейчас тексты в меню корпуса распределены по пяти катего риям: тексты и издания, переводы на современный русский язык, переводы на славянские языки, переводы на другие зарубежные языки, переводы на языки народов России. Это деление, однако, чисто условное и не мешает вызвать сопоставление любого текста из одной категории с любым текстом из другой категории. В пла нах разработчиков также создание динамического меню, в котором пользователь мог бы выстраивать переводы по времени создания, в алфавитном порядке по фамилии переводчика и т.д. В параллельном корпусе, коль скоро он параллельный, должны выводиться на экран минимум два текста, в нашем случае это — эта лонный (по всей видимости, древнерусский текст памятника) и ка кой-то другой, избранный пользователем. В качестве эталонного был избран текст, помещённый в Энцик лопедии «Слова о полку Игореве». Такой выбор был сделан благода ря гармоничному учёту составителями Энциклопедии двух разно направленных тенденций в подходе к памятнику. С одной стороны, корпусу требовался вариант, максимально аккуратно (в рамках здравого смысла) воспроизводящий Первое издание, с другой, — из бавленный от очевидных опечаток и признанных ошибок издате лей в чтении древней рукописи. Характеризуя свой вариант, соста вители Энциклопедии отмечают, что «в его основе текст издания 1800 г., в который внесено лишь минимальное число смысловых и буквенных исправлений: по преимуществу это исправления яв ных опечаток или недосмотра издателей. Иные чтения, имеющие
НКРЯ верстка4.indd 469
22/06/2009 17:48
470
Б. В. Орехов
различные толкования в науке, оставлены без изменений» [Энцик лопедия 1995, с. 8]. Первоначально ресурс задумывался как средство хранения и представления в электронном виде только переводов СПИ. Од нако довольно быстро стало ясно, что такая концепция нуж дается в уточнении. Ресурс, располагающий переводами СПИ, но иск лю чающий доступ к Екатерининской и Щукинской копиям, разным изданиям (среди которых Первое издание, разумеется, обладает особым статусом сверхважного источника) и реконструкциям па мятника, выглядит обеднённым. Вполне логично, что серьёзного исследователя вряд ли мог удовлетворить единственный текст Эн циклопедии, такой исследователь непременно захотел бы сравнить данные, представляемые другими релевантными источниками. Поэтому, несмотря на некоторую несогласованность такого под хода с названием ресурса, было принято принципиальное реше ние о включении в корпус текстов Первого издания, транскрип ций существующих списков памятника и наиболее авторитетных реконструкций древнего текста. В будущем, возможно, в корпусе появится и выровненная с остальными текстами прорисовка Ека терининской копии. Важным для идеологии проекта стало такое качество, как удоб ство для пользователя (то, что на жаргоне разработчиков называ ется «user friendly»). Именно оно зачастую оказывалось определяю щим при выборе того или иного решения задачи. Открытый формат ресурса — его общедоступность через Интернет — с самого начала ставил разработчика перед тем, что в роли пользователя может ока заться вовсе не специалист-филолог, готовый к преодолению труд ностей для получения нужной ему информации, а придирчивый посетитель, которому дополнительные усилия могут показаться излишними и отталкивающими. Такая позиция имеет несколько принципиальных следствий. На пример, представлять информацию на экране необходимо только заведомо имеющимися в компьютере пользователя средствами: за грузка дополнительных шрифтов или плагинов должна быть исклю чена как вариант решения технических трудностей. В результате обработки запроса на компьютер к пользователю должна поступить простая HTML-страница, по возможности свободная от утяжеляю
НКРЯ верстка4.indd 470
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 471 щих скриптов или кодов, неодинаково обрабатываемых разными программами просмотра. Например, серьёзные трудности возникли с формой представ ления использовавшейся в рукописях буквы а-йотированное, до последнего времени (до версии 5.1) отсутствовавшей в стандарте Unicode, следствием чего, естественно, было и отсутствие начер тания этой буквы во всех распространённых шрифтах. В ходе эксплуатации и пополнения корпуса пришлось отказать ся от использования гарнитуры Palatino Lynotype, в своих распро странённых версиях не включающей знаков еврейского алфавита (в корпусе должны быть представлены два перевода СПИ на идиш и один перевод на иврит), букв ы юс малый и т.д. Предполагаемое удобство использования также обусловило ряд технических особенностей. Так, запрос к системе осуществ ляется методом GET. Его отличие от другого распространённого метода (POST) в том, что программа, с помощью которой пользо ватель просматривает интернет-страничку (юзер-агент) генери рует уникальную ссылку, в которой закодированы все параметры запроса (при POST-запросе адресная строка браузера остаётся пустой), например, такого вида: http://nevmenandr.net/slovo/slovo. php?fragm=4&str=1&it[ ]=a3&it[ ]=b2&l=ru. В нашем случае это язык интерфейса, идентификаторы выбранных переводов, но мер фрагмента, необходимость выводить строковые разделители в тексте. По этой ссылке в любой момент можно вызвать именно то, что в данный момент пользователь видит на экране. Анало гичная технология используется во всех распространённых по исковых системах, в том числе Яндекс и Google, характерна она и для Национального корпуса русского языка. Многие опытные пользователи уже знакомы с эффектом, который это даёт: ссылка позволяет сохранять найденную информацию и обмениваться ею с другими пользователями. Для удобства сохранения ссылки на выбранное сопоставление и фрагмент в интерфейсе корпуса также предусмотрено несколько небольших усовершенствова ний. В ближайших перспективах развития корпуса — создание поиска по текстовой базе. Вероятно, без поисковой надстройки ресурс и не может с полной правотой называться корпусом, так что поиск — это
НКРЯ верстка4.indd 471
22/06/2009 17:48
472
Б. В. Орехов
одно из приоритетных направлений, в котором будут двигаться раз работчики. Здесь тоже необходимо будет предусмотреть ряд нюансов. Ясно, что поиск должен быть не по всей базе сразу, а дифференцированно по языкам. Вероятно, нет особой необходимости специально разра батывать поисковую систему для языков, для которых существует только один перевод (как, например, китайский или осетинский). Если пользователь пожелает найти какую-то лексему в этих тек стах, он сможет вывести их на экран и отыскать то, что ему нужно, стандартным способом поиска по документу. Иное дело — большой массив текстов, вроде десятков русских переводов или же собрания украинских переводов, количество которых тоже внушительно. Зачем нужен такой корпус? Предполагается, что в большей сте пени он окажется полезен специалисту, нежели рядовому читателю, однако принципиальная простота интерфейса и ориентация на дру желюбность к пользователю располагает и к медленному чтению, не ради достижения академических исследовательских целей. Очевидно, что корпус может оказаться полезен при преподава нии русского языка как иностранного. Отчасти из-за этого у кор пуса предусмотрен интерфейс на других языках, прежде всего на тех, для которых имеется более одного перевода. Кроме русского это английский, немецкий, французский, украинский, польский, хорватский и идиш. Разумеется, в корпусе представлен довольно специфичный материал, но он вполне может вписаться отдельным блоком в учебную программу курса. Особый потенциал содержится в корпусе как в хранилище ин туитивно близких, «рассказывающих об одном и том же» текстов. В нём легко можно найти иллюстрации разных грамматических и лексических вариантов языкового кодирования для учебных и на учных целей. Естественно, что всё названное дополняет главное — возмож ность исс ледов ания традиции художес тв енного перев ода (не только в отношении русского, но и таких языков, на которые СПИ переводилось на протяжении последних двух веков: французский, немецкий, английский) и истории рецепции СПИ. Надо признать, что сама по себе идея такого параллельного кор пуса довольно проста, а техническая реализация не требует осо
НКРЯ верстка4.indd 472
22/06/2009 17:48
Параллельный корпус переводов «Слова о полку Игореве» 473 бенных усилий. Однако представляется, что именно такая форма хранения и представления текстов будет наиболее удобна конеч ному пользователю, кем бы он ни оказался — заинтересованным читателем или исследователем.
Литература Гаспаров 2006 — М. Л. Гаспаров. О новом переводе «Ада» Данте, вы полненном В. Г. Маранцманом // Данте Алигьери. Божествен ная комедия: Ад. Чистилище. Рай. СПб., 2006. С. 5–8. Зализняк 2004 — А. А. Зализняк. «Слово о полку Игореве»: Взгляд лингвиста. М, 2004. Энциклопедия 1995 — [Преамбула: Текст «Слова о полку Игореве»] // Энциклопедия «Слова о полку Игореве»: В 5 т. СПб., 1995. Т. 1. С. 8–16. Nabokov 1962 — V. V. Nabokov. Pale Fire. London, 1962.
НКРЯ верстка4.indd 473
22/06/2009 17:48
А. В. Кос тыркин
Корпус японской разговорной речи 1
В настоящей статье описывается крупнейший японский про ект по созданию корпуса устной речи, его история, состав, виды и принципы языковой разметки, в частности разные виды транскрипции, сегментация, морфологическая, син таксическая, дискурсивная и фонетическая разметка.В на стоящей статье описывается крупнейший японский проект по созданию корпуса устной речи, его история, состав, виды и принципы языковой разметки, в частности разные виды транскрипции, сегментация, морфологическая, синтаксиче ская, дискурсивная и фонетическая разметка. В настоящей статье описывается крупнейший японский проект по созда нию корпуса устной речи, его история, состав, виды и прин ципы языковой разметки, в частности разные виды транс крипции, сегментация, морфологическая, синтаксическая, дискурсивная и фонетическая разметка. В настоящей статье описыв ается крупнейший японский проект по созданию корпуса устной речи, его история, состав, виды и принципы языковой разметки, в частности разные виды транскрипции, сегментация, морфологическая, синтаксическая, дискурсив ная и фонетическая разметка. В настоящей статье описы вается крупнейший японский проект по созданию корпуса устной речи, его история, состав, виды и принципы языковой разметки, в частности разные виды транскрипции, сегмен тация, морфологическая, синтаксическая, дискурсивная и фонетическая разметка. В нас тоящей статье описыв ается крупнейший японский проект по созданию корпуса устной речи, его история, состав, виды и принципы языковой раз метки, в частности разные виды транскрипции, сегментация, морфологическая, синтаксическая, дискурсивная и фонетиче ская разметка. В настоящей статье описывается крупнейший японский проект по созданию корпуса устной речи, его исто рия, состав, виды и принципы языковой разметки, в частности разные виды транскрипции, сегментация, морфологическая, синтаксическая, дискурсивная и фонетическая разметка. В
настоящей статье описывается крупнейший японский проект по созданию корпуса устной речи, его история, состав, виды и прин ципы языковой раз метки, в част но сти раз ные ви ды транс крип ции, сег мен та ция, мор фологическая, синтаксическая, дискурсивная и фоне тиче ская разметка. 1. История проекта
Корпус спроектирован и создан японским Государственным инсти тутом национального языка (ГИНЯ) совмест но с Лабо ра торией по исследованиям в об ласти те лекоммуникаций и Токийским техно логическим университетом. Ос новная рабо та по сбо ру и об ра бот ке материала выполне на в ГИНЯ. Куратор проекта — проф. Фуруи Садаоки из Токийского тех нологического универ ситета [Maekawa 1 Исследование выполнено при частичной финансовой поддержке Российского фонда фундаментальных исследований, грант № 07-06-00061. Автор благодарит научного сотрудника Гос. ин-та национального языка Маруяма Такэхико за помощь, оказанную при подготовке статьи.
НКРЯ верстка Костыркин.indd 474
22/06/2009 17:34
Корпус японской разговорной речи
475
2008]. Проект осуществлен в период с 1999 по 2003 г. и на мо мент заверше ния стал самым боль шим размеченным корпусом устной речи в мире [Uchimoto 2003]. Главная цель проек та – под гото вить в дос таточном объеме ка че ст вен ные лин гвис ти че ские дан ные, на ос но ве ко то рых бу дут раз ра ба ты вать ся сис те мы ав то ма ти че ско го рас по зна ва ния ре чи, в частности, будет происходить обучение статистических систем. Бы ла по став ле на за да ча по лу чить пред ста ви тель ный кор пус со временного общенационального язы ка (gendai kyootsuu nihongo), поэтому диалекты, устарев ший язык и случаи смешения японской речи с иностранной в не го не включались. Вышло два издания корпу са — первое (июнь 2004 г.) и второе — исправленное и дополненное (май 2008 г.). Сейчас корпус использу ется в Японии и за ее пределами в более чем 280 проектах. Японское название корпу са — Nihongo hanashikotoba koopasu; офи циальное английское название — The Corpus of Spontaneous Japanese. Соз да ние кор пу са ак тив но ос ве ща лось в пе рио ди че ских на уч ных и популярных изданиях [Maekawa et al. 2001]. Основным до кументом, описывающим прин ципы создания корпуса, ос новные виды раз метки и ее лингвистические кри те рии яв ляется сво бодно распространяемый отчет «Метод построения корпуса разговорной японской речи» [Nihongo 2006]. 2. Объем и со став кор пуса Записан 661 час спонтанной речи, что соответствует около 7,52 млн. слов. Запись осуществлялась в формате Digital Audio Tape с использо ванием конденсаторных микрофонов. Записи прорежены до 16kHz, 16 бит. Растекстовка, т.е. перевод аудиозаписей в текстовую форму, и дальнейшее транскрибирование проводилась в соответствии со спе циально выработанной системой записи в двух формах: смешанным иероглифико-азбучным письмом и только азбучным. Для записан ных таким образом текстов проведена морфологическая разметка, выполненная в двух формах: в терминах так называемых коротких и длинных морфологических единиц (см. ниже). В корпусе выделе на часть общей протяженностью 44 часа (около 500 тыс. слов), на зываемая «ядром», для которой осуществлена также фонетическая, просодическая, дискурсивная и синтаксическая разметка.
НКРЯ верстка Костыркин.indd 475
22/06/2009 17:34
476
А. В. Костыркин
Академическая публичная речь Искусственные выступления Прочие выступления Искусственные выступле ния интервьюируемых Интервью на темы науч ных докладов Диалог на заданную тему Свободный диалог Чтение текста вслух Повторное чтение вслух Итого
спонтанная
274,4
594 1715 монолог *16 19 диалог
спонтанная спонтанная
329,9 24,1
*16
спонтанная
3,4
спонтанная спонтанная спонтанная чтение чтение
2,1 3,1 3,6 15,5 5,5 661,6
16 монолог
*10 10 *16 16 *16 16 *248 507 *16 16 1417 3303
диалог диалог диалог монолог монолог
Продолжи тельность, часов
987 монолог
Спонтанная речь/ чтение текста
819
Монолог/ диалог
Кол-во файлов
Виды речи
Кол-во гово рящих
Око ло 90% за пи сей кор пу са со став ля ет мо но ло ги че ская речь, ос тальные 10% – диалогическая речь, чтение вслух письменного текста, чтение вслух транскрипции устного текста. Всего записана речь 1417 человек. Следующая таблица дает представление о составе корпуса.
Табли ца 1. Виды и объем записей в составе корпу са *Говорящие вхо дят в число тех, кто участвовал в записи первых двух типов вы сту плений
Под академической публичной речью имеются в виду научные док лады, которые записывались вживую в течение трех лет в трех научных обществах. Продолжительность большинства из этих за писей — от 12 до 25 мин., имеются также записи протяженностью более 1 часа. Так называемые иск усственные выступления включа ют записи речи на заданную тему перед аудиторией из 3-5 человек. Запись происходила в раскрепощенной обстановке. Большей части говорящих предлагалось по 3 темы довольно широкого содержания, продолжительность записи по каж дой теме составила в среднем 12 мин. Темы сообщались участникам за 48 часов до записи, при этом им запрещалось готовить письменный текст выступления, но
НКРЯ верстка Костыркин.indd 476
22/06/2009 17:34
Корпус японской разговорной речи
477
рекомендовалось продумать простой план речи. Ста говорящим было позволено выбрать для своего выступления одну-две темы по своему желанию. Вот примеры предлагавшихся тем: «Что было в вашей жизни радостного или приятного», «Что было в вашей жизни печального или тяжелого», «Расскажите о городе или районе, где вы живете», «Дайте объективное объяснение чему-то, что вы хо рошо знаете или чем вы интересуетесь», «Что больше всего запом нилось в жизни», «Газетные, журнальные новости последних лет», «Три предмета, которые возьмете с собой на необитаемый остров», «Как сделать (что-либо), как приготовить (что-либо)», «История (чего-либо)», «Что, кто вам больше всего дорого/дорог?», «Что бы мне хотелось сделать для 21-го века и чего бы не хотелось». Записи академической речи и выступлений сделаны на одном и том же оборудовании, но часть из них произведена не в студии, а в обыч ном помещении, поэтому есть различия в акустике. Под чтением текста вслух имеется в виду запись чтения одним участником двух коротких отрывков из распространенных книг по естественным наукам. Продолжительность записи 3–4 мин. Иск усственные вы ступления интервьюируемых записывались с теми же говорящими, которые участвовали в записи диалогической речи. Интервью на темы научных докладов записывались после соответствующих на учных докладов и искусственных выступлений, описанных выше. Продолжительность каждого интервью составляет около 10-15 мин. Под повторным чтением вслух имеется в виду запись транскриби рованного текста научного доклада тем же говорящим. При этом в чтении воспроизводились паузы и запинки, как они представлены в транскрипции. Все такие записи осуществлялись в звукоизолиро ванном помещении. В случае диалогической речи каждый из двух говорящих находился в отдельной комнате с общим окном, их речь записывалась на разные каналы. Для со хра не ния ано ним но сти уча ст ни ков из тек стов кор пу са удалены все име на, которые как-либо указыва ют на лич ности го ворящих. 3. Разметка Глав ным прин ци пом при раз мет ке кор пу са бы ло стрем ле ние из бежать односторон них решений в случаях не однозначной атрибу ции речевых единиц. Там, где су ще ствующие опи сания японского
НКРЯ верстка Костыркин.indd 477
22/06/2009 17:34
478
А. В. Костыркин
языка не дают чет ких кри те риев оп ределения парадигматических и/или синтагматиче ских гра ниц ре чевой единицы или же ее час тереч ной принадлежности, авторы старались учесть все разумные интерпретации, отразить их в раз метке и ука зать на наи более ве роятную из них. Размет ка корпуса, по мне нию его ав торов, должна эксплициро вать на блю дае мые про бле мы, а не скры вать их. Вы яв лен ные, но пока не ре шенные проблемы авто ры считают одной из важ ных со ставляющих корпуса и ценным мате риалом для будущих ис следо вателей и составителей корпу сов устной ре чи. 3.1. Транскрипция Записанная речь разбита на отдельные транскрипционные едини цы, которым сопоставлена раз метка. Границы единиц проводятся в речи там, где есть пауза более 200 мс, либо пауза более 50 мс по сле лексической или грамматической формы, способной завершать предложение (финитная форма гла гола, заключительная частица типа wa, ne, yo, ka, приветствие, частицы со значением «да», «нет»). Если определение звуковых границ еди ницы неод нозначно, выби рают ся более широкие границы. Если звук губ, со прово ждающий артикуляцию, не удает ся отделить от ре чи, он также вклю чается в состав единицы. Если фонация единицы начинается с взрывной или аффрикаты, то в качестве начала единицы устанавливается момент 50 мс до взрыва. Не транскрибируются и далее не учитываются обо собленные одно-двухморные короткие звуки или продолжительные тихие звуки, которые не возможно интер пре тировать. Выделе ны транскрип ционные единицы 4-х типов: A. Вербальные еди ницы. B. Голосовые звуки, издаваемые говорящим (смех, плач, кашель, звуки, сопровождающие произнесение заполнителей типа uu, aa, anoo). C. Все остальные звуки D. Ошибки, возникающие при чтении вслух (только для повтор ного прочтения тек стов). Единицы типов A и B не могут пе ре секать ся во вре мени, но могут образовывать вложения типа et- -to. Единицы типа C мо
НКРЯ верстка Костыркин.indd 478
22/06/2009 17:34
Корпус японской разговорной речи
479
гут пересекаться с еди ницами дру гих типов, иск лючение состав ля ют случаи типа короткого кашля во время продолжительного смеха, которые остаются без уче та. Каждой записанной еди нице при своен инди видуальный номер, указано время начала и кон ца фо нации, номер ка нала, на ко торый записан звук, а так же соб ственно лингвистическая раз метка. Гра ницы единиц, а также тип не вер бальных еди ниц (шум, кашель и т. д.) определялись автоматически. Текст транскрипции и разметка вводились вручную путем про слушивания зву ка и наблюдения на экра не компьютера формы звуковой волны и спектрограм мы. Раз метка единиц четырех названных выше типов заносилась в четыре отдельные поля. Лингвистическая размет ка состоит из двух частей: правой и ле вой. Спра ва да ет ся так на зы вае мая ба зо вая транс крип ция, сле ва — фонетическая. Базовая транскрипция 今までの 人生で 一番 印象深かった こと
Фонетическая транскрипция & イママデノ & ジンセーデ & イチバン & インショーブカカッタ & コト
Рис. 1. Пример пяти последовательных текстовых единиц, для ко торых даны па раллельно два вида транскрип ции (отделены друг от дру га ампер сан дом).
3.1.1. Базовая транскрипция Ба зо вая транс крип ция ис поль зу ет ие рог ли фи ко-ал фа вит ную за пись и пред на зна че на для мак си маль но про сто го чте ния тек ста, а так же для тек сто во го по ис ка. Для этой це ли при по мо щи стро гих пра вил из за пи си ис к лю че на ва риа тив ность и не од но знач ность, ис поль зу ет ся стро го ог ра ни чен ное мно же ст во ие рог ли фов, зна ков и со че та ний сло го вой аз бу ки, чи сло вых зна ков и зна ков пре пи на ния. Это дос ти га ет ся за счет раз ра бо тан ных пра вил уни фи ка ции раз лич ных слу ча ев варь и ро ва ния, ко то ры ми изо би лу ет япон ская пись мен ность. Пе ре чис лим не ко то рые та кие пра ви ла:
НКРЯ верстка Костыркин.indd 479
22/06/2009 17:34
480
А. В. Костыркин
1. Многие японские слова допускают несколько вариантов записи — либо одними иерог лифами, либо од ной каной2, либо иерог лифами в соче тании с каной. Ес ли у слова одинаково употре бительны и азбучная, и иерог ли фическая фор ма запи си, то выбирается по следняя. Это позво ляет при последующем автомати ческом мор фологи ческом анализе по лучать более точные результаты. Азбучная форма выбирается, если она является устоявшейся (ре шение принималось на основе обсле до ва ния ма те риа ла га зет и лек си ко-ие рог ли фи че ских справоч ни ков, выпущенных компани ей NHK). Ес ли использова ние азбучной и иероглифической фор мы свя зано с вы ражением раз ных лекси кограмматических значений, то полнозначный вариант записывается с ие роглификой, а вариант со служебным значением одной каной (ср. 上げる ‘поднимать’ vs. あげるбенефак тив от ‘поднимать’). Если слово используется как словообразовательный компонент, то в со ставе сложного слова оно да ется по воз можности в той же фор ме (ср. 掛ける и 追い掛ける). 2. Для служебных слов は, へ, を принята историческая запись (は передается как есть, а не как わ), для сложных слов со второй ос новой на つ tsu, в том чис ле слов с редупликацией, принята мор фологиче ская запись, и дает ся づ, а не ず (ср. つづら). 3. Долгота гласных a, i, u пе редается их по втором, долгота глас ной e — ли бо ее по втором, либо добавлением i, гласной o — ли бо ее повтором, либо до бавленим u. 4. При нор ма ли за ции окуриганы — ва риа тив но го на пи са ния ка ной определенных частей слов — для слов изменяемых частей речи выбирается графически наи более длинный вариант (行なう, а не 行う). Для слов неизме няемых частей ре чи вы бира ется ва риант с каной (買い値, а не 買値). При этом сде ла но ис к лючение для ряда слов, для которых на писание без каны ста ло устоявшимся (напри мер, используется запись 取締役, а не 取り締まり役). 5. Для случаев лек сической омо нимии, которые на пись ме про тиво поставлены гра фиче ски, используют ся раз ные формы за писи: 表わす / 現わす. Для труд но раз гра ни чи мых слу ча ев по ли се мии вы бирается графический вари ант, пе редающий наиболее общее зна 2
Каной называется слоговая японская азбука — хирагана или катакана.
НКРЯ верстка Костыркин.indd 480
22/06/2009 17:34
Корпус японской разговорной речи
481
чение (для гла гола 逢う ‘встречаться (о любов никах)’ вы бира ется запись 会う ‘встречаться’). Ес ли такое обоб щение за труднительно, то противопоставление сохраня ется, как, напри мер, в случае слов 意志 ishi ‘воля’ и 意思 ishi ‘наме рение’. Использование разных ви дов графических единиц — иерог ли фи ки, хи ра га ны, ка та ка ны, цифр и букв анг лий ско го ал фа ви та в целом регу лируется следующими пра вилами: 1. Ие рог ли фи ка ис поль зу ет ся по ми мо за пи си слов ваго и кан го3 для случаев автонимного упот ребления отдельных иероглифов и об рыв ков слов, ко гда гра ни ца об ры ва сов па да ет с мор фо ло ги ческой, и та кой обрывок мо жет быть за пи сан одним иероглифом. Допускается использование иерог лифики первого и второго уров ней, определенных стан дартом JIS X 0208–1990. Если у иероглифа есть устаревший и но вый графи ческий вари анты, то ис пользуется современный вариант или тот, который есть в JIS первого уров ня (напри мер, из пары вариантов 証 и 證 выбирается первый). 2. Хирагана, поми мо установившей ся записи слов ва го и кан го, ис поль зу ет ся для иде о фо нов4, за пол ни те лей (etto ‘ну’), на зва ний букв и звуков (kana no a ‘знак «а» ка ны’), об рывков слов, когда гра ни ца раз ры ва не сов па да ет с мор фо ло ги че ской (ryo…ryoohoo no «об..., обо их»). Все до пус ти мые со че та ния зна ков аз бу ки за да ны конечным списком, в котором сочетания для записи дифтонгов раз делены на основные и периферийные. К основ ным относятся все пала тализован ные слоги с гласными a, u и o, используемые при за писи канго и ваго и стандартно выделяе мые в японских учебниках. К периферийным отнесены слоги с лабиализованными согласными (クヮ kwa), с гласными e и i (シェ she, ミェ mie), сло ги на f- (ファ fa, フィ fi) и другие, которые встре чаются в заимст вованных сло вах. 3. Катака на используется для за писи заимствован ных слов, не изменяемых частей слов, образованных от заимствованных (таких как toraburu «доставлять неудобства» от англ. trouble), иностранных имен собственных, кроме китайских и корейских, тер минов и жар 3 Ваго — исконно японская лексика; канго — заимствованная китайская лек сика. 4 Конкретные идеофоны, как правило, могут быть отнесены к японскому или китайскому лексическим классам, но записывают их крайне непоследовательно — то хираганой, то катаканой.
НКРЯ верстка Костыркин.indd 481
22/06/2009 17:34
482
А. В. Костыркин
гонизмов с устоявшейся ка таканной записью, на зва ний рас тений и жи вот ных, а также для назва ний букв и звуков приме ни тель но к катаканным словам. Обрывки слов и оговорки в заимствованных словах также записываются ка таканой. 4. Слова, которые записывают ся буквами английского алфави та, обязательно сопровожд аются их транс литера цией, записанной катаканой согласно опреде ленным прави лам. 5. Числа записываются цифрами и вместе с этим полностью рас писыва ются словами по-япон ски. 6. Допускается использование ограниченного числа знаков пре пи на ния. Япон ские зна ки пре пи на ния су ще ст ву ют двух ви дов — полноширинные и полуширинные, в данном корпусе используются только полноширинные знаки. Знак повтора иероглифа 々 может при необ ходимости ис поль зоваться многократно, например 点々々, но не ис пользуется в слу чаях повтора иероглифов в со кращениях сложных слов, та ких как 自自公5. Срединная точ ка «・» ис пользуется для от деления имени или инициала имени от фами лии в иностранных именах, для раз де ле ния чле нов со чи нен ных имен ных групп, а так же для сня тия неоднозначности в именных сце плениях6. Для того, чтобы скрыть неко торые имена соб ственные (в целях сохранения анонимности за пи сей. см. вы ше), ис поль зу ет ся знак batsu «×». Знак maru «○» служит только для записи нуля в японском тексте. Составители корпуса по старались отразить в транскрипции от личие случайных отк лонений от произносительной нормы от ре гулярных случаев такого рода. Случайные от к лонения, такие как эм фа ти че ское уд ли не ние глас ных и со глас ных, по ме ча ют ся как оши боч ные, но транс кри би ру ют ся при этом нор ма ли зо ван ны ми форма ми. Случаи же регулярных, уже закре пив шихся в языке фо нетико-морфологических мо дификаций, характерных для устной ре чи, транс кри би ру ют ся как есть, т.е. счи та ют ся ут вер див ши ми ся единицами разговорного языка. На ос нове сис темного анализа 5 Сокращение названий трех партий: 自民党 «Либерально-демократическая», 自由党 «Либеральная», 公明党 «Партия чистой политики». 6 Например, в сочетании 哲学・教育的背景 «философское и педагогическое образование» точка поставлена, чтобы не было прочтения 哲学教育の背景 «фи лософско-педагогическое образование».
НКРЯ верстка Костыркин.indd 482
22/06/2009 17:34
Корпус японской разговорной речи
483
кор пус но го ма те риа ла был вы де лен пе ре чень та ких раз го вор ных выра жений. Вот некоторые их них: 1. Выпадение слога на r- в конце глагольной фор мы в сочетани ях с отрицанием nai, суб стантиватором n/no или связ кой da: shira nai → shinnai ‘не знаю’, aru n da → anda ‘имеется’, suru daroo → sundaroo ‘вероят но, сделает’. 2. Вы па де ние глас ной i во вспо мо га тель ном гла го ле iru по сле дее при ча ст ной фор мы на te/de: mite iru → miteru ‘смот рит’, yatte oite → yattoite ‘сделай’ 3. Модификация формы на -ba: kakeba ii → kakya ii ‘лучше на писать’, mi nakereba ii → mi nakya ii ‘мож но не смотреть’. Во всех этих случаях наблюдается тяготение аналитической фор мы к синтетической. 4. Редукция конечного гласного в субстантиваторе mono: ima kita mon de ‘только что пришел’. 5. Редукция конечного гласного в слове nani в значении «почему», «какой»: nande, nanto, nanda. В про цес се раз мет ки про ис хо ди ло со с тав ле ние двух сло в а рей, в ко то рых ре ги ст ри ро ва лись все еди ни цы, встре чаю щие ся в тек сте. Первый словарь пред назначен для че ловека, в нем для каждой единицы регистрировалась ее правильная и возможная ошибочная разметка, с тем чтобы избе жать подоб ных ошибок в даль нейшем. К концу проекта объем словаря составил 110 тыс. единиц. Во втором словаре запоми нались все сочетания ка ны и соответст вующей ей иерог лифики. Учи ты вались так же ве ро ят ные ошиб ки, ко торые мо жет допустить человек при вводе определенных слов. Эти сведения использовались потом для по вышения точ ности ав томатического пре об ра зо ва ния в ие рог ли фи ку ка ны, вво ди мой че ло ве ком. Эта процедура осущест влялась при помо щи программы Kanna. 3.1.2. Фонетическая транскрипция Каждой записи в базовой транскрип ции со поставлена транс крип ция фонетическая. Она выполнена катаканой и предназначена для поиска по произношению и для снятия не од нозначности иерог ли фики в базовой транскрип ции. Она также мо жет быть использова на при ис сле до ва нии фо не ти че ских и фо но ло ги че ских ва риа ций,
НКРЯ верстка Костыркин.indd 483
22/06/2009 17:34
484
А. В. Костыркин
воз ни каю щих в спон тан ной ре чи. При ня ты сле дую щие пра ви ла транскрибирования: 1. Ис поль зу ет ся толь ко ка та ка на. В це лях уни фи ка ции за пи си знаки ряда t- ヂji и ヅ zu исключены из использова ния и заменены знаками ряда s- ジ ji и ズ zu соответственно (слово チヂム, например, записывается вопреки об щим прави лам как チジム). 2. Слу жебные слова は, を и へ за писываются как произ носят ся, т.е. как ワ, オ и エ соот ветственно. 3. Искаженные слова, произ несенные небреж но или с ошибкой, записываются как есть, но сопровож даются восстановленным по контексту предположительно правильным про изношением. 4. Случаи нечет кого разграни чения ме жду долгой гласной и дифтонгом передаются на выбор либо знаком долготы, либо повто ром гласной, либо двумя гласными, если между двумя гласными нет морфемной или другой гра ницы (カーサン kaa-san ‘мама’, ケイロ kei-ro ‘маршрут’). При этом глагольные формы типа yaroo ‘давай сделаем’ считаются од ной морфемой. Ес ли же мор фемная гра ница между гласными есть, то до пуска ется только по втор гласной (ダイ イチ dai-ichi ‘номер один’). 5. Уд ли не ние глас ных и со глас ных, ко то рое не фик си ру ет ся норма ли зующи ми слова ря ми (sugooi вместо sugoi, tottemo вместо totemo), маркируются спе циальными те гами. Выделены 4 случая неод нознач но про изнесенных слов: 1. Про из но ше ние не од но знач но, но мож но по нять, что это за сло во. В этом слу чае про из но си тель ный ва ри ант по ме ча ет ся как ошибочный, при нем да ется пра вильный. 2. Произношение неоднозначно, и нет уверенности, су ществу ет сло во или нет. Ре ше ние о транс крип ции при ни ма ет ся на ос но ве контекста. 3. Произношение неоднознач но, и слово определить невоз мож но. В транскрипции со знаком во проса перечис ляются все ве ро ят ные вариан ты интерпретации. 4. Неоднозначность вызвана тем, что у слова более одного вари анта произношения. В этом случае на основе словарей и частотных списков, которые строятся на основе корпуса, устанавливается вари ант по умолчанию и он выбирается в качестве транскрипции. Аль тернативные варианты также фиксируются, но со знаком вопроса.
НКРЯ верстка Костыркин.indd 484
22/06/2009 17:34
485
Корпус японской разговорной речи 3.2. Систе ма тегов
Разработана система тегов и правила разметки ими различных вер баль ных и не вер баль ных зву ков. Для ка ж до го из че ты рех ти пов единиц A–D, названных выше в разделе 3.1, определен свой набор те гов. В таб ли це 2 при ве де ны при ме ры те гов, ко то рые ис поль зу ют ся для размет ки вербальных еди ниц. Таблица 2. При меры те гов для вербальных еди ниц Тег (D), (D2)*
(W)
(?)
(F) (M)
(O)
(A)
Область использования Слово, разделенное на фраг мен ты. Тег D2 используется только для ис правлений служебных слов, состоящих из од ной моры. Оговор ка, искаженное, ослаб ленное про изношение. В скобках слева от точ ки с запятой вы ра же ние, кото рое тракту ется как оши бочное, справа – его исправ ле ние. Нет уверен ности в правильности понимания, определении лекси че ской единицы, либо в вы боре иерог лифической запи си имеет ся не сколько вариантов. За полнитель пауз (filler), эмо цио нальное междометие Ме таязы ко вое выражение (авто нимное упот ребление, цитация)
Пример помеченных тегом единиц (D こ) これ これ(D2 は)が
(Wミダリ; ヒダリ)**
(? タオングー) (? あのー、あんのー)
(F あの), (F うわっ) (M わ) は (M は) と表記 する («ва» пишется как «ха») (O ザッツファイン)
Иностранные слова (не заимст вования), устаревшие слова, диа лектизмы — все, что не яв ляется основ ным предметом опи сания в дан ном про екте. Слова, в словарной фор ме кото (A イーユー; EU) рых использу ются зна ки помимо (A 百十九; 119)番 иерогли фов и азбу ки. Использу ется, в ча стно сти, для иерог ли фи ческой записи чисел.
НКРЯ верстка Костыркин.indd 485
22/06/2009 17:34
486 (K)
(S)
(B)
(笑) (泣) (咳) (あくび) (L)
А. В. Костыркин По какой-либо причине, напри мер, из-за вставки заполнителя пауз, стало невозможным иерог лифи ческое выражение единицы. Разговорное вы ражение, не заре гистрированное в транскрипци онном словаре Из-за негра мотно сти говорящий допустил ошибку в про чтении ие роглифи ческой запи си. Сюда входят, в частности, смешение китайских и японских чтений ие роглифов, оши бочно про пу щенные оз вончение, назали за ция или геминация на стыке морфем. От мечают случаи, когда невер бальные зву ки (смех, плач, ка шель, зевание) накладываются по времени на вербальные. Ше пот, бормотание, другие слу чаи по нижения го лоса Произвольное уд линение глас ных Произвольное уд линение соглас ных Не определенный гласный звук Пауза длиной бо лее 200 мс внут ри краткой единицы (см. ниже)
(K たち(F んー) ばな;橘)
(S ほりゃ)
脱力 & (B ダツリキ;ダツ リョク) 夢見話 & ユメミ(B ハナ シ;バナシ) 悪化 & (B アクカ;アッ カ) 何だって & (B ナニ;ナ ン)ダッテ (笑 ナニソレ)
(L アノコレナンダッケ) ソレデ 私 & ワタシ カイセキ ソレデ オモイ
Отдельно выде ляют ся те ги для не вербальных звуков, см. Таб лицу 3 Таблица 3. При меры те гов для не вербаль ных единиц.
Шум ды хания, смех, плач, кашель (не совпадающие по вре мени с речью)
Зво нок во вре мя док лада Хлопки аудитории Любой другой вид шума
НКРЯ верстка Костыркин.indd 486
22/06/2009 17:34
Корпус японской разговорной речи
487
Для ка ж до го ти па те гов оп ре де ле но, мо жет ли он ис поль зо вать ся в ба зо вой или фо не ти че ской транс крип ции, а так же ка кие мно же ст ва сим во лов он мо жет со дер жать. Для не од но знач ных слу ча ев по ста нов ки те гов раз ра бо та ны де таль ные пра ви ла, учи ты ваю щие кон текст, час те реч ные клас сы слов, ме ж ду ко то ры ми воз мо жен вы бор, их мор фо ло ги че ский со став. Так, ес ли кон текст не по зво ля ет од но знач но оп ре де лить, яв ля ет ся ли дан ная еди ни ца sono за пол ни те лем ‘как бы’ или при ла га тель ным ‘тот’, она по ме ча ет ся как за пол ни тель, ко то ро му при пи са на аль тер на тив ная ин тер пре та ция. Та ким об ра зом, поль зо ва те лю кор пу са да ет ся воз мож ность най ти еди ни цу по лю бой из ин тер пре та ций и уточ нить ее ха рак те ри сти ку са мо стоя тель но. Воз мож ны слу чаи вло жен ной за пи си те гов, ко гда обо зна чае мые ими еди ни цы час тич но сов па да ют во вре ме ни. 3.3. Диа логовая размет ка В слу чае диалогов ка ждый из двух го ворящих за писан на один из двух ка на лов, обо зна чае мых в раз мет ке L и R. На всех ин тер вью ве ду щий за пи сан на ка нал L. По сколь ку го ло са со бе сед ни ков не нак ладываются друг на друга, разметка таких текстов велась так же, как и монологиче ской ре чи. Диалоги записаны в фор ме од ного текста, реплики даны в порядке их произнесения. Если говоря щие друг за другом по частям произносят одно слово, то обе части слова поме чаются тегом D как фраг менты. 3.4. Размет ка тек стов, прочитан ных вслух Часть вы сту п ле ний по сле пе ре во да их из зву ко вой в тек сто вую фор му бы ла про чи та на вслух, при этом в ка ж дом слу чае текст чи тал че ло век, ко то рый про из но сил его из на чаль но. Чи таю ще го про си ли оз ву чи вать все за пи сан ные ого вор ки и их ис прав ле ния, за пол ни те ли, пау зы и т.п. По сколь ку со став чи тае мо го тек ста из вес тен за ра нее, в раз мет ке та ких тек стов нет те гов или (?), обо зна чаю щих не рас по знан ные еди ни цы. Слу чаи рас хо ж де ния ре чи с тек стом, та кие как ого вор ки и воз вра ты на зад по тек сту, по ме ча лись спе ци аль ным те гом «ошиб ка вос про из ве де ния». Час ти, до бав лен ные го во ря щим к тек сту от се бя, по ме че ны те гом <X>.
НКРЯ верстка Костыркин.indd 487
22/06/2009 17:34
488
А. В. Костыркин 3.5. Де ление тек ста на бунсэцу
В корпусе не вы деляется та кой тек стовой единицы, как пред ложе ние (см. ни же). Мак си маль ной по про тя жен но сти раз ме чае мой еди ни цей яв ля ет ся син таг ма-бун сэ цу. Это тра ди ци он но вы де ляе мая в японской граммати ке едини ца, состоящая, как пра ви ло, из со че та ния пол но знач но го сло ва с це поч кой от но ся щих ся к не му примыкающих служебных слов. Тексты корпуса сегментированы на та кие син таг мы, и это, во-пер вых, об лег ча ет раз мет ку тек ста, в част но сти, соот не се ние базо вой транскрипции с фоне ти че ской, во-вто рых, по зво ля ет ис поль зо вать по лу чен ные еди ни цы в даль нейшем син таксиче ском и дис курсивном анализе. В рас тек стов ке бун сэ цу от де ле ны друг от дру га зна ком но вой строки, специальных тегов, указывающих на их границы, не преду смотрено. Если внутри одного бунсэцу ока зывается пау за длиннее 200 мс, то оно разбивается и записывается в две или более строки. Поскольку такие случаи немногочисленны, можно считать, что в це лом одна строка в растек стовке кор пу са соответствует одному бун сэцу. Вот основные случаи, в которых проводятся границы бунсэцу: 1. После цепочки служебных слов и вспомогательных глаголов. 2. После подлежа щего и те матической группы. 3. После определительных групп, как изменяемых (renyou), так и неизменяемых (rentai). 4. По сле гла го ла в сре дин ной или фи нит ной фор ме, а так же в форме императива. 5. Справа и слева от наречий. 6. После междометий. 7. После имен без оформляющих их по слелогов (dokuritsu-kaku). 8. Внутри именного сцепления (taigen-renzoku), если у части сце пления есть собст венное оп ределение. 9. Между аппозитивными чле нами. 10. Межд у сочиненными членами. Даже если названные прави ла требуют выделения границ бунсэцу, этого не происходит в сле дую щих исключи тельных слу чаях: меж ду именами и фамилиями, внутри сложных слов идио матического характера, внут ри составных гео графи ческих назва ний, назва ний праздников, товаров, сложных на званий растений, назва ний теле
НКРЯ верстка Костыркин.indd 488
22/06/2009 17:34
Корпус японской разговорной речи
489
передач, музыкальных и художественных произведений, матема тических формул и в некоторых других специально оговоренных случаях. Из этих ис к лю че ний есть свои ис к лю че ния, ко то рые рас про страняются на случаи, харак терные именно для раз го вор ной речи, такие как полные или частичные исправления уже сказанного, пре рывание фразы на се редине (iisashi), встав ка одной фразы внутрь дру гой, в частности не до пусти мое в пись менной речи раз деление знаменательного и подчиняющего его служебного слова финитны ми глагола ми7, которые могут быть по яснениями или при влекаю щими внима ние слушате ля оборотами. 3.6. Мор фологиче ская разметка Морфологическая разметка со стояла из выделения собственно морфоло гических еди ниц и оп реде ления их лекси ко-грамматиче ской интерпрета ции [Ogura 2008]. 1 млн. слов был размечен вруч ную, на что ушло более 2-х лет. Остальные 6,5 млн. слов раз мечено ав тома тически [Uchimoto 2003]. При этом руч ная разметка для по вышения эффективности работ частич но была ав томатизиро вана. Для текстовых форм по спе циальным кри тери ям опре деляются следующие признаки: 1. Текстовые границы словоформы. Проблема определения гра ниц слов (go), ров но как и оп ре де ле ния са мо го по ня тия сло ва, в японской лингвистике до сих пор не име ет окончательного ре ше ния [Gengo 2006]. Об следо вания тек стов, которые про водились в ГИНЯ до соз да ния кор пу са уст ной ре чи, не да ли уни вер саль но го решения: в ка ждом ис следовании в за висимости от его це лей в ка честве минимальной единицы лексического описания приходилось выбирать текстовые еди ницы разной про тяженности. По сколь ку удов ле тво рить всем по треб но стям поль зо ва те лей корпуса заведомо невозможно, авторы поставили две максимально общих задачи — во-первых, дать возможность исследовать лексику и грамма тику раз говорного языка, во-вто рых, позво лить выяв лять лингвистические особенности именно уст ной речи. Между этими це ля ми есть про ти во ре чие. С од ной сто ро ны, для ис сле до ва ния 7
Случаи типа 弁別率 | ですね | を «степень различия | COP+PART | ACC», где между именем и показателем прямого дополнения вставлена связка.
НКРЯ верстка Костыркин.indd 489
22/06/2009 17:34
490
А. В. Костыркин
лексиче ского состава корпу са жела тельно выделить минимальные текстовые единицы8. С другой стороны, членение на минимальные по про тя жен но сти еди ни цы ис к лю ча ет из по лу чае мо го в ре зуль тате лексикона единицы, которые ха рактер ны именно для устной ре чи. Что бы пре одо леть это про ти во ре чие, в кор пу се про ве де но разделение текстовых еди ниц на два вида — дол гие и краткие — и морфологиче ская разметка сде лана для единиц обоих ви дов. Дол гие еди ни цы со от в ет с т ву ют бун с э цу (см. вы ше). Боль шин с т во дол гих еди ниц со став ля ют слож ные су ще ст ви тель ные (kokuritsukokugo-kenkyujo «Гос. ин сти тут нацио нального языка») и глаголы (tabe-akiru ‘пресытиться’). К их числу относятся также устойчивые сочетания двух служебных слов (de-wa ‘итак’), а также служебных слов с глаголами (ni+yoru+te = niyotte ‘по средством чего’). Краткие единицы — это ми нимальные еди ницы, имеющие в со вре мен ном язы ке зна че ние. Вы де ля ют ся шесть клас сов крат ких единиц: ваго, кан го, гайрайго, символы, имена людей, топонимы. В не которых случаях крат кие еди ницы со стоят из двух минималь ных единиц, под которыми понимают ся морфемы или просто сло во об ра зо ва тель ные эле мен ты, за пи сы вае мые од ним ие рог ли фом. Краткими единицами считаются заполнители пауз и обрывки слов. Отдельные правила предусмотрены для выделения кратких единиц внутри слитно произнесен ных слов (yuugoo) и сокращений. Всего в корпусе выделено 7,52 млн. кратких и 6,31 млн. долгих единиц. 2. Словарная форма слова. За счет того, что у каж дой лексемы в уст ном кор пу се по ми мо кос вен ных форм име ет ся мно же ст во со кра щен ных, плохо ар ти ку ли ро ван ных или ненор ма тив ных тек стовых реализа ций, число и ва риативность форм од ной лексемы в устном корпусе выше, чем в письменном. Для обеспечения полноты и точности корпусного поиска для всех тек стовых форм оп ределя 8 Авторы осознают опасность чрезмерного дробления, которое может привести к появлению шума при текстовом поиске. Например, слово itarutokoro ‘везде, всюду’ не должно находиться при поиске по слову itaru ‘идти, достигать’. В свою очередь желательно иметь возможность найти терминологические сочетания типа gengo-shigeki «языковой стимул», gengo-moderu «языковая модель» и как целостные единицы, и как единицы, в составе которых есть слово gengo «язык».
НКРЯ верстка Костыркин.indd 490
22/06/2009 17:34
Корпус японской разговорной речи
491
ет ся их сло вар ная фор ма, по ко то рой про во дит ся раз гра ни че ние между различными лек семами. Словарная фор ма состоит из двух частей — из азбучной (daihyoo-kei) и аз бучно-иероглифической за пи си (daihyoo-hyooki). Аз буч ная за пись от ра жа ет чте ние сло ва и его морфологический состав (например, для 或いは ‘или же’ чтение записывается как アルイワ, а азбуч ная словарная форма как アルイ ハ). Азбучно-иерог лифиче ская запись по зволяет отличить друг от дру га омонимы. 3. Частеречная информация. За основу взята система частей речи, принятая в стандартной школь ной япон ской грам матике. Несмот ря на от ме чавшиеся недостат ки школьной системы час тей речи и предла гавшиеся варианты ее ис правле ния, авторы корпуса по счи тали, что с ней будет про ще работать и разметчикам корпуса, и его будущим пользователям. При этом при нят гиб кий подход к описа нию явлений, не укладывающихся в школьную систему. Система час те реч ной раз мет ки кор пу са по не об хо ди мо сти мо жет ис прав ляться и расширяться. При нятая система не настолько дробна, как час те реч ные сис те мы, ис поль зуе мые в япон ских ав то ма ти че ских мор фо ло ги че ских ана ли за то рах. Од на ко от каз от бо лее дроб но го членения частей речи вполне оправдан: дело в том, что за преде ла ми де ле ния на ос нов ные час ти ре чи у раз ных ис сле до ва те лей начина ются расхожде ния в оп ределении час теречных подк лас сов, и вы брать какую-то одну систему было бы трудно и непрактично. Оп ре де ле ние час те реч но го клас са сло ва про ис хо дит пу тем ис сле до ва ния кон тек стов, в ко то рых оно упот реб ля ет ся в кор пу се. Для долгих и кратких единиц вместе предусмотрено 15 частей речи: су ще ст ви тель ные, ме сто име ния, не пре ди ка тив ные при ла га тель ные, неизменяемые прилагательные, наречия, союзы, междометия, глаголы, предикативные прилагательные, служебные глаголы, час тицы, приставки (sentooji), суффиксы (setsubiji), символы, запинки (iiyodomi). При став ки и суф фик сы, та кие как -gatai, -rashii, вы де ля ют ся в от дель ную часть ре чи, по сколь ку об ла да ют в япон ском большей синтаксичностью, чем суффиксы евро пейских язы ков. К символам относятся, например, имена разделов, названные латин скими букв ами, или автонимные упот ребления слов. 4. Словоизменительный тип вы деляется у предикативных при ла га тель ных (при ла га тель ные на -i, -ku, -shiku и фор мы из клас
НКРЯ верстка Костыркин.indd 491
22/06/2009 17:34
492
А. В. Костыркин
си че ского языка бунго), глаго лов, имен канго, ко то рые способны со че тать ся с гла го лом suru ‘делать’, и суф фик сов, фор ма ко то рых определяется как адъективная (-gatai) или глагольная (-garu) в со ответствии с грамматиче ским ти пом суффик са. 5. Словоизменительные признаки присваиваются только словам изменяемых частей речи и определяют форму данной словоформы. При ручной разметке пе речисленные признаки (кроме тексто вых границ словоформ) оп реде лялись с при менением компьютер ных про грамм. В слу чае слит но го про из но ше ния слов ис ход ные вероятные формы восстанавливались, и морфологическая разметка давалась уже для них (например, для вспо могательной глагольной формы -teru восстанавливаются -te и iru). Для со кращений наря ду с полной формой указывается, что это сокращение. Заполнители относятся к классу меж дометий. 3.7. Сег ментация на синтаг мы Составители корпуса пришли к выводу, что поня тие предложения плохо применимо к устной спонтанной речи. Ни формальные, ни семантические крите рии не по зволяют выделить в ре чи единицы, которые со ответствовали бы при вычному для пись менного текста пред ло же нию: выделение пред ложе ний по финитным формам гла гола или другим признакам конца предложения дает очень длинные единицы, сегментация по паузам дает единицы не всегда имеющие цельную синтаксическую структуру, для вы деления семантически целостных единиц трудно подобрать критерии. По мнению авторов, гораздо более осмысленные ре зультаты дает раз биение текста на синтагмы (setsu). Именно та кие единицы об ла дают в устной речи струк турной самостоя тельностью и дос таточной внутренней цело стностью и могут быть использованы как минимальные единицы в дру гих видах анализа [Maruyama 2008]. Задача выделения синтагм состоит в нахождении их границ и оп ределении типов самих син тагм. Сегмен тация текста на син тагмы состояла из автоматического определения границ синтагм и ручной правки полученных результатов. Для первого этапа использовалась про грам ма CBAP (Clause Boundary Annotation Program), ко то рая способна определять границы синтагм на ос но ве грам матической информации (глагольных форм, сою зов, локальной морфологиче
НКРЯ верстка Костыркин.indd 492
22/06/2009 17:34
Корпус японской разговорной речи
493
ской информации), а так же опре делять ти пы вы деленных гра ниц. Все го раз ли ча ет ся 49 ти пов гра ниц. Они раз де ле ны на аб со лют ные (правая граница синтагмы соответствует концу предложения), сильные (не конец предложения, но разрыв в речи) и слабые (обыч но не сопровождают ся большими разрывами в речи). По лученные в результате синтаг мы делятся на не сколько типов по сте пени их синтаксической и семантической самостоятельности. Эти сведения позволяют предсказывать синтак сическое по ведение единиц (сфе ру действия модальных по казателей, свойства тематических и па дежных показателей). Особенно интересны с точки зрения лингвис тического анализа разбиения по абсолютным и сильным границам. При пи сан ный син таг мам тип име ет ли бо мор фо ло ги че ский (син тагмы на -tari, на -tewa, на -temo), либо частеречный (син таг мы глагольного или именного типа), либо лексико-семантический характер (синтагмы при чины на -kara, причины на -node, цитации на -toiu, сочинения на -de, и др.). Ручная пост-обработка состояла в том, чтобы исправить те места, где про яв ле ния осо бен но стей уст ной спон тан ной ре чи осо бен но сильны и не позволили получить надеж ный результат ав томатиче ски. Вот некоторые случаи, потребо вавшие ручного исправ ления: 1. Единица de интерпретирована как послелог там, где это связка. 2. Вставка одних синтагм внутрь дру гих. При этом вставленные синтаг мы могут иметь внутри себя соб ственную сильную гра ницу. 3. Спонтанное изменение плана речи, обрыв фразы на се редине. 4. Ошибочно интер прети рованы как конец синтагмы встав лен ные внутрь синтагмы заполнители пауз (nante iu n desu ka ‘как бы это сказать’), маркеры оговорок (to iu desu ka (‘не, не так’), кото рые зачеркивают сказанное, междометие ne ‘не так ли’ и другие единицы. 5. Ис прав ле ние го во ря щим ска зуе мо го при во дит к по яв ле нию в тексте двух глаголов в финитной форме — ошибочного и правиль ного. Программа ошибоч но про водит ме жду ними гра ницу. 6. Проблемы в структуре зависимостей. Тематическая группа (на wa или mo) может относиться к не скольким синтагмам, раз делен ным сильной границей, и тре буется при соеди нить отделившиеся те ма тиче ские группы.
НКРЯ верстка Костыркин.indd 493
22/06/2009 17:34
494
А. В. Костыркин
7. Инверсия поряд ка следования под лежа щего и сказуемого. 8. Отсутствие у единицы синтаксического хозяина. 9. Проблемы дискурсивного ха рактера: встав ка темы или вы ра жения, подводяще го итог сказанному, точ ка смены темы. 3.8. Дискур сивная размет ка Дискурсивная размет ка выполнена для 40 записей из ядра корпу са. Разметка проводилась в терминах тео рии Б. Грош и К. Сиднер [Grosz and Sidner 1986]. Счи та ет ся, что дис кур сив ная цель го во ря ще го по лу ча ет вы ра же ние в по верх но ст ной струк ту ре тек ста. Оп ре де ле ние це ли го воря ще го позволяет понять, по чему для ее достижения он выбрал данное речевое поведение и данный способ изложения. В принятом подходе дискурс разбивается на сегменты. Подразумевается, что это раз бие ние воз мож но про вес ти без ос тат ка. За да ча дис кур сив ной разметки — определить, какой вклад вносит каждый сегмент в дос тижение общей цели дискур са. В ходе анализа выделяются сегмен ты, им даются заголовки (де ск рип торы). Минимальной единицей анализа считается бунсэцу (см. выше). Анализ проходит в два этапа: 1) раз мет ка ка ж до го тек ста тре мя раз мет чи ка ми и 2) обоб ще ние полу ченной разметки экс пер тами. Перед раз метчиками ставится задача выделить не которые цело ст ности, которые мож но объединить под од ним за главием и кото рые осозна ются как отдельная тема (wadai). Для ка ждого сегмента выделяются его начало, конец, оп ределяются его цель, возможно, подцели, добавляются ком ментарии. В хо де пер вого этапа раз мет чик сначала слушает текст один раз и разбивает его на 1-15 частей, ука зы вая не фор маль ным язы ком их це ли. За тем мож но слу шать текст сколь ко угод но раз и уточ нять по лу чен ную раз мет ку. Опи сание цели намеренно не фор мализовано, поскольку ав торы стре мились получить инди видуальные опи сания и вы явить раз личные взгляды на один и тот же текст: если ввести ог ра ничения, то инди видуальность описания пропадет. Степень дробности разбиения на сег менты не ограничивалась. Ес ли ме ж ду раз ны ми раз мет чи ка ми об на ру жи ва ет ся един ст во в оп ре де ле нии гра ниц сег мен тов, то для по лу чен ных сег мен тов вы би ра ет ся за го ло вок, со стоя щий из двух час тей: те мы (то, что
НКРЯ верстка Костыркин.indd 494
22/06/2009 17:34
Корпус японской разговорной речи
495
объ яс ня ет го во ря щий), и оце ноч но го де ск рип то ра (ка ки ми сред ст ва ми го во ря щий дос ти га ет сво ей ги по те ти че ской це ли). Из этих пар за тем стро ит ся ко неч ный за го ло вок сег мен та, ко то рый мо жет со дер жать слу жеб ные сло в а; при этом до пус ка ет ся пе ри фра зи ро ва ние. На при мер, рас сказ о тон ких сте нах в об ще жи тии, ко то рые не нра вят ся го во ря ще му, по лу ча ет за гла вие «про бле ма тон ких стен». Воз мож ные де ск рип то ры раз де ле ны на не сколь ко клас сов. Глав ное про ти во пос тав ле ние клас сов свя за но со сте пе нью субъ ек тив но сти оцен ки. Сре ди субъ ек тив ных вы де ля ют ся: поль за (вы го да, не дос та ток, про блем ное ме сто), от но ше ние (при ят но, вы зы ва ет ра дость, не при ят но), осо бен ность, ин тер пре та ция (впе чат ле ние, мысль по по во ду). Сре ди ме нее субъ ек тив ных: со дер жа ние, со стоя ние, вид, сорт, фор ма, ат ри бу ция, ре зуль тат. Для опи са ния лек ци он ных за пи сей со став лен свой спи сок де ск рип то ров: оп ре де ле ние, со став, объ ект, прин ци пы, при мер, ме тод, про це ду ра, спо соб, на прав ле ние, рас пре де ле ние (в ре чи о ре зуль та тах экс пе ри мен тов). Ес ли раз мет чи ки не схо дят ся в оцен ке, то сна ча ла про ве ря ют, насколько удачно оп ре делена тема, ли бо пытаются вве сти новый дескриптор с указанием его свя зей с имею щимися. Установление це лей сегмен тов состоит из двух этапов: 1. Объ е ди ня ют ся ре зуль та ты ра бо ты 3 раз мет чи ков. При этом границы сегментов могут не совпадать. Там, где есть совпадение у двух человек, постулирует ся граница. Для спор ных случаев преду смотрены формальные критерии выбо ра. 2. Определяется цель дискурса на основе его подцелей. Если под цель всего одна, то она совпадает с це лью. Если больше, то делает ся по пыт ка сна ча ла объ е ди нить те мы и оце ноч ные де ск рип то ры подцелей. Часто они либо име ют од нотипные час ти, либо про сто сов падают. Если эта процедура не дает результата, то проверяется, не задал ли сам говорящий в на чале вы ступл ения план или пред пола гае мое содер жание речи. В ито ге про во дится об щая проверка согла сован ности об щих и частных результатов. Ав то ры на ме рен но не ис поль зо ва ли в ин ст рук ци ях кон крет ные язы ко вые при ме ры или све де ния о пау зах, а да ли раз мет чи кам сво бо ду вы бо ра, по сколь ку счи та ют, что не об хо ди мо учи ты вать ре зуль та ты ре ше ний раз мет чи ков, ко то рые те де ла ют
НКРЯ верстка Костыркин.indd 495
22/06/2009 17:34
496
А. В. Костыркин
на ос но ве язы ко вой и вне язы ко вой ин фор ма ции и со дер жа ния тек ста. 3.9. Синтак сиче ская разметка Для 500 тыс. слов вы полнена синтак сиче ская раз метка в тер минах тра ди ци он ной для япон ской грам ма ти ки сис те мы за ви си мо стей kakari-uke, в которой строятся синтаксические деревья непосредст венного подчинения. На правлены зависимо сти от подчиненного к хозяину. Поскольку японский — язык левостороннего ветвления, в большинстве случаев зависимости оказываются направлены слева на пра во, од на ко есть ис к лю че ния. За еди ни цы син так си че ско го анализа приня ты бунсэцу. При синтаксической разметке выявлен ряд проблем, вызванных спецификой устной речи, вот некото рые из них: 1. В слу чае ис прав ле ний оши боч но про из не сен ная еди ни ца не встраивается в общее де рево, а выпадает из него. В та ких случаях первоначально произнесенная часть ставится в подчинение исправ ленной. 2. Вставленные синтагмы имеют свою собственную структуру, не связанную со структурой объемлющей синтагмы, для них структура строится отдельно. 3. Инверсия, когда зависимый член оказывается справа от хозяи на, помеча ется особой свя зью, идущей спра ва налево. 4. От сут ст вие у еди ни цы син так си че ско го хо зяи на по ме ча ет ся особым обра зом. В синтаксической струк туре вы деляются как тра диционные ти пы свя зей (со чи ни тель ная, ап по зи тив ная («пре зи дент Кен не ди»), уточняющая («такие [вещи], как мандарины или яблоки»), так и спе ци фи че ские для дан но го про ек та – ис прав ляю щая и ин вер ти рованная. Бунсэцу как единицам синтаксической структуры приписывают ся по меты, на при мер: за пол нитель, со юз, меж дометие, об ращение, нет хозяина, пересечение (непроективность), старо японский язык и др. 3.10. Фо нети ческая разметка Вы пол не на для яд ра кор пу са [Fujimoto 2008]. Раз ра бо тан ная сис те ма записи призвана отражать совре мен ное состояние языка и от
НКРЯ верстка Костыркин.indd 496
22/06/2009 17:34
Корпус японской разговорной речи
497
слеживать происходя щие в нем фо нетиче ские изменения. По стро гости она занимает промежуточное положение между подробной и упрощенной фонети ческой транскрипцией. Единицами транс кри бирования являют ся фо немы (bunsetsu-on). Запись сделана бу ква ми ла тин ско го ал фа ви та, про ти во пос тав ле ние боль ших и ма лых букв значимо. В файле каждая единица записывается в строку с ука занием вре мени кон ца ее зву чания. Еди ни цы могут вкла дываться друг в друга. Помимо име ни фонем исполь зуются теги для: —— —— —— —— —— —— —— —— —— ——
закрытого участка во время про из несения взрыв ной соглас ной или аффрикаты, паузы, остаточной гласной форманты после окончания колеба ния голосовых свя зок, коле бания свя зок по сле гласной, гортанного скри па (voice fry), неопре деленно го гласно го, неопределенного согласного, шума, дыхания, начала ар тикуляции.
В слу чае, ко гда не уда ет ся ус та но вить гра ни цы зву ко вой еди ни цы или по следовательности единиц, весь ком плекс объединяется в од ну фор маль ную еди ни цу, ко то рой при пи сы ва ют ся все ха рак теристики, опреде лимые для входя щих в ее состав элементов. От дельно описаны сочетания единиц, для которых такое совмещение наиболее вероятно. Разметка проводилась в 5 эта пов: 1. Автоматическое по рожд е ние транскрип ции по ау диоданным. 2. Выравнивание разметки при помощи алгоритма, основанного на скрытой марковской мо де ли. 3. При ведение раз метки вруч ную к стан дарт ной сис теме записи. 4. Проверка и исправление двумя спе циалистами по фонетике. 5. Разрешение проблем, возникших на эта пе 4. Помимо самой фонети ческой разметки в ре зульта те рабо ты полу чен пе ре чень наи бо лее про блем ных для та кой раз мет ки слу ча ев,
НКРЯ верстка Костыркин.indd 497
22/06/2009 17:34
498
А. В. Костыркин
а также таблица мор со времен ного япон ского язы ка с их фо нети ческой записью. Для раз мет ки ис поль зо ва лась бес плат но рас про стра няе мая про грам ма WaveSurfer. 3.11. Просоди ческая разметка Выполнена для ядра корпуса с целью обеспечить возможность поис ка еди ниц по их ин то на ци он ным ха рак те ри сти кам [Koiso 2003]. За основу взята просодическая транскрипционная система ToBI (Tones and Break Indices), на основе которой для токий ского диалекта раз работана система J-ToBI. Подробное описание см. в статьях [Igarashi 2008; Maekawa et al. 2002]. 3.12. Ха рактеристика речи Каждому выступлению в ходе записи один из звукоопера торов да вал субъективную харак теристику сти ля и сте пени спонтанности речи. Эта оценка по зволяет в це лом различать между собой од но типные записи. Оценка проводилась по 5-балльной шкале по сле дую щим па ра мет рам: спон тан ность вы сту п ле ния, до ля слож ных спе ци аль ных слов, ско рость ре чи, чет кость про из но ше ния, при сут ствие диалектных осо бенностей в лек сике или на других язы ковых уровнях (степень литературности языка), стиль речи. Помимо циф ровых позиций в анке тах бы ли пре дусмотрены словесные оценки (речь беглая или нет, монотонная, вы разительная, рас слабленная, напряженная и др.). 4. Распространение корпуса Кор пус рас про стра ня ет ся на 18 DVD дис ках, ку да вклю че ны ау дио за пи си, транс крип ция, раз мет ка всех опи сан ных вы ше ти пов, ре фе ра ты тек стов, сло варь всех крат ких еди ниц, встре чаю щих ся в кор пу се, све де ния о го во ря щих (пол, воз раст, ме сто ро ж де ния, крат кая био гра фия), ин ст рук ция поль зо ва те ля, про грамм ные ин ст ру мен ты для ра бо ты с кор пу сом (для по ис ка за пи сей, для про слу ши ва ния за пи сей, их ана ли за). Тек сто вые дан ные пе ре ве де ны в фор мат XML. Для по ис ка по ним ис поль зу ют ся сред ст ва XPath, по ис ко вый за прос мож но со став лять при по мо щи ви зу аль но го кон ст рук то ра, ко то рый по зво ля ет за да вать кри те рии по ис ка
НКРЯ верстка Костыркин.indd 498
22/06/2009 17:34
Корпус японской разговорной речи
499
и спо соб пред став ле ния най ден ных дан ных. Дан ные, по лу чен ные в ре зуль та те за про са, мож но со хра нить в файл в фор ма те CSV (таб ли ца, в ко то рой зна че ния яче ек раз де ле ны за пя ты ми). Приме ры ау диозаписей и разметки тек стов можно найти по ад ресу http://www.kokken.go.jp/katsudo/seika/corpus. Там же регулярно публикуется новая информация по про екту.
Литература [Fujimoto 2008] Fujimoto Masako. «Nihongo hanashikotoba koopasu» no bunsetsuon joohoo (Сведения о сегментных фонетических еди ницах в Корпусе японской разгноворной речи). // Nihongo gaku, 2008, Vol.27-5, pp.90–102. [Gengo 2006] Gengo. Tokushuu: kotoba no tan'i (Журнал «Язык». Те ма тический выпуск «Язы ковые еди ницы»). 2006, Vol.35, No.10. [Grosz and Sidner 1986] Grosz, B.J., Sidner, C.L., Attention, Intentions, and the Structure of Discourse // Computational Linguistics, 12:3, 1986. [Igarashi 2008] Igarashi Yosuke. «hanashikotoba koopasu» no inritsu joohoo (Просодиче ская информация в Кор пусе японской раз го ворной речи) // Nihongo gaku, 2008, Vol.27-5, pp.103–113. [Koiso 2003] Koiso Hanae. Koopasu ni yoru onsei danwa no kenkyuu (Ис следование устных диа логов при помо щи корпуса) // Nihongo gaku, 2003, Vol.22, pp.200–209. [Maekawa et al. 2001] Maekawa Kikuo, Kikuchi Hideaki, Kagomiya Takayuki, Yamaguchi Masaya, Koiso Hanae, Ogura Hideki. «Nihongo hanashikotoba koopasu» no koochiku ni okeru keisanki riyoo (Ис поль зо ва ние вы чис ли тель ной тех ни ки при соз да нии Кор пу са япон ской раз го вор ной ре чи) // Nihongo gaku, 2001, Vol.20, pp. 61–79. [Maekawa et al 2002] Maekawa Kikuo, Kikuchi Hideaki, Igarashi Yosuke, Venditti Jennifer. X-JToBI: an Extended J-ToBI for Spontaneous Speech // ICSLP, 2002, pp.1545-1548. [Maekawa 2008] Maekawa Kikuo. «Nihongo hanashikotoba koopasu» no sekkei to jisso (Корпус японской разговорной речи: план и его реализация) // Nihongo gaku, 2008, Vol.27-5, pp.54–62.
НКРЯ верстка Костыркин.indd 499
22/06/2009 17:34
500
А. В. Костыркин
[Maruyama 2008] Maruyama Takehiko. «Nihongo hanashikotoba koo pasu» no setsu tan'i joohoo (сведения о синтагмах в Корпусе япон ской разговорной речи) // Nihongo gaku, 2008, Vol.27-5, pp.82–89. [Nihongo 2006] Nihono hanashikotoba koopasu no koochiku hoo. Kokuritsu kokugo kenkyuujo hookoku 124 (Метод построения кор пу са разго вор ной японской речи. Отчет Гос. инсти ту та нацио нального языка). Токио: 2006. (http://www.kokken.go.jp/katsudo/ seika/corpus/csj_report) [Ogura 2008] Ogura Hideki. «Nihongo hanashikotoba koopasu» no gengo tan'i (Язы ко вые еди ни цы в Кор пу се япон ской раз го вор ной речи) // Nihongo gaku, 2008, Vol.27-5, pp.72–81. [Uchimoto 2003] Kiyotaka Uchimoto, Kazuma Takaoka, Chikashi Nobata, Atsushi Yamada, Satoshi Sekine, Hitoshi Isahara. Morphological Analysis of the Corpus of Spontaneous Japanese. In Proc. ISCA & IEEE Workshop on Spontaneous Speech Processing and Recognition, 2003.
НКРЯ верстка Костыркин.indd 500
22/06/2009 17:34
Научное издание
Национальный корпус русского языка: 2006—2008 Новые результаты и перспективы
Оформление обложки Н. В. Плунгян Оригинал-макет А. В. Санникова
Подписано в печать 28.05.09. Формат 84×1081⁄32. Бумага офсетная. Печать офсетная. Гарнитура «ITC Charter» Усл.-печ. л. 15,7 Тираж 400 экз. Заказ № 1097.
Издательство «Нестор-История» 197110 СПб., Петрозаводская ул., д. 7 тел.: (812)235-15-86 e-mail: [email protected] Отпечатано в типографии «Нестор-История» СПб., ул. Розенштейна, д. 21 Тел.: (812)622-01-23