УДК 81'33

Головко Николай Вячеславович

 

Особенности формирования словника ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов (АМС-АСОТ)

 

Аннотация:

В статье представлен анализ параметров, которыми должны обладать заголовочные слова специального ассоциативно-метафорического словаря, создаваемого для удовлетворения актуальных потребностей аналитических алгоритмов автоматизированных систем обработки текстов, и на основе этого анализа сформулированы критерии отбора лексических единиц в словник. Предложен формальный критерий, отражающий специфические особенности метафорического переноса посредством внешних параметров лексический единицы и в то же время принимающий во внимание проблематичность установления строгих требований к отбираемым словам, обусловленную сущностью метафоры как переноса значения по сходству или подобию. Также предложен содержательный критерий, опирающийся на отбор лексических единиц по признаку их способности служить основой для метафорического переноса, а также на принцип семантической базовости, понимаемой как возможность использования слова для описания семантики сколь возможно большего количества других лексических единиц. С учетом обоих критериев выведено заключение о целесообразности использования существующего опыта составления активных лексикографических баз данных и, в частности, «Проспекта активного словаря русского языка» (М., 2010) в качестве основы для словника, а также определен порядок, в соответствии с которым должен строиться этот словник.

Ключевые слова:

ассоциативная лексикография, метафора, автоматизированные системы обработки текстов, русский язык, словник

 

Golovko Nikolay Vyacheslavovich

 

Peculiarities of vocabulary construction in the associative-metaphoric dictionary of the Russian language designed for the needs of automated text processing systems (AMD-ATPS)

 

Annotation:

The article presents an analysis of the parameters of head words of a special associative-metaphoric dictionary designed to meet the actual needs of analytical algorithms of automated text processing systems, and on the basis of this analysis criteria are formulated for selecting lexical units into its vocabulary. A formal criterion is proposed, that reflects the specific features of metaphorical transition by means of external parameters of lexical units while taking into account the problematic nature of establishment of strict requirements for the selected words, conditioned by the essence of metaphor as the transfer of meaning by similarity. Also, a content criterion relying on selection of lexical units through their ability to constitute a basis for metaphorical transition, as well as through the principle of semantic basicity, understood as possibility of using a word to describe the semantics of as many other lexical units as possible, is proposed. Taking into account both criteria, a conclusion on advisability of using the existing experience in compiling active lexicographic databases and, in particular, the Prospectus for the Active Dictionary of the Russian Language (Moscow, 2010) as the basis for the vocabulary, is drawn, and also a construction procedure for this vocabulary is described.

Keywords:

associative lexicography, metaphor, automated word processing systems, Russian language, vocabulary

 

Текст статьи

В наших предыдущих работах, посвященных вопросам разработки и построения специального ассоциативного словаря русского языка на основе метафорического переосмысления языковых единиц и с учетом потребностей программного обеспечения для автоматической обработки текстов на естественных языках, мы

- характеризовали целесообразность машинной интерпретации метафоры через посредство возникающих в сознании носителя языка ассоциаций с теми или иными понятиями,

- осуществляли обозрение существующих лексикографических баз данных подобного рода с целью установить, имеет ли смысл их применение в аналитических алгоритмах автоматизированных систем обработки текстов (АСОТ),

- вводили дополнительные теоретические разъяснения относительно причин, требующих создания особого ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов (АМС-АСОТ), а также относительно специфики такого словаря в его отличии от существующих ассоциативных словарей русского языка.

Следующим этапом построения теоретического обеспечения АМС-АСОТ, который представлен в настоящей статье, должно явиться рассуждение о том, на основании каких принципов отбора лексики должен быть образован словник этого словаря, а также о том, целесообразно ли применение условного «языка семантических примитивов» в ходе такого отбора и следует ли формировать заблаговременно готовый набор возможных ассоциаций, из которых следовало бы выбирать респондентам в ходе их анкетирования (широкомасштабный опрос испытуемых представляется единственно верным способом составить репрезентативную базу ассоциативного словаря).

Мы предпримем попытку решить эти вопросы одновременно, выбирая и анализируя критерии, которым должны соответствовать включаемые в АМС-АСОТ лексические единицы (прибегая к традиционной лексикографической терминологии ради ясности, мы можем с некоторой долей условности назвать их заголовочными словами).

Формальный критерий

В других элементах теоретического обеспечения АМС-АСОТ – в частности, в статьях «Ассоциативный аспект интерпретации метафоры в процессе автоматизированного анализа русскоязычных текстов» и «Обзор современного состояния русскоязычной ассоциативной лексикографии» – мы упоминали о результатах проводившихся под нашим руководством исследований, которые показали, что основным источником формирования новых значений лексических и синтаксических единиц является метафорическое переосмысление. Поскольку об этом уже говорилось неоднократно, мы не станем повторять подробные разъяснения и ограничимся кратким упоминанием о данном факте, от которого будем отталкиваться в дальнейшем.

В силу того, что, вероятно, именно метафору следует считать основной движущей силой развития переносных значений и смыслов (в данном конкретном случае – в ее отличии от метонимии, синекдохи и других форм переноса), кажется вполне очевидным, что в словник АМС-АСОТ необходимо будет отбирать заголовочные слова, соответствующие сущности и специфике метафорического переноса. Кроме того, при отборе по формальному критерию следует учитывать также и принципиальную ориентацию словаря на перспективу его использования в системах автоматизированного анализа текстов (заголовочные слова должны быть как можно более удобны и универсальны для обработки в аналитических алгоритмах). Сюда же можно отнести и рассмотрение вопроса об использовании заранее сформированного списка ассоциаций при опросе респондентов.

Словари литературоведческих и лингвистических терминов (см., напр.: [3], [7]) ожидаемым образом сходятся в том, что метафора представляет собой соотнесение предметов или явлений на основании общего признака. К этой интерпретации весьма затруднительно добавлять что-либо, поскольку понимание данного термина является устоявшимся и традиционным вплоть до малых подробностей. Позволим себе, впрочем, дать краткую цитату из «Словаря литературных терминов» 1925 г., которая интересна по двум причинам: с одной стороны, она лишний раз показывает, что восприятие метафоры остается стабильным на протяжении значительных временных периодов, а с другой стороны – позволяет логично перейти к следующей части наших рассуждений. В соответствующей словарной статье сказано, что метафора – «...вид тропа, в основе которого лежит ассоциация по сходству или по аналогии. Так, старость можно назвать вечером или осенью жизни, так как все эти три понятия ассоциируются по общему их признаку приближения к концу: жизни, суток, года» [5].

Заключительная фраза в приведенной цитате обращает внимание на то, что сущность признака, по которому сопоставляются понятия в метафоре, может варьироваться в весьма широких пределах. Эта вполне очевидная мысль имеет для нас значение потому, что данный фактор не позволяет нам задать строгий формальный критерий для отбора лексики: если признак может быть любым, то, вероятно, и в ассоциативно-метафорическом словаре должны быть представлены все доступные лексические единицы, чтобы охватить потенциально любой вариант переноса. Мы не можем, например, опереться на понятие «признак» само по себе и ограничить словник теми лексемами, которые по своей сущности призваны выражать признак предмета (допустим, отобрать только имена прилагательные) или признак действия (скажем, свести словник к наречиям): тот же самый пример из словарной статьи, который процитирован выше, ясно показывает, что под понятие «признак» с тем же успехом может подпадать имя существительное («приближение» [к концу]).

Однако нам представляется, что создание АМС-АСОТ на основе полной базы данных толкового словаря (т.е. всего объема доступной лексики) нецелесообразно. Это может быть перспективным заделом на будущее, однако ни наши ресурсы, ни здравый смысл не согласуются с задачей получения и обработки ассоциаций для десятков тысяч лексических единиц.

Заметим к слову, что именно в силу последнего соображения мы, в частности, намереваемся рассматривать вопрос о возможном использовании чего-либо наподобие «языка семантических примитивов»: на наш взгляд, с учетом ресурсов и возможностей того метода извлечения ассоциаций, который мы считаем основным (т.е. анкетирования респондентов), необходимо сформировать относительно небольшой словник наиболее универсальных лексем, которые либо могли бы служить основой для построения всех остальных, более сложных смыслов (подобно тому, как комплексные процедуры и функции в программировании состоят из последовательностей простых операций), либо по крайней мере становились бы источниками метафорического переноса чаще всего. Впрочем, этот вопрос в большей степени относится к содержательному критерию, а не к формальному – поэтому сейчас говорить о нем преждевременно, и мы вернемся к нему позже.

Соответственно, при конфигурировании формального критерия нам затруднительно будет пользоваться сущностью метафорического переноса и теми логическими выводами, которые могут быть получены в результате размышления над этой сущностью. Попытаемся подойти к этому вопросу более отвлеченно.

Так, к примеру, кажется возможным воспользоваться характеристиками национальной языковой картины мира и оттолкнуться от мысли о том, что русское языковое сознание обычно усматривает в каждой ситуации два ключевых компонента: субъект и предикат. Несомненно, что предикат в целом более значим (это утверждение, насколько нам известно, уже является довольно хорошо проработанным в науке о языке и не требует дополнительного обоснования), однако субъект также является ключевым компонентом большинства ситуаций – в то время как прочие сопутствующие элементы (объект, атрибут субъекта или объекта, атрибут предиката) могут отсутствовать: говоря упрощенно, для участника ситуации важно знать, что происходит и кто действует / существует. Отсюда представляется вполне вероятным, что в основу метафоры чаще всего будет заложено сходство образов предметов или образов действий: либо субъекты чем-то напоминают друг друга сами по себе, либо им сопоставлены схожие предикаты. Разумеется, это не исключает возможности того, что предмет может быть переосмыслен, скажем, на основании атрибута; однако мы считаем уместным допустить, что основополагающие элементы коммуникативной ситуации будут в целом более активно употребляться для формирования новых значений.

Рассуждая об АМС-АСОТ, мы регулярно упоминаем идею Ю.Д. Апресяна о создании коннотативной зоны толкового словаря, содержащей ассоциации, посредством которых то или иное слово могло бы быть переосмыслено; заметим по этому поводу, что автор данной идеи изначально предлагал использовать в качестве ассоциаций именно самостоятельные понятия, а не их атрибуты (т.е., к примеру, не «блестящий», а «блеск») [1]. Также представляется вполне вероятным, что слова, предназначенные для обозначения субъектов и предикатов, будут в целом более продуктивны при поиске респондентами возможных ассоциаций: например, понятие цвета, выраженное именем существительным, в силу своего собирательного характера более универсально, чем совокупность конкретных цветовых атрибутов, выраженных именами прилагательными.

Кроме того, нам кажется уместным оставить за пределами словника производные слова (т.е. полученные в результате того или иного способа словообразования): на наш взгляд, вполне логично будет ожидать, что семантика корня будет более влиятельна и значима при метафорическом переосмыслении, чем семантика аффиксов, и что именно эти семы будут в первую очередь взаимодействовать в процессе образования новых значений. В сопряжении с предыдущей частью критерия это может, в частности, выражаться в отказе от отглагольных существительных в пользу тех глаголов, на которых они основаны. Специфические глагольные формы – причастия или деепричастия – также представляются малоэффективными в контексте АМС-АСОТ и могут аналогичным образом быть исключены по второй части формального критерия.

Заметим кратко, что здесь и далее мы будем иметь в виду словообразовательную непроизводность, однако сюда же можно относить и словоизменительную непроизводность (т.е. использование основной, или исходной, формы слова), которая является стандартом для любой лексикографической базы данных и от которой мы, естественно, не имеем намерений отступать.

Исходя из этих теоретических построений, для целей нашей работы над АМС-АСОТ и с учетом возможного последующего сужения спектра отбираемой лексики за счет содержательного критерия кажется достаточным установить следующие формальные ограничения для отбора лексических единиц в словник:

1) заголовочные слова должны принадлежать к тем частям речи, которые принципиально предназначены для выражения субъектов и предикатов: имя существительное и глагол,

2) заголовочные слова должны являться непроизводными.

Содержательный критерий

Как уже было отмечено, к содержательному критерию можно, в частности, отнести два варианта отбора: поиск семантически базовых слов (своеобразных «семантических примитивов») и выявление тех лексических единиц, которые могут служить наиболее частотной основой для метафорического переосмысления.

Традиционные семантические примитивы в том их виде и понимании, которое восходит к работам А. Вежбицкой (см., напр.: [4]), для решаемых нами задач не подходят, поскольку, строго говоря, являются не столько именно семантическими примитивами, сколько логическими универсалиями. Их набор весьма мал, и они выражены в основном служебными, а не знаменательными словами; это вполне корректно само по себе, поскольку логические связи выражаются именно посредством служебных слов, однако не имеет ценности для АМС-АСОТ, так как метафорическое переосмысление слов, не имеющих собственной семантики, в принципе невозможно или, во всяком случае, крайне сомнительно (трудно вообразить поиск ассоциаций к словам «из-за» или «потому что»).

Вероятный поиск семантически базовых слов за счет наших собственных ресурсов (вариант 1) и отбор лексических единиц по принципу частотности метафорического переосмысления (вариант 2) сводятся к одному наиболее очевидному способу реализации, который состоял бы в предварительном сборе некоторой базы данных уже существующих метафор и последующем ее анализе того или иного рода – например, направленном на то, чтобы выделить источники и основания метафорического переноса в каждом конкретном случае, систематизировать эти сведения и обнаружить в них какие-либо тенденции или закономерности. Однако этот способ кажется труднореализуемым: готовых баз данных метафор нам обнаружить не удается, за исключением нескольких узкотематических словарей (таких, например, как лексикографические описания метафорического языка определенного писателя или «Словарь русских политических метафор» А.Н. Баранова и Ю.Н. Караулова [2]), автоматизация сбора метафор представляется нам обособленной задачей, которая требует отдельной чрезвычайно объемной работы, а формирование подобной базы вручную, очевидно, окажется еще более масштабным проектом, чем автоматизированный вариант. Возможности существующих корпусов русскоязычных текстов, насколько нам удалось определить в ходе предварительных изысканий, также не позволяют выбирать метафоры: наиболее близким к этому процессу способом поиска оказывается выборка возможных физических контекстов того или иного слова (т.е. его непосредственного окружения), и, как мы уже отмечали в других элементах теоретического обоснования АМС-АСОТ, подобный дистрибутивный анализ уже реализован во многих системах автоматизированной обработки текстов – так что такая методика не даст нам ничего принципиально нового.

Таким образом, учитывая приоритеты и возможности нашей работы над АМС-АСОТ, которые в совокупности приводят к мысли о малой степени целесообразности анализа существующих метафор, мы считаем уместным ограничиться теоретическим рассуждением о том, лексические единицы какого типа могли бы наиболее часто становиться основанием для метафорического переноса. Говоря упрощенно, все остальные способы формирования содержательного критерия, которые названы в предыдущем абзаце, потребуют непропорционально большого объема ресурсов для их реализации и в силу этого представляются чрезмерными на данном конкретном этапе разработки теоретического обеспечения АМС-АСОТ.

Итак, возвратимся к мысли о том, что метафорический перенос осуществляется на основании некоторого широко понимаемого признака. Вполне ясно, что признак может характеризовать либо предмет или явление, либо действие или процесс; об этом упоминалось выше, и такое утверждение представляется очевидным. Предположим также, что метафорический перенос с большей вероятностью будет основан не на любых признаках, а на тех, которые имеют эмпирическое подкрепление, т.е. являются в каком-либо смысле наблюдаемыми, доступными для восприятия через органы чувств. Как нам представляется, вполне уместно будет ожидать, что преобладающее количество таких переносов будет иметь визуальный характер: общеизвестно, что человек получает информацию об обстановке и мире в целом преимущественно посредством зрения, а следовательно, предметы, явления, действия или процессы будут вероятнее всего сопоставляться по их визуальному облику. Такое предположение, на наш взгляд, не будет чрезмерным допущением, поскольку для сопоставления чего-либо требуется эталон, объективный критерий, одинаковый для всех участников коммуникации; если метафорический перенос будет основан на сугубо индивидуальном продукте деятельности мозга конкретного человека, который невозможно согласовать с опытом других людей, то такая метафора, вероятнее всего, будет понятна исключительно ее создателю – т.е. окажется коммуникативно неэффективной.

Попытка приблизиться к семантически базовым понятиям и событиям может быть, в свою очередь, осуществлена за счет использования опыта составления т.н. активных словарей русского языка, которые представляют собой совокупность лексических единиц, посредством которых могут быть определены все остальные слова языка. Активные словари являются значимой частью исследовательской работы по формированию семантического метаязыка, который позволял бы давать строгие, точные и выверенные определения взамен интуитивных, которые довольно распространены в популярных авторских толковых словарях. Этот опыт не нов, и известно весьма значительное количество попыток составления активных словарей различных языков мира; к примеру, подобная лексикографическая база под названием «The Oxford 3000» традиционно находится в основе Оксфордского словаря английского языка, любая дефиниция которого состоит исключительно из слов, входящих в предварительно сформированный список из 3000 семантически базовых лексем (см., напр.: [8]). Наиболее актуальным исследованием этого рода для русского языка, известным нам, является «Проспект активного словаря русского языка» под редакцией Ю.Д. Апресяна, опубликованный в 2010 году [6].

Таким образом, мы можем сформировать содержательный критерий в следующем виде:

1) заголовочные слова должны принадлежать ко множеству конкретной лексики (в ее противопоставлении абстрактной) либо обобщать конкретные непосредственно наблюдаемые атрибуты;

2) заголовочные слова должны быть достаточно семантически универсальными для включения в лексикон семантического метаязыка.

Можно предположить, что совокупность критериев сведет объем словника примерно к 1000 – 1500 заголовочным словам, что в целом соответствует размерам уже существующих активных словарей и позволит вполне эффективно организовать работу по анкетированию респондентов и обработке полученных данных при сохранении универсальности АМС-АСОТ.

При таком прогнозируемом объеме словника отбор заранее определенного списка ассоциаций, о котором мы говорили ранее, представляется излишним. На наш взгляд, объем собранных данных позволит нам в ходе их обработки при необходимости выделить определенные тенденции или ключевые понятия, вокруг которых можно было бы группировать ассоциативные поля и которые могли бы становиться опорными точками для аналитического алгоритма. Кроме того, с учетом довольно значительных ограничений, налагаемых на словник, и планируемой методологической ориентации на интроспекцию кажется уместным сохранить полную свободу ассоциаций и сформировать тем самым как можно более полную картину возможных источников метафорического переосмысления в языковом сознании носителя языка.

Суммируя приведенные выше рассуждения и сформулированные элементы формального и содержательного критерия, мы предварительно определяем порядок построения словника АМС-АСОТ:

1. В качестве фундамента используется лексикон «Проспекта активного словаря русского языка», упомянутого выше.

2. К лексикону «Проспекта» применяются дополнительные ограничения в соответствии с формальным и содержательным критериями: отбираются имена существительные и глаголы, удостоверяется их непроизводность, производится проверка конкретности лексики, исключаются возможные дубли (например, одновременное наличие существительного и глагола с одинаковым ключевым элементом семантики: ложьлгать).

3. В том случае, если применение ограничений по формальному и содержательному критериям чрезмерно сужает объем словника, предпринимается попытка дополнить список заголовочных слов за счет преобразования ранее исключенных элементов (например, использование имени существительного вместо изъятого по формальному критерию имени прилагательного с тем же основным значением) или других источников.

Определение требований к словнику позволяет нам переходить к формированию методологии АМС-АСОТ, чему будет посвящено отдельное исследование. Задачи данной статьи, таким образом, можно на этом считать исчерпанными.

Литература

 

1.              Апресян Ю.Д. Избранные труды. Т.1: Лексическая семантика. Синонимические средства языка. – М.: Яз. рус. культуры, 1995. – 472 с.

2.              Баранов А.Н., Караулов Ю.Н. Словарь русских политических метафор. М.: Помовский и партнеры, 1994. – 330 c.

3.              Белокурова С.П. Словарь литературоведческих терминов. URL: https://literary_criticism.academic.ru/ (дата обращения: 25.08.2017)

4.              Вежбицкая А. Семантические универсалии и «примитивное мышление». URL: http://www.philology.ru/linguistics1/wierzbicka-96.htm (дата обращения: 25.08.2017)

5.              Метафора // Литературная энциклопедия: Словарь литературных терминов: В 2-х т. / Под ред. Н. Бродского, А. Лаврецкого, Э. Лунина, В. Львова-Рогачевского, М. Розанова, В. Чешихина-Ветринского. URL: https://literary_terms.academic.ru/314/Метафора (дата обращения: 25.08.2017)

6.              Проспект активного словаря русского языка / под ред. акад. Ю.Д. Апресяна. URL: http://san.ruslang.ru/prospect_theory.pdf (дата обращения: 25.08.2017)

7.              Розенталь Д.Э., Теленкова М.А. Словарь-справочник лингвистических терминов. Изд. 2-е. URL: https://dic.academic.ru/ contents.nsf/lingvistic (дата обращения: 25.08.2017)

8.              The Oxford 3000 // Oxford Advanced Learner’s Dictionary of Current English / Edited by Sally Wehmeier. – Oxford: Oxford University Press, 1997. – P. R99.

 

References

 

1.       Apresyan Yu.D. Izbrannye trudy. T.1: Leksicheskaya semantika. Sinonimicheskie sredstva yazyka. (Selected works. Vol.1: Lexical semantics. Synonymical language resources.) – M.: Yaz. rus. kul'tury, 1995. – 472 s.

2.       Baranov A.N., Karaulov Yu.N. Slovar' russkikh politicheskikh metafor. (Dictionary of Russian political metaphors.) M.: Pomovskii i partnery, 1994. – 330 c.

3.       Belokurova S.P. Slovar' literaturovedcheskikh terminov. (Dictionary of literature science terms.) URL: https://literary_criticism.academic.ru/ (date of reference: 25.08.2017)

4.       Vezhbitskaya A. Semanticheskie universalii i «primitivnoe myshlenie». (Semantic universals and “primitive thinking”.) URL: http://www.philology.ru/ linguistics1/wierzbicka-96.htm (date of reference: 25.08.2017)

5.       Metafora (Metaphor) // Literaturnaya entsiklopediya: Slovar' literaturnykh terminov: V 2-kh t. / Pod red. N. Brodskogo, A. Lavretskogo, E. Lunina, V. L'vova-Rogachevskogo, M. Rozanova, V. Cheshikhina-Vetrinskogo. URL: https://literary_terms.academic.ru/314/Metafora (date of reference: 25.08.2017)

6.       Prospekt aktivnogo slovarya russkogo yazyka (Prospectus for an active dictionary of the Russian language.) / pod red. akad. Yu.D. Apresyana. URL: http://san.ruslang.ru/prospect_theory.pdf (date of reference: 25.08.2017)

7.       Rozental' D.E., Telenkova M.A. Slovar'-spravochnik lingvisticheskikh terminov. (Reference dictionary of linguistic terms.) Izd. 2-e. URL: https://dic.academic.ru/ contents.nsf/lingvistic (date of reference: 25.08.2017)

8. The Oxford 3000 // Oxford Advanced Learner’s Dictionary of Current English / Edited by Sally Wehmeier. – Oxford: Oxford University Press, 1997. – P. R99.