Н.В. Головко

Северо-Кавказский федеральный университет, доцент кафедры культуры русской речи, кандидат филологических наук (355009, г. Ставрополь, ул. Пушкина, 1; тел.: (8652) 95-68-08; info@ncfu.ru)

N.V. Golovko

North Caucasus Federal University, lecturer of the department of Russian speech culture, Ph.D. in Philology (355009, 1 Pushkina street, Stavropol, Russia; +7 (8652) 95-68-08; info@ncfu.ru)

 

РАССУЖДЕНИЕ О СПЕЦИФИКЕ ПРОЕКТА АССОЦИАТИВНО-МЕТАФОРИЧЕСКОГО СЛОВАРЯ РУССКОГО ЯЗЫКА ДЛЯ НУЖД АВТОМАТИЗИРОВАННЫХ СИСТЕМ ОБРАБОТКИ ТЕКСТОВ

Статья предназначена для дополнения теоретического обеспечения проекта по разработке и построению нового ассоциативно-метафорического словаря русского языка, особенности которого позволяли бы использовать его в аналитических алгоритмах автоматизированных систем обработки текстов. Дано более подробное разъяснение и обоснование специфики подобного словаря, что обусловлено критическими замечаниями, полученными в ходе апробации проекта.  Хотя ассоциативная лексикография с одной стороны и автоматизированный анализ текстов с другой стороны являются вполне развитыми областями научного знания, вопрос об их сопряжении ранее не ставился, что обусловливает актуальность и новизну рассматриваемой автором проблемы.

Ключевые слова: ассоциативная лексикография, автоматизированные системы обработки текстов, метафора, семантика, искусственный интеллект

 

DISCUSSION OF SPECIFICS OF THE PROJECT OF ASSOCIATIVE-METAPHORIC DICTIONARY OF THE RUSSIAN LANGUAGE FOR THE NEEDS OF AUTOMATED TEXT PROCESSING SYSTEMS

The article is intended to supplement the theoretical foundation of the project for the development and construction of a new associative-metaphoric dictionary of the Russian language, the features of which would allow to use it in analytical algorithms of automated text processing systems. A more detailed explanation and justification of the specifics of such a dictionary is given, which is due to critical comments received during the approbation of the project. Although associative lexicography on the one hand and automated analysis of texts on the other hand are both well-developed areas of scientific knowledge, the question of their interrelation has not been raised before, which defines the importance and novelty of the problem considered by the author.

Keywords: associative lexicography, automated text processing systems, metaphor, semantics, artificial intelligence

 

В наших более ранних работах «Ассоциативный аспект интерпретации метафоры в процессе автоматизированного анализа русскоязычных текстов» и «Обзор современного состояния русскоязычной ассоциативной лексикографии» мы в общих чертах обозначали проблему машинной обработки текстов на естественных языках с использованием базы данных ассоциативного словаря. Тем не менее, упомянутые статьи в целом имели иные задачи, поэтому мы не давали в них подробных разъяснений относительно причин, диктующих необходимость разработки специального варианта подобного словаря именно под нужды автоматизированных систем обработки текстов, особенностей его назначения и методологии, в соответствии с которой его надлежало бы построить, а также нашего представления о том, каким образом следует организовать работу по его составлению. Вследствие этого объем изложенных нами в научной печати теоретических рассуждений и поясняющих комментариев оказался несколько недостаточным, и в ходе апробации наших идей мы столкнулись с некоторым количеством критики, обусловленной не вполне ясным их пониманием. В связи с этим мы сочли необходимым дополнить уже существующее теоретическое обоснование еще одним информационным материалом, который в совокупности с предыдущими публикациями позволял бы составить более ясное представление о направлении наших изысканий и о специфике проекта по подготовке и публикации специального ассоциативного словаря для нужд автоматизированных систем обработки текстов, который мы считаем необходимым реализовать.

Постановка проблемы

Примерно с середины ХХ века по мере развития относительно современной вычислительной техники зарубежные и в меньшей степени отечественные исследователи проявляли интерес к машинной обработке текстов на естественных языках. Достаточно упомянуть, например, довольно широко известный дайджест «Новое в зарубежной лингвистике», один из выпусков которого был полностью посвящен научно-исследовательской и опытно-конструкторской работе в этом направлении[1]. Перед специалистами вставало весьма значительное количество задач и проблемных вопросов, которые с переменным успехом решаются до настоящего времени; некоторые такие задачи были вполне тривиальны и не требовали чрезвычайных усилий (допустим, автоматическое определение языка, на котором написан текст, или развитие программного обеспечения для работы с морфологией), другие нуждались в существенных ресурсах и достигли уровня общедоступности относительно недавно (например, управление техникой с помощью голосовых команд), а третьи для полноценной реализации фактически требовали создания искусственного интеллекта и поэтому остаются решенными не до конца и на данный момент (хотя некоторые разработчики находят способы обойти потребность в ИИ – скажем, за счет методов корпусной лингвистики или облачных технологий – и повысить тем самым качество получаемых результатов). К последней группе можно отнести все те средства обработки текстов, которые подразумевают интерпретацию высказываний, т.е. извлечение смысла из текста и использование этого смысла в последующей работе системы. Соответствующий процесс иногда условно называют машинным «пониманием», подчеркивая тем самым, что подразумевается мыслительная деятельность, аналогичная человеческой. Без этого перехода на уровень смысла, вероятно, невозможны полноценный машинный перевод и реализация искусственного интеллекта хотя бы в виде экспертной системы, способной реагировать на указания и принимать решения. Существующие в настоящее время сервисы «интеллектуальных помощников» приближаются к этому уровню, однако фактически они в большей степени похожи на поисковые системы с голосовым вводом, а не на искусственный интеллект, поскольку вместо «понимания» высказываний реагируют на определенные ключевые слова из их состава.

Таким образом, многие задачи, которые ставились перед разработчиками автоматизированных систем обработки текстов в начале развития этого направления исследований, можно назвать решенными (в чем может убедиться на опыте любой пользователь, когда-либо работавший с современной вычислительной техникой, устройствами связи и программным обеспечением), и основные усилия сосредоточиваются на совершенствовании тех продуктов, которые мы ранее условно отнесли к третьей группе.

Проблема извлечения смысла из речи никоим образом не является нерешаемой: еще несколько десятилетий назад разработчиками систем автоматизированного анализа текстов предпринимались вполне успешные попытки создать программные комплексы, способные к обработке предъявленных им высказываний и к предоставлению ответов на задаваемые им вопросы относительно содержания этих высказываний[2]. Тем не менее, в ходе такого анализа могут возникать семантические затруднения, которые сопряжены с двумя основными причинами:

1) лексическая многозначность (при наличии у слова нескольких разных значений не всегда удается уверенно определить, какое именно из них следует выбрать);

2) наличие тропов, фигур речи и других конструкций, сумма значений элементов которых отличается от общего смысла высказывания (если выразиться упрощенно, то суть этой причины состоит в наличии переносного смысла).

Первая причина обычно нейтрализуется за счет контекста – например, выбора тематического словаря при переводе или учета соседних лексических единиц (последний процесс часто называют дистрибутивным анализом). В свою очередь, второй фактор поддается нейтрализации с бóльшим трудом, поскольку подобные словосочетания нередко состоят из лексических единиц, формально не сочетающихся между собой, не имеющих общих компонентов значений (общих сем, выражаясь терминологически) и приобретающих новое содержание за счет их переосмысления. Вследствие этого смысл конструкции в целом становится доступен только сознанию человека, поскольку машинный интерпретатор не может установить связь между словами и, следовательно, ошибается при «понимании» текста.

Соответственно, одним из возможных направлений совершенствования систем автоматизированной обработки текстов представляется разработка алгоритмов, способных преодолевать подобные препятствия и интерпретировать переносные смыслы аналогично прямым. Мы видим три способа этого добиться.

1. «Брутфорс». Иносказательное применение этого криптографического термина обусловлено тем, что принцип действия данного метода схож с подбором паролей методом «грубой силы» - т.е. за счет значительных вычислительных ресурсов. Так действуют, в частности, те разработчики, в чьем распоряжении есть чрезвычайно объемные базы данных – поисковые, корпусные и т.п.: проблема недоступности смысла высказывания обходится благодаря наличию множества текстовых образцов, которые можно сравнить с предъявленным и использовать для повышения качества получаемого результата. К примеру, подобным образом в начале текущего года был усовершенствован машинный переводчик корпорации Google[3].

2. Эвристика. Возможна разработка алгоритма, который мог бы предсказывать развитие новых значений слов на основании историко-лексикографических данных. Подобное исследование проводилось под нашим руководством, однако его результаты пока не опубликованы.

3. Ассоциативные связи. Этот вариант основывается на предположении о том, что в сознании носителя языка со всеми (или многими) словами сопряжены некоторые ассоциации, на основании которых осуществляется переосмысление лексических единиц. Следовательно, такие ассоциации могли бы использоваться для установления связей между формально несочетаемыми словами и таким образом приближать анализатор к переходу на уровень смысла.

Не имея вычислительных ресурсов для «брутфорса» и не претендуя на направление, которое разрабатывалось другим исследователем, мы сосредотачиваемся на изучении возможностей совершенствования автоматизированных систем обработки текстов за счет использования таких баз данных, в которых лексическим единицам были бы сопоставлены понятия, ассоциирующиеся с ними в сознании носителя языка. На наш взгляд, машинный анализатор мог бы применять подобные базы двояко: либо искать в списках ассоциированных понятий дополнительные семы, которые могли бы встроить проблемное слово или словосочетание в контекст, либо увязывать лексические единицы между собой на основании того, что в их списках ассоциаций имеются одинаковые элементы.

Остается заметить, что все варианты развития переносных смыслов лексических единиц и словосочетаний мы обобщенно называем «метафорическим переносом», поскольку, как показало проводившееся под нашим руководством исследование[4], новая семантика языковых знаков чаще всего развивается именно за счет метафорического переосмысления (об этом, равно как и об ассоциативном аспекте метафоры, мы уже писали в работах, названных в начале статьи, поэтому представляется излишеством дублировать соответствующую информацию здесь). Нет сомнений в том, что перенос может осуществляться не только по сходству, но и по смежности (метонимия), отношению «целое-часть» (синекдоха) и т.д., однако мы находим затруднительным перечислять все эти варианты при каждом упоминании механизмов развития переносных смыслов и поэтому полагаем, что использование фразы «метафорический перенос» в качестве их общего наименования можно считать допустимым и оправданным.

Заметим к слову, что в одном из относительно недавних просмотренных нами исследований в области искусственного интеллекта косвенно подтверждается мысль о преобладании в ассоциациях опосредованных семантических связей по принципу сходства; хотя его автор не касается вопросов метафоризации и формирования новых лексических значений, он, тем не менее, отмечает, что «в ходе обучения и накопления опыта возникают ассоциативные связи – по сходству сущностей или их атрибутов или их отношений. Сходство может оцениваться по самым разнообразным критериям, которые устанавливаются жизненным опытом индивидуума, зависят от его психофизических характеристик»[5].

Исходя из высказанных выше соображений, мы говорим о необходимости построения специального ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов, который мы в дальнейшем будем обозначать аббревиатурой «АМС-АСОТ».

Специфика АМС-АСОТ

Под спецификой словаря мы подразумеваем разъяснение двух проблемных вопросов:

1) чем именно этот словарь должен отличаться от уже существующих ассоциативных словарей русского языка;

2) какими причинами обусловлена необходимость этих отличий.

Ряд комментариев по обоим вопросам содержится в «Обзоре современного состояния русскоязычной ассоциативной лексикографии», поэтому в рамках данной статьи мы сосредоточимся на тех их аспектах, которые не были подробно освещены в предыдущих работах.

Руководствуясь идеей о потенциальной полезности семантических ассоциаций для автоматизированной обработки текстов, мы должны были в первую очередь рассмотреть вопрос о том, пригодны ли уже существующие ассоциативные словари русского языка для использования в машинных аналитических алгоритмах. С этой целью, собственно, и был осуществлен упоминавшийся выше обзор, который показал, что находящиеся в открытом доступе ассоциативные базы данных не подходят для решения тех задач, которые мы намерены перед ними поставить. Это обстоятельство естественным образом привело к тому, что мы высказали некоторое количество критики в адрес существующих словарей, и данная критика в ряде случаев была неверно интерпретирована другими специалистами, вплоть до того, что при грантовой экспертизе проекта АМС-АСОТ в наших рассуждениях было усмотрено едва ли не отрицание психолингвистики. Таким образом, этот аспект нуждается в более подробном разъяснении.

Напомним тезисно, что все традиционные ассоциативные словари (словарь А.Н. Леонтьева, словарь Ю.Н. Караулова, БД СИБАС и подобные им) строятся по одному принципу: в ходе психолингвистического эксперимента испытуемым предъявляется ключевое слово (т.н. «стимул»), и они должны незамедлительно назвать первое понятие, которое возникает в их сознании в качестве неосознанной реакции на стимул. Полученные таким образом ассоциации накапливаются и распределяются по частоте встречаемости среди испытуемых, которая определяет порядок изложения ассоциаций в каждой словарной статье.

Несомненно, сама по себе эта методология обоснованна, точна и вполне соответствует требованиям, предъявляемым к научным исследованиям. Она очевидным образом укладывается в русло психолингвистических изысканий, и хотя использование принципа «стимул-реакция» может привести к переоценке роли неосознанных ассоциаций (при том, что база данных ассоциативного словаря в идеальном случае все же должна отражать особенности устройства и функционирования языкового сознания), названный принцип, тем не менее, всецело удовлетворителен для достижения целей, которые ставят перед собой составители таких словарей. Говоря иначе, если ассоциативный словарь выступает как самостоятельное и самодостаточное явление, то избранная А.Н. Леонтьевым, Ю.Н. Карауловым и их последователями методология прекрасно подходит ему, дает надежные результаты и нуждается, вероятно, лишь в незначительных улучшениях и «тонкой настройке», но никоим образом не в критике и пересмотре.

Тем не менее, когда мы пытаемся применить составленный таким образом ассоциативный словарь к задачам интерпретации переносных смыслов в автоматизированных системах обработки текстов, мы незамедлительно сталкиваемся с проблемой, обусловленной тем, что большинство ассоциаций, извлеченных из языкового мышления респондентов, не имеет прямого отношения к метафорическому или какому угодно другому переосмыслению языковых единиц и обусловлено иными отношениями – например, синтагматическими, когда первой ассоциацией к слову выступает лексическая единица, чаще всего образующая с ним словосочетание, или антонимическими, когда наиболее частотной ассоциацией оказывается противоположное понятие. Следовательно, данные такого рода не принесут нам пользы, коль скоро мы намерены использовать не все ассоциации, а лишь те, на основании которых возможно метафорическое переосмысление и, как следствие, развитие новых значений и смыслов.

Воспользуемся примером Ю.Д. Апресяна об установлении ассоциативной связи между понятием молнии и атрибутом быстроты, через которую можно было бы интерпретировать фразы типа «телеграмма-молния»[6] (об этом примере мы писали подробнее в упоминавшихся выше статьях) и приведем начало словарной записи для стимула «быстро» из базы данных СИБАС вплоть до появления слова «молния» (последующие цифры соответствуют частотности ассоциаций):

«медленно 52; бегать 41; бежать 35; идти 28; бег 19; ехать; скорость 14; ходить 10; мгновенно 9; говорить; думать; сделать 8; скоро 7; есть 6; делать; езда; легко 5; готовить; спешка; торопиться; уйти 4; быстро; еда; кафе; каша; молния... 3»[7].

Сделанное нами ранее утверждение о доминирующих ассоциациях вполне очевидным образом следует из этого перечня. Наиболее распространенной реакцией, встретившейся у 52 респондентов, является атрибут с противоположным значением (медленно), после чего идет кластер сочетаемых слов, который состоит преимущественно из глаголов движения. Среди лексических единиц этого типа периодически появляются синонимы (мгновенно, скоро и т.п.). Понятие молнии в этом списке оказывается почти единственным, которое можно было бы сопрячь с метафорическим переносом, поскольку едва ли не все предстоящие ему единицы имеют вполне прямое и очевидное отношение к быстроте: если мы, предположим, говорим, что время бежит, то атрибут скорости (или быстроты) вполне ясен из семантики слова бежать: «быстро перемещаться в каком-либо направлении»[8] (в то время как в содержании понятия молния [разряд атмосферного электричества] эта сема в явном виде отсутствует, и если база данных толкового словаря не будет содержать ссылку на конкретное словоупотребление телеграмма-молния, то словосочетание не удастся верно интерпретировать). Примечательно также, что эта ассоциация возникла лишь у трех респондентов. Помимо собственно молнии, не является безусловно очевидной только связь атрибута быстроты с семантикой еды и заведений общественного питания, однако нам представляется, что развитие переносных смыслов на этой основе маловероятно.

Таким образом, если бы мы предприняли попытку использовать какой-либо из существующих традиционных ассоциативных словарей русского языка в аналитическом алгоритме, то нам пришлось бы перебирать всю его базу данных и отбрасывать те ассоциации, которые не имеют отношения к метафорическому переносу – или, с учетом количества последних, скорее вычленять подходящие ассоциации изо множества антонимов, синонимов и синтагматически комплементарных единиц. К тому же, вряд ли будет значительным допущением утверждать, что появление метафорических ассоциаций наподобие молнии в традиционном ассоциативном словаре имеет скорее случайный, чем закономерный характер; это обусловлено методологией их составления, которая ориентирует респондентов на выдачу первой возникшей реакции почти без участия сознания, в то время как метафорические ассоциации, во-первых, подразумевают сознательное переосмысление, а во-вторых, не являются очевидными.

Поэтому, говоря о традиционных ассоциативных словарях, мы в наших работах отмечаем, что хотя их методология сама по себе надежна и достоверна, она, тем не менее, делает эти словари неподходящими именно для наших целей – т.е. для использования в аналитическом алгоритме установления семантических связей между словами при помощи тех ассоциаций, на которые опирается метафорическое переосмысление и последующее развитие новых значений и смыслов лексических и синтаксических единиц. В силу вышеизложенных рассуждений мы указываем на то, что для нужд подобного алгоритма потребуется другой ассоциативный словарь, построенный в соответствии со своей особой методологией, и потребность в этой новой методологии вызвана не столько изъянами старой, сколько спецификой той задачи, ради которой будет создаваться АМС-АСОТ.

Также в справочном порядке обозначим, что, помимо традиционных ассоциативных словарей, существуют сетевые проекты, основанные на интернет-идеологии «web 2.0», т.е. подразумевающие, что наполнение информационного ресурса осуществляется самими пользователями. Мы уже писали в предыдущих работах, что такие базы данных обладают рядом достоинств, приближающих их к тому, что мы желали бы видеть в АМС-АСОТ, однако их ключевым недостатком является то же затруднение, с которым мы сталкиваемся при попытке использования психолингвистического словаря: они наполнены ассоциациями, которые не имеют отношения к метафорическому переносу, хотя и по другой причине – в них отсутствует модерация, в результате чего любой пользователь может внести в такую БД любые ассоциации по своему усмотрению, в том числе нецензурные выражения или лексические единицы, заведомо не имеющие отношения к заголовочному слову.

Итак, мы, как нам представляется, разъяснили, чем обусловлена необходимость отличий АМС-АСОТ от существующих словарей. Обобщим ее тезисно.

1. Обычные ассоциативные словари предназначены для использования людьми и изначально преследуют иные цели, чем подготовка специализированной базы данных для нужд автоматизированных систем обработки текстов.

2. Тот способ использования ассоциативного словаря в АСОТ, который мы определили в качестве основного, подразумевает, что словарь должен содержать не любые ассоциации, а только те из них, которые служат или могут послужить основой для метафорического переноса.

3. Использование методологического принципа «стимул-реакция» в существующих словарях приводит к их отклонению в сторону наиболее простых ассоциаций – очевидных и неосознанных, в то время как метафорический перенос требует сознательного размышления и далеко не всегда является первым, что приходит респонденту в голову при виде стимула.

 4. Отсутствие модерации в словарях, построенных в соответствии с идеологией «web 2.0», перевешивает их достоинства за счет изобилия мусорных ассоциаций, добавленных пользователями таких ресурсов ради развлечения.

Отсюда мы выходим на указание того, чем именно АМС-АСОТ должен отличаться от существующих ассоциативных словарей русского языка.

1. АМС-АСОТ должен изначально создаваться с ориентацией на удовлетворение потребностей автоматизированных систем обработки текстов и на использование в алгоритмах анализа текстов, и, в частности, существовать в виде машиночитаемой электронной БД. Представляется полезным также обеспечение доступа к БД через сеть Интернет.

2. Словник АМС-АСОТ необходимо формировать особо, исходя из особенностей переноса по сходству как доминирующего способа формирования новых значений и смыслов, равно как и с учетом других способов переноса, и опираясь на определенную совокупность ключевых слов. Впоследствии мы будем отдельно рассматривать вопрос о возможном использовании языка семантических примитивов в АМС-АСОТ. Целесообразно может быть также накладывать аналогичные ограничения при поиске ассоциаций – к примеру, ориентируя респондентов на применение определенных частей речи или на выбор ассоциаций из заранее определенного списка.

3. При составлении АМС-АСОТ следует отказаться от использования методологического принципа «стимул-реакция» в пользу интроспекции респондентов, предоставляя им инструкции по сознательному размышлению над заголовочными словами и отбору тех ассоциаций, которые, на их взгляд, могли бы послужить основой для формирования новых переносных смыслов.

4. В целях обеспечения актуальности и репрезентативности данных, содержащихся в словаре, необходимо воспользоваться преимуществами идеологии «web 2.0», разместив человеко-машинный интерфейс АМС-АСОТ в сети Интернет и предоставив посетителям этого ресурса возможность вносить правки в БД, однако в то же время ограничив потенциальное злоупотребление этой возможностью за счет предварительной модерации вносимых изменений.

Сформулированная таким образом специфика фактически позволяет нам переходить к описанию методологии составления подобного словаря, однако нам представляется, что необходимо предварительно решить вопросы, поставленные в пункте 2 вышеперечисленных отличий – т.е. рассмотреть целесообразность применения языка семантических примитивов в АМС-АСОТ и вероятную полезность отказа от свободного определения ассоциаций респондентами, которое может быть заменено выбором вариантов из заранее определенного списка. Практический опыт систем каталогизации информационных материалов в сети Интернет свидетельствует о том, что предопределенный набор меток (т.н. тэгов) позволяет обеспечить существенно более точную обработку и организацию данных в тематические подборки, поскольку устраняет фактор произвольности при установлении связей между документами; представляется вполне вероятным, что если выбор будет сделан в пользу языка семантических примитивов (т.е. определенным образом отобранного словника), то работа АМС-АСОТ в аналитическом алгоритме будет более эффективна при использовании заранее подобранного списка возможных ассоциаций.

Следовательно, прежде чем разрабатывать методологию составления словаря, нам надлежит установить, должна ли она содержать принципы отбора определенных слов для словника и списка ассоциаций, а также особые инструкции для респондентов относительно использования этого списка. Такие вопросы нам кажется уместным решать в отдельных статьях, поэтому аналитические задачи данного материала на этом представляются исчерпанными.

 

Библиографический список:



[1] Новое в зарубежной лингвистике. – Вып. 24. – М., 1989.

[2] Ленерт, В. BORIS – экспериментальная система глубинного понимания повествовательных текстов / В. Ленерт, М. Дайер, П. Джонсон, К. Янг, С. Харли. // Новое в зарубежной лингвистике. – Вып. 24. – М., 1989. – С. 106.

[3] Google научил искусственный разум понимать русский язык // РИА Новости. URL: https://ria.ru/science/20170307/1489449991.html (дата обращения: 12.05.2017)

 

[4] Гончарова К.Н. Процессы полисемантизации в русском и английском языках как основа построения универсального алгоритма прогнозирования коннотативных значений // SCI-ARTICLE.RU: научный периодический электронный журнал. 2014. URL: http://sci-article.ru/stat.php?i=1395142238 (дата обращения: 12.05.2017)

[5] Кучуганов В.Н. Вербализация реальности и виртуальности. Ассоциативная семантика // Искусственный интеллект и принятие решений. - №1. – 2011. – С. 59.

 

[6] Апресян Ю.Д. Избранные труды. Т.1: Лексическая семантика. Синонимические средства языка. – М.: Яз. рус. культуры, 1995. – 472 с.

[7] Прямой словарь // СИБАС – Сибирский ассоциативный словарь русского языка. URL: http://adictru.nsu.ru/dictright (дата обращения: 12.05.2017)

[8] Большой толковый словарь русского языка. Гл. ред. С.А. Кузнецов // ГРАМОТА.РУ. URL: http://www.gramota.ru/slovari/dic/?bts=x&word=бежать (дата обращения: 12.05.2017)