Методология сбора и обработки данных для построения ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов (АМС-АСОТ)

 

Methodology of data collection and processing for the creation of associative and metaphoric dictionary of the Russian language designed for automated text processing systems (AMD-ATPS)

 

Аннотация

В статье описана разработанная автором методология, в соответствии с которой планируется создавать особую разновидность ассоциативного словаря русского языка, предназначенного для автоматизированных систем обработки текстов. Характеризуются технические требования и параметры для развертывания площадки в сети Интернет, на ресурсах которой будет осуществляться сбор данных; описаны требования к аудитории респондентов, которые будут участвовать в выявлении ассоциаций в порядке психолингвистического эксперимента, и соответствующие им критерии отбора участников работы над словарем; разработан и представлен порядок анкетирования респондентов в режиме онлайн. Кроме того, охарактеризована последовательность действий при обработке полученных сведений и итоговом их представлении в виде словарной базы данных, доступной как для ознакомления в человекочитаемом виде, так и для использования во внешних программных продуктах в машиночитаемом виде.

 

Abstract

The article describes the methodology developed by the author, in accordance with which it is planned to create a special kind of associative dictionary of the Russian language intended for automated text processing systems. The technical requirements and parameters for the deployment of the Internet website, the resources of which will be applied for data collection, are characterized; the requirements for the audience of respondents who will participate in the identification of associations in the process of the psycholinguistic experiment, and the corresponding criteria for selecting participants in the work on the dictionary, are described; the procedure for questioning respondents online is developed and presented. In addition, a sequence of actions is described, which is intended for the processing of the received information and its final presentation in the form of a dictionary database accessible both for reference in human readable form and for use in external software products in machine-readable form.

 

Ключевые слова: ассоциативный словарь, автоматизированные системы обработки текстов, лексическая семантика, метафора, русский язык

 

Keywords: associative dictionary, automated text processing systems, lexical semantics, metaphor, the Russian language

 

Настоящее исследование завершает совокупность основных этапов разработки теоретического обеспечения ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов (АМС-АСОТ), который мы считаем необходимым сформировать в качестве одной из попыток решения актуальных проблем и затруднений, существующих в области автоматизированного анализа текстов.

На предыдущих этапах мы обосновывали необходимость обращения внимания на метафорическое переосмысление как ключевой источник смысловой неоднозначности в текстах на естественных языках, обосновывали потенциальную полезность ассоциативного словаря в аналитических алгоритмах АСОТ, изучали существующий опыт составления подобных словарей и рассматривали вопрос о вероятной пригодности составлявшихся ранее ассоциативных словарей русского языка для решения тех задач, которые мы желали бы перед ними поставить (см., напр.: [1], [2]); кроме того, мы определяли принципы, на основании которых следовало бы отбирать заголовочные слова в словник. Все это в совокупности позволяет нам непосредственно приблизиться к формированию и описанию методологии, в соответствии с которой следует составлять АМС-АСОТ, чему и посвящена данная работа.

Обозначим кратко некоторые ключевые выводы и положения, к которым мы пришли в ходе предшествовавших рассуждений, чтобы использовать их в качестве основы.

1) Основополагающий и традиционный метод составления ассоциативного словаря – опрос / анкетирование респондентов – надлежит сохранить при построении АМС-АСОТ, поскольку из множества доступных вариантов выявления ассоциаций он является наиболее эффективным.

2) Анкетирование респондентов должно быть основано на методе интроспекции носителя языка и проводиться среди профессиональной аудитории (специалистов в области филологии, имеющих ясное представление о сущности и специфике языкового метафорического переосмысления).

3) Респонденты должны быть свободны в выборе ассоциаций, однако ориентированы при этом на сознательный отбор ключевых понятий, на основании которых то или иное слово могло бы быть переосмыслено.

4) Словник АМС-АСОТ следует формировать на основе базы данных активного словаря русского языка (т.е. содержащего базовые, фундаментальные лексические единицы, посредством которых могли бы быть объяснены все остальные) с предварительным отбором по нескольким дополнительным критериям.

5) Полученные и обработанные данные должны быть подготовлены к представлению в виде машиночитаемой базы данных и к размещению в сети «Интернет» в соответствии с идеологией «Web 2.0» (user-generated content, содержимое, создаваемое и поддерживаемое пользователями ресурса).

Подготовка технического обеспечения сбора данных

Поскольку АМС-АСОТ должен существовать в машиночитаемом виде (что обусловлено его изначальной ориентацией на использование в качестве одного из модулей программного обеспечения для автоматизированной обработки текстов), кажется излишним собирать и обрабатывать данные традиционным образом и затем предпринимать отдельные усилия по переводу базы данных в машиночитаемый формат. Очевидно, что более эффективным будет тот подход, при котором словарь сразу создается в виде электронной БД, а не конвертируется в таковую впоследствии. Следовательно, уже на первом этапе построения АМС-АСОТ необходимо развернуть площадку в сети «Интернет» и организовать всю последующую работу через нее. Удобным вариантом представляется, к примеру, установка свободно распространяемого комплекта программного обеспечения MediaWiki, который содержит весь необходимый функционал вкупе с традиционным интерфейсом, избавляющим пользователей от необходимости тратить временные ресурсы на его освоение.

После того, как будет подготовлена площадка и установлено программное обеспечение, надлежит перейти к формированию словника. Выше мы кратко изложили основные принципы и критерии отбора заголовочных слов; подробные разъяснения по этому поводу содержатся в статье «Особенности формирования словника ассоциативно-метафорического словаря русского языка для нужд автоматизированных систем обработки текстов (АМС-АСОТ)», которую мы будем публиковать отдельно. Для нужд этой статьи поясним кратко, что мы предполагаем использовать в качестве основы для словника «Проспект активного словаря русского языка» [3]. Когда лексические единицы будут отобраны, администратор площадки создает индивидуальную вики-страницу для каждого заголовочного слова, оставляя ее пустой для последующего заполнения респондентами.

Также на подготовительном этапе администратор создает служебную страницу, закрытую для свободного редактирования, на которой размещает инструкции для участников работы над словарем. За счет возможностей программного комплекса MediaWiki обеспечивается обязательное ознакомление пользователей с инструкциями, прежде чем они смогут осуществлять редактирование; кроме того, краткая версия инструкций размещается в интерфейсе редактирования страниц.

В связи с намерением использовать интроспекцию специалистов в области филологии в качестве основного метода извлечения ассоциаций, доступ к программному обеспечению надлежит ограничить, установив регистрацию по приглашениям. Приглашения будут рассылаться по электронной почте лицам, выразившим согласие на участие в составлении словаря и соответствующим профессиональным требованиям (о формировании аудитории респондентов будет дополнительно сказано далее). Существует техническая возможность заблаговременно создать и импортировать пул готовых учетных записей, однако этот подход представляется не вполне целесообразным, в том числе с учетом требования анонимности респондентов, которое традиционно предъявляется ко многим подобным исследованиям; возможна, однако, автоматическая генерация обезличенных учетных данных, производимая в ответ на активацию гиперссылки в письме-приглашении.

Отбор респондентов и порядок работы с ними

Поскольку мы ставим перед собой задачу сосредоточить в АМС-АСОТ только те ассоциации, которые служат или могут послужить основой для метафорического переосмысления, а следовательно, считаем необходимым отказаться от традиционной психолингвистической методологии составления ассоциативных словарей, организованной по принципу «стимул-реакция» (об этом мы подробно писали в предыдущих статьях по данной теме), то нам представляется, что следует проводить анкетирование среди профессиональной аудитории, а не случайным образом выбранных респондентов. Ориентация на интроспекцию при поиске ассоциаций предполагает, что участник работы над словарем должен иметь представление о сущности метафорического переноса и о его роли в образовании новых лексических значений, чтобы иметь возможность сосредоточиться на порождающих переосмысление ассоциациях и отграничить их от всех остальных, которые преобладают в традиционных ассоциативных словарях (например, от ассоциаций по признаку противопоставления или совместного присутствия в синонимическом ряду). Поэтому мы намерены приглашать к работе над словарем специалистов в области русского языка и / или литературы, имеющих высшее филологическое образование, и ограничить аудиторию респондентов теми лицами, которые соответствуют этому критерию.

Мы также считаем нужным организовать анкетирование в виде последовательности из двух этапов: базового и расширенного.

Базовый этап предусматривает участие относительно небольшой локальной группы респондентов, поддающейся мерам организационного руководства; основной целью этого этапа является контролируемая разработка исходной, «образцовой» базы данных, обеспечивающей наличие у каждого заголовочного слова по крайней мере 5-10 «правильных» ассоциаций, безусловно соответствующих особенностям и задачам АМС-АСОТ. Мы усматриваем важность этого этапа в том, что поиск и отбор оснований для метафорического переноса является необычной и нетривиальной задачей, и поэтому, прежде чем БД будет открыта для более широкой аудитории, необходимо убедиться в том, что инструкции по работе с системой (о которых было сказано в предыдущем подразделе) будут дополнены минимально необходимым количеством примеров тех ассоциаций, которые должны быть представлены в АМС-АСОТ. Кажется вероятным, что именно на базовом этапе будут заданы основные направления, в которых могут развиваться новые смыслы заголовочных слов, в то время как расширенный этап позволит уточнить и отладить эти направления. Мы предполагаем привлечь к работе над базовым этапом фокус-группу респондентов, представленную профессорско-преподавательским составом ФГАОУ ВО «Северо-Кавказский федеральный университет» – в связи со вполне очевидной простотой реализации этого варианта в наших условиях относительно любых других. Неизбежные негативные последствия узости этой фокус-группы (такие, к примеру, как малая репрезентативность выборки относительно всей совокупности носителей языка в целом) мы рассчитываем компенсировать за счет расширенного этапа.

На расширенном этапе мы считаем необходимым пригласить к работе над словником АМС-АСОТ учителей и преподавателей других учреждений образования, независимо от региональной принадлежности, в масштабе Российской Федерации. Как уже было отмечено выше, респондентам расширенной стадии будет предложено проверить, уточнить и дополнить результаты базового этапа.

В интересах чистоты собираемых данных респонденты будут вести работу с системой в анонимном режиме. Механизм реализации этого подхода мы предварительно определяем как автоматическую генерацию обезличенных учетных записей, о чем было сказано в первом подразделе. Вариант редактирования базы данных без регистрации пользователей мы считаем нежелательным, поскольку в этом случае история редактирования страниц будет отображать IP-адреса участников, нарушая тем самым режим анонимности.

Порядок анкетирования респондентов

Очевидно, что в случае использования программного пакета MediaWiki традиционное анкетирование в виде собеседования или заполнения формуляров на бумажных носителях нецелесообразно и заменяется работой с веб-интерфейсом. Тем не менее, мы считаем возможным придать этому процессу некоторые свойственные традиционному анкетированию черты, а также организовать его упорядоченным образом.

Обычный порядок работы с вики-ресурсом заключается в том, что пользователь самостоятельно выбирает страницы, которые он считает нужным отредактировать, и вносит в них правки по своему усмотрению. Такой принцип взаимодействия с базой данных кажется подходящим для расширенного этапа работы над АМС-АСОТ, однако по меньшей мере на базовом этапе мы склонны от него отказаться в пользу более регламентированного подхода.

На наш взгляд, следует дополнить стандартный функционал MediaWiki специальной веб-страницей, обеспечивающей процесс анкетирования и схожей внешне с традиционными опросными формулярами. Пользователь перенаправляется на эту страницу после того, как получит учетные данные, войдет в систему и будет ознакомлен с инструкциями. Страница должна содержать заголовочную область с приглашением к работе и краткой версией инструкций, например: «Введите в текстовые поля ключевые ассоциации с предложенными заголовочными словами, на основании которых, по Вашему мнению, чаще всего осуществляется или могло бы осуществляться метафорическое переосмысление этих слов, разделяя ассоциации с помощью запятых», а также некоторое количество заголовочных слов и текстовые поля для ввода ассоциаций, соответствующие каждому слову.

Мы полагаем, что для решения задач базового этапа достаточно предъявить каждое заголовочное слово трем респондентам, получая тем самым первичное, вторичное и контрольное мнение для последующей обработки. С учетом нашей предварительной оценки объемов словника (около 1000 слов) и аудитории респондентов (около 100 человек) это означает, что каждому участнику работы над АМС-АСОТ необходимо обработать 30 уникальных лексических единиц.

Заголовочные слова, появляющиеся на странице, будут отбираться системой случайно, но с учетом активности других пользователей. Этот учет может осуществляться с двумя основными целями: исключить одновременную работу нескольких респондентов над одним и тем же словом, а также удостовериться, что наполнение базы данных ассоциациями будет происходить равномерно. К примеру, если заголовочное слово еще не было обработано никем из участников, то страница анкетирования придаст ему повышенный приоритет.

После заполнения анкеты и отправки результатов на сервер система записывает содержимое текстовых полей на соответствующие страницы, которые создавались администратором заблаговременно в ходе подготовки технического обеспечения. На наш взгляд, целесообразно также вводить в базу данных сведения о том, какие именно заголовочные слова обрабатывал конкретный респондент, и предоставлять ему возможность отредактировать ассоциации, если возникнет потребность в этом.

Наличие страницы анкетирования, заменяющей стандартный интерфейс редактирования MediaWiki, преследует цель изолировать респондентов от взаимодействия друг с другом, исключая тем самым возможность влияния ассоциаций, предложенных одними участниками, на результаты интроспекции других участников. В условиях базового этапа это безусловно существенно, поскольку на этой стадии формируется ядро словаря.

Отдельно следует рассмотреть вопрос о том, надлежит ли сохранить страницу анкетирования и для расширенного этапа. С одной стороны, как уже было отмечено, задача второй стадии заключается в проверке и уточнении результатов базового этапа (которые, к тому же, мы предполагаем использовать в качестве примеров «правильных» ассоциаций, что само по себе подразумевает необходимость ознакомления с ними). С другой стороны, в интересах чистоты получаемых данных нам необходимо в меру возможности избегать какой бы то ни было интерференции, а также убедиться, что данные базового этапа не будут повреждены при последующем редактировании (чего затруднительно добиться при использовании стандартного интерфейса MediaWiki).

Исходя из сопоставления достоинств и недостатков обоих вариантов, кажется уместным продолжать ориентироваться на использование страницы анкетирования и на расширенном этапе работы над АМС-АСОТ, добавив к заголовочным словам поле примера. В интересах минимизации интерференции, на наш взгляд, целесообразно выводить в качестве примера только одну, наиболее частотную ассоциацию (вероятно, в большинстве случаев эту роль будет играть ассоциация, единогласно предложенная всеми тремя респондентами базового этапа).

Каждый набор ассоциаций, поступивший от конкретного пользователя, будет дописываться в конец словарной страницы в виде нового подраздела. Это позволит добиться четкой организации данных и избежать их повреждения.

Таким образом, можно предварительно установить, что в ходе работы над АМС-АСОТ участники проекта будут взаимодействовать только со страницей анкетирования, в то время как прочие элементы интерфейса MediaWiki, включая готовые страницы с заголовочными словами и ассоциациями будут просматриваться только администраторами. Техническое обеспечение таких ограничений тривиально, а их реализация позволит полностью избежать влияния мнений респондентов друг на друга, обеспечивая тем самым чистоту психолингвистического эксперимента.

Порядок обработки собранных данных

После завершения обеих этапов работы над словником база данных будет закрыта для дальнейшего дополнения, и администраторы проекта смогут приступить к обобщению полученной информации. В этой части построения АМС-АСОТ мы не предполагаем каких-либо значительных отклонений от методологии уже существующих ассоциативных словарей: извлеченные ассоциации будут ранжироваться по частотности упоминаний в анкетах, что позволит распределить их по степени популярности / очевидности и выстроить «карту значений» для аналитического алгоритма, который с помощью этих данных сможет решать, на какие ассоциации следует опираться в первую очередь, а к каким следует обращаться только в случае неудачных предыдущих попыток. Возможно, впрочем, что с учетом специфического предназначения АМС-АСОТ на этапе обработки данных потребуется дополнительный «контроль качества» - т.е. проверка собранных ассоциаций на предмет того, действительно ли они могут служить основаниями для метафорического переноса. Такая проверка будет безусловно осуществляться после базового этапа, однако итоги менее контролируемого расширенного этапа могут потребовать ее повторного проведения.

После того, как данные будут обработаны, сформированные страницей анкетирования исходные наборы ассоциаций от каждого респондента будут архивированы, и каждому заголовочному слову будет сопоставлена окончательная словарная статья в стандартном для ассоциативных словарей формате (см., напр.: [4], [5]):

СЛОВО: ассоциация 1 (частотность); ассоциация 2 (частотность); ассоциация N.

(В конце словарной записи обычно размещаются те ассоциации, которые оказались уникальны для одного конкретного респондента, поэтому для них частотность не указывается.)

Формирование окончательных словарных статей соответствует завершению работы над АМС-АСОТ. База данных открывается для общего ознакомления, предоставляя посетителям возможность пользоваться всеми возможностями интерфейса MediaWiki, исключая внесение изменений в тексты словарных статей; страница анкетирования отключается.

В качестве перспективных направлений дальнейшей работы рассматриваются создание библиотеки или экспортированной БД для подключения к аналитическим алгоритмам АСОТ, а также выпуск словаря в виде традиционного книжного издания.

 

Литература

 

1.  Головко Н.В. Ассоциативный аспект интерпретации метафоры в процессе автоматизированного анализа русскоязычных текстов // Научно-практический многопредметный журнал «НаукаПарк». - № 2/1 (21). – Ставрополь: Изд. дом «ТЭСЭРА», 2014. – С. 6-12.

2.  Головко Н.В. Overview of status quo in Russian associative lexicography // Russian Linguistic Bulletin. — 2017. — № 1 (9). — С. 25—27.

3.  Проспект активного словаря русского языка / под ред. акад. Ю.Д. Апресяна. URL: http://san.ruslang.ru/prospect_theory.pdf (дата обращения: 04.10.2017)

4.  Леонтьев А.Н. Словарь ассоциативных норм русского языка. М.: МГУ, 1977. 192 с.

5.  Русский ассоциативный словарь / под рук. Ю. Н. Караулова. М.: Издательство «Астрель», 2002. 755 с.