ФУНКЦИОНАЛЬНЫЙ СТИЛЬ ТЕКСТА КАК ФАКТОР ОПТИМИЗАЦИИ АВТОМАТИЗИРОВАННОГО АНАЛИЗА

 

Н.В. Головко

Ставропольский государственный университет, Ставрополь

 

В настоящей статье исследуется аналитико-оптимизационный потенциал основных элементов речевой ситуации, что позволяет обосновать значимость функционально-стилевой принадлежности текста для процедуры его автоматизированного анализа. Устанавливается, что, в отличие от прочих элементов идеального контекста высказывания, исключительно функциональный стиль, или подъязык, обладает совокупностью характеристик, которые, с одной стороны, предоставляют возможность выполнять его детектирование без участия человека, а с другой стороны, обладают оптимизационным потенциалом в вопросах автоматического исследования текста.

 

Работа выполнена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (ГК НК-523П)

Согласно современным базовым представлениям о процедуре текстового анализа и степени адекватности его лингвистического обеспечения, в настоящее время существует потребность в оптимизации систем автоматизированного анализа естественноязыковых текстов. Действительно, в связи с активным развитием сети Internet и постоянным ростом объемов информации, которая подлежит обработке, наблюдается повышенный интерес к возможностям разработки новых и совершенствования существующих средств анализа естественноязыковых текстов; при этом первоочередную значимость приобретают оптимизированные эвристические алгоритмы, позволяющие сколь возможно быстро обрабатывать значительные объемы сведений и не требующие при этом организации и ведения громоздких баз данных (БД).

Сфера автоматизированного анализа текстов на естественном языке включает три основных раздела: машинный перевод, автоматическое «понимание» естественного языка в целях выработки оптимального человеко-машинного интерфейса, а также теория и практика информационно-поисковых систем. Вполне очевидно, что обозначенные сферы достаточно разноплановы, и задача оптимизирования тех или иных систем автоматизированного анализа текстов представляет определенные сложности в поиске унифицированных алгоритмов.

Отметим, что нам представляется целесообразным формировать именно унифицированный алгоритм оптимизации, который мог бы в равной степени удовлетворять потребности автоматизированных систем, разработанных для выполнения задач в каждом из трех упомянутых выше разделов, поскольку разработка программных модулей, построенных на единых принципах и подходах к оптимизации систем автоматизированного анализа текстов на естественных языках, позволяет успешно реализовать востребованный в настоящее время системный подход к организации машинных анализаторов (см. [1]). В связи с этим приоритетной задачей в процессе построения средств оптимизации автоматизированного анализа представляется поиск тех параметров естественноязыковых текстов, которые в равной или близкой степени значимы как для машинных переводчиков, так и для средств «понимания» и информационно-поисковых систем, а также характеризуются определенным эвристическим потенциалом.

На наш взгляд, тот факт, что вопрос интерпретации высказываний на естественном языке самым непосредственным образом увязан с вопросами семантики языковых знаков, является вполне очевидным. Действительно, корректное интерпретирование текста едва ли может быть осуществлено, если некоторые его составляющие – лексические единицы, сверхфразовые единства, предложения, высказывания, - не поняты или истолкованы неверно; отметим, что одним из базовых проблемных факторов, создающих сложности при интерпретации языковых знаков, является фактор их полисемантичности – вряд ли вызывает какие-либо сомнения то утверждение, что вопрос выбора того или иного значения из некоторого множества таковых может представлять определенные сложности для участников коммуникации и является трудоемкой задачей для автоматизированного анализатора.

Совершение корректного выбора в пользу того или иного значения полисемантичного языкового знака может быть обусловлено приданием определенного веса тому или иному члену множества значений. Основным фактором, который позволяет осуществить обозначенный выбор, является физический и / или идеальный контекст; в современных исследованиях, посвященных вопросам применения контекста в процессе автоматизированного анализа текстов, негласный приоритет отдается контексту физическому, т.е. непосредственному окружению языкового знака. Закономерным итогом указанной тенденции стало преимущественное использование дистрибутивного анализа в целях совершения выбора того или иного члена из множества потенциальных значений полисемантичного языкового знака.

Отметим, однако, что в рамках комплексного подхода к оптимизации процедур автоматизированного анализа естественным образом подлежат учету все факторы, оказывающие непосредственное воздействие на интерпретацию текста, что предопределяет необходимость изучения и применения в интересах указанной оптимизации как физического, так и идеального контекста. С данной позиции формально-семантический анализ как метод может представляться эффективным средством оптимизации, поскольку позволяет формировать представление о значении как в пределах физического и идеального контекста, так и вне его.

Под идеальным контекстом мы предлагаем понимать ситуацию общения в наиболее широком понимании данного термина, т.е. множество условий и факторов (по преимуществу экстралингвистического характера), в рамках или под воздействием которых осуществляется коммуникация, равно как и тех фоновых знаний, которые учитываются коммуникантами в процессе общения; с целью упростить дальнейшее изложение условимся полагать синонимичными понятия «идеальный контекст», «коммуникативная ситуация» («ситуация общения») и «речевая ситуация».

Действительно, полноценная интерпретация сообщений, посылаемых адресантом текста, будь то текст письменный или же устный, представляется принципиально нерешаемой задачей при отсутствии у реципиента совокупности представлений об идеальном контексте высказывания, сколь возможно более адекватной аналогичным представлениям отправителя сообщения. В случае дистантной письменной коммуникации данный фактор представляется особенно значимым в силу постоянного устаревания коммуникативной ситуации и фоновых знаний, что вызывает потребность, к примеру, в пространном комментировании литературных произведений, с момента создания которых прошло 50-100 лет и более.

Соответственно, в интересах наиболее эффективной интерпретации текстов на естественных языках в процессе их автоматического анализа разрабатываемое лингвистическое обеспечение должно учитывать как физический, так и идеальный контекст исследуемого высказывания или текста. Не касаясь неплохо разработанных в языкознании вопросов анализа физического контекста, мы считаем необходимым обратиться к рассмотрению идеального контекста, его компонентов, степени критичности в вопросах выбора единичных значений из множества таковых, а также аналитического потенциала вышеуказанных компонентов с точки зрения оптимизации процедур автоматизированного анализа текстов.

Краткий анализ существующих воззрений на структуру и компоненты идеального контекста позволяет установить, что не существует единого подхода к выделению вышеуказанных компонентов. В частности, А.В. Ленец при рассмотрении речевой ситуации (РС) лжи считает необходимым выделить такие составляющие РС, как «участники общения, место и время общения, предмет общения, цель общения, обратная связь между участниками общения» [2] , а Г.Г. Матвеева предлагает включать в состав РС «условия общения,  предметный ряд, время и место коммуникации, самих коммуникантов, их отношение друг к другу и др. признаки» [3] , при этом отмечая, что восходящие к К. Бюлеру классификации неизменно содержат три базовых элемента – отправитель, получатель и предмет речи, – однако в деталях могут быть существенно различны в том числе в рамках одной и той же работы. Г.Г. Матвеева также находит уместным активное использование классификации, предложенной Д. Хаймсом [4] ; согласно указанным воззрениям, могут быть выделены семь компонентов, или факторов, речи, как то: отправитель, получатель, форма сообщения (речевой жанр), канал связи (или вид речевой деятельности - устный/письменный), код (язык и норма словоупотребления), тема (функциональный стиль, подъязык) и обстановка. В работе Г.Г. Матвеевой также отмечается, что именно в соответствии с данной классификацией Р. Якобсоном [5] были выделены функции, или роли, тех или иных составляющих речевой ситуации. Мы также находим предпочтительным обратиться к рассмотрению элементов РС в том составе, который предложен Д. Хаймсом, с позиции получателя сообщения (т.е. собственно интерпретатора).

1) Отправитель (адресант). Представляется вполне очевидным, что в задачи интерпретатора входит активное использование сведений, позволяющих производить некоторые умозаключения об отправителе сообщения; в то же время нам не известен опыт привлечения данных об авторе исследуемого текста в интересах автоматизированного анализа. Изучение информации об адресанте непосредственным образом увязано с определением и актуализацией фоновых знаний, которые наряду с физическим окружением (местом, временем и предметами объективной реальности) составляют содержание также и последнего компонента классификации Д. Хаймса («обстановка»).

В то же время знания об отправителе сообщения по преимуществу не могут быть извлечены эвристически и требуют формирования и поддержки БД, что не позволяет обратиться к исследованию данного фактора в целях выработки оптимизированных алгоритмов автоматического анализа текстовых сообщений.

2) Форма сообщения (речевой жанр). В рамках излагаемой концепции под речевым жанром предлагается понимать конкретные формы текстовых сообщений, существующих в пределах одного функционального стиля речи  (как то: лекция, доклад, реферат, статья, аннотация в пределах научного стиля) или того или иного типа творческой деятельности (литературные жанры). Данные формы обладают, как следует из их наименования, определенной совокупностью исчислимых формальных признаков и, соответственно, характеризуются некоторым эвристическим потенциалом; однако выбор речевого жанра, очевидно, не оказывает сколь-либо существенного воздействия на значение тех или иных языковых единиц – а, следовательно, данный фактор не может рассматриваться как источник оптимизации интерпретирующих алгоритмов. Действительно, сложно представить, чтобы один и тот же языковой знак мог характеризоваться различными значениями в пределах лекции и в пределах реферата; отличать же упомянутую выше лекцию от романа или от газетной статьи представляется неуместным.

3) Канал связи (вид речевой деятельности). Данный элемент, как следует из рассматриваемой нами концепции, определяет, каким именно образом и в какой среде передается то или иное текстовое сообщение. Отметим, что определение канала, по которому передается активный сигнал, осуществляется любым интерпретатором, будь то человек или автоматизированный анализатор, самым естественным образом, поскольку восприятие сведений по устному и письменному каналам производится посредством принципиально различных рецепторов. В сущности, вопросы собственно машинного восприятия устных высказываний, безусловно, представляют определенную сложность, равно как и интерес для исследователя, однако указанные проблемы не имеют непосредственной связи с интерпретацией содержания анализируемого текста и в силу этого остаются вне пределов настоящего исследования. Нет также и оснований утверждать, что канал связи сам по себе оказывает какое-либо воздействие на значения языковых знаков; соответственно, данный фактор не может служить источником оптимизации рассматриваемых нами аналитических алгоритмов.

 4) Код (собственно язык и норма словоупотребления). При анализе компонентов речевой ситуации принято полагать, что коммуниканты разделяют общий код, на котором осуществляется их речевое взаимодействие; в противном случае коммуникация принципиально невозможна. Следует, однако, заметить, что при человеко-машинном взаимодействии, либо при взаимодействии двух человеческих коммуникантов посредством машины, коммуникация посредством общего языка в настоящее время места не имеет вообще (либо подобные случаи составляют определенную редкость), поскольку развитие операционных систем и прикладного программного обеспечения позволило устранить необходимость непосредственного использования машинных команд человеком. Соответственно, каждая машина, задействованная в процессе автоматического анализа текстов на естественном языке, в сущности является не только получателем сообщения, но также одновременно и переводчиком, осуществляя конверсию сообщений из одного кода в другой и обратно.

Рассматривая вопросы корректности указанной конверсии, а также зависимости значений языковых единиц и содержания текста в целом от кода, на котором осуществляется коммуникативное взаимодействие, представляется возможным прийти к заключению, что в данном случае ведущим интерпретационным фактором со всей очевидностью является собственно язык источника, т.е. код, на котором изъясняется отправитель. В настоящее время системы автоматизированного анализа либо одноязычны (т.е. изначально построены в расчете на исследование сообщений только на одном языке), либо снабжены эффективными алгоритмами определения языка отправителя; подобные алгоритмы успешно апробированы в ежедневной практике работы информационно-поисковых систем Интернета, и какие-либо дополнительные исследования в этой области представляются нам нецелесообразными.

5) Тема (функциональный стиль, подъязык). Согласно Р. Якобсону, речевая ситуация характеризуется референциальностью, т.е. отнесенностью к некоторой предметной области [5]. В пределах некоторой области знания или социального взаимодействия может существовать специфическая разновидность языка, отличная от иных его модификаций и характеризующаяся некоторыми формальными и содержательными признаками; иными словами, продуцируемый текст формируется в рамках некоторого функционального стиля речи.

В настоящее время не вызывает сомнений тот факт, что существует определенная взаимосвязь между значениями языковых единиц и функционально-стилевой принадлежностью текста, в состав которого они входят. В частности, многие современные электронные словари-переводчики снабжены набором специализированных словарей, которые содержат отдельные элементы из совокупности значений тех или иных слов, актуализируемые в рамках различных стилей речи; следует, однако, заметить, что в изученных нами программных продуктах выбор специализированных словарей необходимо осуществлять вручную, в то время как данный процесс потенциально может быть автоматизирован. На наш взгляд, автоматическое определение функционально-стилевой принадлежности текстов может быть равнозначно ценно для всех трех типов автоматических анализаторов. В то же время функциональный стиль речи, как было отмечено выше, обладает некоторой характерной исключительно для него совокупностью формальных и содержательных параметров, которые, с одной стороны, исчисляемы, а с другой стороны, в перспективе могут обладать эвристическим потенциалом. Соответственно, анализ формально-содержательных признаков функциональных стилей речи потенциально позволяет изыскать те их параметры, которые отвечали бы ряду базовых требований, как то:

- реализация комплексного подхода к разработке и оптимизации аналитических алгоритмов;

- возможность эффективного детектирования функциональных стилей и автоматического их различения;

- принципиальная исчисляемость указанных параметров, т.е. наличие возможности успешно оценивать их без участия человека;

- наличие эвристического и оптимизационного потенциала, позволяющего реализовать высокопроизводительные алгоритмы, не требующие организации и ведения объемных БД.

Необходимо отметить, что определенным эвристическим потенциалом характеризуется не только функциональный стиль текста, но и те сведения о ситуации, которые могут быть извлечены непосредственно из текстового сообщения. Фактически данные сведения представляют собой компонент фоновых знаний, эксплицитно выраженный в исследуемом тексте; исследования, упомянутые нами выше, продемонстрировали, что наличествующие в тексте сведения могут быть достаточны для успешного формирования некоторых представлений о контексте и даже для понимания неявных ссылок и аллюзий. Разработки в данной области также были довольно успешными: выше нами описан ряд автоматизированных анализаторов, разработанных и построенных американскими исследователями в 1970-80 гг.; опыт практического использования данных систем, равно как и изучение доступных информационных материалов о современных средствах извлечения и анализа фактической информации, позволяют утверждать, что в данной сфере научных изысканий достигнут достаточно высокий уровень качества анализа, и какие-либо дополнительные разработки, в том числе оптимизационные, не являются насущно востребованными.

Следует также прокомментировать, что при построении оптимизационного алгоритма на основе детектирования функционального стиля текста существует потребность в предварительном определении собственно основного назначения подобного алгоритма и наиболее общих принципов его работы. Представляется очевидно необходимым организовать алгоритм таким образом, чтобы автоматическое определение функционального стиля оказывало сколь возможно более эффективное воздействие на процесс истолкования значений языковых единиц. Обращение к словарю [6] и краткий обзор представленных в нем статей позволяют утверждать, что в пределах совокупности значений полисемантичного слова с позиций функционального стиля наиболее часто проводится значимое различие между понятиями «книжное» и «разговорное»; эмпирический материал, равно как и интуитивные представления о взаимозависимости между значением слова и функциональным стилем, также заставляет в первую очередь задумываться об отличении книжных стилей речи от разговорного. К примеру, может не быть существенных различий в истолковании слова линейка (скажем, в значении ‘канцелярская принадлежность, служащая для измерения длины отрезков’) в пределах различных книжных стилей, однако значение, приписываемое указанному слову в современной разговорной речи, может существенно отличаться от соответствующих «книжных» истолкований (в частности, в последние несколько лет указанное слово может относиться к компьютерной игровой программе «Lineage»). В силу обозначенных причин нам представляется целесообразным фокусировать потенциальный алгоритм оптимизации, равно как и собственно процесс разработки его лингвистического обеспечения, в первую очередь на изыскании маркеров, позволяющих осуществить отличение книжных стилей от разговорного; задача же исследования, разработки и реализации процедуры различения тех или иных не-разговорных стилей (например, научного и художественного) в данном случае представляется нам вторичной.

Итак, в соответствии с приведенными выше рассуждениями функциональный стиль может рассматриваться как тот единственный компонент речевой ситуации, который, с одной стороны, исчисляем, а с другой стороны, характеризуется оптимизационным и эвристическим потенциалом; определение функционально-стилевой принадлежности текста, в свою очередь, позволит реализовать комплексный подход к его исследованию посредством действительного применения формально-семантического анализа и учета роли идеального контекста в расстановке приоритетов тех или иных потенциальных значений языковых единиц в процессе их истолкования. Зависимость описанного процесса приоритезации от функционального стиля речи полагаем очевидной.

 

Литература

 

1. Шевенко С.М. Лингвистика и проблемы машинного «понимания» естественного языка. – Аналитический обзор. – М., 1985.

2. Ленец А.В.  Речевая ситуация лжи // http://lingvomaster.ru/articles.php? get=225

3. Матвеева Г.Г. Диагностирование личностных свойств автора по его речевому поведению // http://rspu.edu.ru/projects/deutch/mono_2.html

4. Хаймс Д. Этнография речи // Новое в лингвистике. Вып. 7: Социолингвистика. - М.: Прогресс, 1975.

5. Якобсон Р. Лингвистика и поэтика // Структурализм "за" и "против". - М.: Прогресс, 1975.

6. Кузнецов С.А. Современный толковый словарь русского языка. - М., 2004.