УДК 81'322.2

Н.В. Головко

г. Ставрополь

К вопросу о формальной идентификации функционального стиля текста в русском языке

 

В настоящее время в связи с активным развитием сети Internet и совершенствованием технологий автоматизированного перевода наблюдается повышенный интерес к методам и приемам формальной идентификации тех или иных характеристик текстов на естественных языках. Необходимо отметить, что, в то время как определение количественных параметров текста (таких, как количество знаков, слов и т.п.) не представляет существенной сложности для автоматизированных систем обработки текстов, вопрос об идентификации его качественных характеристик нередко остается открытым. Это обусловливает потребность в разработке новых и совершенствовании существующих подсистем формального анализа качественных параметров текстов.

Заметим, что на данный момент известен ряд исследований, посвященных вопросам идентифицирования такой качественной характеристики текста, как функциональный стиль. В частности, по мнению Браславского П.И., существует возможность автоматического определения научных текстов с помощью следующих формальных языковых параметров: средняя длина слова, доля именных частей речи, количество личных местоимений и др. [1] В нашей работе «Длина слова как характеризующий показатель заимствованности и степени полисемизации» [2] мы доказали возможность существования зависимости между длиной слова и его заимствованностью, а также степенью полисемантичности, установив, что длинные слова (9-12 и более букв) по преимуществу заимствованы из иных языков и характеризуются низким уровнем полисемантичности (1-2 значения), что, в частности, является отличительной чертой слов, относящихся к научной терминологии. Необходимо, однако, отметить, что в соответствии с рассмотренной выше концепцией П.И. Браславского предлагается идентифицировать качественный параметр текста (функциональный стиль) исключительно посредством формального анализа его количественных характеристик, относящихся к плану выражения. Мы, в свою очередь, считаем возможным допустить, что релевантность идентификации качественных параметров может быть достижима при исследовании не только количественных, но и качественных характеристик текста, непосредственно относящихся не только к плану выражения, но и к плану содержания.

  Задача формализации плана содержания текста неоднозначна. Действительно, данный аспект текста является аналоговым (непрерывным) по своей сущности (о чем мы неоднократно говорили в наших работах, связанных с концепцией фиксирования типов языковой информации), в то время как автоматизированная обработка информации требует дискретного представления данных. Вместе с тем допустимо утверждать, что существует возможность дискретного представления некоторых аспектов плана содержания, что позволило бы осуществлять формальный анализ последнего; одним из таких аспектов нам представляется полисемантизация.

Проведенные нами исследования [3] продемонстрировали возможность дискретизации процесса полисемантизации и представления языка в целом как диссипативной динамической системы, обладающей аттрактором по не менее чем одной траектории. В случае полисемантизационной траектории аттрактором является т.н. коэффициент степени полисемантизации, т.е. показатель, характеризующий отношение количества полисемантичных слов к общему количеству слов в языке; полученные нами статистические данные для русского языка свидетельствуют, что данный показатель стремится к состоянию равновесия, т.е. к единице. Поскольку степень полисемантичности слова представляется связанной с его длиной, а также в силу очевидности того факта, что количество полисемантичных слов в текстах научного стиля существенно ниже, нежели в художественных текстах, мы находим допустимым выдвинуть следующие взаимосвязанные предположения:

1) существует возможность формального анализа степени полисемантичности текста;

2) степень полисемантичности текста может рассматриваться как один из показателей его принадлежности к определенному стилю речи;

3) комплексное исследование средней длины слова и степени полисемантичности лексики текста может быть достаточным для идентификации его функционально-стилевой принадлежности.

В настоящей работе мы предпримем попытку доказать правомерность данных предположений.

Необходимо заметить, что сама по себе индивидуальная степень полисемантичности слова, хотя и способна дать более адекватную картину уровня многозначности текста, не оптимальна как параметр для автоматизированных систем обработки текстов. Организация анализа полисемантичности лексики текста с оценкой многозначности каждого отдельного слова потребует создания и применения исключительно объемных баз данных (БД), содержащих сведения об уровне полисемантичности всех слов языка; фактически разработчик подсистемы формального анализа будет вынужден внести в БД полное содержание толкового словаря, что является неэффективным решением с позиций расхода ресурсов вычислительной системы. Соответственно, необходим оптимизированный алгоритм анализа, позволяющий одновременно сохранить относительную надежность идентификации и минимизировать требуемый объем БД системы.

Напомним, что, согласно нашим исследованиям, представляется уместным выделение нескольких показателей процесса полисемантизации: коэффициента интенсивности полисемантизации (КИП), коэффициента степени полисемантизации (КСП), а также соответствующих локальных коэффициентов (ЛКИП и ЛКСП), характеризующих слова из одной словарной группы (т.е. начинающиеся на одну и ту же букву). Представим в таблице данные, характеризующие словарный состав языка с позиций полисемантизации в синхроническом срезе:

 

Таблица 1. Локальный коэффициент степени полисемантизации (по данным словаря С.И. Ожегова, издание девятое, исправленное и дополненное)

СГ

МС

ВС

ЛКСП

15

О

808

3077

0,2626

1

А

151

732

0,2063

16

П

1728

7487

0,2308

2

Б

317

1464

0,2165

17

Р

714

2511

0,2844

3

В

635

2623

0,2421

18

С

1043

4365

0,2390

4

Г

237

1069

0,2217

19

Т

390

1515

0,2574

5

Д

421

1603

0,2626

20

У

308

1257

0,2450

6

ЕЁ

40

135

0,2963

21

Ф

138

545

0,2532

7

Ж

93

364

0,2555

22

Х

126

536

0,2351

8

З

507

1697

0,2988

23

Ц

59

228

0,2588

9

И

232

1011

0,2295

24

Ч

128

598

0,2141

10

Й

1

6

0,1667

25

Ш

143

564

0,2536

11

К

573

2518

0,2276

26

Щ

30

82

0,3659

12

Л

207

920

0,2250

27

Э

74

369

0,2005

13

М

324

1558

0,2080

28

Ю

13

50

0,2600

14

Н

595

2344

0,2538

29

Я

51

169

0,3018

 

Условные обозначения: СГ – словарная группа, МС – количество многозначных слов, ВС – общее количество слов, ЛКСП – локальный коэффициент степени полисемантизации.

Из приведенной таблицы можно видеть, что ЛКСП претерпевает существенные изменения в зависимости от словарной группы: диапазон значений составляет от 0,1667 (~17%) для буквы Й до 0,3659 (~37%) для буквы Щ (т.е. ΔЛКСП ~20%). Среднее значение ЛКСП для русского языка составляет 0,2473 (~25%). Соответственно, есть основания утверждать, что в русском языке существуют сильно полисемантизованные словарные группы (более 30%), слабо полисемантизованные (менее 21%) и словарные группы среднего уровня полисемантизации (от 22 до 29%). Таким образом, к сильно полисемантизованным могут быть отнесены группы Щ, Я, З и ЕЁ, к слабо полисемантизованным – Ч, М, А, Э, Й, к средне полисемантизованным – все прочие словарные группы.

Отметим, что результаты исследования взаимозависимости длины слова, заимствованности и степени полисемантизации косвенно подтверждают справедливость приведенных данных. Так, словарная группа Щ не содержит никакой научной терминологии и состоит исключительно из слов русского происхождения; в то же время в словарных группах Й, А практически полностью отсутствуют русские по происхождению лексические единицы, однако в их состав входит существенное количество терминов из тех или иных областей научного знания.

Исходя из приведенных выше данных и теоретических выкладок, мы находим допустимым предположить, что процедура индивидуального определения степени полисемантизованности для каждого слова в тексте может быть с некоторой погрешностью заменена процедурой определения преобладающих словарных групп. Действительно, если та или иная словарная группа содержит высокое количество многозначных слов, можно с уверенностью полагать, что слабо полисемантизованный текст будет содержать незначительное количество слов, относящихся к этой словарной группе, и наоборот. Соответственно, в рамках доказательства выдвинутых выше предположений необходимо изучить среднюю длину слова и относительную степень полисемантизованности для текстов различных функциональных стилей, а также исследовать возможность применения тех или иных полученных показателей в целях идентификации стилевой принадлежности текста. 

Нами были взяты 4 текста приближенно равной длины (около 20 000 знаков), относящихся к научному, художественному, публицистическому и официально-деловому стилям речи:

1) обзорная статья «Модели мандатного контроля и управления доступом», сфера научного знания – организация и технология защиты информации [4];

2) рассказ О. Уайлда «Молодой король» [5];

3) статья А. Трапезникова «Я в наследстве отцов ощутил...» [6];

4) Федеральный закон «О рекламе», статьи 1-15 [7].

Для данных текстов были проведены расчеты средней длины слова и относительного уровня полисемантизованности. Средняя длина слова рассчитывалась с помощью меню «Сервис – Статистика» текстового процессора Microsoft Office Word 2003 по формуле СДС = Qзбп / Qc, где СДС – средняя длина слова, Qзбп – количество знаков без пробелов, Qc – количество слов в документе. Определение количества слов, относящихся к той или иной словарной группе, было сведено к определению количества знакосочетаний «пробел плюс первая буква группы».

Данные, полученные в результате исследования, представлены в таблице:

 

Таблица 2. Количество слов в каждой из словарных групп для текстов различных функциональных стилей

СГ

ХТ

ПТ

НТ

ОТ

15

О

275

200

231

269

1

А

40

93

56

33

16

П

329

360

245

277

2

Б

121

124

111

15

17

Р

116

86

107

277

3

В

315

351

183

202

18

С

356

407

390

256

4

Г

107

92

12

38

19

Т

158

153

99

247

5

Д

116

159

160

119

20

У

74

87

94

61

6

ЕЁ

90

84

43

30

21

Ф

3

15

35

68

7

Ж

35

63

9

2

22

Х

22

34

20

11

8

З

92

87

55

63

23

Ц

10

12

1

7

9

И

451

273

279

321

24

Ч

92

111

77

44

10

Й

0

0

0

0

25

Ш

22

11

5

2

11

К

233

189

188

93

26

Щ

3

1

0

0

12

Л

100

89

56

58

27

Э

31

65

34

10

13

М

137

134

191

86

28

Ю

15

4

0

7

14

Н

325

437

178

197

29

Я

37

39

18

13

 

Условные обозначения: СГ – словарная группа, ХТ – художественный текст, ПТ – публицистический текст, НТ – научный текст, ОТ – официально-деловой текст.

Полученные статистические данные позволяют нам произвести расчет ряда других параметров, таких, как:

1) общее количество слов, относящихся к слабо полисемантизованным группам (КССлП);

2) общее количество слов, относящихся к сильно полисемантизованным группам (КССП);

3) массовая доля слов, относящихся к слабо полисемантизованным группам (% СлП), рассчитываемая по формуле % СлП = КССлП/КС * 100 %, где КС – общее количество слов в тексте;

4) массовая доля слов, относящихся к слабо полисемантизованным группам (% СП), рассчитываемая по формуле % СП = КССП/КС * 100 %, где КС – общее количество слов в тексте;

5) отношение количества слов в сильно полисемантизованных группах к количеству слов в слабо полисемантизованных группах (СП/СлП).

 

Таблица 3. Количественные характеристики текстов, принадлежащих к различным функциональным стилям

Текст

КС

СДС

КССлП

КССП

%СлП

%СП

СП/СлП

ХТ

4123

5,1

300

222

7,28%

5,38%

0,74

ПТ

3929

5,6

403

211

10,26%

5,37%

0,52

НТ

3215

6,6

358

116

11,14%

3,61%

0,32

ОТ

3046

7,1

173

106

5,68%

3,48%

0,61

 

Таблица 3 демонстрирует ряд закономерностей:

1) Художественный и публицистический тексты характеризуются относительно низким показателем средней длины слова (в диапазоне от 5 до 6 знаков), в то время как научный и официально-деловой тексты имеют относительно высокие показатели СДС – от 6 до 7 знаков.

2) Соотношения между массовыми долями сильно полисемантизованных и слабо полисемантизованных групп, а также между количеством слов, принадлежащих к сильно и слабо полисемантизованным словарным группам, существенно различаются для текстов научного и художественного стиля. В то время как % СлП и % СП для художественного стиля различны на 1,9 %, для научного стиля разница составляет 7,53 %; отношение СП/СлП составляет 0,74 против 0,32 соответственно.

В то же время представленные данные не позволяют говорить об уверенном детектировании публицистического стиля, который одновременно близок и к научному стилю – по соотношению массовых долей, - и к художественному – по соотношению СП/СлП, а также официально-делового стиля, который, казалось бы, демонстрирует более высокий уровень потенциальной полисемантизации, чем публицистический (что объясняется высокой частотой встречаемости в данном конкретном тексте слова «закон», которое относится к сильно полисемизованной словарной группе). Данные факты свидетельствуют, что, хотя произведенных расчетов достаточно для разграничения научного и художественного функциональных стилей, для уверенной идентификации стилевой принадлежности текста может быть необходим более детализированный алгоритм. Представляется допустимой попытка выделения наиболее достоверных идентификаторов стилевой отнесенности на базе уже полученных и представленных нами в таблицах выше. Действительно, рассмотрим массовую долю сильно и слабо полисемантизованных словарных групп в каждом из текстов:

 

Таблица 4. Массовые доли сильно и слабо полисемантизованных словарных групп в текстах различных функциональных стилей

Текст / СГ

СлП

СП

А

Й

М

Ч

Э

ЕЁ

З

Щ

Я

ХТ

0,97%

0,00%

3,32%

2,23%

0,75%

2,18%

2,23%

0,07%

0,90%

ПТ

2,37%

0,00%

3,41%

2,83%

1,65%

2,14%

2,21%

0,03%

0,99%

НТ

1,74%

0,00%

5,94%

2,40%

1,06%

1,34%

1,71%

0,00%

0,56%

ОТ

1,08%

0,00%

2,82%

1,44%

0,33%

0,98%

2,07%

0,00%

0,43%

 

Можно видеть, что устойчивые закономерности для массовых долей в различных стилях речи демонстрируют лишь три словарные группы: «ЕЁ», «Щ» и «Я». Для этих групп массовые доли в художественном и публицистическом, равно как и в научном и официально-деловом текстах, с одной стороны, сопоставимы, а, с другой стороны, явным образом отличаются от противоположной пары стилей. Соответственно, в случае существования неопределенности основной алгоритм детектирования может быть дополнен вспомогательным алгоритмом вычисления суммарной массовой доли словарных групп «ЕЁ», «Щ» и «Я».

В качестве доказательства рассмотрим данные, полученные по этому алгоритму для рабочих текстов: научный текст – 1,90%; официально-деловой текст – 1,41%; художественный текст – 3,15%; публицистический текст – 3,16%. Проведя дополнительные исследования по этому алгоритму для еще двух текстов каждого стиля, мы убедились, что пороговым значением является уровень в 3%.

Итак, суммируя данные, полученные в настоящем исследовании, мы можем сделать следующие выводы:

1) Сочетание вычисления средней длины слова и определения отношений между количеством слов, относимых к слабо и сильно полисемантизованным словарным группам, может быть применено для отделения художественных и публицистических русскоязычных текстов от научных и официально-деловых.

2) В общем случае, если средняя длина слова исследуемого русскоязычного текста не превышает 6 знаков, а отношение количества слов из сильно полисемантизованных словарных групп к количеству слов из слабо полисемантизованных словарных групп составляет не менее 0,5, заданный текст может быть классифицирован как относящийся к художественному или публицистическому функциональному стилю речи.

3) В общем случае, если средняя длина слова исследуемого русскоязычного текста превышает 6 знаков, а отношение количества слов из сильно полисемантизованных словарных групп к количеству слов из слабо полисемантизованных словарных групп составляет менее 0,5, заданный текст может быть классифицирован как относящийся к научному или официально-деловому функциональному стилю речи.

4) Если критерии СДС и СП/СлП противоречат друг другу (т.е., к примеру, СДС превышает 6 знаков, но СП/СлП > 0,5), может быть применен алгоритм верификации по достоверным словарным группам. Если суммарная массовая доля слов, относимых к словарным группам «ЕЁ», «Щ», «Я», превышает 3%, исследуемый русскоязычный текст может быть классифицирован как относящийся к художественному или публицистическому функциональному стилю речи; если данный показатель составляет менее 3%, заданный текст может быть классифицирован как относящийся к научному или официально-деловому функциональному стилю речи.

Представленные результаты исследований подтверждают выдвинутые нами предположения, а также предоставляют возможность формирования и описания предварительного алгоритма работы анализатора русскоязычных текстов, позволяющего отделять художественные и публицистические тексты от научных и официально-деловых.

 

Библиографический список

 

1. Браславский, П.И. Пути повышения эффективности поиска научной информации в Internet. – [Электронный ресурс]. – Режим доступа: http://www.nsc.ru/ws/show_abstract.dhtml?ru+2+44.

2. Головко, Н.В. Длина слова как характеризующий показатель заимствованности и степени полисемизации [Текст] / Н.В. Головко // Язык как воплощение культуры: лингвистическая, переводческая и дидактическая рефлексия. – Ч.1. – Ставрополь, 2006. – С. 72-76.

3. Головко, Н.В. Логико-квантитативный аспект теории фиксирования типов языковой информации [Текст] / Н.В. Головко // Вестник Ставропольского государственного университета. – 2008. - № 3. – Вып. 56. – С. 72-79.

4. Корт, С.С. Теоретические основы защиты информации [Текст] / С.С. Корт. – М., 2004. – 240 с.

5. Уайлд, О. Избранное [Текст] / О. Уайлд. – М., 1990. – 429 с.

6. Трапезников, А. Я в наследстве отцов ощутил... – [Электронный ресурс]. – Режим доступа: http://www.litrossia.ru/2009/10/03910.html

7. Закон Российской Федерации «О рекламе». – [Электронный ресурс]. – Режим доступа: http://www.consultant.ru/popular/advert

8. Ожегов, С.И. Словарь русского языка [Текст] / С.И. Ожегов. – М., 1972. – 846 с.

9. Кузнецов, С.А. Современный толковый словарь русского языка [Текст] / С.А. Кузнецов. - М., 2004. – 960 с.

10. Селезнев, В.А., Исаева, Е.В. Параметр Херста словарного ряда [Текст] / В.А. Селезнев, Е.В. Исаева // Квантитативная лингвистика: исследования и модели (КЛИМ-2005). Материалы Всероссийской научной конференции (6-10 июня 2005 г.). – Новосибирск, 2005. –  С. 146-152.