УДК 81'322.2
Н.В. Головко
г. Ставрополь
К вопросу о формальной идентификации функционального стиля текста в
русском языке
В настоящее время в связи
с активным развитием сети Internet и совершенствованием технологий
автоматизированного перевода наблюдается повышенный интерес к методам и приемам
формальной идентификации тех или иных характеристик текстов на естественных
языках. Необходимо отметить, что, в то время как определение количественных
параметров текста (таких, как количество знаков, слов и т.п.) не представляет
существенной сложности для автоматизированных систем обработки текстов, вопрос
об идентификации его качественных характеристик нередко остается открытым. Это
обусловливает потребность в разработке новых и совершенствовании существующих подсистем
формального анализа качественных параметров текстов.
Заметим, что на данный
момент известен ряд исследований, посвященных вопросам идентифицирования такой
качественной характеристики текста, как функциональный стиль. В частности, по
мнению Браславского П.И., существует возможность автоматического определения
научных текстов с помощью следующих формальных языковых параметров: средняя
длина слова, доля именных частей речи, количество личных местоимений и др. [1] В
нашей работе «Длина слова как характеризующий показатель заимствованности и
степени полисемизации» [2] мы доказали возможность существования зависимости
между длиной слова и его заимствованностью, а также степенью полисемантичности,
установив, что длинные слова (9-12 и более букв) по преимуществу заимствованы
из иных языков и характеризуются низким уровнем полисемантичности (1-2
значения), что, в частности, является отличительной чертой слов, относящихся к
научной терминологии. Необходимо, однако, отметить, что в соответствии с
рассмотренной выше концепцией П.И. Браславского предлагается идентифицировать
качественный параметр текста (функциональный стиль) исключительно посредством
формального анализа его количественных характеристик, относящихся к плану
выражения. Мы, в свою очередь, считаем возможным допустить, что релевантность
идентификации качественных параметров может быть достижима при исследовании не
только количественных, но и качественных характеристик текста, непосредственно
относящихся не только к плану выражения, но и к плану содержания.
Задача
формализации плана содержания текста неоднозначна. Действительно, данный аспект
текста является аналоговым (непрерывным) по своей сущности (о чем мы
неоднократно говорили в наших работах, связанных с концепцией фиксирования
типов языковой информации), в то время как автоматизированная обработка
информации требует дискретного представления данных. Вместе с тем допустимо
утверждать, что существует возможность дискретного представления некоторых
аспектов плана содержания, что позволило бы осуществлять формальный анализ
последнего; одним из таких аспектов нам представляется полисемантизация.
Проведенные нами
исследования [3] продемонстрировали возможность дискретизации процесса
полисемантизации и представления языка в целом как диссипативной динамической
системы, обладающей аттрактором по не менее чем одной траектории. В случае
полисемантизационной траектории аттрактором является т.н. коэффициент степени
полисемантизации, т.е. показатель, характеризующий отношение количества
полисемантичных слов к общему количеству слов в языке; полученные нами
статистические данные для русского языка свидетельствуют, что данный показатель
стремится к состоянию равновесия, т.е. к единице. Поскольку степень
полисемантичности слова представляется связанной с его длиной, а также в силу
очевидности того факта, что количество полисемантичных слов в текстах научного
стиля существенно ниже, нежели в художественных текстах, мы находим допустимым
выдвинуть следующие взаимосвязанные предположения:
1) существует возможность
формального анализа степени полисемантичности текста;
2) степень
полисемантичности текста может рассматриваться как один из показателей его
принадлежности к определенному стилю речи;
3) комплексное
исследование средней длины слова и степени полисемантичности лексики текста
может быть достаточным для идентификации его функционально-стилевой
принадлежности.
В настоящей работе мы
предпримем попытку доказать правомерность данных предположений.
Необходимо заметить, что
сама по себе индивидуальная степень полисемантичности слова, хотя и способна
дать более адекватную картину уровня многозначности текста, не оптимальна как
параметр для автоматизированных систем обработки текстов. Организация анализа
полисемантичности лексики текста с оценкой многозначности каждого отдельного
слова потребует создания и применения исключительно объемных баз данных (БД),
содержащих сведения об уровне полисемантичности всех слов языка; фактически
разработчик подсистемы формального анализа будет вынужден внести в БД полное
содержание толкового словаря, что является неэффективным решением с позиций
расхода ресурсов вычислительной системы. Соответственно, необходим
оптимизированный алгоритм анализа, позволяющий одновременно сохранить
относительную надежность идентификации и минимизировать требуемый объем БД
системы.
Напомним, что, согласно
нашим исследованиям, представляется уместным выделение нескольких показателей
процесса полисемантизации: коэффициента интенсивности полисемантизации (КИП), коэффициента
степени полисемантизации (КСП), а также соответствующих локальных коэффициентов
(ЛКИП и ЛКСП), характеризующих слова из одной словарной группы (т.е.
начинающиеся на одну и ту же букву). Представим в таблице данные,
характеризующие словарный состав языка с позиций полисемантизации в
синхроническом срезе:
Таблица 1. Локальный коэффициент степени полисемантизации (по данным
словаря С.И. Ожегова, издание девятое, исправленное и дополненное)
№ |
СГ |
МС |
ВС |
ЛКСП |
15 |
О |
808 |
3077 |
0,2626 |
1 |
А |
151 |
732 |
0,2063 |
16 |
П |
1728 |
7487 |
0,2308 |
2 |
Б |
317 |
1464 |
0,2165 |
17 |
Р |
714 |
2511 |
0,2844 |
3 |
В |
635 |
2623 |
0,2421 |
18 |
С |
1043 |
4365 |
0,2390 |
4 |
Г |
237 |
1069 |
0,2217 |
19 |
Т |
390 |
1515 |
0,2574 |
5 |
Д |
421 |
1603 |
0,2626 |
20 |
У |
308 |
1257 |
0,2450 |
6 |
ЕЁ |
40 |
135 |
0,2963 |
21 |
Ф |
138 |
545 |
0,2532 |
7 |
Ж |
93 |
364 |
0,2555 |
22 |
Х |
126 |
536 |
0,2351 |
8 |
З |
507 |
1697 |
0,2988 |
23 |
Ц |
59 |
228 |
0,2588 |
9 |
И |
232 |
1011 |
0,2295 |
24 |
Ч |
128 |
598 |
0,2141 |
10 |
Й |
1 |
6 |
0,1667 |
25 |
Ш |
143 |
564 |
0,2536 |
11 |
К |
573 |
2518 |
0,2276 |
26 |
Щ |
30 |
82 |
0,3659 |
12 |
Л |
207 |
920 |
0,2250 |
27 |
Э |
74 |
369 |
0,2005 |
13 |
М |
324 |
1558 |
0,2080 |
28 |
Ю |
13 |
50 |
0,2600 |
14 |
Н |
595 |
2344 |
0,2538 |
29 |
Я |
51 |
169 |
0,3018 |
Условные обозначения: СГ
– словарная группа, МС – количество многозначных слов, ВС – общее количество
слов, ЛКСП – локальный коэффициент степени полисемантизации.
Из приведенной таблицы
можно видеть, что ЛКСП претерпевает существенные изменения в зависимости от
словарной группы: диапазон значений составляет от 0,1667 (~17%) для буквы Й до
0,3659 (~37%) для буквы Щ (т.е. ΔЛКСП ~20%). Среднее значение ЛКСП для
русского языка составляет 0,2473 (~25%). Соответственно, есть основания
утверждать, что в русском языке существуют сильно полисемантизованные словарные
группы (более 30%), слабо полисемантизованные (менее 21%) и словарные группы
среднего уровня полисемантизации (от 22 до 29%). Таким образом, к сильно
полисемантизованным могут быть отнесены группы Щ, Я, З и ЕЁ, к слабо полисемантизованным
– Ч, М, А, Э, Й, к средне полисемантизованным – все прочие словарные группы.
Отметим, что результаты
исследования взаимозависимости длины слова, заимствованности и степени
полисемантизации косвенно подтверждают справедливость приведенных данных. Так,
словарная группа Щ не содержит никакой научной терминологии и состоит
исключительно из слов русского происхождения; в то же время в словарных группах
Й, А практически полностью отсутствуют русские по происхождению лексические
единицы, однако в их состав входит существенное количество терминов из тех или
иных областей научного знания.
Исходя из приведенных
выше данных и теоретических выкладок, мы находим допустимым предположить, что
процедура индивидуального определения степени полисемантизованности для каждого
слова в тексте может быть с некоторой погрешностью заменена процедурой
определения преобладающих словарных групп. Действительно, если та или иная
словарная группа содержит высокое количество многозначных слов, можно с
уверенностью полагать, что слабо полисемантизованный текст будет содержать
незначительное количество слов, относящихся к этой словарной группе, и
наоборот. Соответственно, в рамках доказательства выдвинутых выше предположений
необходимо изучить среднюю длину слова и относительную степень
полисемантизованности для текстов различных функциональных стилей, а также
исследовать возможность применения тех или иных полученных показателей в целях
идентификации стилевой принадлежности текста.
Нами были взяты 4 текста
приближенно равной длины (около 20 000 знаков), относящихся к научному,
художественному, публицистическому и официально-деловому стилям речи:
1) обзорная статья
«Модели мандатного контроля и управления доступом», сфера научного знания –
организация и технология защиты информации [4];
2) рассказ О. Уайлда
«Молодой король» [5];
3) статья А. Трапезникова
«Я в наследстве отцов ощутил...» [6];
4) Федеральный закон «О
рекламе», статьи 1-15 [7].
Для данных текстов были
проведены расчеты средней длины слова и относительного уровня
полисемантизованности. Средняя длина слова рассчитывалась с помощью меню
«Сервис – Статистика» текстового процессора Microsoft Office Word 2003 по формуле СДС = Qзбп / Qc, где СДС – средняя длина слова, Qзбп – количество знаков без пробелов,
Qc – количество
слов в документе. Определение количества слов, относящихся к той или иной
словарной группе, было сведено к определению количества знакосочетаний «пробел
плюс первая буква группы».
Данные, полученные в
результате исследования, представлены в таблице:
Таблица 2. Количество слов в каждой из словарных групп для текстов
различных функциональных стилей
№ |
СГ |
ХТ |
ПТ |
НТ |
ОТ |
15 |
О |
275 |
200 |
231 |
269 |
1 |
А |
40 |
93 |
56 |
33 |
16 |
П |
329 |
360 |
245 |
277 |
2 |
Б |
121 |
124 |
111 |
15 |
17 |
Р |
116 |
86 |
107 |
277 |
3 |
В |
315 |
351 |
183 |
202 |
18 |
С |
356 |
407 |
390 |
256 |
4 |
Г |
107 |
92 |
12 |
38 |
19 |
Т |
158 |
153 |
99 |
247 |
5 |
Д |
116 |
159 |
160 |
119 |
20 |
У |
74 |
87 |
94 |
61 |
6 |
ЕЁ |
90 |
84 |
43 |
30 |
21 |
Ф |
3 |
15 |
35 |
68 |
7 |
Ж |
35 |
63 |
9 |
2 |
22 |
Х |
22 |
34 |
20 |
11 |
8 |
З |
92 |
87 |
55 |
63 |
23 |
Ц |
10 |
12 |
1 |
7 |
9 |
И |
451 |
273 |
279 |
321 |
24 |
Ч |
92 |
111 |
77 |
44 |
10 |
Й |
0 |
0 |
0 |
0 |
25 |
Ш |
22 |
11 |
5 |
2 |
11 |
К |
233 |
189 |
188 |
93 |
26 |
Щ |
3 |
1 |
0 |
0 |
12 |
Л |
100 |
89 |
56 |
58 |
27 |
Э |
31 |
65 |
34 |
10 |
13 |
М |
137 |
134 |
191 |
86 |
28 |
Ю |
15 |
4 |
0 |
7 |
14 |
Н |
325 |
437 |
178 |
197 |
29 |
Я |
37 |
39 |
18 |
13 |
Условные обозначения: СГ
– словарная группа, ХТ – художественный текст, ПТ – публицистический текст, НТ
– научный текст, ОТ – официально-деловой текст.
Полученные статистические
данные позволяют нам произвести расчет ряда других параметров, таких, как:
1) общее количество слов,
относящихся к слабо полисемантизованным группам (КССлП);
2) общее количество слов, относящихся к сильно полисемантизованным
группам (КССП);
3) массовая доля слов, относящихся к слабо полисемантизованным группам (%
СлП), рассчитываемая по формуле % СлП = КССлП/КС * 100 %, где КС – общее
количество слов в тексте;
4) массовая доля слов,
относящихся к слабо полисемантизованным группам (% СП), рассчитываемая по
формуле % СП = КССП/КС * 100 %, где КС – общее количество слов в тексте;
5) отношение количества
слов в сильно полисемантизованных группах к количеству слов в слабо
полисемантизованных группах (СП/СлП).
Таблица 3. Количественные характеристики текстов, принадлежащих к
различным функциональным стилям
Текст |
КС |
СДС |
КССлП |
КССП |
%СлП |
%СП |
СП/СлП |
ХТ |
4123 |
5,1 |
300 |
222 |
7,28% |
5,38% |
0,74 |
ПТ |
3929 |
5,6 |
403 |
211 |
10,26% |
5,37% |
0,52 |
НТ |
3215 |
6,6 |
358 |
116 |
11,14% |
3,61% |
0,32 |
ОТ |
3046 |
7,1 |
173 |
106 |
5,68% |
3,48% |
0,61 |
Таблица 3 демонстрирует
ряд закономерностей:
1) Художественный и
публицистический тексты характеризуются относительно низким показателем средней
длины слова (в диапазоне от 5 до 6 знаков), в то время как научный и
официально-деловой тексты имеют относительно высокие показатели СДС – от 6 до 7
знаков.
2) Соотношения между
массовыми долями сильно полисемантизованных и слабо полисемантизованных групп,
а также между количеством слов, принадлежащих к сильно и слабо
полисемантизованным словарным группам, существенно различаются для текстов
научного и художественного стиля. В то время как % СлП и % СП для
художественного стиля различны на 1,9 %, для научного стиля разница составляет
7,53 %; отношение СП/СлП составляет 0,74 против 0,32 соответственно.
В то же время
представленные данные не позволяют говорить об уверенном детектировании
публицистического стиля, который одновременно близок и к научному стилю – по
соотношению массовых долей, - и к художественному – по соотношению СП/СлП, а
также официально-делового стиля, который, казалось бы, демонстрирует более
высокий уровень потенциальной полисемантизации, чем публицистический (что
объясняется высокой частотой встречаемости в данном конкретном тексте слова
«закон», которое относится к сильно полисемизованной словарной группе). Данные
факты свидетельствуют, что, хотя произведенных расчетов достаточно для
разграничения научного и художественного функциональных стилей, для уверенной
идентификации стилевой принадлежности текста может быть необходим более
детализированный алгоритм. Представляется допустимой попытка выделения наиболее
достоверных идентификаторов стилевой отнесенности на базе уже полученных и
представленных нами в таблицах выше. Действительно, рассмотрим массовую долю
сильно и слабо полисемантизованных словарных групп в каждом из текстов:
Таблица 4. Массовые доли сильно и слабо полисемантизованных словарных
групп в текстах различных функциональных стилей
Текст / СГ |
СлП |
СП |
|||||||
А |
Й |
М |
Ч |
Э |
ЕЁ |
З |
Щ |
Я |
|
ХТ |
0,97% |
0,00% |
3,32% |
2,23% |
0,75% |
2,18% |
2,23% |
0,07% |
0,90% |
ПТ |
2,37% |
0,00% |
3,41% |
2,83% |
1,65% |
2,14% |
2,21% |
0,03% |
0,99% |
НТ |
1,74% |
0,00% |
5,94% |
2,40% |
1,06% |
1,34% |
1,71% |
0,00% |
0,56% |
ОТ |
1,08% |
0,00% |
2,82% |
1,44% |
0,33% |
0,98% |
2,07% |
0,00% |
0,43% |
Можно видеть, что
устойчивые закономерности для массовых долей в различных стилях речи
демонстрируют лишь три словарные группы: «ЕЁ», «Щ» и «Я». Для этих групп
массовые доли в художественном и публицистическом, равно как и в научном и
официально-деловом текстах, с одной стороны, сопоставимы, а, с другой стороны,
явным образом отличаются от противоположной пары стилей. Соответственно, в
случае существования неопределенности основной алгоритм детектирования может
быть дополнен вспомогательным алгоритмом вычисления суммарной массовой доли
словарных групп «ЕЁ», «Щ» и «Я».
В качестве доказательства
рассмотрим данные, полученные по этому алгоритму для рабочих текстов: научный
текст – 1,90%; официально-деловой текст – 1,41%; художественный текст – 3,15%;
публицистический текст – 3,16%. Проведя дополнительные исследования по этому
алгоритму для еще двух текстов каждого стиля, мы убедились, что пороговым
значением является уровень в 3%.
Итак, суммируя данные,
полученные в настоящем исследовании, мы можем сделать следующие выводы:
1) Сочетание вычисления
средней длины слова и определения отношений между количеством слов, относимых к
слабо и сильно полисемантизованным словарным группам, может быть применено для
отделения художественных и публицистических русскоязычных текстов от научных и
официально-деловых.
2) В общем случае, если
средняя длина слова исследуемого русскоязычного текста не превышает 6 знаков, а
отношение количества слов из сильно полисемантизованных словарных групп к количеству
слов из слабо полисемантизованных словарных групп составляет не менее 0,5,
заданный текст может быть классифицирован как относящийся к художественному или
публицистическому функциональному стилю речи.
3) В общем случае, если
средняя длина слова исследуемого русскоязычного текста превышает 6 знаков, а
отношение количества слов из сильно полисемантизованных словарных групп к
количеству слов из слабо полисемантизованных словарных групп составляет менее
0,5, заданный текст может быть классифицирован как относящийся к научному или
официально-деловому функциональному стилю речи.
4) Если критерии СДС и
СП/СлП противоречат друг другу (т.е., к примеру, СДС превышает 6 знаков, но
СП/СлП > 0,5), может быть применен алгоритм верификации по достоверным
словарным группам. Если суммарная массовая доля слов, относимых к словарным
группам «ЕЁ», «Щ», «Я», превышает 3%, исследуемый русскоязычный текст может
быть классифицирован как относящийся к художественному или публицистическому
функциональному стилю речи; если данный показатель составляет менее 3%,
заданный текст может быть классифицирован как относящийся к научному или
официально-деловому функциональному стилю речи.
Представленные результаты
исследований подтверждают выдвинутые нами предположения, а также предоставляют
возможность формирования и описания предварительного алгоритма работы
анализатора русскоязычных текстов, позволяющего отделять художественные и
публицистические тексты от научных и официально-деловых.
Библиографический список
1. Браславский, П.И. Пути повышения
эффективности поиска научной информации в Internet. – [Электронный ресурс]. –
Режим доступа: http://www.nsc.ru/ws/show_abstract.dhtml?ru+2+44.
2. Головко, Н.В. Длина слова как характеризующий
показатель заимствованности и степени полисемизации [Текст] / Н.В. Головко //
Язык как воплощение культуры: лингвистическая, переводческая и дидактическая
рефлексия. – Ч.1. – Ставрополь, 2006. – С. 72-76.
3. Головко, Н.В.
Логико-квантитативный аспект теории фиксирования типов языковой информации [Текст]
/ Н.В. Головко // Вестник Ставропольского государственного университета. –
2008. - № 3. – Вып. 56. – С. 72-79.
4. Корт, С.С. Теоретические основы
защиты информации [Текст] / С.С. Корт. – М., 2004. – 240 с.
5. Уайлд, О. Избранное [Текст] / О.
Уайлд. – М., 1990. – 429 с.
6. Трапезников, А. Я в наследстве
отцов ощутил... – [Электронный ресурс]. – Режим доступа: http://www.litrossia.ru/2009/10/03910.html
7. Закон Российской Федерации «О
рекламе». – [Электронный ресурс]. – Режим доступа: http://www.consultant.ru/popular/advert
8. Ожегов, С.И. Словарь русского
языка [Текст] / С.И. Ожегов. – М., 1972. – 846 с.
9. Кузнецов, С.А. Современный
толковый словарь русского языка [Текст] / С.А. Кузнецов. - М., 2004. – 960 с.
10. Селезнев, В.А., Исаева, Е.В.
Параметр Херста словарного ряда [Текст] / В.А. Селезнев, Е.В. Исаева //
Квантитативная лингвистика: исследования и модели (КЛИМ-2005). Материалы
Всероссийской научной конференции (6-10 июня