К вопросу о формальной идентификации функционального стиля текста в русском языке

УДК 81'322.2

Н.В. Головко

г. Ставрополь

К вопросу о формальной идентификации функционального стиля текста в русском языке

В настоящее время в связи с активным развитием сети Internet и совершенствованием технологий автоматизированного перевода наблюдается повышенный интерес к методам и приемам формальной идентификации тех или иных характеристик текстов на естественных языках. Необходимо отметить, что, в то время как определение количественных параметров текста (таких, как количество знаков, слов и т.п.) не представляет существенной сложности для автоматизированных систем обработки текстов, вопрос об идентификации его качественных характеристик нередко остается открытым. Это обусловливает потребность в разработке новых и совершенствовании существующих подсистем формального анализа качественных параметров текстов.

Заметим, что на данный момент известен ряд исследований, посвященных вопросам идентифицирования такой качественной характеристики текста, как функциональный стиль. В частности, по мнению Браславского П.И., существует возможность автоматического определения научных текстов с помощью следующих формальных языковых параметров: средняя длина слова, доля именных частей речи, количество личных местоимений и др. [1] В нашей работе «Длина слова как характеризующий показатель заимствованности и степени полисемизации» [2] мы доказали возможность существования зависимости между длиной слова и его заимствованностью, а также степенью полисемантичности, установив, что длинные слова (9-12 и более букв) по преимуществу заимствованы из иных языков и характеризуются низким уровнем полисемантичности (1-2 значения), что, в частности, является отличительной чертой слов, относящихся к научной терминологии. Необходимо, однако, отметить, что в соответствии с рассмотренной выше концепцией П.И. Браславского предлагается идентифицировать качественный параметр текста (функциональный стиль) исключительно посредством формального анализа его количественных характеристик, относящихся к плану выражения. Мы, в свою очередь, считаем возможным допустить, что релевантность идентификации качественных параметров может быть достижима при исследовании не только количественных, но и качественных характеристик текста, непосредственно относящихся не только к плану выражения, но и к плану содержания.

Задача формализации плана содержания текста неоднозначна. Действительно, данный аспект текста является аналоговым (непрерывным) по своей сущности (о чем мы неоднократно говорили в наших работах, связанных с концепцией фиксирования типов языковой информации), в то время как автоматизированная обработка информации требует дискретного представления данных. Вместе с тем допустимо утверждать, что существует возможность дискретного представления некоторых аспектов плана содержания, что позволило бы осуществлять формальный анализ последнего; одним из таких аспектов нам представляется полисемантизация.

Проведенные нами исследования [3] продемонстрировали возможность дискретизации процесса полисемантизации и представления языка в целом как диссипативной динамической системы, обладающей аттрактором по не менее чем одной траектории. В случае полисемантизационной траектории аттрактором является т.н. коэффициент степени полисемантизации, т.е. показатель, характеризующий отношение количества полисемантичных слов к общему количеству слов в языке; полученные нами статистические данные для русского языка свидетельствуют, что данный показатель стремится к состоянию равновесия, т.е. к единице. Поскольку степень полисемантичности слова представляется связанной с его длиной, а также в силу очевидности того факта, что количество полисемантичных слов в текстах научного стиля существенно ниже, нежели в художественных текстах, мы находим допустимым выдвинуть следующие взаимосвязанные предположения:

1) существует возможность формального анализа степени полисемантичности текста;

2) степень полисемантичности текста может рассматриваться как один из показателей его принадлежности к определенному стилю речи;

3) комплексное исследование средней длины слова и степени полисемантичности лексики текста может быть достаточным для идентификации его функционально-стилевой принадлежности.

В настоящей работе мы предпримем попытку доказать правомерность данных предположений.

Необходимо заметить, что сама по себе индивидуальная степень полисемантичности слова, хотя и способна дать более адекватную картину уровня многозначности текста, не оптимальна как параметр для автоматизированных систем обработки текстов. Организация анализа полисемантичности лексики текста с оценкой многозначности каждого отдельного слова потребует создания и применения исключительно объемных баз данных (БД), содержащих сведения об уровне полисемантичности всех слов языка; фактически разработчик подсистемы формального анализа будет вынужден внести в БД полное содержание толкового словаря, что является неэффективным решением с позиций расхода ресурсов вычислительной системы. Соответственно, необходим оптимизированный алгоритм анализа, позволяющий одновременно сохранить относительную надежность идентификации и минимизировать требуемый объем БД системы.

Напомним, что, согласно нашим исследованиям, представляется уместным выделение нескольких показателей процесса полисемантизации: коэффициента интенсивности полисемантизации (КИП), коэффициента степени полисемантизации (КСП), а также соответствующих локальных коэффициентов (ЛКИП и ЛКСП), характеризующих слова из одной словарной группы (т.е. начинающиеся на одну и ту же букву). Представим в таблице данные, характеризующие словарный состав языка с позиций полисемантизации в синхроническом срезе:

Таблица 1. Локальный коэффициент степени полисемантизации (по данным словаря С.И. Ожегова, издание девятое, исправленное и дополненное)

№	СГ	МС	ВС	ЛКСП	15	О	808	3077	0,2626
1	А	151	732	0,2063	16	П	1728	7487	0,2308
2	Б	317	1464	0,2165	17	Р	714	2511	0,2844
3	В	635	2623	0,2421	18	С	1043	4365	0,2390
4	Г	237	1069	0,2217	19	Т	390	1515	0,2574
5	Д	421	1603	0,2626	20	У	308	1257	0,2450
6	ЕЁ	40	135	0,2963	21	Ф	138	545	0,2532
7	Ж	93	364	0,2555	22	Х	126	536	0,2351
8	З	507	1697	0,2988	23	Ц	59	228	0,2588
9	И	232	1011	0,2295	24	Ч	128	598	0,2141
10	Й	1	6	0,1667	25	Ш	143	564	0,2536
11	К	573	2518	0,2276	26	Щ	30	82	0,3659
12	Л	207	920	0,2250	27	Э	74	369	0,2005
13	М	324	1558	0,2080	28	Ю	13	50	0,2600
14	Н	595	2344	0,2538	29	Я	51	169	0,3018

Условные обозначения: СГ – словарная группа, МС – количество многозначных слов, ВС – общее количество слов, ЛКСП – локальный коэффициент степени полисемантизации.

Из приведенной таблицы можно видеть, что ЛКСП претерпевает существенные изменения в зависимости от словарной группы: диапазон значений составляет от 0,1667 (~17%) для буквы Й до 0,3659 (~37%) для буквы Щ (т.е. ΔЛКСП ~20%). Среднее значение ЛКСП для русского языка составляет 0,2473 (~25%). Соответственно, есть основания утверждать, что в русском языке существуют сильно полисемантизованные словарные группы (более 30%), слабо полисемантизованные (менее 21%) и словарные группы среднего уровня полисемантизации (от 22 до 29%). Таким образом, к сильно полисемантизованным могут быть отнесены группы Щ, Я, З и ЕЁ, к слабо полисемантизованным – Ч, М, А, Э, Й, к средне полисемантизованным – все прочие словарные группы.

Отметим, что результаты исследования взаимозависимости длины слова, заимствованности и степени полисемантизации косвенно подтверждают справедливость приведенных данных. Так, словарная группа Щ не содержит никакой научной терминологии и состоит исключительно из слов русского происхождения; в то же время в словарных группах Й, А практически полностью отсутствуют русские по происхождению лексические единицы, однако в их состав входит существенное количество терминов из тех или иных областей научного знания.

Исходя из приведенных выше данных и теоретических выкладок, мы находим допустимым предположить, что процедура индивидуального определения степени полисемантизованности для каждого слова в тексте может быть с некоторой погрешностью заменена процедурой определения преобладающих словарных групп. Действительно, если та или иная словарная группа содержит высокое количество многозначных слов, можно с уверенностью полагать, что слабо полисемантизованный текст будет содержать незначительное количество слов, относящихся к этой словарной группе, и наоборот. Соответственно, в рамках доказательства выдвинутых выше предположений необходимо изучить среднюю длину слова и относительную степень полисемантизованности для текстов различных функциональных стилей, а также исследовать возможность применения тех или иных полученных показателей в целях идентификации стилевой принадлежности текста.

Нами были взяты 4 текста приближенно равной длины (около 20 000 знаков), относящихся к научному, художественному, публицистическому и официально-деловому стилям речи:

1) обзорная статья «Модели мандатного контроля и управления доступом», сфера научного знания – организация и технология защиты информации [4];

2) рассказ О. Уайлда «Молодой король» [5];

3) статья А. Трапезникова «Я в наследстве отцов ощутил...» [6];

4) Федеральный закон «О рекламе», статьи 1-15 [7].

Для данных текстов были проведены расчеты средней длины слова и относительного уровня полисемантизованности. Средняя длина слова рассчитывалась с помощью меню «Сервис – Статистика» текстового процессора Microsoft Office Word 2003 по формуле СДС = Qзбп / Qc, где СДС – средняя длина слова, Qзбп – количество знаков без пробелов, Qc – количество слов в документе. Определение количества слов, относящихся к той или иной словарной группе, было сведено к определению количества знакосочетаний «пробел плюс первая буква группы».

Данные, полученные в результате исследования, представлены в таблице:

Таблица 2. Количество слов в каждой из словарных групп для текстов различных функциональных стилей

№	СГ	ХТ	ПТ	НТ	ОТ	15	О	275	200	231	269
1	А	40	93	56	33	16	П	329	360	245	277
2	Б	121	124	111	15	17	Р	116	86	107	277
3	В	315	351	183	202	18	С	356	407	390	256
4	Г	107	92	12	38	19	Т	158	153	99	247
5	Д	116	159	160	119	20	У	74	87	94	61
6	ЕЁ	90	84	43	30	21	Ф	3	15	35	68
7	Ж	35	63	9	2	22	Х	22	34	20	11
8	З	92	87	55	63	23	Ц	10	12	1	7
9	И	451	273	279	321	24	Ч	92	111	77	44
10	Й	0	0	0	0	25	Ш	22	11	5	2
11	К	233	189	188	93	26	Щ	3	1	0	0
12	Л	100	89	56	58	27	Э	31	65	34	10
13	М	137	134	191	86	28	Ю	15	4	0	7
14	Н	325	437	178	197	29	Я	37	39	18	13

Условные обозначения: СГ – словарная группа, ХТ – художественный текст, ПТ – публицистический текст, НТ – научный текст, ОТ – официально-деловой текст.

Полученные статистические данные позволяют нам произвести расчет ряда других параметров, таких, как:

1) общее количество слов, относящихся к слабо полисемантизованным группам (КССлП);

2) общее количество слов, относящихся к сильно полисемантизованным группам (КССП);

3) массовая доля слов, относящихся к слабо полисемантизованным группам (% СлП), рассчитываемая по формуле % СлП = КССлП/КС * 100 %, где КС – общее количество слов в тексте;

4) массовая доля слов, относящихся к слабо полисемантизованным группам (% СП), рассчитываемая по формуле % СП = КССП/КС * 100 %, где КС – общее количество слов в тексте;

5) отношение количества слов в сильно полисемантизованных группах к количеству слов в слабо полисемантизованных группах (СП/СлП).

Таблица 3. Количественные характеристики текстов, принадлежащих к различным функциональным стилям

Текст	КС	СДС	КССлП	КССП	%СлП	%СП	СП/СлП
ХТ	4123	5,1	300	222	7,28%	5,38%	0,74
ПТ	3929	5,6	403	211	10,26%	5,37%	0,52
НТ	3215	6,6	358	116	11,14%	3,61%	0,32
ОТ	3046	7,1	173	106	5,68%	3,48%	0,61

Таблица 3 демонстрирует ряд закономерностей:

1) Художественный и публицистический тексты характеризуются относительно низким показателем средней длины слова (в диапазоне от 5 до 6 знаков), в то время как научный и официально-деловой тексты имеют относительно высокие показатели СДС – от 6 до 7 знаков.

2) Соотношения между массовыми долями сильно полисемантизованных и слабо полисемантизованных групп, а также между количеством слов, принадлежащих к сильно и слабо полисемантизованным словарным группам, существенно различаются для текстов научного и художественного стиля. В то время как % СлП и % СП для художественного стиля различны на 1,9 %, для научного стиля разница составляет 7,53 %; отношение СП/СлП составляет 0,74 против 0,32 соответственно.

В то же время представленные данные не позволяют говорить об уверенном детектировании публицистического стиля, который одновременно близок и к научному стилю – по соотношению массовых долей, - и к художественному – по соотношению СП/СлП, а также официально-делового стиля, который, казалось бы, демонстрирует более высокий уровень потенциальной полисемантизации, чем публицистический (что объясняется высокой частотой встречаемости в данном конкретном тексте слова «закон», которое относится к сильно полисемизованной словарной группе). Данные факты свидетельствуют, что, хотя произведенных расчетов достаточно для разграничения научного и художественного функциональных стилей, для уверенной идентификации стилевой принадлежности текста может быть необходим более детализированный алгоритм. Представляется допустимой попытка выделения наиболее достоверных идентификаторов стилевой отнесенности на базе уже полученных и представленных нами в таблицах выше. Действительно, рассмотрим массовую долю сильно и слабо полисемантизованных словарных групп в каждом из текстов:

Таблица 4. Массовые доли сильно и слабо полисемантизованных словарных групп в текстах различных функциональных стилей

Текст / СГ	СлП					СП
Текст / СГ	А	Й	М	Ч	Э	ЕЁ	З	Щ	Я
ХТ	0,97%	0,00%	3,32%	2,23%	0,75%	2,18%	2,23%	0,07%	0,90%
ПТ	2,37%	0,00%	3,41%	2,83%	1,65%	2,14%	2,21%	0,03%	0,99%
НТ	1,74%	0,00%	5,94%	2,40%	1,06%	1,34%	1,71%	0,00%	0,56%
ОТ	1,08%	0,00%	2,82%	1,44%	0,33%	0,98%	2,07%	0,00%	0,43%

Можно видеть, что устойчивые закономерности для массовых долей в различных стилях речи демонстрируют лишь три словарные группы: «ЕЁ», «Щ» и «Я». Для этих групп массовые доли в художественном и публицистическом, равно как и в научном и официально-деловом текстах, с одной стороны, сопоставимы, а, с другой стороны, явным образом отличаются от противоположной пары стилей. Соответственно, в случае существования неопределенности основной алгоритм детектирования может быть дополнен вспомогательным алгоритмом вычисления суммарной массовой доли словарных групп «ЕЁ», «Щ» и «Я».

В качестве доказательства рассмотрим данные, полученные по этому алгоритму для рабочих текстов: научный текст – 1,90%; официально-деловой текст – 1,41%; художественный текст – 3,15%; публицистический текст – 3,16%. Проведя дополнительные исследования по этому алгоритму для еще двух текстов каждого стиля, мы убедились, что пороговым значением является уровень в 3%.

Итак, суммируя данные, полученные в настоящем исследовании, мы можем сделать следующие выводы:

1) Сочетание вычисления средней длины слова и определения отношений между количеством слов, относимых к слабо и сильно полисемантизованным словарным группам, может быть применено для отделения художественных и публицистических русскоязычных текстов от научных и официально-деловых.

2) В общем случае, если средняя длина слова исследуемого русскоязычного текста не превышает 6 знаков, а отношение количества слов из сильно полисемантизованных словарных групп к количеству слов из слабо полисемантизованных словарных групп составляет не менее 0,5, заданный текст может быть классифицирован как относящийся к художественному или публицистическому функциональному стилю речи.

3) В общем случае, если средняя длина слова исследуемого русскоязычного текста превышает 6 знаков, а отношение количества слов из сильно полисемантизованных словарных групп к количеству слов из слабо полисемантизованных словарных групп составляет менее 0,5, заданный текст может быть классифицирован как относящийся к научному или официально-деловому функциональному стилю речи.

4) Если критерии СДС и СП/СлП противоречат друг другу (т.е., к примеру, СДС превышает 6 знаков, но СП/СлП > 0,5), может быть применен алгоритм верификации по достоверным словарным группам. Если суммарная массовая доля слов, относимых к словарным группам «ЕЁ», «Щ», «Я», превышает 3%, исследуемый русскоязычный текст может быть классифицирован как относящийся к художественному или публицистическому функциональному стилю речи; если данный показатель составляет менее 3%, заданный текст может быть классифицирован как относящийся к научному или официально-деловому функциональному стилю речи.

Представленные результаты исследований подтверждают выдвинутые нами предположения, а также предоставляют возможность формирования и описания предварительного алгоритма работы анализатора русскоязычных текстов, позволяющего отделять художественные и публицистические тексты от научных и официально-деловых.

Библиографический список

1. Браславский, П.И. Пути повышения эффективности поиска научной информации в Internet. – [Электронный ресурс]. – Режим доступа: http://www.nsc.ru/ws/show_abstract.dhtml?ru+2+44.

2. Головко, Н.В. Длина слова как характеризующий показатель заимствованности и степени полисемизации [Текст] / Н.В. Головко // Язык как воплощение культуры: лингвистическая, переводческая и дидактическая рефлексия. – Ч.1. – Ставрополь, 2006. – С. 72-76.

3. Головко, Н.В. Логико-квантитативный аспект теории фиксирования типов языковой информации [Текст] / Н.В. Головко // Вестник Ставропольского государственного университета. – 2008. - № 3. – Вып. 56. – С. 72-79.

4. Корт, С.С. Теоретические основы защиты информации [Текст] / С.С. Корт. – М., 2004. – 240 с.

5. Уайлд, О. Избранное [Текст] / О. Уайлд. – М., 1990. – 429 с.

6. Трапезников, А. Я в наследстве отцов ощутил... – [Электронный ресурс]. – Режим доступа: http://www.litrossia.ru/2009/10/03910.html

7. Закон Российской Федерации «О рекламе». – [Электронный ресурс]. – Режим доступа: http://www.consultant.ru/popular/advert

8. Ожегов, С.И. Словарь русского языка [Текст] / С.И. Ожегов. – М., 1972. – 846 с.

9. Кузнецов, С.А. Современный толковый словарь русского языка [Текст] / С.А. Кузнецов. - М., 2004. – 960 с.

10. Селезнев, В.А., Исаева, Е.В. Параметр Херста словарного ряда [Текст] / В.А. Селезнев, Е.В. Исаева // Квантитативная лингвистика: исследования и модели (КЛИМ-2005). Материалы Всероссийской научной конференции (6-10 июня 2005 г.). – Новосибирск, 2005. – С. 146-152.