Расширенный механизм формальной идентификации функциональных стилей русскоязычных текстов

Н.В. Головко

(Ставропольский государственный университет)

В статье представлены итоги расчета и сравнения массовых долей различных словарных групп в русскоязычных текстах. В сочетании с авторским аналитическим алгоритмом они позволяют с определенной степенью точности различать основные функциональные стили.

Ключевые слова: автоматизированные системы обработки текстов, анализ, алгоритм, функциональный стиль речи, программное обеспечение

 

Extended mechanism for formal identification of Russian functional styles

N. V. Golovko

(Stavropol State University)

The author determines and compares the percentage share of various dictionary groups within Russian texts. In combination with his previously developed analytical algorithm these results might be used for automatic detection of functional styles.

Keywords: automatic text processing systems, analysis, algorithm, functional style, software

 

В наших ранних работах (Головко 2009:19) мы рассматривали вопрос о возможности разработки аналитического алгоритма, позволяющего оперативно и эффективно классифицировать русскоязычные тексты по признаку их функционально-стилевой отнесенности. Последующее изучение упомянутого вопроса, построение алгоритма и программного обеспечения, его реализующего, подтвердили возможность подобной классификации с уверенным определением типов функциональных стилей (свободный тип – формальный тип); точность типизации по двум диагностическим критериям – средней длине слова и потенциальной полисемантичности – в конечном счете составила 97%, что свидетельствует в пользу эффективности нашего алгоритма. Тем не менее, мы считаем необходимым рассматривать и вопрос о более четкой классификации, позволяющей разграничивать стили внутри указанных групп (свободного и формального типов). В нашем распоряжении имеются сведения о частотности тех или иных словарных групп (данным термином мы называем фрагмент словника, объединяющий заголовочные слова по признаку инициальной буквы) в текстах различной функционально-стилевой отнесенности; эти данные были получены в процессе тестирования программного обеспечения на выборке из 100 образцов, и мы находим  уместным предпринять попытку использовать их для уточнения аналитических механизмов нашего анализатора.

Поскольку программное обеспечение, реализующее алгоритм классификации русскоязычных текстов на основании формальных маркеров функционально-стилевой принадлежности (для краткости мы называем его «МФСП-анализатор»), уже продемонстрировало высокую степень эффективности в различении свободных (художественного и публицистического) и формальных (научного и официально-делового) стилей, нам остается лишь предпринять попытку обнаружить дифференцирующие признаки в пределах этих групп, не рассматривая вопрос о проведении границ между стилями различных типов. Для этих целей мы сопоставили среднеарифметические значения массовых долей различных словарных групп в свободных и формальных стилях, дабы выявить несоответствия показателей, которые могут быть использованы в качестве детектирующих критериев. В итоге мы обнаружили ряд выраженных несоответствий – к примеру, переход показателя массовой доли от группы «З» к группе «И» для художественного стиля оказался более резким, а для публицистического – более сглаженным. Всего наш анализ позволил выявить 10 подобных несоответствий, по 5 для каждого типа функциональных стилей; следовательно, изучая разности массовых долей некоторых словарных групп и сопоставляя их с эталоном, можно с некоторой точностью классифицировать тексты внутри свободного и формального типов. Для каждой пары мы будем находить разности и определять эталон в виде среднего арифметического, после чего сравнивать полученные разности с эталоном; отличие от указанного эталона будет трактоваться соответствующим образом. Данные представим в таблицах 1-4.

Таблица 1. Исследование разностей, художественный стиль

Текст

1

2

3

4

5

6

7

З-И

0,9868

0,8094

0,5753

0,6393

0,6139

0,4094

1,0399

Ф-Х

-0,4285

-0,6532

-0,6181

-0,3166

-0,5096

-0,3412

-0,0918

Щ-Э

-0,1836

-0,0379

-0,1082

-0,1178

-0,0174

0,0341

-0,0306

Э-Ю

0,1892

0,0584

0,1225

0,0734

-0,0405

0,0000

-0,0102

П-Я

6,2508

8,2487

6,2803

8,4575

5,1891

4,4012

5,4440

Критерии

1-1-1-1-1

1-1-1-1-0

0-1-1-1-1

0-0-1-1-0

0-1-1-1-1

0-0-1-1-1

1-0-1-1-1

Сумма

5 (ХС)

4 (ХС)

4 (ХС)

2 (ПС)

4 (ХС)

3 (ХС)

4 (ХС)

Текст

8

9

10

11

12

13

14

З-И

1,4913

0,9621

1,0282

0,5634

1,3502

1,3382

1,0689

Ф-Х

-0,4221

-0,5278

-0,6114

-0,7440

-1,5269

-0,3345

-0,6651

Щ-Э

0,0844

-0,0606

-0,5141

-0,1084

-0,6846

-0,1673

-0,0178

Э-Ю

-0,0281

0,0556

0,5280

0,1011

0,6940

0,1115

0,0119

П-Я

5,4305

6,7323

5,0785

4,4713

4,7636

6,2448

8,5278

Критерии

1-1-1-1-1

1-1-1-1-1

1-1-0-0-1

0-1-1-1-1

1-1-0-0-1

1-0-1-1-1

1-1-1-1-0

Сумма

5 (ХС)

5 (ХС)

3 (ХС)

4 (ХС)

3 (ХС)

4 (ХС)

4 (ХС)

Текст

15

16

17

18

19

20

21

З-И

1,5066

0,5777

2,4857

0,1121

3,0080

0,5540

1,0091

Ф-Х

-0,9303

-0,6565

-1,1928

-0,3924

-0,6296

-0,1278

-0,1261

Щ-Э

-0,0971

-0,3939

-0,0546

0,0561

0,1049

0,0000

-0,0631

Э-Ю

0,1533

0,4202

0,1366

0,1121

0,0000

0,0852

0,0315

П-Я

7,7014

6,9065

9,5875

6,8946

7,7300

5,8172

6,0864

Критерии

1-1-1-1-0

0-1-0-0-1

1-1-1-1-0

0-1-1-1-1

1-1-1-1-0

0-0-1-1-1

1-0-1-1-1

Сумма

4 (ХС)

2 (ПС)

4 (ХС)

4 (ХС)

4 (ХС)

3 (ХС)

4 (ХС)

Текст

22

23

24

25

Среднее значение

Эталон

З-И

1,1719

1,0852

1,5428

1,7256

1,1062

0,6452

Ф-Х

-1,2109

-1,0730

-0,4611

-0,9792

-0,6228

-0,3896

Щ-Э

-0,4743

-0,1768

-0,1507

-0,2150

-0,1358

-0,2755

Э-Ю

0,4967

0,1524

0,1419

0,2329

0,1532

0,2724

П-Я

5,1116

5,6880

4,9832

4,1915

6,2487

7,5159

Критерии

1-1-0-0-1

1-1-1-1-1

1-1-1-1-1

1-1-1-1-1

Итого: 23 / 2

(точность определения – 92%)

Сумма

3 (ХС)

5 (ХС)

5 (ХС)

5 (ХС)

 

Таблица 2. Исследование разностей, публицистический стиль

Текст

1

2

3

4

5

6

7

З-И

0,2075

1,0252

0,3554

1,0502

-0,4902

-0,7979

0,2358

Ф-Х

0,1037

0,0000

0,6664

-0,3707

0,0000

-0,2660

-1,2972

Щ-Э

-0,2075

-0,5521

-0,6219

-0,3089

-0,4289

-1,1968

-1,1792

Э-Ю

0,2075

0,4732

0,6219

0,3089

0,3676

1,0638

1,1792

П-Я

10,3734

8,7539

8,7517

6,6516

9,5588

8,1117

6,9575

Критерии

0-0-1-1-0

1-0-0-0-0

0-0-0-0-0

1-0-0-0-1

0-0-0-0-0

0-0-0-0-0

0-1-0-0-1

Сумма

2 (ПС)

1 (ПС)

0 (ПС)

2 (ПС)

0 (ПС)

0 (ПС)

2 (ПС)

Текст

8

9

10

11

12

13

14

З-И

-0,2844

0,6049

0,2042

0,7221

-0,1221

2,1811

0,8782

Ф-Х

-0,4739

0,3257

0,3063

-0,0688

-0,1221

-1,2558

-0,4391

Щ-Э

-0,1896

-0,0465

-0,7147

-0,0688

-0,2442

-0,3966

-0,9879

Э-Ю

0,0948

0,0000

0,6126

0,0688

0,2442

0,3966

1,3172

П-Я

4,7393

10,0512

10,1072

11,0385

10,0122

8,0635

6,4215

Критерии

0-1-1-1-1

0-0-1-1-0

0-0-0-0-0

1-0-1-1-0

0-0-1-1-0

1-1-0-0-0

1-1-0-0-1

Сумма

4 (ХС)

2 (ПС)

0 (ПС)

3 (ХС)

2 (ПС)

2 (ПС)

3 (ХС)

Текст

15

16

17

18

19

20

21

З-И

-0,7119

-0,1330

0,9081

-0,7968

-0,7117

1,3655

-1,2821

Ф-Х

0,6572

0,1330

-1,0216

0,0000

-0,2372

0,3151

-0,1068

Щ-Э

0,0000

-0,3103

0,0000

-0,3984

-0,1186

-0,4202

-0,4274

Э-Ю

0,0000

0,3103

0,0000

0,5312

0,1186

0,4202

0,3205

П-Я

8,9266

9,7518

10,7832

7,8353

6,8802

9,7689

8,3333

Критерии

0-0-1-1-0

0-0-0-0-0

1-1-1-1-0

0-0-0-0-0

0-0-1-1-1

1-0-0-0-0

0-0-0-0-0

Сумма

2 (ПС)

0 (ПС)

4 (ХС)

0 (ПС)

3 (ХС)

1 (ПС)

0 (ПС)

Текст

22

23

24

25

Среднее значение

Эталон

З-И

0,2490

0,2679

-0,3197

0,0000

0,1842

0,6452

Ф-Х

-0,2490

-0,0893

-0,7459

0,3265

-0,1564

-0,3896

Щ-Э

-0,4149

-0,4464

-0,2131

-0,4898

-0,4153

-0,2755

Э-Ю

0,3320

0,4464

-0,0533

0,4082

0,3916

0,2724

П-Я

8,7967

10,1786

9,7496

8,9796

8,7830

7,5159

Критерии

0-0-0-0-0

0-0-0-0-0

0-1-1-1-0

0-0-0-0-0

Итого: 19 / 6

(точность определения – 76%)

Сумма

0 (ПС)

0 (ПС)

3 (ХС)

0 (ПС)

 

Таблица 3. Исследование разностей, научный стиль

Текст

1

2

3

4

5

6

7

В-Г

9,5472

8,3333

6,5977

6,9705

9,7072

5,2883

5,8787

З-И

2,1654

-0,3788

-0,6468

1,4745

2,7735

1,2361

1,7679

Ч-Ш

1,6732

0,4545

0,5175

0,9383

1,2327

0,8384

0,8371

Э-Ю

0,4921

0,3788

0,2587

0,2681

0,6163

1,1232

1,0754

Т-У

2,7559

-1,0606

-1,4230

5,7641

-3,0817

1,6983

2,1920

Критерии

1-1-1-0-1

1-0-0-0-0

1-0-0-0-0

1-1-0-0-1

1-1-1-1-0

0-1-0-1-1

0-1-0-1-1

Сумма

4 (НС)

1 (ОС)

1 (ОС)

3 (НС)

4 (НС)

3 (НС)

3 (НС)

Текст

8

9

10

11

12

13

14

В-Г

4,9777

7,7653

6,9218

7,1934

8,4008

7,2768

8,2364

З-И

1,7180

1,1960

1,9212

1,4448

0,4049

1,8914

1,9303

Ч-Ш

1,6334

3,1569

0,9805

1,5192

0,4049

1,4935

1,2461

Э-Ю

0,7767

0,8803

1,3972

0,5887

0,6073

0,7904

1,8913

Т-У

2,3625

1,6309

0,9928

0,5786

-1,9231

3,0361

0,6920

Критерии

0-1-1-1-1

1-1-1-1-1

1-1-0-1-1

1-1-1-1-1

1-0-0-1-0

1-1-1-1-1

1-1-1-1-1

Сумма

4 (НС)

5 (НС)

4 (НС)

5 (НС)

2 (ОС)

5 (НС)

5 (НС)

Текст

15

16

17

18

19

20

21

В-Г

7,6987

9,8289

6,0974

6,3867

6,0862

6,9767

8,4956

З-И

1,5765

0,9306

1,8018

1,3092

0,8453

1,4435

2,4779

Ч-Ш

3,0453

0,9987

1,8056

1,1621

0,4227

1,0425

1,4159

Э-Ю

0,3715

0,8046

0,4970

3,7784

2,1978

1,0425

0,6195

Т-У

2,8918

1,7248

1,6181

1,6939

1,1834

0,8821

4,4248

Критерии

1-1-1-0-1

1-1-0-1-1

0-1-1-0-1

1-1-1-1-1

0-1-0-1-1

1-1-1-1-1

1-1-1-1-1

Сумма

4 (НС)

4 (НС)

3 (НС)

5 (НС)

3 (НС)

5 (НС)

5 (НС)

Текст

22

23

24

25

Среднее значение

Эталон

В-Г

3,4996

8,0332

6,1469

10,8563

7,3281

6,3595

З-И

1,0499

0,7618

0,0000

-0,4587

1,2254

0,7545

Ч-Ш

1,3123

-0,2770

0,7496

2,9052

1,2604

1,0180

Э-Ю

0,2625

0,6233

0,0000

0,3058

0,8659

0,5618

Т-У

3,1496

1,3158

-2,9985

1,2232

1,2529

0,0000

Критерии

0-1-1-0-1

1-1-0-1-1

0-0-0-0-0

1-0-1-0-1

Итого: 21 / 4

(точность определения – 84%)

Сумма

3 (НС)

4 (НС)

0 (ОС)

3 (НС)

 

Таблица 4. Исследование разностей, официально-деловой стиль

Текст

1

2

3

4

5

6

7

В-Г

7,3074

4,8839

1,6886

6,3636

4,7851

8,1897

7,7270

З-И

1,2776

2,9929

-1,5009

0,4399

-0,1977

-2,7094

1,5669

Ч-Ш

0,5033

1,4592

0,0938

1,4370

0,9755

1,4163

1,4810

Э-Ю

0,7065

0,0447

0,0938

0,5279

0,1582

0,5337

0,4507

Т-У

-0,3484

-0,1340

-0,5629

0,0587

-2,2542

-0,5542

-1,6313

Критерии

1-1-0-1-0

0-1-1-0-0

0-0-0-0-0

1-0-1-0-1

0-0-0-0-0

1-0-1-0-0

1-1-1-0-0

Сумма

3 (НС)

2 (ОС)

0 (ОС)

3 (НС)

0 (ОС)

2 (ОС)

3 (НС)

Текст

8

9

10

11

12

13

14

В-Г

5,2676

7,1659

4,9941

5,5150

6,0438

2,7666

2,1575

З-И

0,6819

-0,5636

-1,3763

3,6545

-3,9975

0,8478

0,1711

Ч-Ш

0,1534

0,5636

0,5505

0,1329

0,2379

0,2231

0,4315

Э-Ю

0,1023

-0,3221

0,1573

-0,1993

0,4124

-0,4462

-0,1786

Т-У

-0,8524

2,2544

-1,6123

-3,9203

-0,9518

-3,9268

-0,2120

Критерии

0-0-0-0-0

1-0-0-0-1

0-0-0-0-0

0-1-0-0-0

0-0-0-0-0

0-1-0-0-0

0-0-0-0-0

Сумма

0 (ОС)

2 (ОС)

0 (ОС)

1 (ОС)

0 (ОС)

1 (ОС)

0 (ОС)

Текст

15

16

17

18

19

20

21

В-Г

8,7404

5,2051

3,9475

5,0579

7,8327

0,6295

4,1993

З-И

1,4396

0,9860

0,3151

0,4697

2,6220

-1,0715

-0,2614

Ч-Ш

0,5398

0,5478

0,7177

0,7046

0,1328

0,4152

0,9409

Э-Ю

0,4370

0,0484

0,2188

0,0084

3,3190

0,2545

-0,1045

Т-У

-1,0797

-0,3465

-0,4114

-0,0839

-4,9120

1,8350

-0,0174

Критерии

1-1-0-0-0

0-1-0-0-0

0-0-0-0-0

0-0-0-0-0

1-1-0-1-0

0-0-0-0-1

0-0-0-0-0

Сумма

2 (ОС)

1 (ОС)

0 (ОС)

0 (ОС)

3 (НС)

1 (ОС)

0 (ОС)

Текст

22

23

24

25

Среднее значение

Эталон

В-Г

2,1989

5,7866

8,9845

7,3369

5,3910

6,3595

З-И

1,3290

-1,0132

2,0023

-1,0164

0,2835

0,7545

Ч-Ш

0,4833

0,5974

0,5134

4,1397

0,7757

1,0180

Э-Ю

-0,1571

-0,1054

0,3696

0,1109

0,2576

0,5618

Т-У

0,3987

-0,7028

1,5505

-0,6653

-0,7633

0,0000

Критерии

0-1-0-0-1

0-0-0-0-0

1-1-0-0-1

1-0-1-0-0

Итого: 20 / 5

(точность определения – 80%)

Сумма

2 (ОС)

0 (ОС)

3 (НС)

2 (ОС)

 

Соответственно, можно заключить, что на основании дополнительной процедуры анализа некоторых ключевых разностей можно разграничивать функциональные стили с относительно высокой точностью – от 76 до 92 процентов, в среднем - 83%. Необходимо, однако, указать, что полученный результат менее точен, нежели итог, получаемый посредством основного аналитического алгоритма, и вердикты, выносимые в процессе работы разностной процедуры, обладают недостаточной четкостью; для улучшения показателей может требоваться последующее накопление и изучение статистики на материале более объемной выборки, а также построение вспомогательных подалгоритмов, позволяющих устранять ложные срабатывания.

 

СПИСОК ЛИТЕРАТУРЫ

Головко, Н.В. (2009) К вопросу о формальной идентификации функционального стиля в русском языке // Вестник Пятигорского государственного лингвистического университета. №2. С. 16-19.

 

Golovko Nikolay VyacheslavovichStavropol State University postgraduate (Department of Intercultural Communication). Phone: +7-865-2353402. Email: nvgolovko@inbox.ru