NVGOLOVKO.RU
Персональный сайт Николая Головко

Главная страница
Личная информация
Научные работы
Литературное творчество
Учебно-методические материалы
Сетевые проекты
Контакты

Информационная страница о программном обеспечении "МФСП-анализатор текстов"

Общие сведения

В рамках исследований, обусловленных Федеральной целевой программой «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы, мы изучали вопрос о возможностях разработки минимизированного аналитического алгоритма для нужд автоматизированных систем обработки текстов, который позволял бы относительно быстро и эффективно классифицировать русскоязычные тексты по признаку их функционально-стилевой принадлежности, не требуя при этом значительного количества машинных ресурсов и поддержания объемных баз данных.

Рассмотрев основные особенности функциональных стилей, мы предложили использовать два диагностических критерия: среднюю длину слова и потенциальную полисемантичность. Первый критерий довольно активно используется и в других аналитических алгоритмах, в то время как второй является нашей собственной разработкой.

Потенциальная полисемантичность - это мера неопределенности текста с точки зрения автоматизированного анализатора. Неопределенность в него вносят любые неоднозначные слова: совокупность их значений составляет неразрывный континуум, который сложно дискретизировать в процессе машинного исследования текста. Чем больше в тексте многозначной лексики (в соответствии со словарной нормой), тем выше его мера неопределенности, или, говоря терминами физики, энтропия.

Остается, однако, вопрос: как измерить потенциальную полисемантичность? Проще всего, безусловно, оценить степень неоднозначности каждого слова в отдельности; однако для этого потребуется как минимум один толковый словарь русского языка, в то время как наша задача - избежать необходимости создания и поддержки крупных БД. В связи с этим мы предложили давать соответствующую оценку приблизительно - на основании массовых долей специфических словарных групп.

Предварительные исследования на эталонных текстах показали, что на основании вышеупомянутых двух критериев можно уверенно отличать свободные стили (художественный и публицистический) от стилей формализованных (научного и официально-делового). В дальнейшем можно подключать и дополнительные процедуры, осуществляющие более четкую классификацию. Совокупность аналитических операций получила краткое наименование "МФСП-алгоритм"; аббревиатура "МФСП" означает, что основой для классификации служат формальные маркеры функционально-стилевой принадлежности текстов.

Алгоритм был нами реализован в виде программного обеспечения, которое, соответственно, получило наименование "МФСП-анализатор текстов". Это относительно простое клиентское приложение, которое наглядно демонстрирует возможности алгоритма, а также позволяет производить расчеты некоторых параметров исследуемого текста.


Скриншоты

   


Возможности программы и системные требования

МФСП-анализатор текстов выполняет классификацию текстов в полуавтоматическом режиме. Требуемый образец можно поместить в поле для анализа вручную или загрузить из текстового файла (в последнем случае поддерживается также пакетная обработка). Текст будет обработан и изучен в соответствии со внутренними процедурами анализатора, после чего на экране будет отображено уведомление о результатах исследования.

Процесс исследования каждого текста протоколируется. Ход анализа может быть просмотрен в соответствующем окне. По завершении работы анализатора протокол можно сохранить в текстовый файл для последующего детального изучения; в особенности это актуально в случае запуска пакетной обработки, поскольку взаимодействие с пользователем при последовательном анализе множества файлов сведено к минимуму.

Также программа располагает средствами поиска, которые позволяет определять некоторые количественные параметры текста вручную, без запуска автоматического исследования. В частности, приложение может рассчитывать количество вхождений в текст определенной строки, а также находить абсолютное и относительное количество в нем слов, принадлежащих к тем или иным словарным группам.

Приложение может быть запущено на любом компьютере, работающем под управлением операционных систем семейства Windows. Обратите, однако, внимание, что для обработки объемных текстов требуется пропорциональный объем оперативной памяти.

Более подробные сведения о возможностях и ограничениях МФСП-анализатора изложены в справочных материалах к приложению.


Эффективность анализатора

Испытания продукта проводились на выборке из 100 текстов, в которой в равных пропорциях были представлены образцы всех четырех функциональных стилей. Результаты проверки позволили уточнить некоторые диагностические показатели; кроме того, было получено принципиальное подтверждение выдвинутой ранее гипотезы о том, что сочетание двух аналитических критериев - средней длины слова и потенциальной полисемантичности - позволяет производить типизацию русскоязычных текстов на свободные и формализованные.

До уточнения показателей точность классификации составила 93%, т.е. 93 текста были типизированы корректно. При обработке художественных текстов ошибок выявлено не было, публицистические образцы были классифицированы с точностью в 88% (суммарно для свободных стилей - 94%); в процессе анализа научных и официально-деловых текстов точность работы алгоритма оказалась равнозначной и составила 92%. После внесения изменений, связанных с корректировкой алгоритма по результатам первичных испытаний (в частности, 4 словарные группы из 14 были признаны недостаточно показательными) общая точность типизации возросла до 97%.


Ознакомление с программным обеспечением

Вы можете загрузить дистрибутивный пакет МФСП-анализатора (около 500 кб) и проверить программу в работе самостоятельно. Не забудьте ознакомиться со справочным аппаратом приложения; его можно найти в директории \help или запустить непосредственно из главного окна программы, нажав кнопку F1.

» Загрузить...




Если у вас есть вопросы...

... относительно МФСП-анализатора текстов, или возникли проблемы, связанные с его использованием, то вы можете связаться с разработчиком. Адрес для корреспонденции указан в справочных материалах к программе, а также в разделе «Контакты» этого сайта.



© Николай Головко, 2005-настоящее время.
Все права защищены.
Материалы, размещенные в разделах «Научные работы», «Литературное творчество» и «Учебно-методические разработки», являются интеллектуальной собственностью Николая Головко; для их републикации необходимо согласие автора.
При цитировании информационных материалов сайта указывайте источник.