Н.В. Головко
Ставрополь
Формально-семантический анализ как компонент комплексного подхода к
автоматизированной обработке текстов
Работа выполнена в рамках реализации ФЦП «Научные и
научно-педагогические кадры инновационной России» на 2009-2013 годы (ГК НК-523П)
В интересах оптимизации
систем автоматизированного анализа текстов, потребность в которой вызвана
ростом объемов информации, подлежащей обработке, может представляться
необходимой реализация комплексного подхода к исследованию целевых текстов.
Указанный подход должен актуализировать как количественный, так и качественный
анализ тех или иных параметров текстов; на наш взгляд, реализация качественного
анализа может быть осуществлена посредством использования
формально-семантического метода. Необходимо, однако, заметить, что, несмотря на
активное употребление термина «формально-семантический анализ» в современных
исследованиях, не существует сколь-либо четкого определения настоящего термина.
В докладе И.В. Азаровой и Е.А. Овчинниковой «Пропозициональное и
формально-семантическое описание фактов при обработке текстов на русском языке»
отмечено, что «можно говорить о процедуре семантического анализа, состоящей из
нескольких этапов. На каждом этапе создается определенное семантическое
описание анализируемых единиц, которое подвергается дальнейшей обработке на
следующем этапе» [1: 1]; в соответствии с данными представлениями исследователи
предлагают различать 2 базовых этапа семантического анализа – а) выделение
пропозиций, которые ставятся в соответствие фразам в пределах анализируемого
текста и б) получение формально-семантического описания фактов на основании
получаемых пропозициональных структур; описанные этапы определяются
докладчиками как пропозициональный и формально-семантический компоненты
автоматического анализа текста. Авторы поясняют, что «пропозициональная
структура, формализованная в виде структуры признаков, может быть описана на
языке формальной семантики, то есть, в виде формулы» [1: 2] . Иными словами, в
цитируемом исследовании предлагается понимать под формально-семантическим
анализом описание семантики языковых знаков посредством формул, соответствующих
определенному стандарту описания.
Близким к
формально-семантическому анализу представляется концепция
формально-концептуального анализа (Formal Concept Analysis), описанная в работе «Deriving
Concept Hierarchies from Text by Smooth Formal Concept Analysis» коллектива
авторов университета Карлсруэ, Германия [5] . Базовым понятием концепции,
выстраиваемой авторами, является т.н. «ontology», определяемое как «формальное
описание процесса концептуализации» («an ontology is a formal specification
of a conceptualization», [5: 1]), частью которой являются идентификаторы
концептов, словарный запас языка и т.д.; говоря о лексической реализации
концептов, авторы отмечают, что концепт может быть выражен посредством
различных высказываний (синонимов), либо одно высказывание может
соответствовать различным концептам (что, по мнению исследователей,
соответствует полисемии).
Определяя
формально-концептуальный анализ, авторы комментируют, что главным образом он
применяется для извлечения и обработки эксплицитной информации, которая
впоследствии структурируется в т.н. формальные абстракции концептов (formal abstractions of concepts). Исследователи указывают, что центральным
понятием формально-концептуального анализа является формальный контекст,
определяемый как триада (G,M,I), где G – множество объектов, M – множество атрибутов, I – двоичное отношение между данными
множествами, называемое сочетаемостью (incidence) контекста. Приведенная дефиниция
позволяет авторам определить понятие формального концепта как диаду (А,В),
где . Иными словами, (А,В)
является формальным концептом тогда и только тогда, когда множество атрибутов
объектов из А равно множеству В, и, в свою очередь, А является множеством всех
объектов, объединенных множеством атрибутов из В. Соответственно, А
предлагается определять как внешний аспект концепта, В – как внутренний. Концепты
в пределах контекста ранжируются авторами на основании «субконцептуальных и
сверхконцептуальных отношений».
По мнению исследователей,
основным вопросом, возникающим при попытке применения изложенных выше
представлений к тексту, является вопрос о том, что именно надлежит полагать
объектами и атрибутами. Наиболее очевидной авторам представляется мысль об
извлечении из текста взаимосвязей глаголов и их дополнений; дополнения могут
быть ассоциированы с множеством объектов, в то время как соответствующие им
отглагольные прилагательные – с множеством атрибутов (к примеру, to rent an apartment – слово apartment будет отнесено к объектам, и ему
будет соответствовать атрибут rentable).
Авторы отмечают, что
существуют работы, в которых ontology рассматривается в качестве
семиотической знаковой системы, вследствие чего возможно сопоставление
нескольких ontology на синтаксическом и семантическом
уровне, выявление и сопоставление иерархии их концептов. Семантическое
сопоставление, в частности, требует от авторов введения понятия semantic cotopy, понимаемого как множество всех
субконцептов и суперконцептов и описываемого формулой
, где ci и cj принадлежат
множеству концептов С.
Реализация описанных
представлений позволяет исследователям произвести формальную кластеризацию слов
в тексте по признаку их контекстуальной сочетаемости, выстраивая таким образом
искомую ими иерархию концептов.
Понятие иерархии
становится ключевым также в иных подобных исследованиях, в частности – в работе
«A Formal Text Representation Model Based on Lexical Chaining» [6] группы
ученых университета Билефельда, Германия. Авторы рассматривают вопросы,
связанные с разработкой формальной модели представления текста, привлекая два
различных подхода – изучение лексических последовательностей (lexical chaining) и квантитативный структурный
анализ. Формальная модель лексических последовательностей выстраивается в
настоящем исследовании на основании т.н. логической структуры документа и
иерархии элементов содержимого (hierarchy of content objects).
Надлежит констатировать,
что в работе А.Н. Баранова «Введение в прикладную лингвистику» [2] представлен
корректный комментарий, описывающий современные системы машинного понимания
текстов: «Понимание высказываний (системой автоматизированного анализа. – Н.Г.) предполагает два основных этапа –
анализ и интерпретация... Особенности построения систем поддержки диалога с ЭВМ
таковы, что часто граница между синтаксическим и семантическим анализом почти
отсутствует». Действительно, описанные выше исследования немецких авторов
позволяют сделать вывод о том, что современные исследования в области
формализации семантики нередко фактически сводятся к дистрибутивному анализу,
т.е. к выявлению характера сочетаемости слова и определению физических
контекстов, в которых оно может употребляться; не отрицая ценности данного
подхода, необходимо отметить, что исследование физического контекста не может
рассматриваться как полноценное средство выявления и описания семантики
языкового знака.
Замечания о соотношении
синтаксического и семантического анализа представлены, в частности, в статье М.
Селфридж «Интегральная обработка обеспечивает надежное понимание» [3] . Автор
поясняет, что построение надежного интерфейса на естественном языке между
машиной и пользователем требует определения двух разновидностей отношений:
между синтаксисом и семантикой, а также между пониманием языка и обработкой
памяти. Не касаясь второго отношения как внутримашинного, обратимся к вопросу о
синтаксисе и семантике в понимании исследователя.
Резюмируя умозаключения Р.
Шенка и Л. Бирнбаума, М. Селфридж формулирует следующие основные вопросы: 1)
обрабатывается ли синтаксическая структура раньше семантической, или их анализ
производится единовременно? и 2) разделены ли процессы обработки синтаксиса и
семантики, или их обработка составляет единый процесс? Автор отмечает, что
существуют 2 различные точки зрения на эти вопросы, условно называемые
«сепаратистской» («разъединительной») и «интегральной». Согласно первой
позиции, «синтаксический анализ высказывания осуществляется до любого вида
семантического анализа, а на его выходе мы получаем синтаксическое описание
высказывания. Это описание затем подается на вход семантического анализа» [3:
169] ; в свою очередь, интегральная концепция гласит, что данные типы анализа
надлежит проводить синхронно. Ответ же на второй поставленный вопрос с точки
зрения «разъединительной» концепции подразумевает отличие механизма, строящего
синтаксическое описание, от механизма, конструирующего семантическое описание (т.е.,
комментирует автор, эти механизмы работают по различным алгоритмам); в свою
очередь, интегральные представления предполагают использование единого
механизма, выполняющего как семантический, так и синтаксический анализ. Р. Шенк
и Л. Бирнбаум придерживаются второй концепции, формулируя т.н. гипотезу об
интегральной обработке. По мнению М. Селфридж, указанная гипотеза не утверждает
тождественности синтаксического и семантического знания, так что при разработке
авторской концепции понимающей машины исследователь считает необходимым
обрабатывать синтаксис и семантику единовременно и посредством единого
механизма, но при этом разграничивать их не на основании процессов обработки,
но на основании знаний – иными словами, поясняет автор, «различие между
синтаксисом и семантикой кроется в специфике знания, представляемого в
соответствующих структурах, а не в порядке их применения и не в процессах
обработки» [3: 170] .
В ряде работ сам по себе
термин «формально-семантический анализ» не употребляется, однако представляется
вполне очевидным, что соответствующая проблематика находится в фокусе внимания
их авторов. В диссертационном исследовании А.М. Шахмайкина «Некоторые принципы
формализации семантики естественных языков (для целей семантической типологии)»
[4] отмечается, что формализация не может быть сведена исключительно к
использованию логико-математических методов, но также и предполагает
однозначное и последовательное использование при анализе всего категориального
аппарата семантики – т.е. процедура формализованного анализа состоит, по мнению
ученого, «из установления инвентаря семантических признаков и отношений между
ними» [4: 1] . Семантическая структура языкового знака представляется автором в
виде формулы , где
Σ – языковой знак,
D – денотат, т.е.
класс обозначаемых знаком явлений,
Dm – денотативное
значение (совокупность признаков денотата),
S – сигнификат,
образ, посредством которого кодифицируется денотат, и
Sm – сигнификативное значение, т.е.
совокупность сигнификативных признаков знака.
Далее исследователь
утверждает, что единообразное и эксплицитное описание семантической подсистемы
естественных языков может быть обеспечено исключительно посредством формального
языка-посредника, в силу чего насущно необходимой может представляться
разработка семантического метаязыка, позволяющего формально описывать семантику
языковых знаков; результатом подобного описания будет являться совокупность
формул, образующих некоторую систему. По мнению
ученого, подобный метаязык надлежит строить отдельно для каждой семантической
подсистемы – категорий времени, пространства, модальности и т.д. Структура
семантического метаязыка представляется автору «в виде необходимых и
достаточных для описания той или иной конкретной подсистемы элементарных
неопределяемых и далее неделимых семантических единиц (множителей) и отношений
между ними» [4: 11] ; указанные отношения должны быть определены на базе
формально-логических категорий. В качестве примера А.М. Шахмайкин приводит
результаты анализа семантики грамматического времени русского языка,
описывающие ряд временных значений:
1.
2.
3.
4.
5.
6.,
где е с индексами –
события, > - знак предшествования, || - знак одновременности, Λ – знак
конъюнкции, - знак принадлежности, Т – настоящее время, Р – прошедшее
время, F – будущее время.
Подводя итоги изложения
основных представлений о формально-семантическом анализе, считаем необходимым
суммировать вышесказанное в целях выработки единого определения данного
термина. С этой целью отметим основные элементы, которые могли бы составить
итоговое определение.
1. Представляется вполне
очевидным, что дефиниция должна содержать указание на процесс формализации.
Исходя из определений, данных в работах [1] и [5], будем понимать формализацию
как процесс создания некоторого формального описания, т.е. описания чего-либо
посредством формул и приближенных к ним выражений, таких, как псевдоалгоритмический
язык и т.п. Фактически речь идет о разработке формальной модели изучаемого
явления.
2. Кроме того, дефиниция
подразумевает, что выполняется анализ семантики, т.е. некоторой совокупности
значений, приписываемой языковому знаку, а также (возможно) структуры указанных
значений. Идеалом данного анализа, безусловно, будет являться полное отделение
семантики знака от его синтактики и прагматики, что не всегда достижимо, но
может рассматриваться как конечная цель.
3. Рассматриваемый нами
анализ может производиться как автоматически, так и при участии человека.
Заметим, что в данном случае возможны некоторые процессуальные различия:
человек может выполнять первичный формально-семантический анализ в интересах
создания формальной модели семантики, перемещаясь в направлении от семантики к
средствам ее выявления, в то время как автомат вероятнее всего будет
использовать данную модель и выполнять обратную работу, двигаясь от средств
выявления семантики к ней самой.
4. Исходя из предыдущей
составляющей, необходимо прокомментировать понятие средств выявления семантики.
Представляется вероятным, что в фокусе внимания как человеческого
исследователя, так и автоматизированного анализатора будут находиться некоторые
внешние, эксплицитные параметры языковых знаков или, шире, текстов; мы полагаем
целесообразным придерживаться идеи о том, что внешние характеристики языкового
знака позволяют с определенной вероятностью делать выводы о его имплицитных
свойствах. Таким образом, мы можем сформулировать итоговую дефиницию:
Формально-семантический анализ – это процедура выявления и
интерпретации эксплицитно выраженных характеристик языковых знаков, которые
позволяют составить представление о сущности и структуре их семантики, и
описания полученных данных посредством формул, пригодных для использования в
построении математических моделей процессов понимания значений языковых знаков
как в пределах физического и идеального контекста, так и вне его.
Библиографический список
1. Азарова, И.В., Овчинникова, Е.А. Семантическая структура
пропозиции при извлечении фактов из текстов на русском языке. - [Электронный
ресурс]. – Режим доступа: http://www.dialog-21.ru/
2. Баранов, А.Н. Введение в
прикладную лингвистику [Текст] / А.Н. Баранов. - М.: Эдиториал УРСС,
2001. - 360 с.
3. Селфридж, М. Интегральная обработка обеспечивает надежное
понимание [Текст] / М. Селфридж // Новое в зарубежной лингвистике: Вып. XXIV.
Компьютерная лингвистика. – М.: Прогресс, 1989. – С. 161-208.
4. Шахмайкин, А.М. Некоторые принципы формализации семантики
естественных языков (для целей семантической типологии) [Текст] / А.М.
Шахмайкин. – Автореферат дисс. на соиск. уч. ст. канд. филол. наук. – М., 1986.
– 23 с.
5. Cimiano, P., Staab, S., Tane, J.
Deriving Concept Hierarchies from Text by Smooth Formal Concept Analysis. - [Электронный ресурс]. – Режим доступа: http://www.aifb.uni-karlsruhe.de/
6. Mehler, A., Waltinger, U., Wegner,
A. A
Formal Text Representation Model Based on Lexical Chaining.
- [Электронный ресурс]. – Режим доступа: http://ikw.uni-osnabrueck.de/