Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов

Н.В. Головко

Ставрополь

Формально-семантический анализ как компонент комплексного подхода к автоматизированной обработке текстов

Работа выполнена в рамках реализации ФЦП «Научные и научно-педагогические кадры инновационной России» на 2009-2013 годы (ГК НК-523П)

В интересах оптимизации систем автоматизированного анализа текстов, потребность в которой вызвана ростом объемов информации, подлежащей обработке, может представляться необходимой реализация комплексного подхода к исследованию целевых текстов. Указанный подход должен актуализировать как количественный, так и качественный анализ тех или иных параметров текстов; на наш взгляд, реализация качественного анализа может быть осуществлена посредством использования формально-семантического метода. Необходимо, однако, заметить, что, несмотря на активное употребление термина «формально-семантический анализ» в современных исследованиях, не существует сколь-либо четкого определения настоящего термина. В докладе И.В. Азаровой и Е.А. Овчинниковой «Пропозициональное и формально-семантическое описание фактов при обработке текстов на русском языке» отмечено, что «можно говорить о процедуре семантического анализа, состоящей из нескольких этапов. На каждом этапе создается определенное семантическое описание анализируемых единиц, которое подвергается дальнейшей обработке на следующем этапе» [1: 1]; в соответствии с данными представлениями исследователи предлагают различать 2 базовых этапа семантического анализа – а) выделение пропозиций, которые ставятся в соответствие фразам в пределах анализируемого текста и б) получение формально-семантического описания фактов на основании получаемых пропозициональных структур; описанные этапы определяются докладчиками как пропозициональный и формально-семантический компоненты автоматического анализа текста. Авторы поясняют, что «пропозициональная структура, формализованная в виде структуры признаков, может быть описана на языке формальной семантики, то есть, в виде формулы» [1: 2] . Иными словами, в цитируемом исследовании предлагается понимать под формально-семантическим анализом описание семантики языковых знаков посредством формул, соответствующих определенному стандарту описания.

Близким к формально-семантическому анализу представляется концепция формально-концептуального анализа (Formal Concept Analysis), описанная в работе «Deriving Concept Hierarchies from Text by Smooth Formal Concept Analysis» коллектива авторов университета Карлсруэ, Германия [5] . Базовым понятием концепции, выстраиваемой авторами, является т.н. «ontology», определяемое как «формальное описание процесса концептуализации» («an ontology is a formal specification of a conceptualization», [5: 1]), частью которой являются идентификаторы концептов, словарный запас языка и т.д.; говоря о лексической реализации концептов, авторы отмечают, что концепт может быть выражен посредством различных высказываний (синонимов), либо одно высказывание может соответствовать различным концептам (что, по мнению исследователей, соответствует полисемии).

Определяя формально-концептуальный анализ, авторы комментируют, что главным образом он применяется для извлечения и обработки эксплицитной информации, которая впоследствии структурируется в т.н. формальные абстракции концептов (formal abstractions of concepts). Исследователи указывают, что центральным понятием формально-концептуального анализа является формальный контекст, определяемый как триада (G,M,I), где G – множество объектов, M – множество атрибутов, I – двоичное отношение между данными множествами, называемое сочетаемостью (incidence) контекста. Приведенная дефиниция позволяет авторам определить понятие формального концепта как диаду (А,В), где . Иными словами, (А,В) является формальным концептом тогда и только тогда, когда множество атрибутов объектов из А равно множеству В, и, в свою очередь, А является множеством всех объектов, объединенных множеством атрибутов из В. Соответственно, А предлагается определять как внешний аспект концепта, В – как внутренний. Концепты в пределах контекста ранжируются авторами на основании «субконцептуальных и сверхконцептуальных отношений».

По мнению исследователей, основным вопросом, возникающим при попытке применения изложенных выше представлений к тексту, является вопрос о том, что именно надлежит полагать объектами и атрибутами. Наиболее очевидной авторам представляется мысль об извлечении из текста взаимосвязей глаголов и их дополнений; дополнения могут быть ассоциированы с множеством объектов, в то время как соответствующие им отглагольные прилагательные – с множеством атрибутов (к примеру, to rent an apartment – слово apartment будет отнесено к объектам, и ему будет соответствовать атрибут rentable).

Авторы отмечают, что существуют работы, в которых ontology рассматривается в качестве семиотической знаковой системы, вследствие чего возможно сопоставление нескольких ontology на синтаксическом и семантическом уровне, выявление и сопоставление иерархии их концептов. Семантическое сопоставление, в частности, требует от авторов введения понятия semantic cotopy, понимаемого как множество всех субконцептов и суперконцептов и описываемого формулой

, где c_i и c_j принадлежат множеству концептов С.

Реализация описанных представлений позволяет исследователям произвести формальную кластеризацию слов в тексте по признаку их контекстуальной сочетаемости, выстраивая таким образом искомую ими иерархию концептов.

Понятие иерархии становится ключевым также в иных подобных исследованиях, в частности – в работе «A Formal Text Representation Model Based on Lexical Chaining» [6] группы ученых университета Билефельда, Германия. Авторы рассматривают вопросы, связанные с разработкой формальной модели представления текста, привлекая два различных подхода – изучение лексических последовательностей (lexical chaining) и квантитативный структурный анализ. Формальная модель лексических последовательностей выстраивается в настоящем исследовании на основании т.н. логической структуры документа и иерархии элементов содержимого (hierarchy of content objects).

Надлежит констатировать, что в работе А.Н. Баранова «Введение в прикладную лингвистику» [2] представлен корректный комментарий, описывающий современные системы машинного понимания текстов: «Понимание высказываний (системой автоматизированного анализа. – Н.Г.) предполагает два основных этапа – анализ и интерпретация... Особенности построения систем поддержки диалога с ЭВМ таковы, что часто граница между синтаксическим и семантическим анализом почти отсутствует». Действительно, описанные выше исследования немецких авторов позволяют сделать вывод о том, что современные исследования в области формализации семантики нередко фактически сводятся к дистрибутивному анализу, т.е. к выявлению характера сочетаемости слова и определению физических контекстов, в которых оно может употребляться; не отрицая ценности данного подхода, необходимо отметить, что исследование физического контекста не может рассматриваться как полноценное средство выявления и описания семантики языкового знака.

Замечания о соотношении синтаксического и семантического анализа представлены, в частности, в статье М. Селфридж «Интегральная обработка обеспечивает надежное понимание» [3] . Автор поясняет, что построение надежного интерфейса на естественном языке между машиной и пользователем требует определения двух разновидностей отношений: между синтаксисом и семантикой, а также между пониманием языка и обработкой памяти. Не касаясь второго отношения как внутримашинного, обратимся к вопросу о синтаксисе и семантике в понимании исследователя.

Резюмируя умозаключения Р. Шенка и Л. Бирнбаума, М. Селфридж формулирует следующие основные вопросы: 1) обрабатывается ли синтаксическая структура раньше семантической, или их анализ производится единовременно? и 2) разделены ли процессы обработки синтаксиса и семантики, или их обработка составляет единый процесс? Автор отмечает, что существуют 2 различные точки зрения на эти вопросы, условно называемые «сепаратистской» («разъединительной») и «интегральной». Согласно первой позиции, «синтаксический анализ высказывания осуществляется до любого вида семантического анализа, а на его выходе мы получаем синтаксическое описание высказывания. Это описание затем подается на вход семантического анализа» [3: 169] ; в свою очередь, интегральная концепция гласит, что данные типы анализа надлежит проводить синхронно. Ответ же на второй поставленный вопрос с точки зрения «разъединительной» концепции подразумевает отличие механизма, строящего синтаксическое описание, от механизма, конструирующего семантическое описание (т.е., комментирует автор, эти механизмы работают по различным алгоритмам); в свою очередь, интегральные представления предполагают использование единого механизма, выполняющего как семантический, так и синтаксический анализ. Р. Шенк и Л. Бирнбаум придерживаются второй концепции, формулируя т.н. гипотезу об интегральной обработке. По мнению М. Селфридж, указанная гипотеза не утверждает тождественности синтаксического и семантического знания, так что при разработке авторской концепции понимающей машины исследователь считает необходимым обрабатывать синтаксис и семантику единовременно и посредством единого механизма, но при этом разграничивать их не на основании процессов обработки, но на основании знаний – иными словами, поясняет автор, «различие между синтаксисом и семантикой кроется в специфике знания, представляемого в соответствующих структурах, а не в порядке их применения и не в процессах обработки» [3: 170] .

В ряде работ сам по себе термин «формально-семантический анализ» не употребляется, однако представляется вполне очевидным, что соответствующая проблематика находится в фокусе внимания их авторов. В диссертационном исследовании А.М. Шахмайкина «Некоторые принципы формализации семантики естественных языков (для целей семантической типологии)» [4] отмечается, что формализация не может быть сведена исключительно к использованию логико-математических методов, но также и предполагает однозначное и последовательное использование при анализе всего категориального аппарата семантики – т.е. процедура формализованного анализа состоит, по мнению ученого, «из установления инвентаря семантических признаков и отношений между ними» [4: 1] . Семантическая структура языкового знака представляется автором в виде формулы , где

Σ – языковой знак,

D – денотат, т.е. класс обозначаемых знаком явлений,

Dm – денотативное значение (совокупность признаков денотата),

S – сигнификат, образ, посредством которого кодифицируется денотат, и

Sm – сигнификативное значение, т.е. совокупность сигнификативных признаков знака.

Далее исследователь утверждает, что единообразное и эксплицитное описание семантической подсистемы естественных языков может быть обеспечено исключительно посредством формального языка-посредника, в силу чего насущно необходимой может представляться разработка семантического метаязыка, позволяющего формально описывать семантику языковых знаков; результатом подобного описания будет являться совокупность формул, образующих некоторую систему. По мнению ученого, подобный метаязык надлежит строить отдельно для каждой семантической подсистемы – категорий времени, пространства, модальности и т.д. Структура семантического метаязыка представляется автору «в виде необходимых и достаточных для описания той или иной конкретной подсистемы элементарных неопределяемых и далее неделимых семантических единиц (множителей) и отношений между ними» [4: 11] ; указанные отношения должны быть определены на базе формально-логических категорий. В качестве примера А.М. Шахмайкин приводит результаты анализа семантики грамматического времени русского языка, описывающие ряд временных значений:

где е с индексами – события, > - знак предшествования, || - знак одновременности, Λ – знак конъюнкции, - знак принадлежности, Т – настоящее время, Р – прошедшее время, F – будущее время.

Подводя итоги изложения основных представлений о формально-семантическом анализе, считаем необходимым суммировать вышесказанное в целях выработки единого определения данного термина. С этой целью отметим основные элементы, которые могли бы составить итоговое определение.

1. Представляется вполне очевидным, что дефиниция должна содержать указание на процесс формализации. Исходя из определений, данных в работах [1] и [5], будем понимать формализацию как процесс создания некоторого формального описания, т.е. описания чего-либо посредством формул и приближенных к ним выражений, таких, как псевдоалгоритмический язык и т.п. Фактически речь идет о разработке формальной модели изучаемого явления.

2. Кроме того, дефиниция подразумевает, что выполняется анализ семантики, т.е. некоторой совокупности значений, приписываемой языковому знаку, а также (возможно) структуры указанных значений. Идеалом данного анализа, безусловно, будет являться полное отделение семантики знака от его синтактики и прагматики, что не всегда достижимо, но может рассматриваться как конечная цель.

3. Рассматриваемый нами анализ может производиться как автоматически, так и при участии человека. Заметим, что в данном случае возможны некоторые процессуальные различия: человек может выполнять первичный формально-семантический анализ в интересах создания формальной модели семантики, перемещаясь в направлении от семантики к средствам ее выявления, в то время как автомат вероятнее всего будет использовать данную модель и выполнять обратную работу, двигаясь от средств выявления семантики к ней самой.

4. Исходя из предыдущей составляющей, необходимо прокомментировать понятие средств выявления семантики. Представляется вероятным, что в фокусе внимания как человеческого исследователя, так и автоматизированного анализатора будут находиться некоторые внешние, эксплицитные параметры языковых знаков или, шире, текстов; мы полагаем целесообразным придерживаться идеи о том, что внешние характеристики языкового знака позволяют с определенной вероятностью делать выводы о его имплицитных свойствах. Таким образом, мы можем сформулировать итоговую дефиницию:

Формально-семантический анализ – это процедура выявления и интерпретации эксплицитно выраженных характеристик языковых знаков, которые позволяют составить представление о сущности и структуре их семантики, и описания полученных данных посредством формул, пригодных для использования в построении математических моделей процессов понимания значений языковых знаков как в пределах физического и идеального контекста, так и вне его.

Библиографический список

1. Азарова, И.В., Овчинникова, Е.А. Семантическая структура пропозиции при извлечении фактов из текстов на русском языке. - [Электронный ресурс]. – Режим доступа: http://www.dialog-21.ru/

2. Баранов, А.Н. Введение в прикладную лингвистику [Текст] / А.Н. Баранов. - М.: Эдиториал УРСС, 2001. - 360 с.

3. Селфридж, М. Интегральная обработка обеспечивает надежное понимание [Текст] / М. Селфридж // Новое в зарубежной лингвистике: Вып. XXIV. Компьютерная лингвистика. – М.: Прогресс, 1989. – С. 161-208.

4. Шахмайкин, А.М. Некоторые принципы формализации семантики естественных языков (для целей семантической типологии) [Текст] / А.М. Шахмайкин. – Автореферат дисс. на соиск. уч. ст. канд. филол. наук. – М., 1986. – 23 с.

5. Cimiano, P., Staab, S., Tane, J. Deriving Concept Hierarchies from Text by Smooth Formal Concept Analysis. - [Электронный ресурс]. – Режим доступа: http://www.aifb.uni-karlsruhe.de/

6. Mehler, A., Waltinger, U., Wegner, A. A Formal Text Representation Model Based on Lexical Chaining. - [Электронный ресурс]. – Режим доступа: http://ikw.uni-osnabrueck.de/