Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщений
Образовательные услуги | Журнал "ТИАРА" | Дискуссионный клуб | Контакты





Rambler's Top100 Rambler's Top100
Вы находитесь здесь: Главная >> Журнал "ТИАРА" >> ТИАРА'2005 >> Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщений


Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщений Печать E-mail
ТИАРА'2005
Автор: Конотопов П.Ю.   
29.11.2005 16:47

Конотопов П.Ю.

Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщений

Деятельность по созданию средств автоматизации ИАР неразрывно связана с решением задач построения нормативных (прескриптивных) и описательных (дескриптивных) онтологических и терминологических систем. Различают два скласса онто-терминологических систем: неформальные и формальные. В настоящее время задачи синтеза неформальных онто-терминологических систем (СОТ – система онто-терминологическая) большей частью перешли к компетенции философии науки и лингвистики (в т.ч. – к сфере лингвистического обеспечения науки и техники). Одной из распространенных разновидностей СОТ являются тезаурусы (синтаксически упорядоченные, семантически упорядоченные и не упорядоченные).

В связи с развитием системного и операционного анализа, кибернетики, теории искусственного интеллекта, теории принятия решений, компьютерной лингвистики, а также ряда иных приложений, требующих терминологической строгости при описании разнообразных сущностей и феноменов, все большее распространение получают формальные СОТ. Областью определения формальных СОТ являются модели фрагментов (систем) реального и/или абстрактного миров.

Основу формальных СОТ составляют информационные объекты двух классов: термины и концепты.

Определение 1. Концепт – не зависящее от конкретного языка понятие, соответствующее реальной или абстрактной сущности, свойству, действию, либо иному элементу, отражающему связь между другими понятиями. Для формальных СОТ концепт – это представленное с помощью выразительных средств формального и/или естественного языка понятие, являющееся элементом онтологической (семантической) подсистемы СОТ и описывающее некую сущность, атрибут или отношение, зафиксированное в модели.

Определение 2. Термин – отвечающий требованию различимости в данной СОТ языковой знак, служащий для представления концепта. Для формальных СОТ термин – это поставленный в соответствие концепту знак формального и/или естественного языка, являющийся элементом терминологической (синтактической) подсистемы СОТ.

Таким образом, СОТ представляет собой совокупность двух взаимосвязанных подсистем: онтологической, образованной совокупностью концептов, и терминологической, определенной на онтологической подсистеме и образованной совокупностью терминов. В формальной записи последнее утверждение представлено формулой (1.1).

  

Определение 3. Онтологическая система – определенная на концептуальной, атрибутивной или иной модели некоторого фрагмента реального или абстрактного мира связная и/или упорядоченная совокупность концептов (понятий), представленных посредством специализированного метаязыка, и обеспечивающая единство трактовки понятий заданной предметной области. Единство трактовки обеспечивается за счет установления взаимнооднозначных (изоморфных) отношений между понятиями и представленными в модели сущностями, процессами, атрибутами и параметрами. Соответствующая формальная запись представлена выражениями (1.2)-(1.4).

      

Определение 4. Терминологическая система – определенная на некоторой онтологической системе совокупность естественно-языковых или искусственно-языковых терминов (знаков), обеспечивающая однозначное отображение терминов в понятия заданной предметной области. Однозначность отображения обеспечивается за счет использования специализированного метаязыка, предназначенного для отражения морфизмов. Соответствующая формальная запись представлена выражениями (1.5), (1.6).

      

СОТ могут иметь различную топологию: гетерархическую, иерархическую или равноранговую. При этом равноранговую топологию можно рассматривать как вырожденный случай иерархической топологии, а иерархическую – как вырожденный случай гетерархической.

Равноранговая топология не допускает использования для упорядочения элементов каких бы то ни было типов отношений – допускаются отношения с указанием меры близости (силы связи) по значению одного или группы атрибутов. При этом мера близости может вычисляться и как интегральная оценка по полной совокупности введенных семантических атрибутов, и как частная оценка по одному или заданной выборке атрибутов.

Иерархическая (древовидная) топология (рис. 1) предполагает упорядочение совокупности элементов (их эшелонизацию) по отношениям подчинения и включения (общее-частное, целое-часть, вид-род и т.п.). Допускается наличие лишь одного элемента высшего иерархического уровня, которому через систему транзитивных связей подчинены все остальные элементы (в СОТ элементы упорядочены по уменьшению объема понятия, т.е. в нижних эшелонах объем понятий меньше, нежели чем в верхних). При этом отдельный эшелон (иерархический уровень) может рассматриваться как совокупность элементов, организованная по правилам, характерным для равноранговой топологии. Своеобразие равноранговой топологии, реализованной внутри эшелона, заключается в отсутствии между элементами отношений подчинения и включения, используемых для иерархического упорядочения.
 


Рисунок 1 - Вариант упорядочения элементов при иерархической топологии

На рисунке продемонстрирована специфическая особенность, характерная для СОТ, заключающаяся в искусственном введении в структуру нулевых элементов (на рисунке 1 эти элементы выделены серым цветом). Нулевые элементы вводятся для выравнивания эшелонов. Содержание и объем понятий, выражаемых нулевыми элементами, совпадают с содержанием и объемом связанных с ними элементов в смежных эшелонах. Ветвление от нулевых элементов происходит на том уровне, ниже которого определены понятия, включенные и/или соподчиненные нулевому элементу.

Гетерархическая топология (в литературе часто используется термин "иерархический граф") (рис. 2) по сравнению с иерархией представляет собой менее строгий вариант организации элементов. Подобно иерархической топологии, гетерархия предполагает эшелонизацию элементов по отношениям подчинения и включения, однако допускает наличие более одного элемента высшего уровня иерархии. Так же, как в иерархии отдельный эшелон (иерархический уровень) может рассматриваться как совокупность элементов, организованная по правилам, характерным для равноранговой топологии. Важной особенностью гетерархической топологии является то, что в нижних эшелонах некоторые элементы, подчиненные разным вершинам, являются общими, в то время, как в верхних – разделены.

 
Рисунок 2 - Вариант гетерархического упорядочения элементов

Одним из способов получения гетерархической СОТ можно рассматривать способ, при котором производится объединение частных онтологий, построенных на основе стратифицированных моделей некоторой системы. В этом случае на макро-уровне понятийный аппарат будет существенно разниться (что характерно для абстрактных понятий), а на нижних будет частично перекрываться. Характерно, что гетерархические СОТ всегда могут быть достроены до иерархических.

В соответствии с приведенной аксиоматикой для нормализованных гетерархических и иерархических СОТ, множества концептов и терминов могут быть разбиты на подмножества, соответствующие стратам (для иерархии количество страт можно полагать равным единице) и эшелонам, а для множества терминов – терм-множествам.

Отношения элементов онтологической системы для всех трех видов топологии могут быть описаны с применением формальной записи представленной в выражении (1.7). Соответственно, индекс i соответствует страте, j - эшелону, а k - конкретному концепту.
 

Выражение (1.8) демонстрирует изоморфный характер связей между сущностями и связями модели предметной области и множеством концептов.

 

Для представления множества терминов и его элементов используется формальная система, дополненная введением еще одного нижнего индекса (1.9). Соответственно, индекс i соответствует страте, j - эшелону, k - терм-множеству концепта, а l - конкретному термину.



Учитывая тождественность терминов, соответствующих некоторому концепту, такой вариант записи позволяет учитывать изоморфные отношения "один к многим" (1.10), существующие между концептом и его терминами.



 
Рисунок 3 - Отношения между концептом, терм-множеством и терминами

В то же время, следует учитывать, что каждый концепт некоторого эшелона онтологической системы, обозначенный термином, представляет собой концепт-множество (см. рисунок 3), подлежащее декомпозиции на нижележащем уровне. Для элементов этого концепт-множества в практических приложениях также целесообразно введение внутренней индексации. Однако в работе, дабы избежать излишне громоздкой записи, такая индексация не введена – вместо этого используется сквозная нумерация элементов эшелона. На практике же используется последовательная запись индексов, что позволяет наращивать количество индексов без ограничений, свойственных графическим представлениям абстрактных модельных объектов.

Кроме того, применение для представления СОТ технологии XML-клоновых языков разметки позволяет соединить в едином элементе разметки атрибуты метаязыковой, формальноязыковой, естественноязыковой и технологической семантики. Так, например, непосредственно в информационном объекте, служащем для описания концепта и системы его связей, может храниться один из терминов, рассматривающийся в качестве нормативно установленного.

Базовые множества концептов (1.4) и терминов (1.6) в зависимости от назначения СОТ, могут быть организованы в нормализованные или в нечеткие системы. При этом нормализация может затрагивать либо только онтологическую, либо и онтологическую (ОПС) и терминологическую (ТПС) подсистемы.

Определение 5. Нормализованная онтологическая система (подсистема) – это онтологическая система, на элементы которой налагаются следующие ограничения:

  • элементы (концепты), принадлежащие к одному эшелону, не пересекаются по объемам понятий;
  • между произвольным концептом более высокого иерархического уровня и концептами подчиненного уровня допускаются отношения "один к одному" или "один ко многим";
  • между произвольным концептом подчиненного иерархического уровня и концептом более высокого уровня должно существовать одно и только одно отношение типа "один к одному";
  • областью определения совокупности концептов, подчиненных концепту более высокого иерархического уровня, является область определения старшего концепта.

Определение 6. Нормализованная терминологическая система (подсистема) – это терминологическая система, на терм-множества и термины которой налагаются следующие ограничения:

  • терм-множества пребывают во взаимно-однозначном соответствии единственному концепту онтологической системы (допускается подчинение группе концептов, состоящей из одного ненулевого и подчиненных ему нулевых концептов);
  • термины подчиняются непосредственно терм-множеству, представляемому единственным нормативным термином или формальным идентификатором.

Для нормализованных систем концептов справедливо утверждение, что внутри одного иерархического уровня элементарные понятия не дублируются и не пересекаются. То есть, объемы понятий согласованы и не существует понятий, определяющих одну и ту же сущность, атрибут или отношение (при этом речь может идти и о классах сущностей, атрибутов и отношений).

Для нормализованных систем терминов справедливо утверждение, что внутри одного иерархического уровня элементарные термины не дублируются. В некоторых случаях на нормализованные терминологические системы налагается дополнительное ограничение, предписывающее, чтобы один и только один термин соответствовал одному и только одному концепту.

Определение 7. Строгие нормализованные СОТ – разновидность СОТ, для которых справедливо утверждение, что нормализованными являются и онтологическая и терминологическая подсистемы.

Определение 8. Нестрогие нормализованные СОТ – разновидность СОТ, для которых справедливо утверждение, что нормализованной является только онтологическая подсистема.

Определение 9. Нечеткие нормализованные СОТ – разновидность нестрогих нормализованных СОТ, для которых введена мера соответствия (принадлежности) термина тому или иному концепту.

В частности, для определения меры соответствия могут использоваться вероятностные, статистические и экспертные методы (в том числе – методы многомерного шкалирования). Мера соответствия задает силу связи между концептом и термином или между термином и термином.