Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщений |
![]() |
![]() |
ТИАРА'2005 | |||
Автор: Конотопов П.Ю. | |||
29.11.2005 16:47 | |||
Конотопов П.Ю. Задачи обеспечения обеспечения независимости от языка источника в системах обработки текстовых сообщенийДеятельность по созданию средств автоматизации ИАР неразрывно связана с решением задач построения нормативных (прескриптивных) и описательных (дескриптивных) онтологических и терминологических систем. Различают два скласса онто-терминологических систем: неформальные и формальные. В настоящее время задачи синтеза неформальных онто-терминологических систем (СОТ – система онто-терминологическая) большей частью перешли к компетенции философии науки и лингвистики (в т.ч. – к сфере лингвистического обеспечения науки и техники). Одной из распространенных разновидностей СОТ являются тезаурусы (синтаксически упорядоченные, семантически упорядоченные и не упорядоченные). В связи с развитием системного и операционного анализа, кибернетики, теории искусственного интеллекта, теории принятия решений, компьютерной лингвистики, а также ряда иных приложений, требующих терминологической строгости при описании разнообразных сущностей и феноменов, все большее распространение получают формальные СОТ. Областью определения формальных СОТ являются модели фрагментов (систем) реального и/или абстрактного миров. Основу формальных СОТ составляют информационные объекты двух классов: термины и концепты. Определение 1. Концепт – не зависящее от конкретного языка понятие, соответствующее реальной или абстрактной сущности, свойству, действию, либо иному элементу, отражающему связь между другими понятиями. Для формальных СОТ концепт – это представленное с помощью выразительных средств формального и/или естественного языка понятие, являющееся элементом онтологической (семантической) подсистемы СОТ и описывающее некую сущность, атрибут или отношение, зафиксированное в модели. Определение 2. Термин – отвечающий требованию различимости в данной СОТ языковой знак, служащий для представления концепта. Для формальных СОТ термин – это поставленный в соответствие концепту знак формального и/или естественного языка, являющийся элементом терминологической (синтактической) подсистемы СОТ. Таким образом, СОТ представляет собой совокупность двух взаимосвязанных подсистем: онтологической, образованной совокупностью концептов, и терминологической, определенной на онтологической подсистеме и образованной совокупностью терминов. В формальной записи последнее утверждение представлено формулой (1.1). Равноранговая топология не допускает использования для упорядочения элементов каких бы то ни было типов отношений – допускаются отношения с указанием меры близости (силы связи) по значению одного или группы атрибутов. При этом мера близости может вычисляться и как интегральная оценка по полной совокупности введенных семантических атрибутов, и как частная оценка по одному или заданной выборке атрибутов. Иерархическая (древовидная) топология (рис. 1) предполагает упорядочение совокупности элементов (их эшелонизацию) по отношениям подчинения и включения (общее-частное, целое-часть, вид-род и т.п.). Допускается наличие лишь одного элемента высшего иерархического уровня, которому через систему транзитивных связей подчинены все остальные элементы (в СОТ элементы упорядочены по уменьшению объема понятия, т.е. в нижних эшелонах объем понятий меньше, нежели чем в верхних). При этом отдельный эшелон (иерархический уровень) может рассматриваться как совокупность элементов, организованная по правилам, характерным для равноранговой топологии. Своеобразие равноранговой топологии, реализованной внутри эшелона, заключается в отсутствии между элементами отношений подчинения и включения, используемых для иерархического упорядочения.
Гетерархическая топология (в литературе часто используется термин "иерархический граф") (рис. 2) по сравнению с иерархией представляет собой менее строгий вариант организации элементов. Подобно иерархической топологии, гетерархия предполагает эшелонизацию элементов по отношениям подчинения и включения, однако допускает наличие более одного элемента высшего уровня иерархии. Так же, как в иерархии отдельный эшелон (иерархический уровень) может рассматриваться как совокупность элементов, организованная по правилам, характерным для равноранговой топологии. Важной особенностью гетерархической топологии является то, что в нижних эшелонах некоторые элементы, подчиненные разным вершинам, являются общими, в то время, как в верхних – разделены. В соответствии с приведенной аксиоматикой для нормализованных гетерархических и иерархических СОТ, множества концептов и терминов могут быть разбиты на подмножества, соответствующие стратам (для иерархии количество страт можно полагать равным единице) и эшелонам, а для множества терминов – терм-множествам. Отношения элементов онтологической системы для всех трех видов топологии могут быть описаны с применением формальной записи представленной в выражении (1.7). Соответственно, индекс i соответствует страте, j - эшелону, а k - конкретному концепту. Кроме того, применение для представления СОТ технологии XML-клоновых языков разметки позволяет соединить в едином элементе разметки атрибуты метаязыковой, формальноязыковой, естественноязыковой и технологической семантики. Так, например, непосредственно в информационном объекте, служащем для описания концепта и системы его связей, может храниться один из терминов, рассматривающийся в качестве нормативно установленного. Базовые множества концептов (1.4) и терминов (1.6) в зависимости от назначения СОТ, могут быть организованы в нормализованные или в нечеткие системы. При этом нормализация может затрагивать либо только онтологическую, либо и онтологическую (ОПС) и терминологическую (ТПС) подсистемы. Определение 5. Нормализованная онтологическая система (подсистема) – это онтологическая система, на элементы которой налагаются следующие ограничения:
Определение 6. Нормализованная терминологическая система (подсистема) – это терминологическая система, на терм-множества и термины которой налагаются следующие ограничения:
Для нормализованных систем концептов справедливо утверждение, что внутри одного иерархического уровня элементарные понятия не дублируются и не пересекаются. То есть, объемы понятий согласованы и не существует понятий, определяющих одну и ту же сущность, атрибут или отношение (при этом речь может идти и о классах сущностей, атрибутов и отношений). Для нормализованных систем терминов справедливо утверждение, что внутри одного иерархического уровня элементарные термины не дублируются. В некоторых случаях на нормализованные терминологические системы налагается дополнительное ограничение, предписывающее, чтобы один и только один термин соответствовал одному и только одному концепту. Определение 7. Строгие нормализованные СОТ – разновидность СОТ, для которых справедливо утверждение, что нормализованными являются и онтологическая и терминологическая подсистемы. Определение 8. Нестрогие нормализованные СОТ – разновидность СОТ, для которых справедливо утверждение, что нормализованной является только онтологическая подсистема. Определение 9. Нечеткие нормализованные СОТ – разновидность нестрогих нормализованных СОТ, для которых введена мера соответствия (принадлежности) термина тому или иному концепту. В частности, для определения меры соответствия могут использоваться вероятностные, статистические и экспертные методы (в том числе – методы многомерного шкалирования). Мера соответствия задает силу связи между концептом и термином или между термином и термином.
|