Образовательные услуги | Журнал "ТИАРА" | Дискуссионный клуб | Контакты





Rambler's Top100 Rambler's Top100
Вы находитесь здесь: Главная >> Журнал "ТИАРА" >> ТИАРА'2005 >> Задачи синтеза онто-терминологических систем и концептографический метод


Задачи синтеза онто-терминологических систем и концептографический метод Печать E-mail
ТИАРА'2005
Автор: Конотопов П.Ю.   
29.11.2005 21:48

Конотопов П.Ю.

Задачи синтеза онто-терминологических систем и концептографический метод

При синтезе онто-терминологических систем (СОТ) серьезные затруднения вызывают задачи стратификации и эшелонизации базовой модели и онтологии (т.е. задачи декомпозиции и агрегации), а также задачи выявления момента возникновения объективной необходимости введения нового понятия, установления его содержания, сопоставления объема понятий и упорядочения системы концептов.

Применительно к абстрактным понятиям и терминам, соответствующим абстрактным понятиям, вышеупомянутые задачи решаются преимущественно экспертными методами. То есть, содержание понятий, составляющих основу для описания модельных миров, фактически определяется конвенционально. Методологическое обеспечение процессов анализа семантики концептов представлено преимущественно методами голосования, оценивания согласованности экспертных оценок и иными логически не поверяемыми методами.

Проблема состоит в том, что существующее научно-методическое обеспечение не позволяет обосновать правильность решения задачи семантической атрибуции, описать концепт и выбрать нормативно установленный термин для его обозначения. С целью устранения этой проблемы была сформулирована концептографическая задача, для решения которой был разработан описываемый ниже метод концептографического анализа.

1 Задача концептографического анализа нестрогих терм-множеств

Актуальность задач концептографического анализа нестрогих терм-множеств (для краткости – концептографических задач) обусловлена развитием онтологического направления в рамках теории систем искусственного интеллекта и необходимостью создания систем комплексной поддержки информационно-аналитической работы. В своей классической постановке эти задачи часто встречаются в практике моделирования, проектирования и исследования сложных систем произвольной этимологии. В частности, концептографические задачи решаются: при синтезе терминологических онтологий для систем искусственного интеллекта (в т.ч. систем автоматического перевода), при атрибуции объектов и систем, при синтезе целевых иерархий в операционном анализе, а также в иных приложениях, требующих терминологической строгости.

Определение 1. Задача концептографического анализа нестрогих терм-множеств - задача установления содержания и объема понятия на основе выполнения строго регламентированной совокупности логических операций над набором концептов и терминов.

Для формирования, изучения и описания систем концептов целесообразно использовать специально разработанный для этих целей формальный аппарат концептографического анализа. Формальный аппарат концептографического анализа дуален и обеспечивает возможность как графического, так и символьного представления иерархизированных концептуальных систем. Благодаря своей наглядности и простоте перехода от иконических знаков к символьному описанию, он упрощает процедуры содержательного и формально-логического анализа понятий и семантических отношений между ними. Эти свойства делают формальный аппарат коцептографического анализа незаменимым инструментом для анализа полноты и непротиворечивости концептуальных систем (в т.ч. терминологических онтологий).

1.1 Постановка задачи концептографического анализа нестрогих терм-множеств

Задача состоит в формировании фрагмента специализированной онто-терминологической системы на основе выполнения процедур логико-семантического анализа, агрегации/декомпозиции свойств реально существующей, мыслимой или проектируемой системы.

Для этого решаются следующие частные задачи: установление семантики терминов, формальное описание концептов, конфигурации связей между ними, и построение связной иерархической системы концептов, позволяющей построить нормализованную СОТ. Применение СОТ должно обеспечить возможность перехода от нестрогого вербального описания системы к терминологически строгому вербальному описанию, которое в дальнейшем может быть использовано для создания ее концептуальной и формальной моделей.

Для решения этой задачи в результате совместных исследований Конотопова П.Ю. и Куликовой Н.В. были разработаны метод и методика концептографического анализа нестрогих терм-множеств.

1.2 Исходные данные

Эксперт, решающий концептографическую задачу, располагает:

  • неизвестного качества вербальной моделью системы;
  • совокупностью предположительно связанных терминов  , выражающих некие существенные, в том числе – абстрактные неметризованные свойства   системы;
  • совокупностью бытовых определений терминов (нестрогих определений концептов  );
  • набором общих и отраслевых семантических и толковых словарей, словарей синонимов, антонимов и омонимов, представленных на традиционных и, предпочтительно, на электронных носителях.

2 Метод и методика концептографического анализа нестрогих терм-множеств

Предлагаемая методика использует методы семантической  и компьютерной лингвистики, логики предикатов и естественных рассуждений и, собственно, метод концептографического анализа. Последний может быть отнесен к классу методов активизации мыслительной деятельности, применяемых в теории систем, когнитивной психологии и когнитивной графики.

Иачальные этапы применения методики могут быть полностью автоматизированы и фактически не требуют привлечения эксперта-аналитика. На поздних этапах, непосредственно связанных с семантическим анализом, уровень автоматизации снижается, и требуется участие аналитика. Однако при условии, что отдельные концепты и термины из числа рассматриваемых уже присутствуют в СОТ, количество неавтоматизированных операций может быть существенно снижено.

Методика состоит из следующей последовательности этапов:

  1. Дополнение множества терминов и понятий за счет привлечения внешних источников знаний (словарей, тезаурусов и т.п.), формирование тематического корпуса текстов.
  2. Статистический анализ, семантическая атрибуция терминов и формирование первичных терм-множеств.
  3. Семантический анализ, прореживание терм-множеств и выделение семантически связных групп.
  4. Применение метода концептографического анализа (формирование контрарных и причинно-следственных групп, формализация, атрибуция, логико-семантический анализ, принятие решения).
  5. Формирование описаний их формализация, формирование фрагмента СОТ, позиционирование и размещение фрагмента в СОТ.

Рассмотрим содержание этапов предлагаемой методики в соответствии с приведенным выше перечнем.

Этап 1

На начальном этапе решения концептографической задачи с использованием словарей выполняются следующие операции:

  • подбираются синонимические, антонимические и омонимические пары терминов;
  • формируется корпус вербальных описаний концептов, т.е. текстов, содержащих определения полученной совокупности терминов.

Полученный набор терминов и концептов, определенных с априори неизвестным качеством, полагается результатом декомпозиции свойств системы, также осуществленной с априори неизвестным качеством. То есть, набор концептов может быть сформирован некорректно. Соответственно, анализ проводится, исходя из следующих допущений:

  • набор терминов и концептов предположительно неполон или избыточен;
  • термины и концепты могут относиться к разным классам сущностей;
  • совокупность атрибутов, на основе которых сформулированы концепты, может быть неполной или неортогональной (т.е. значения атрибутов взаимозависимы);
  • термины могут находиться в отношениях синонимии или антонимии;
  • термины могут выражать более, чем одно понятие (термин полисемичен, термин располагает омонимами);
  • объемы понятий, выражаемых концептами, могут быть неравными;
  • отдельные концепты могут быть взаимозависимы или соподчинены;
  • отношения между концептами могут быть асимметричными;
  • отношения между концептами могут быть иерархическими или равноранговыми.

Как следствие таких допущений, разрешенными могут считаться произвольные варианты группирования концептов и терминов. Соответственно, имеющаяся совокупность концептов и терминов может быть представлена неупорядоченными концепт-множеством   и терм-множеством  , а среди элементов множества присутствуют концепты (и термины), результаты декомпозиции которых также представлены в множествах   и  .

Задача последующих этапов состоит в том, чтобы такие концепты и термины были выявлены, из них были сформированы являющиеся подмножествами    и   связные концепт- и терм-подмножества   и  , которые должны быть помещены на соответствующий уровень СОТ.

Этап 2

С целью решения задачи этапа для полученной совокупности терминов и соответствующих им концептов устанавливаются классификационные признаки и критерии, с использованием которых в словарных статьях были введены вербальные определения терминов. На основе полученных данных строится векторное пространство признаков для полной совокупности терминов и концептов.

При решении задачи построения пространства признаков с применением средств автоматизации предлагается следующая частная методика (методика также может быть реализована без применения средств автоматизации):

  1. Построение общего (по всему корпусу) и частных (по каждой группе определений) частотных лингвистических спектров;
  2. Маркирование лексем спектра, при которых употребляются отрицательные частицы;
  3. Грамматическая атрибуция, категорирование и канонизация словоформ, представленных в спектре;
  4. Прореживание лингвистического спектра и пересчет частот встречаемости представленных в спектре лексем;
  5. Прореживание полученных лингвистических спектров по примитивным семантическим признакам;
  6. Замена синонимических пар, прореживание спектра и маркировка антонимических;
  7. Выявление оставшихся в полученной совокупности лексем, которые могут выступать в качестве самостоятельных терминов или использоваться для атрибуции терминов и концептов;
  8. Формирование первичных терм-множеств, состоящих из терминов, для определения которых авторы определений оперировали сходным набором атрибутов.

Полученные в результате выполнения такой процедуры терм-множества будут соответствовать различным концептам одного эшелона или различным эшелонам онтологии.

Построение частотных лингвистических спектров общего частотных лингвистических спектров (частная методика пункт 1) осуществляется на основе применения статистических методов:

  • строится неупорядоченный частотный лингвистический спектр в целом по всему корпусу;
  • выполняется маркирование шкалы лексическими единицами, отмеченными в корпусе;
  • строятся частные лингвистических спектры частных определений, упорядоченные в соответствии с маркировкой шкалы, полученной при построении спектра для всего корпуса.

Маркирование лексем спектра, при которых употребляются отрицательные частицы (частная методика пункт 2) осуществляется на основе операций словарного поиска в подмножестве отрицательных частиц и устойчивых отрицательных конструкций.

Грамматическая атрибуция, категорирование и канонизация словоформ, представленных в спектре (частная методика пункт 3) осуществляется на основе применения методов морфологического и грамматического анализа:

  • анализируется морфемный состав представленных в спектре лексических единиц;
  • выявляется графическая основа лексем и выполняется поиск канонического представления текущей лексемы, представленной своей словоформой;
  • выполняется замещение текущей словоформы ее каноническим представлением (словоформы с отрицанием рассматриваются как самостоятельные);
  • канонизированной лексеме присваивается набор грамматических атрибутов, устанавливается грамматическая категория.

Прореживание лингвистического спектра и пересчет частот встречаемости представленных в спектре лексем (частная методика пункт 4) осуществляется на основе простейших логических и арифметических операций (подсчет суммы с накоплением):

  • текущая лексема попарно сравнивается с представленными в спектре, при обнаружении совпадения выполняется следующая операция;
  • производится прореживание спектра за счет удаления повторно отмеченной лексемы и суммирование абсолютных частот текущей и удаляемой лексем.

Прореживание полученных лингвистических спектров по примитивным семантическим признакам (частная методика пункт 5) осуществляется на основе словарного поиска - исключаются лексемы, не несущие самостоятельной семантической нагрузки (союзы, предлоги, вводные слова и т.п.).

Замена синонимических пар, прореживание спектра и маркировка антонимических (частная методика пункт 6) осуществляется на основе словарного поиска:

  • вводится пара итераторов (встроенные циклы), производится поиск текущей пары по словарю синонимов, выполняется замена лексемы, выбранной во вложенном итерационном цикле, синонимом, заданным наружным итератором;
  • производится прореживание спектра за счет удаления повторно отмеченной лексемы и суммирование абсолютных частот текущей и удаляемой лексем.

Выявление оставшихся в полученной совокупности лексем, которые могут выступать в качестве самостоятельных терминов или использоваться для атрибуции терминов и концептов (частная методика пункт 7) осуществляется на основе формальных процедур принятия решения по грамматическим признакам (именные и предикативные группы, их свойства).

Формирование первичных терм-множеств, состоящих из терминов, для определения которых авторы определений оперировали сходным набором атрибутов (частная методика пункт 8) осуществляется на основе операций кластеризации:

  • осуществляется переход от спектрального к векторному представлению корпуса и частных определений (весь корпус определений и каждое частное определение термина, представленные лингвистическими спектрами, рассматриваются как случайные вектора, определенные в пространстве признаков, заданном лингвистическим спектром корпуса текстов);
  • формируется матрица, в которой столбцы соответствуют частным определениям (факт присутствия лексемы в определении отмечается единицей, факт отсутствия – нулем), а строки – лексемам;
  • вычисляются коэффициенты взаимной корреляции (бл случайных векторов;
  • выполняется процедура кластеризации.

Процедура формирования первичных терм-множеств может быть усовершенствована за счет введения весовых коэффициентов, вычисляемых как величина, обратно пропорциональная частоте встречаемости лексемы в корпусе текстов.

2.1    Метод концептографического анализа нестрогих терм-множеств

Метод концептографического анализа нестрогих терм-множеств относится к классу методов активизации мыслительной деятельности, применяемых в практике системно-кибернетических исследований, системного и операционного анализа, проектирования сложных систем. Основной областью применения этого метода является систематизация терминологии, уточнение содержания понятий, выявление топологии и характера связей между понятиями одного иерархического уровня. Метод призван алгоритмизировать процесс анализа системы отношений между сущностями, выражаемыми терминами и концептами, а через систему отношений – и неявно подразумеваемого содержания понятий.

Общий вид графического представления концептограммы (радиальный вариант размещения контрарных пар) показан на рисунке 4. Иллюстрация позволяет выделить основные элементы концептограммы:

  • контуры, состоящие из трех элементов;
  • контрарные пары.
  • Контрарная пара раскрывает содержание единичного понятия более высокого иерархического уровня и образована парой понятий, пребывающих в отношении диалектического противоречия.

Контур, образованный тремя контрарными парами отражает количественно-качественный переход, получаемый как результат снятия противоречия, выражаемого контрарной парой. Каждый контур, контрарная пара и концептограмма в целом соответствует тому или иному концепту, выражаемому термином, являющимся "центром притяжения" терм-множества. Стрелки морфизмов отражают связи – переходы между состояниями (процессами, атрибутами и т.п.), также выражаемые предикативными или именными терминами или группами.

а)

б)    

Рисунок 1 - Радиальная концептограмма (а) – уровень макроконцептов A0, (б) – декомпозиция до уровня концептов A1

Графическое представление концептограммы многовариантно (рис. 1а и 1б) и позволяет получить тот вариант концептограммы, который адаптирован к текущей решаемой задаче. В частности, существуют варианты, которые позволяют выделить в раздельные представления трехкомпонентные контуры (рис. 1б), включающие в себя концепты, относящиеся к одному "полюсу" контрарных пар. Такой вариант упрощает анализ динамических взаимосвязей между концептами и отражает принцип взаимообусловленности свойств, причинных связей между состояниями, событиями и т.п.

2.2    Формальное описание концептограммы

Метод концептографического анализа позволяет использовать два базовых типа представлений: графическое и символьное. На рисунке 4(а) «Радиальная концептограмма (уровень макроконцептов A0)» представлен первый этап символизации графической модели – концептам и отношениям верхнего уровня присваиваются имена с индексами.

Верхний индекс соответствует уровню концепта (семантического отношения) в СОТ, а нижний – номеру концепта на данном уровне.

Переход от графического представления концептограмм к символьным  демонстрирует формула (1.1).

Дальнейшая декомпозиция (детализация) концептограммы (рис. 1(б)) до уровня контрарных пар A1 представлена на рисунке 1(б). Путем символизации графической концептограммы получены выражения (1.2).

Путем подстановок и раскрытия реляционных операторов может быть продемонстрирована эквивалентность символьных представлений для различных уровней декомпозиции концептограммы.

2.3    Иллюстрация применения метода концептографического анализа

Пример концептограммы "взаимосвязь показателей качества ИАР" представлен на рисунке 5. На рисунке выделяются три контрарные пары: "полнота – целенаправленность", "обоснованность – результативность", "достоверность – оперативность" и два контура: "целенаправленность – оперативность – результативность" и "полнота – обоснованность – достоверность".

Связи между концептами в каждом из пары контуров являются однонаправленными, что показано направлением стрелки морфизма. Направление "вращения" в каждом из контуров противоположно.

В целом можно определить следующее правило для каждого из контуров: сущности одного контура должны принадлежать к одному классу, а стрелка морфизма должна выражать некий предикат, связывающий эти сущности по принципу "порождения". Для иных классов сущностей значения стрелок морфизма изменяется. В целом контура также образуют диалектическую пару, которая может быть поставлена в соответствие концепту более высокого уровня. Например: один контур может выражать идеальную (информационную) компоненту, в то время как другой – материальную. Либо один контур выражает результат, другой – процесс, количество – качество, и т.д., в соответствии с перечнем базовых философских категорий, которые могут быть применены к данному классу сущностей, либо объекту анализа.

Выводы

В представленных материалах рассмотрены основные вопросы, связанные с построением автоматизированных систем тематической классификации многоязычных текстовых массивов.

Для решения задачи тематической классификации предложено использовать метод лексико-статистического анализа, основанный на специфике частотно-рангового распределения лексем в тексте. Использование данного метода позволяет решить следующий комплекс задач:

  1. Выделение семантически значимого множества лексем, наилучшим образом отражающих основную тематику текста;
  2. Создать массив данных для дальнейшего решения задачи автоматического реферирования документа.


Обеспечение функционирования средств автоматизации в многоязычной среде предполагается за счет построения онто-терминологических систем, представляющих собой разновидность классифицирующей семантической сети. На онто-терминологическую систему возлагаются следующие задачи:

  1. Упорядочение терминологии предметной области;
  2. Хранение многоязычных лексиконов;
  3. Устранение омонимии за счет анализа контекста употребления слов в тексте.

Для построения онто-терминологических систем предложено использовать метод концептографического анализа нестрогих терм-множеств.
Экспериментальные исследования, проведенные в рамках работ, подтвердили пригодность предложенных методов для решения практических задач, связанных с построением автоматизированных систем тематической классификации текстов и поддержки электронного документооборота.

Реализованный в ходе эксперимента прототип системы автоматического реферирования на различных контрольных примерах обеспечивает сжатие представления текста в пределах от 5 до 20 крат относительно оригинала.