| Задачи синтеза онто-терминологических систем и концептографический метод |
|
|
| ТИАРА'2005 | |||
| Автор: Конотопов П.Ю. | |||
| 29.11.2005 21:48 | |||
|
Конотопов П.Ю. Задачи синтеза онто-терминологических систем и концептографический методПри синтезе онто-терминологических систем (СОТ) серьезные затруднения вызывают задачи стратификации и эшелонизации базовой модели и онтологии (т.е. задачи декомпозиции и агрегации), а также задачи выявления момента возникновения объективной необходимости введения нового понятия, установления его содержания, сопоставления объема понятий и упорядочения системы концептов. Применительно к абстрактным понятиям и терминам, соответствующим абстрактным понятиям, вышеупомянутые задачи решаются преимущественно экспертными методами. То есть, содержание понятий, составляющих основу для описания модельных миров, фактически определяется конвенционально. Методологическое обеспечение процессов анализа семантики концептов представлено преимущественно методами голосования, оценивания согласованности экспертных оценок и иными логически не поверяемыми методами. Проблема состоит в том, что существующее научно-методическое обеспечение не позволяет обосновать правильность решения задачи семантической атрибуции, описать концепт и выбрать нормативно установленный термин для его обозначения. С целью устранения этой проблемы была сформулирована концептографическая задача, для решения которой был разработан описываемый ниже метод концептографического анализа. 1 Задача концептографического анализа нестрогих терм-множествАктуальность задач концептографического анализа нестрогих терм-множеств (для краткости – концептографических задач) обусловлена развитием онтологического направления в рамках теории систем искусственного интеллекта и необходимостью создания систем комплексной поддержки информационно-аналитической работы. В своей классической постановке эти задачи часто встречаются в практике моделирования, проектирования и исследования сложных систем произвольной этимологии. В частности, концептографические задачи решаются: при синтезе терминологических онтологий для систем искусственного интеллекта (в т.ч. систем автоматического перевода), при атрибуции объектов и систем, при синтезе целевых иерархий в операционном анализе, а также в иных приложениях, требующих терминологической строгости. Определение 1. Задача концептографического анализа нестрогих терм-множеств - задача установления содержания и объема понятия на основе выполнения строго регламентированной совокупности логических операций над набором концептов и терминов. Для формирования, изучения и описания систем концептов целесообразно использовать специально разработанный для этих целей формальный аппарат концептографического анализа. Формальный аппарат концептографического анализа дуален и обеспечивает возможность как графического, так и символьного представления иерархизированных концептуальных систем. Благодаря своей наглядности и простоте перехода от иконических знаков к символьному описанию, он упрощает процедуры содержательного и формально-логического анализа понятий и семантических отношений между ними. Эти свойства делают формальный аппарат коцептографического анализа незаменимым инструментом для анализа полноты и непротиворечивости концептуальных систем (в т.ч. терминологических онтологий). 1.1 Постановка задачи концептографического анализа нестрогих терм-множествЗадача состоит в формировании фрагмента специализированной онто-терминологической системы на основе выполнения процедур логико-семантического анализа, агрегации/декомпозиции свойств реально существующей, мыслимой или проектируемой системы. Для этого решаются следующие частные задачи: установление семантики терминов, формальное описание концептов, конфигурации связей между ними, и построение связной иерархической системы концептов, позволяющей построить нормализованную СОТ. Применение СОТ должно обеспечить возможность перехода от нестрогого вербального описания системы к терминологически строгому вербальному описанию, которое в дальнейшем может быть использовано для создания ее концептуальной и формальной моделей. Для решения этой задачи в результате совместных исследований Конотопова П.Ю. и Куликовой Н.В. были разработаны метод и методика концептографического анализа нестрогих терм-множеств. 1.2 Исходные данныеЭксперт, решающий концептографическую задачу, располагает:
2 Метод и методика концептографического анализа нестрогих терм-множествПредлагаемая методика использует методы семантической и компьютерной лингвистики, логики предикатов и естественных рассуждений и, собственно, метод концептографического анализа. Последний может быть отнесен к классу методов активизации мыслительной деятельности, применяемых в теории систем, когнитивной психологии и когнитивной графики. Иачальные этапы применения методики могут быть полностью автоматизированы и фактически не требуют привлечения эксперта-аналитика. На поздних этапах, непосредственно связанных с семантическим анализом, уровень автоматизации снижается, и требуется участие аналитика. Однако при условии, что отдельные концепты и термины из числа рассматриваемых уже присутствуют в СОТ, количество неавтоматизированных операций может быть существенно снижено. Методика состоит из следующей последовательности этапов:
Рассмотрим содержание этапов предлагаемой методики в соответствии с приведенным выше перечнем. Этап 1На начальном этапе решения концептографической задачи с использованием словарей выполняются следующие операции:
Полученный набор терминов и концептов, определенных с априори неизвестным качеством, полагается результатом декомпозиции свойств системы, также осуществленной с априори неизвестным качеством. То есть, набор концептов может быть сформирован некорректно. Соответственно, анализ проводится, исходя из следующих допущений:
Как следствие таких допущений, разрешенными могут считаться произвольные варианты группирования концептов и терминов. Соответственно, имеющаяся совокупность концептов и терминов может быть представлена неупорядоченными концепт-множеством и терм-множеством , а среди элементов множества присутствуют концепты (и термины), результаты декомпозиции которых также представлены в множествах и . Задача последующих этапов состоит в том, чтобы такие концепты и термины были выявлены, из них были сформированы являющиеся подмножествами и связные концепт- и терм-подмножества и , которые должны быть помещены на соответствующий уровень СОТ. Этап 2С целью решения задачи этапа для полученной совокупности терминов и соответствующих им концептов устанавливаются классификационные признаки и критерии, с использованием которых в словарных статьях были введены вербальные определения терминов. На основе полученных данных строится векторное пространство признаков для полной совокупности терминов и концептов. При решении задачи построения пространства признаков с применением средств автоматизации предлагается следующая частная методика (методика также может быть реализована без применения средств автоматизации):
Полученные в результате выполнения такой процедуры терм-множества будут соответствовать различным концептам одного эшелона или различным эшелонам онтологии. Построение частотных лингвистических спектров общего частотных лингвистических спектров (частная методика пункт 1) осуществляется на основе применения статистических методов:
Маркирование лексем спектра, при которых употребляются отрицательные частицы (частная методика пункт 2) осуществляется на основе операций словарного поиска в подмножестве отрицательных частиц и устойчивых отрицательных конструкций. Грамматическая атрибуция, категорирование и канонизация словоформ, представленных в спектре (частная методика пункт 3) осуществляется на основе применения методов морфологического и грамматического анализа:
Прореживание лингвистического спектра и пересчет частот встречаемости представленных в спектре лексем (частная методика пункт 4) осуществляется на основе простейших логических и арифметических операций (подсчет суммы с накоплением):
Прореживание полученных лингвистических спектров по примитивным семантическим признакам (частная методика пункт 5) осуществляется на основе словарного поиска - исключаются лексемы, не несущие самостоятельной семантической нагрузки (союзы, предлоги, вводные слова и т.п.). Замена синонимических пар, прореживание спектра и маркировка антонимических (частная методика пункт 6) осуществляется на основе словарного поиска:
Выявление оставшихся в полученной совокупности лексем, которые могут выступать в качестве самостоятельных терминов или использоваться для атрибуции терминов и концептов (частная методика пункт 7) осуществляется на основе формальных процедур принятия решения по грамматическим признакам (именные и предикативные группы, их свойства). Формирование первичных терм-множеств, состоящих из терминов, для определения которых авторы определений оперировали сходным набором атрибутов (частная методика пункт 8) осуществляется на основе операций кластеризации:
Процедура формирования первичных терм-множеств может быть усовершенствована за счет введения весовых коэффициентов, вычисляемых как величина, обратно пропорциональная частоте встречаемости лексемы в корпусе текстов. 2.1 Метод концептографического анализа нестрогих терм-множествМетод концептографического анализа нестрогих терм-множеств относится к классу методов активизации мыслительной деятельности, применяемых в практике системно-кибернетических исследований, системного и операционного анализа, проектирования сложных систем. Основной областью применения этого метода является систематизация терминологии, уточнение содержания понятий, выявление топологии и характера связей между понятиями одного иерархического уровня. Метод призван алгоритмизировать процесс анализа системы отношений между сущностями, выражаемыми терминами и концептами, а через систему отношений – и неявно подразумеваемого содержания понятий. Общий вид графического представления концептограммы (радиальный вариант размещения контрарных пар) показан на рисунке 4. Иллюстрация позволяет выделить основные элементы концептограммы:
Контур, образованный тремя контрарными парами отражает количественно-качественный переход, получаемый как результат снятия противоречия, выражаемого контрарной парой. Каждый контур, контрарная пара и концептограмма в целом соответствует тому или иному концепту, выражаемому термином, являющимся "центром притяжения" терм-множества. Стрелки морфизмов отражают связи – переходы между состояниями (процессами, атрибутами и т.п.), также выражаемые предикативными или именными терминами или группами.
а)
б) Рисунок 1 - Радиальная концептограмма (а) – уровень макроконцептов A0, (б) – декомпозиция до уровня концептов A1 2.2 Формальное описание концептограммыМетод концептографического анализа позволяет использовать два базовых типа представлений: графическое и символьное. На рисунке 4(а) «Радиальная концептограмма (уровень макроконцептов A0)» представлен первый этап символизации графической модели – концептам и отношениям верхнего уровня присваиваются имена с индексами. Верхний индекс соответствует уровню концепта (семантического отношения) в СОТ, а нижний – номеру концепта на данном уровне. Переход от графического представления концептограмм к символьным демонстрирует формула (1.1).
Дальнейшая декомпозиция (детализация) концептограммы (рис. 1(б)) до уровня контрарных пар A1 представлена на рисунке 1(б). Путем символизации графической концептограммы получены выражения (1.2).
Путем подстановок и раскрытия реляционных операторов может быть продемонстрирована эквивалентность символьных представлений для различных уровней декомпозиции концептограммы. 2.3 Иллюстрация применения метода концептографического анализаПример концептограммы "взаимосвязь показателей качества ИАР" представлен на рисунке 5. На рисунке выделяются три контрарные пары: "полнота – целенаправленность", "обоснованность – результативность", "достоверность – оперативность" и два контура: "целенаправленность – оперативность – результативность" и "полнота – обоснованность – достоверность". Связи между концептами в каждом из пары контуров являются однонаправленными, что показано направлением стрелки морфизма. Направление "вращения" в каждом из контуров противоположно. В целом можно определить следующее правило для каждого из контуров: сущности одного контура должны принадлежать к одному классу, а стрелка морфизма должна выражать некий предикат, связывающий эти сущности по принципу "порождения". Для иных классов сущностей значения стрелок морфизма изменяется. В целом контура также образуют диалектическую пару, которая может быть поставлена в соответствие концепту более высокого уровня. Например: один контур может выражать идеальную (информационную) компоненту, в то время как другой – материальную. Либо один контур выражает результат, другой – процесс, количество – качество, и т.д., в соответствии с перечнем базовых философских категорий, которые могут быть применены к данному классу сущностей, либо объекту анализа. ВыводыВ представленных материалах рассмотрены основные вопросы, связанные с построением автоматизированных систем тематической классификации многоязычных текстовых массивов.
Для построения онто-терминологических систем предложено использовать метод концептографического анализа нестрогих терм-множеств. Реализованный в ходе эксперимента прототип системы автоматического реферирования на различных контрольных примерах обеспечивает сжатие представления текста в пределах от 5 до 20 крат относительно оригинала.
|





