Образовательные услуги | Журнал "ТИАРА" | Дискуссионный клуб | Контакты





Rambler's Top100 Rambler's Top100
Вы находитесь здесь: Главная >> Журнал "ТИАРА" >> ТИАРА'2005 >> Лексикологические и семантические аспекты автоматизации процессов первичной информационной обработки текстовых сообщений


Лексикологические и семантические аспекты автоматизации процессов первичной информационной обработки текстовых сообщений Печать E-mail
ТИАРА'2005
Автор: Конотопов П.Ю.   
29.06.2005 14:52

Конотопов П.Ю.

Лексикологические аспекты автоматизации процессов первичной информационной обработки текстовых сообщений

При рассмотрении организационно-технологического цикла (ОТЦ) субъектов информационно-аналитического обеспечения (ИАО) принято выделять этапы добывания, сбора и обработки информации. Каждый из упомянутых этапов объединяет в себе значительное количество деловых процессов, перечень которых можно множить и множить без остановки. Деление на эти этапы является условным, а спор относительно содержания этапов, вероятно не прекратится никогда.

Спор этот сродни спору о том, где у удава начинается хвост - современные информационные технологии устроены так, что, не забираясь внутрь той или иной автоматизированной системы, наверняка и не скажешь, сколько и каких операций она проделала, прежде, чем мы смогли получить доступ к интересующему нас сообщению. Многие операции в таких системах позаимствованы из ручной технологии работы с документами, а многие порождены спецификой применяемых компьютерных систем.

На этапе добывания обычно решаются задачи обеспечения доступа к источникам информации и информационным ресурсам, а также задачи получения / считывания / загрузки данных. Иногда к этапу добывания относят и задачу регистрации данных, подразумевая под регистрацией процедуру записи данных на физическом носителе, постановку метки времени и присвоения уникального регистрационного кода, не связанного с источником и содержанием данных.

На этапе сбора осуществляются регистрация, фильтрация (отбор и отбраковка), первичная атрибуция и систематизация сообщений, индексация и обеспечение возможностей поиска и навигации в массиве добытых данных.

На этапе обработки – задачи управления первичными информационными массивами, задачи агрегирования и упорядочения данных, задачи формирования вторичных массивов данных и управления первичными и вторичными информационными массивами, задачи формальной и аналитической обработки.

Формальная обработка данных - это вотчина математической статистики и формально-грамматических методов анализа. Здесь широко применяются методы аналитической обработки данных (именно - данных, а не информации!!!).

Этап аналитической обработки, в свою очередь, подразделяют на этапы предварительной информационной обработки (ПИО) и семантической обработки информации. В рамках аналитической обработки решаются задачи интеграции данных на основе использования моделей предметной области, интерпретации данных (то есть, собственно переход от данных к информации) и семантической обработки информации. Здесь же могут решаться задачи априорного оценивания достоверности информации по формальным и содержательным критериям и многие другие задачи (вспомним про задачу о хвосте удава).

К процедурам ПИО относят процедуры автоматизированной тематической классификации, сокращения избыточности представления (реферирование и аннотирование). На этапе семантической (или детальной) обработки информации осуществляется анализ семантики сообщений, устанавливаются факты полноты и непротиворечивости системы аргументации, устанавливается текущее состояние объектов, тенденции развития ситуации, формулируются выводы и прогнозы относительно объектов.

В целом ОТЦ системы ИАО строится по принципу поэтапного снятия неопределенностей различного рода и наращивания вычислительной сложности алгоритмов обработки данных и сообщений. Процедуры ПИО обладают достаточно высокой вычислительной сложностью, и в интересах прореживания потока сообщений, подлежащих ПИО, на этапах добывания и сбора предпринимаются меры, направленные на исключение формально неинформативных или нерелевантных целям ИАО сообщений.

В частности, на предшествующих ПИО этапах ОТЦ решаются (или могут решаться) задачи отбора потенциально значимых для решения информационных задач данных и сообщений по техническим признакам (физическим и логическим адресам, идентификаторам источников /например, отсев по наименованию источника публикаций таких одиозных изданий как "Аргументы и факты"/ и т.п.), лексическому составу сообщений ("превед, Медвед") и иные.

На этапе ПИО, как правило, решаются следующие задачи, направленные на снижение напряженности информационно-аналитической работы экспертов-аналитиков:

  • отбор сообщений на основе структурно-статистических признаков (по длине сообщений и их структурных элементов, структурно-статистическим особенностям документов и т.п.);
  • тематическая и жанровая классификация на основе лексико-статистического анализа;
  • автоматическое реферирование, аннотирование сообщений и иные.

В целом на этапе аналитической обработки информации решаются следующие аналитические задачи:

  • анализ условий протекания акта коммуникации (наблюдаемость, доступность, синхронность);
  • анализ и идентификация ситуационного контекста акта коммуникации (АК);
  • анализ и идентификация субъекта АК или источника сообщения;
  • установление жанра изложения и анализ совместимости терминологии;
  • анализ гипотезы субъекта АК о типе потребителя, допустимости использования заданного стиля и степени сложности изложения;
  • анализ структуры релевантности сообщения (характерно для жанровых АК - использование средств акцентирования внимания: заголовки, шрифтовые выделения, иллюстрации и т.п.);
  • анализ субъект-объектной и временной иерархий сообщения;
  • анализ релевантности сообщения задачам субъекта ИАР;
  • анализ совместимости моделей мира участников АК;
  • анализ логической целостности и связности сообщения и АК в целом;
  • анализ эмоциональной нагрузки и связности сообщения и АК в целом;
  • анализ информации, релевантной целям объекта АК;
  • анализ информации, релевантной целям субъекта АК;
  • анализ целей субъекта АК;
  • анализ хранимых в памяти субъекта ИАР сценариев и моделей поведения объектов, обладающих сходными с описываемыми в сообщении признаками, целями и характеристиками;
  • анализ связности и непротиворечивости единовременного сочетания признаков и последовательностей их проявления.

Как было показано ранее, задачи автоматизации процессов определения тематики и аннотирования текстовых сообщений решаются на этапе ПИО с целью сокращения трудозатрат экспертов-аналитиков на поздних этапах ОТЦ, связанных с комплексом задач семантического анализа (см. перечень, приведенный выше).

1 Первичная фильтрация поступивших сообщений по лексическим признакам

Деловые процессы, связанные с первичной фильтрация поступивших неформализованных и формализованных текстовых сообщений (НФС и ФС) по лексическим признакам имеют целью снижение нагрузки на эксперта-аналитика и средства автоматизации. Благодаря осуществлению этой процедуры высвобождаются ресурсы процессорного времени для выполнения более сложных и ресурсоемких задач, связанных с семантической обработкой НФС и ФС.

Наиболее распространенным подходом к решению этой задачи является использование технологии отбора по ключевым словам.

Данная технология, разработанная в конце 1970-х годов, до настоящего времени претерпела незначительные изменения. Наибольшую сложность с методологической точки зрения здесь представляет задача поддержания актуальности и оптимального объема перечней ключевых слов. До настоящего времени здесь наиболее распространены экспертные методы комплектования словаря, что снижает качество решения информационных задач. Действие субъективного фактора при формировании словаря, отсутствие механизмов актуализации его состава снижают оперативность реакции системы на изменение информационной ситуации.

Достоинством технологии является относительно высокое быстродействие, достигаемое за счет малого объема словаря ключевых слов, на основе присутствия которых в тексте принимается решение о релевантности сообщения целям и задачам ИАР.

В настоящее время технология отбора сообщений по ключевым словам находит широкое применение в системах сбора и обработки информации. Однако область ее применения должна быть ограничена задачами оперативного мониторинга состояния классов объектов, поведенческие характеристики которых не отличаются многообразием. Наилучшие результаты данные методы дают при обработке потоков формализованных сообщений в каналах автоматизированных систем управления.

2    Первичная информационная обработка и экспресс-анализ поступивших сообщений

Целью первичной информационной обработки и экспресс-анализа поступивших сообщений является формирование тематически однородных первичных массивов сообщений, подлежащих детальному семантическому анализу. Задачи ПИО решаются на основе исследования лексикона сообщений.

Основную проблему здесь представляет формирование эталонных отраслевых лексиконов (в том числе и многоязычных), способных обеспечить качественное распознавание отраслевой специфики сообщения. Для синтеза таких лексиконов проводятся работы по систематизации терминологии, приданию ей научной строгости и иерархической организации. Данная задача решается путем первичного лексико-статистического анализа корпусов текстов (тематически однородных совокупностей текстов, относящихся к одному периоду времени, протяженностью 5-10 лет), на основе которого формируется общий лексический словарь предметной области. Далее осуществляется анализ центров семантического притяжения и формируется строгое описание системы отношений между базовыми понятиями предметной области. Формируется первичная классифицирующая семантическая сеть, образованная базовыми понятиями предметной области. Полученная сеть выступает в качестве семантического эталона – онтологической модели предметной области.

На следующем этапе на онтологическую модель накладывается лексическая компонента, снижающая помехоустойчивость онто-терминологической системы и адаптирующая ее к нормам обыденной речи. Допускается пополнение лексической компоненты терминами и лексемами из других языков. При этом в нижних уровнях иерархии отраслевого лексикона могут быть помещены термины, не обладающие высокими классифицирующими свойствами и имеющие связи с более чем одним отраслевым лексиконом.

Основным методом формирования отраслевых (тематических) лексиконов являются методы лексико-статистического анализа, основанные на базовых закономерностях функционирования естественно-языковых (ЕЯ) систем. В частности – на законе Зипфа-Мандельброта.

2.1    Методика комплектации отраслевых лексиконов

Сущность задачи комплектации отраслевых лексиконов состоит в том, чтобы на основе объективных критериев сформировать состав словаря, способного эффективно решать задачу классификации сообщений по отраслевой специфике. В основе предлагаемой методики лежит метод анализа частотно-ранговых распределений слов в корпусе текстов заданной отраслевой специфики.

Корпус текстов представляет собой совокупность отобранных по некоторому критерию текстов, образующих представительную выборку для решения задачи статистического анализа. В зависимости от критерия отбора выделяют различные варианты лингвистических корпусов, в том числе: стилистически однородные (жанровые) и неоднородные, одно- и многоязычные, глоттохронологические (т.е. такие в которых представлены тексты относящиеся к одному периоду времени) и не привязанные к заданному временному интервалу, иные. Для упрощения процесса статистической обработки к текстам предъявляется требование единства форматов представления.

На начальном этапе процесс составления корпуса текстов заданной отраслевой специфики решается экспертными методами. Однако по мере накопления количества текстов, может быть реализована процедура автоматизированного отбора текстов заданной тематики и пополнения корпуса. В основе этой процедуры также лежат технологии, реализующие метод анализа частотно-ранговых распределений и выделения наиболее значимых терминов, используемых в данной предметной области - т.е. те процедуры, которые также реализуются с применением технологии фильтрации.

Методологическую основу процедуры составляет выявленное эмпирическим путем распределение Зипфа-Мандельброта, справедливость которого подтверждается в большинстве отраслей научного знания, замыкающегося на проблемы гуманитарного профиля. В квантитативной лингвистике этот закон получил наименование закона экономии усилий. Согласно закону, произведение ранга частоты вхождения слова в текст на частоту образуют постоянную величину, являющуюся инвариантной для данного языка, а слова, адекватно отражающие тематику текста, расположены в средней части распределения.

Рассмотрим сценарий формирования текстового корпуса заданной отраслевой специфики. После того, как экспертными методами сформирована основа текстового корпуса (т.е. отобрано несколько текстов, максимально релевантных отраслевой специфике), над этой совокупностью текстов проводится исследование, целью которого является установление перечня слов, наиболее точно описывающих данную отрасль. При этом на начальном этапе задачей экспертов является подбор таких текстов, для которых значение коэффициента релевантности близко к единице.

При этом во избежание эффекта потери специализации на начальном этапе формирования корпуса может быть выполнена процедура отбраковки нерелевантных предложений. После того как состав значимой части частотно-рангового распределения перестал претерпевать существенные изменения,  дальнейший процесс отбора релевантных сообщений может быть препоручен средствам автоматизации. В частности, подобная работа может быть выполнена с привлечением информационно-поисковых систем (ИПС) глобальной телекоммуникационной сети (ГСТК) Интернет: в качестве информационно-поискового задания может быть выдан перечень слов, образующих среднюю часть частотно-рангового распределения.

В ходе экспериментальных исследований были получены результаты, подтверждающие пригодность такого подхода к поэтапному синтезу корпуса для формирования эталонных словарей и словарей ключевых слов.

Однако в результате применения метода синтеза отраслевых лексиконов и словарей ключевых слов на основе анализа частотно-рангового распределения слов в текстовом корпусе требуется применение специальных методик прореживания полученных перечней слов. В противном случае в словарь попадают как те слова, которые способны обеспечить высокую релевантность отклика ИПС, так и общеупотребительные слова. Одним из путей решения задачи прореживания является применение методики прореживания, основанной на сопоставлении различных отраслевых лексиконов и выделении общезначимых слов, в равной степени представленных в них. При этом на начальном этапе вычисляются коэффициенты относительной корреляции и коэффициенты взаимной корреляции непрореженных отраслевых словарей.

Данные коэффициенты образуют матрицы, анализ которых позволяет сделать вывод о качестве введенной рубрикации и целесообразности введения отношения иерархического упорядочения (часть-целое) между рассматриваемыми лексиконами.

В случае, когда некий лексикон полностью входит в состав другого, между лексиконом, объем понятий которого больше, и лексиконом с меньшим объемом имеет место отношение иерархического упорядочения, что указывает на некорректный выбор классификационных критериев для разделения лексиконов по тематическим группам на основе анализа частотно-ранговых распределений. Вполне вероятно, что различению таких лексиконов могли бы служить слова, частота вхождения которых в сообщения минимальна, однако в данном случае речь идет о классификации по тематике, а не по значению конкретных именных переменных.

В результате применения рассмотренной методики для некоторого множества лексиконов решаются следующие задачи:

  • задача формирования системы гетерархически упорядоченных отраслевых лексиконов, покрывающих терминологию некоторой, более общей, предметной области;
  • задача первичного упорядочения терминологии предметной области;
  • задача выявления состава общеупотребительного лексикона.

Полученные с применением описанной методики отраслевые лексиконы в целом пригодны для решения задачи фильтрации и сортировки потока сообщений, однако они не могут быть использованы в интересах осуществления перехода от ЕЯ-представлений к модельным представлениям. Решение последней задачи требует дальнейшего упорядочения терминологии и придания ей научной строгости, что требует применения других методик, в частности, методики построения гетерархических многоотраслевых тезаурусов.

2.2    Методологические и технологические аспекты задачи формирования эталонных гетерархических многоотраслевых тезаурусов

Задача построения масштабируемой модели сообщения или модели ситуации по совокупности сообщений требует не только решения проблемы тематической классификации сообщений. Необходимо, чтобы сообщения могли быть транслированы в представления "предмодельной стадии", т.е. к виду, который предполагает, что представленные в тексте семантические отношения классифицированы и отнесены к соответствующим семантическим классам, ранжированы по силе выражения заданных целями анализа свойств. Полученные же в результате применения рассмотренной выше методики отраслевые лексиконы этими свойствами обладать не будут - в их состав будут включены слова, относящиеся к различным семантическим и грамматическим группам, не соответствующие требованиям, предъявляемым к терминам. Эти особенности лексиконов, сформированных по статистическим критериям, не позволяют использовать их для перехода от текстового к модельному представлению сообщений.

Решать такие задачи призваны упорядоченные терминологические системы, именуемые тезаурусами. Каждый термин в такой терминологической системе обладает строго установленным объемом понятия и поставлен в соответствие некоторому классу или экземпляру сущности или отношения, определенному на модели предметной области. В случае, когда терминологическая система создается для полной совокупности терминов, описывающих некую предметную область или систему реального мира, тезаурус, если он обладает свойством полноты (т.е. включает в себя все понятия предметной области), представляет собой иерархически упорядоченную семантическую сеть с избранным типом отношения порядка (как правило, это объем понятия). При рассмотрении лишь одного аспекта системы (например, ее структуры) тезаурус может быть представлен в виде иерархии терминов с одним корневым понятием (как правило, это термин, служащий для именования класса или экземпляра системы).

Однако при рассмотрении системы в различных аспектах ее существования для построения тезауруса на семантической сети необходимо определять несколько типов отношений порядка или использовать совокупность сетей, построенных для различных аспектов существования системы. В случае, когда на некоторым образом упорядоченной семантической сети определено несколько отношений порядка, сеть может быть представлена в виде специфического рельефа (гетерархии), на котором будут присутствовать приподнятые узлы, соответствующие определенным аспектам и типам отношений упорядочения.

Таким образом, речь идет о гетерархически упорядоченном тезаурусе, способном отражать различные аспекты существования системы или группы систем. Для упрощения задачи вычисления метрик над подобной системой могут быть определены дополнительные абстрактные термины-агрегаты, не имеющие репрезентации в реальном мире.

Модель гетерархически упорядоченного системного тезауруса оптимальным образом приспособлена к решению задач классификации, поскольку позволяет с учетом топологии связей установить вышележащий узел, на который по кратчайшему пути замыкается группа терминов, использованных в сообщении или некоторой совокупности сообщений. Область применения таких моделей не ограничивается лишь задачами классификации и автоматизированного преобразования текста к предмодельным представлениям - их использование позволяет получить выигрыш при синтезе автоматизированных систем различного класса, использующих модель "текст-текст". В частности, за счет упрощения процедур установления тематического контекста может быть повышена точность перевода в системах автоматизированного перевода.

Для синтеза таких тезаурусов, требуется проведение работ по систематизации лексики, формирования на ее основе базовой терминологии предметной области, семантической атрибуции и иерархического упорядочения терминов. Учитывая, что тезаурус представляет собой модель системы, согласно теории систем может быть выделено три подхода к синтезу таких тезаурусов:

  • нисходящее проектирование;
  • восходящее проектирование;
  • встречное проектирование.

В случае нисходящего проектирования на начальном этапе экспертными методами формируется концептуальная модель предметной области. Далее на этой модели определяется система терминов предметной области на уровне концептов (основа терминологии). При этом понятия, представленные в каждом уровне иерархии терминов, должны отвечать стандартным требованиям, предъявляемым к классификации (соразмерности, непересекаемости объемов понятий). Сообщения, представленные в этих терминах, обладали бы высокой точностью благодаря строгой изоляции понятий, отсутствию полисемии и синонимии. По завершении этого этапа работы экспертными же методами восстанавливается эталонная система отношений элементов реальной лексики с концептами созданной терминологии. После этого могут быть начаты работы по "снижению помехоустойчивости" полученной терминологии, приведению ее к нормам обыденной речи за счет привязки терминов к лексике предметной области.

При восходящем проектировании тезауруса процесс протекает по обратной схеме. На основе сформированного статистическими средствами лексикона формируется базовая лексика, обеспечивающая более высокую степень изоляции понятий (для этого также могут применяться статистические методы).

Далее проводится атрибуция и упорядочение лексических единиц по классам семантических отношений и уровню абстракции (в частности, решаются задачи сопоставления объемов понятий и упорядочения по типам семантических отношений "род-вид", "часть-целое", "предшествование-следование", "причина-следствие" и т.п.). При этом параллельно решается задача отбора лексических единиц и их агрегатов, которые могли бы претендовать на роль терминов (т.е. в синонимической группе лексических единиц выбирается та лексическая единица, которая обеспечивает наиболее четкое разграничение понятий).

Для случая встречного проектирования характерно совмещение двух рассмотренных выше подходов. То есть, верхние уровни формируются на базе предварительно созданной концептуальной модели предметной области, а нижние - на базе отраслевого лексикона или их группы.
В практической деятельности субъектов ИАО наиболее предпочтительным подходом к синтезу тезауруса является именно встречное проектирование.

Аргументами в пользу такого выбора являются:

  • возможность согласования с уже существующей и находящейся в активном использовании терминологией;
  • наличие уже сформированных и относительная простота накопления новых специализированных текстовых корпусов;
  • простота синтеза отраслевых лексиконов;
  • сокращение сроков разработки.

Следует учитывать, что семантические сети представляют собой гибкий инструмент моделирования предметной области: на заданной совокупности терминов может быть определено множество отношений, состав и параметры которых могут корректироваться в ходе эксплуатации системы, более того, в сеть могут подключаться новые узлы. В нижних уровнях иерархии отраслевого лексикона могут быть помещены термины, не обладающие высокими классифицирующими свойствами и имеющие связи с более, чем одним отраслевым лексиконом, однако в процессе разбора и трансляции текста с применением такой сети за счет накопления контекста употребления будет происходить поэтапное уточнение отраслевой специфики, переход в релевантный тематике сообщения фрагмент гетерархии.

При синтезе тезауруса за счет анализа пересечений тематических лексиконов может быть получена классификация лексических единиц и накоплены данные, позволяющие учесть структуру и силу семантических связей между отраслевыми лексиконами (соответственно, и между отраслевыми терминологическими иерархиями).

В процессе трансляции текста к виду предмодельного представления за счет классифицирующих свойств тезауруса будет происходить свертывание лексических единиц исходного текста в термины, за счет чего текст будет автоматически приведен к системной терминологии, а отношения между сущностями получат соответствующие атрибуты семантического класса, силы проявленности свойства и т.п. В частности, подобный подход обеспечивает возможность перехода к логико-лингвистическим представлениям более высокого уровня абстракции.

В качестве естественной технологической платформы для синтеза такого рода терминологических систем выступает системное единство двух групп инструментов: систем управления базами данных и инструментов для работы с языками разметки (в частности - XML).

3    Анализ тезауруса поступивших сообщений, формирование задания на пополнение тезауруса

Деловые процессы, связанные с анализом тезауруса поступивших сообщений играют важнейшую роль в процессе ИАР, поскольку с одной стороны стимулируют процесс пополнения тезауруса, а с другой позволяют выявить момент возникновения новых тенденций в предметной области. В частности, появление новых терминов может свидетельствовать о новых научных достижениях, внедрении новых технологий, образцов техники или о более глубинных изменениях, находящих свое отражение в лексиконе предметной области, некой организации или общества в целом. Автоматизация этого процесса представляет собой относительно простую задачу, в то время как польза, которую может принести внедрение средств контроля за изменением тезауруса в технологический цикл ИАО, весьма велика.

Выявление момента изменения состава тезауруса может быть реализовано за счет сопоставления словарного состава поступающих сообщений с текущим составом словаря-эталона. Принципиально возможно использование несколько модифицированных технологий для решения задач иных, нежели просто актуализация состава словаря. Однако очевидно, что сам по себе факт появления на входе системы нового термина свидетельствует о необходимости пополнения тезауруса.

3.1    Пополнение тезауруса

Под пополнением тезауруса в данном случае понимается не только внесение нового слова или термина в некий реестр, но и установление его места и системы связей в накопленной в системе терминологии. Учитывая, что в общем случае системный тезаурус представляет собой многосвязную гетерархическую систему с множеством локальных вершин (семантическую сеть с приподнятыми узлами), процедура пополнения тезауруса становится задачей, требующей участия эксперта.
В режиме пополнения тезауруса эксперт должен получить необходимый набор сведений, который позволил бы ему ориентироваться в системе связей терминов, близких по значению и начертанию к вводимому. Учитывая вероятность того, что эксперт не будет располагать необходимыми знаниями в смежных предметных областях, ему целесообразно представить и перечень комбинаций, в состав которых входило это слово с момента обнаружения его системой.
Это обеспечивается за счет построения конкорданса (описания контекста употребления термина, составляемого на основе анализа корпуса тематически однородных текстов).

3.2    Методологические и технологические аспекты проблемы актуализации перечней ключевых слов

Как было отмечено ранее, изменения текущей ситуации в реальном мире, находящие отражение в изменении интенсивности и тематики информационных потоков (информационной ситуации) не всегда могут быть оперативно отслежены системой, в которой реализована технология предварительного отбора сообщений, релевантных целям и задачам ИАР. Следствием этого становится нарастание времени задержки в контуре обратной связи организации, что приводит к увеличению времени реакции системы на изменение ситуации в реальном мире. Эти явления особенно опасны в системах с разделенными контурами целеполагания, к которым относится все субъекты ИАО, исполняющие функции, связанные с обеспечением безопасности. Поскольку подсистема генерации целей и задач ИАР отделена от массива инструментальных средств сбора и первичной обработки информации, для нее момент побуждения к процессу целеполагания наступает лишь после того, как подсистемы низших уровней отреагируют на изменение информационной ситуации.

В то же время, субъект ИАО вынужденно прибегает к процедурам фильтрации потоков сообщений, сталкиваясь с ограничениями производительности подсистемы обработки и анализа. Одним из путей решения подобной проблемы является построение динамических перечней ключевых слов и связей между ними, характеризующих отдельные временные срезы и, соответственно, информационную ситуацию. Эти перечни способны отражать изменения текущей информационной ситуации, т.е. могут быть использованы как инструмент оперативного информационного управления системой генерации целей и задач. Методы, подобные рассматриваемому выше, в последние годы развиваются применительно к решению задач социологических исследований. В частности, эти методы используются в интересах установления степени значимости различных событий для общества, что достигается за счет анализа откликов прессы на изменения ситуации.

Таким образом, при построении систем, использующих процедуру фильтрации потоков сообщений, целесообразно формировать два контура обработки входящих сообщений:

  • контур временного накопления данных и синтеза динамических перечней ключевых слов, предназначенный для экспресс-анализа тенденций изменения информационной ситуации с возможностью отбора по ключевым словам сообщений, релевантных целям и задачам ИАР;
  • контур фильтрации сообщений по фиксированным перечням ключевых слов и их отбора для долговременного хранения и детального семантического анализа.

Использование двухконтурной схемы позволяет устранить недостатки систем с фильтрацией потоков сообщений, связанные со снижением чувствительности ОргС к непредсказуемым изменениям ситуации.