Проект классификации информационно-поисковых систем и сервисов Печать
ТИАРА'2009
Автор: Конотопов П.Ю.   
23.10.2009 20:47

Конотопов П.Ю.

Проект классификации информационно-поисковых систем и сервисов

Информационно-поисковых систем существует пусть и не великое множество, но все же количество изрядное. Чтобы убедиться в этом, достаточно посетить страницу, которая содержит список информационно-поисковых систем и сервисов (за вычетом наших Рамблеров, Яндексов и специализированных информационно-поисковых систем).

При попытке описания многообразия такой разновидности средств добывания информации как информационно-поисковые системы (ИПС) обнаружил, что компактного описания конкретной ИПС составить не получается. Имеющиеся классификации ИПС не позволяют дать исчерпывающую или приемлемую характеристику ИПС с использованием того набора атрибутов, который сформировали авторы известных классификаций.

Более того, большинство классификаций, которые мне удалось найти, оказались на поверку псевдо-классификациями. Практически везде допущены те или иные отклонения от базовых принципов построения классификаций - таксоны пересекаются, порядок критериев деления на таксоны в каждом из классов уникален и т.д., и т.п.

Вот, например, та типичная для SEO-экспертов мешанина из псевдо-классов, которую предлагают использовать американские (а как следствие - российские) SEO-гуру и специалисты в области Information Retrieval:

  1. Crawler Based Search Engines - Поисковые системы сканирующего типа
  2. Directories Search Sites - Поисковые системы каталогового типа
  3. Hybrid Engines (Search Engine that uses other engines results) - Поисковые системы гибридного типа (поисковые системы, использующие результаты других поисковых систем) - у нас принято их называть метапоисковыми системами
  4. Pay Per Performance and Paid Inclusion Engines - Платные поисковые системы и сервисы с оплатой за качество поиска или платой за размещение

Единственное, что извиняет авторов классификации, так это то, что выдаваемое ими за классификацию информационно-поисковых систем безобразие не мешает работать и совершенствоваться ни Googl'у, ни Yahoo, ни Hakl'е, ни Bing'у.

Но мне, как консультанту в области создания и технического оснащения подразделений и служб информационно-аналитического и модельного обеспечения, хотелось бы чего-то более системного, что позволило бы, не прибегая к длинным тирадам, емко описать конкретную поисковую систему, оценить ее пригодность для задач заказчика и аргументированно сформулировать преимущество того или иного решения. Мои рекомендации по выбору той или иной информационно-поисковой системы или сервиса должны основываться на объективной оценке пригодности ИПС для решения конкретной прикладной задачи Заказчика.

Очевидно, что классификация поисковых систем по какому-то одному основанию не функциональна: большинство задач выбора многокритериально.

Следовательно нужна фасетная классификация... И первое, что необходимо сделать - это выделить существенные признаки и критерии деления на классы.

Большинство найденных мною классификаций выделяет два-три аспекта ИПС, например, встречались различные комбинации следующих оснований деления: отрасль знаний, модель поиска, способ пополнения индекса, источник данных, финансовый аспект функционирования.

Такой набор меня не устроил...

Неудовольствие, полученное от ознакомления с существующими классификациями, подтолкнуло меня к разработке следующего проекта фасетной классификации информационно-поисковых систем, в которой сведены существенные признаки и объективные критерии соотнесения ИПС с непоименованными классами.

Ниже приведены результаты попытки составить максимально полный (?) набор признаков, ту или иную выборку из которого можно применить для построения прикладной классификации, отвечающей потребностям исследователя или консультанта:

 

  • признак способа представления входных данных: текст, графика, аудио, видео, линк-листы, RSS-потоки и т.п.
  • признак области индексации: полнотекстовые, атрибутивные (включая специальные области данных (метаданные), формальные атрибуты - имена файлов, контрольные суммы и т.п.)
  • признак территориальной локализации ресурса: глобальные, национальные, региональные, локальные, настольные
  • признак локализации в пространстве сетевых адресов: вся сеть, зональный, доменный, диапазонный, по маске
  • признак принадлежности информационных ресурсов: публичные, ведомственные, корпоративные, персональные
  • признак способа сбора информации: автоматическое сканирование, экспертная оценка, внесение по формальному решающему правилу, принудительное внесение (в т.ч. по запросу)
  • признак периодичности обновления информации: периодическое, адаптивное, по заявке, единовременное
  • признак статуса источника информации: официальные, неофициальные
  • признак локализации источника: внутренний, внешний
  • признак отрасли знаний: универсальные, отраслевые
  • признак способа формирования выборки: вероятностная модель, векторная модель информационного потока, нечеткие множества
  • признак принципа упорядочения: формальный критерий, экспертная оценка
  • признак способа упорядочения: лексико-статистическая метрика, семантическая метрика, частота посещений, индекс цитируемости, иные (финансовые, коммуникационные аспекты, стилистические, языковые)
  • признак принципа оказания услуг поиска: бесплатные, условно-бесплатные, платные
  • признак способа предоставления результатов поиска: оперативные, неоперативные
  • признак способа представления информации: упорядоченный список, табличный с указанием значений метрик, графический (информационное картографирование 2D, 3D)
  • признак типа информационно-поискового языка: SQL - язык структурированных запросов, QBE - запрос по образцу (классический логико-дескрипторный язык), с взвешиванием признаков (терминов, цветовой палитры и т.п.)
  • признак способа обработки поискового задания: токенизация, стемминг, лемматизация, расширение с применением семантической сети
  • признак способа обработки при индексировании: с/без учета морфологии, с/без учета контекста употребления, с/без фильтрации стоп-слов, с/без применения семантических методов, с/без автокластеризации
  • признак возможности обучения: с обучением по образцу документа, с обучением по оценке степени релевантности, с обучением по истории поисковых заданий
  • бинарные функциональные признаки:
  •  возможность установления временного интервала
  •  возможность установления графика поиска
  •  возможность выявления изменений
  •  возможность установления границ территориальной локализации
  •  возможность установления диапазона сетевых адресов
  •  возможность установления стилистических особенностей текста
  •  возможность установления объема документа
  •  возможность итеративного уточнения поискового задания
  •  возможность использования роботов
  •  возможность сохранения и загрузки результатов поиска
  •  возможность идентификации совпадающих документов

Полагаю, что полученная совокупность оснований деления позволит синтезировать множество частных классификаций, позволяющих эффективно сравнивать конкретные ИПС и на основе объективных критериев предпочтений выбирать/рекомендовать те или иные из них.

В силу специфики своих знаний, основное внимание я сосредоточил на системах поиска текстовых данных, хотя при составлении драфта классификации также учитывался факт существования и других классов информационно-поисковых систем, построенных на иных принципах индексации, распознавания экземпляров и семантики данных.

С учетом этого приглашаю специалистов, которым более знакомы системы поиска аудио, видео, графических и иных данных, подключиться к обсуждению и развитию данной классификации в рамках работы Дискуссионного клуба Коллегии ( Список форумов » Методологические, организационные и инструментальные аспекты ИАР / ИАМО » Инструментарий ИАР / ИАМО » Инструментарий добывания данных - http://www.collegian.ru/phpBB3/viewtopic.php?f=12&t=282).