Текущее время: 22 янв 2022, 11:55

Часовой пояс: UTC + 3 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 6 ] 
Автор Сообщение
 Заголовок сообщения: Инструментарий добывания данных
СообщениеДобавлено: 20 окт 2009, 12:45 
Не в сети
Аватара пользователя

Зарегистрирован: 06 окт 2008, 13:32
Сообщения: 652
Откуда: Москва
Тема создана для обсуждения существующих и перспективных аппаратных, программно-аппаратных и программных средств добывания данных.

Для справки: под добыванием данных подразумевается система мер, направленных на получение информационного доступа к данным значимых для решения информационных задач источников информации.

На пути к этому решается множество задач, включая задачи обнаружения, классификации (распознавания) и идентификации источника, обнаружения сигнала/данных, распознавания, идентификации и преобразования способов представления данных, установления моделей интерпретации данных (синтаксический, грамматический и семантический уровни) и другие.

Ко всему прочему, процессы добывания не замыкаются в контурах Интернет. Помимо Интернет существует множество источников, проявляющих себя в других физических/социальных средах, использующих для передачи информации различные виды сигналов (электрические, оптические и радиосигналы, акустические, гидроакустические, сейсмические и т.п.).
Существуют источники и информационные ресурсы, локализованные в глобальных, территориальных, локальных и интрасетях, системы эфирного (направленного и ненаправленного) вещания и кабельного вещания, существуют печатные и электронные источники текстовых и графических данных, существуют источники аудио данных различного рода и т.д., и т.п.

И для всего этого многообразия имеются специализированные средства добывания... Поэтому не хотелось бы замыкаться в рамках одного Интернета и без конца обсасывать тему полнотекстового и атрибутивного поиска, мониторинга изменений информационных ресурсов.

Хотя начинать так или иначе придется не с экзотики, а именно с текстовых данных...

PS: Существуют также и психотропные, терморектальные и иные действенные, но негуманные средства добывания... Так вот: негуманные средства добывания в теме не обсуждаются.

_________________
Разумному - достаточно...


Вернуться к началу
 Профиль Отправить личное сообщение  
 
СообщениеДобавлено: 22 окт 2009, 09:34 
Не в сети

Зарегистрирован: 15 окт 2009, 17:33
Сообщения: 79
Что касается поиска в Интернет:
1-свободный поиск в Интернете
1.1 прямой поиск
1.1.1 обычный поиск (Яндекс, Гугл, Яху, Рамблер.....)
1.1.2 специализированный поиск
1.2 метапоиск
1.2.1 метапоисковые ресурсы в инете
1.2.2 метапоисковый софт на ПК
2-выявление изменений на сайтах (ВебСайтВотчер; Аваланч)
2.1 сетевые ресурсы контроля изменений
2.2 софт на ПК по контролю изменений на сайтах
3-загрузка RSS-потоков (новостных лент)
3.1 сетевые ресурсы по фильтрованию RSS-потоков
3.2 софт по фильтрованию RSS-потоков
Специализированный поиск
Видеопоиск
http://hi2all.ru/
http://ru.truveo.com/
http://ru.fooooo.com/
http://tagoo.ru/
Поиск по файлообменникам
http://filesearch.gr/
http://www.avun.com/
http://www.daleya.com/
http://filefab.com/
http://www.filecrop.com/
Поиск людей
http://www.pipl.com/
http://www.spock.com/
http://photodate.ru/
Поиск недвижимости
http://www.g2p.ru/
Аэропоисковик
http://www.aerotransport.org/php/go.php
Метапоисковые сетевые ресурсы
МетаБот http://www.metabot.ru/ Поиск одновременно в нескольких крупнейших поисковых системах. Возможность использовать расширенный поиск, а также настраивать интерфейс.
Тубай http://tooby.ru/ Метапоисковая система. Используются данные GoGo, Яндекс, Google. Возможность поиска музыкальных файлов.
Quintura http://quintura.ru/ Визуальный метапоиск, представляет результаты в виде графа, из которого можно исключать не отражающие информационную потребность ключевые слова.
MetaBrain http://metabrain.ru/ Поиск одновременно в нескольких крупнейших поисковых системах. Возможность использовать расширенный поиск, а также настраивать интерфейс.
Krivoy-Rog http://www.krivoy-rog.com/search.html Поиск по всем основным поисковым системам Рунета и мира с пользовательским выбором. Обычный поиск, файлы, MP3, Linux.
Сlusty http://clusty.com/ Метапоиск по индексам ведущих поисковиков с оригинальной группировкой (кластеризацией) результатов (Vivisimo).
Нигма http://nigma.ru/ Интеллектуальная поисковая система по ведущим индексам, оригинальный алгоритм группировки (кластеризации) результатов по темам и ключевым словам запроса.

_________________
"Учёный это тот, кто способен объяснить сложные вещи простыми словами."


Вернуться к началу
 Профиль Отправить личное сообщение  
 
СообщениеДобавлено: 23 окт 2009, 22:14 
Не в сети
Аватара пользователя

Зарегистрирован: 06 окт 2008, 13:32
Сообщения: 652
Откуда: Москва
Перечень поисковых служб и систем - дело хорошее...

Но вот с предложенной классификацией согласиться трудно ...
Это несогласие сподвигло меня на поиски чего-то более приемлемого. Оказалось, что классификаций для упорядочения информации о поисковых системах и сервисах - кот наплакал, а качество их - не менее спорно. Более того, большинство классификаций, которые мне удалось найти, оказались на поверку псевдо-классификациями. Практически везде допущены те или иные отклонения от базовых принципов построения классификаций - таксоны пересекаются, порядок и состав критериев деления на таксоны в каждом из классов уникален и т.д., и т.п.

Результатом попытки стал драфт статьи "Проект классификации информационно-поисковых систем и сервисов" в журнале "ТИАРА", где мною предложен проект фасетной классификации информационно-поисковых систем.
Предлагаю членам ДК ознакомиться и высказать свое мнение по поводу того, каким необходимым и достаточным набором признаков стоит ограничиться при описании информационно-поисковых систем и сервисов в данной теме.

_________________
Разумному - достаточно...


Вернуться к началу
 Профиль Отправить личное сообщение  
 
СообщениеДобавлено: 23 окт 2009, 22:53 
Не в сети
Аватара пользователя

Зарегистрирован: 06 окт 2008, 13:32
Сообщения: 652
Откуда: Москва
А пока - попробую представить с помощью драфта классификации парочку интересных ИПС...
Обе системы могут быть отнесены к классу немногочисленных пока полнофункциональных семантических информационно-поисковых систем (используют для индексирования методы латентного семантического анализа).
Обе системы нормально держат русский язык.
Информационн-поисковая система "HAKIA" - http://www.hakia.com/ - бесплатный универсальный глобальный полнотекстовый поисковый сервис, специализирующийся на индексации публичных информационных ресурсов, осуществляющий периодическое (или адаптивное?) автоматическое сканирование сайтов интернет с упорядочением выдачи по формальным критериям релевантности на основе семантической метрики - довольно информативно получилось :)
Информационно-поисковая система "BING" http://www.bing.com/ - аналогично "HAKIA", только от Microsoft и с возможностью выбора региона (правда, вариантов пока видел только два: или весь мир или Россия).

_________________
Разумному - достаточно...


Вернуться к началу
 Профиль Отправить личное сообщение  
 
СообщениеДобавлено: 25 окт 2009, 17:22 
Не в сети

Зарегистрирован: 25 окт 2009, 13:57
Сообщения: 114
Я бы предложил способ, которым я сам частопользуюсь: "самому придумать". Пофантазировать, представить себе, какие бы задачи поставил я сам, как "это" может функционировать и т.п.
Да, а как быть с "эвристической" аналитикой - похоже, именно ее я и описал. А с "научной" - когда _новое_ вносится в аналитику (методология, техноогия, организация)?


Вернуться к началу
 Профиль Отправить личное сообщение  
 
СообщениеДобавлено: 25 окт 2009, 18:23 
Не в сети
Аватара пользователя

Зарегистрирован: 06 окт 2008, 13:32
Сообщения: 652
Откуда: Москва
Так я и предложил поглядеть на драфт классификации...
И попробовал описать с ее помощью две системы - вполне внятное описание получилось.
Предлагаю взять за стандарт аннотации поисковых систем.

_________________
Разумному - достаточно...


Вернуться к началу
 Профиль Отправить личное сообщение  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 6 ] 

Часовой пояс: UTC + 3 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
cron
Форум работает под управлением OCS PHPBB3 © PHPBB GROUP