Ride the lightning
 Постов: 2139 Дата регистрации: 08.08.2006 |
тема поиска в невидимом интернете популярна нынче, как никогда. В разных публикациях объем этой подводной части айсберга оценивается по-разному. Позволю себе привести небольшой отрывок из статьи на эту тему:
"Согласно исследованию, опубликованному университетом Калифорнии в Беркли, традиционные поисковые системы индексируют лишь 0,2% содержащейся в Интернете информации. Остальное хранится во всевозможных базах данных, из которых трудно или невозможно что-то извлечь с помощью стандартных поисковых роботов.
Данные, остающиеся для поисковиков невидимыми, называют глубинным вебом. Проблема в том, что об этих "глубинах" почти ничего не известно. Даже если принять на веру их якобы чудовищную величину, остается вопрос: что за информация там скрывается? Где-то там, вероятно, находятся закрытые научные и медицинские библиотеки, каталоги магазинов, финансовые данные, транспортные расписания и многое другое. Но вполне возможно, что значительная их доля никому не нужна или дублирует сведения, которые имеются в других, более легкодоступных местах.
Правда, информация, хранящаяся в базах данных, имеет одно важное преимущество. В отличие от веба, она имеет понятную для компьютера структуру. Чтобы автоматически найти в тексте сайта турагентства подходящую по цене и срокам путевку, необходим искусственный интеллект. Чтобы извлечь ту же самую информацию из базы данных турагентства, порой достаточно знания SQL"
Источник: http://www.computerra.ru/vision/421200/
Одним из таких поисковиков является DeepDyve. По запросу "Competitive Intelligence" (конкурентная разведка) он нашел 652 тыс. страниц.
http://www.deepdyve.com/search?query=Competitive+Intelligence
Как легко убедиться, найдено намного меньше, чем тем же самым Гуглом (у которого 7 млн. 300 тыс страниц).
Но при этом бросается в глаза, что найдены другие страницы, именно из различных научных баз данных.
На все свежепроиндексированные документы можно подписаться как на RSS- поток, так и на сообщение по электронной почте. Доступ к полным текстам найденных материалов платный, и это явный минус источника.
|
|