Бот должен сканировать страницы, хранящиеся в базе, и анализировать частоту их обновления. Новые ссылки должны попадать в это хранилище и сканироваться по определенному алгоритму, чтобы частота обновления была оптимальной. Подробнее можно посмотреть в классической работе Брина и Пейджа.
Сложный вопрос - зависит от решаемой задачи. Зачастую нужен не просто поиск по ключевым словам, а поиск с параметрами по базе данных. Нужно выбирать какое-то решение, которое позволит комбинировать индексы базы данных и поискового движка.
Строить промежуточные индексы, которые периодически сливаются в один большой и периодически обновляются. Лучше всего собирать сервера в кластера, каждый из которых отвечают за свою часть индекса.
Вообще вопрос задан слишком абстрактно, чтобы можно было сказать что-то конкретное.
Вопрос коллегам.
Современный Интернет представляет сложное переплетение информационных потоков, которые зачастую все вместе создают ненужный шум. Поставлена задача "разложить" каналы распространения информации в интернете таким образом, чтобы по мере надобности можно было отключать лишнее.
Я вижу такие информационные каналы:
1) Телевидение - видеоролики, клипы, ТВ-программы в записи
2) Пресса - пресса, которую выкладывают в онлайн
3) Радио - радиопередачи в онлайне, расшифровки
4) Онлайн СМИ - интернет-сайты с новостями и статьями
4) Блоги - сайты, которые ведут пользователи (блоггеры)
5) Форумы - общественное мнение
6) Социальные сети - комьюнити, объединяющиеся вокруг единой идеи
7) Объявления - сайты частных объявлений
8) Товары и аукционы - продажа онлайн
9) Подкасты - звуковые и видеопередачи (можно отследить по анонсам)
10) Комментарии - мнение пользователей, размещенные после информационного сообщения
12) Информационные сайты - ресурсы информационной направленности, информирующие о чем-либо пользователей.
Что еще может быть? Какие каналы распространения информации я не учел?
В этом нет необходимости. Как правило, робот снимает одну страницу (с нужной информацией) с сайта - этого вполне достаточно.
В общем, поддерживать или нет robots.txt - это дело больше философии, чем технологии.
А насчет бана - я не понял, агент что, производит какие-то противоправные действия? Где это написано? Он просто находит нужную информацию и показывает пользователю.
Наличие robots.txt не является обязательным для исполнения, это рекомендация. Строго говоря, так поступают "воспитанные" роботы вроде Яндекса. А вот для приложений конкурентной разведки это вредно.
Предложение пока остается в силе. Описание "Мониторикса" можно почитать здесь.
Вообще я хотел бы попросить присутствующих относиться к Мониториксу как к средству получения оперативной информации, а не как к источнику автоматического наполнения сайтов.
Для простоты восприятия представьте себе, что Вы включили телевизор, который постоянно что-то показывает - например, новости или какие-то программы, новые или старые. В случае с Мониториксом происходит примерно то же самое - после включения RSS-канала он начинает транслировать все, что видит в Интернете по нужной теме. Это может быть как и старая информация (повтор программы по ТВ), так и новая, если кто-то напишет на интересующую Вас тему.
Надоел канал - смело переключайте его в агрегаторе на другой, и смотрите дальше то, что интересно!
Нет. Да и сервер далеко не один. Да и не спасет это.
Я не совсем понял, в чем проблема - считайте, что это один раз зашел человек, и передал ссылку другому человеку. Мониторикс - это помощник, а не враг.
neznaika, если Вы боитесь, что у Вас что-то скопипастят, так если это кому-то сильно нужно, то сделают это и без участия Мониторикса.
Как Monitorix/v.0.1. Но он же не поисковик, а Интеллектуальный Агент, поэтому правила в robots.txt игнорирует.
Я почему-то уверен, что наполнение сайтов вторичным контентом - несколько рискованное мероприятие. А вот, например, получение оперативной информации (из всего Интернета) по всем тендерам, которые сейчас проходят, это эксклюзив. Особенно по seo- или PR-сопровождению.
Лучше собирать по блокам, мегабайт по 50 каждый, а не по файлам. Такое количество файлов ни одна операционная система не выдержит, вне зависимости от структуры дерева.
Они не умирают, они делают, просто очень долго - пока архиватор проходится по каждому узлу, а их там миллионы... Лучше собирать промежуточный инвертированный индекс из прямого на той же машине, где спайдер, а потом сливать в один боевой на сервере, предназначенном для поиска.