Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science
- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)

Бот должен сканировать страницы, хранящиеся в базе, и анализировать частоту их обновления. Новые ссылки должны попадать в это хранилище и сканироваться по определенному алгоритму, чтобы частота обновления была оптимальной. Подробнее можно посмотреть в классической работе Брина и Пейджа.

- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)

Сложный вопрос - зависит от решаемой задачи. Зачастую нужен не просто поиск по ключевым словам, а поиск с параметрами по базе данных. Нужно выбирать какое-то решение, которое позволит комбинировать индексы базы данных и поискового движка.

- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи (то есть понятное дело, что при вводе запроса не стоит проводить поиск по терабайтным бд)

Строить промежуточные индексы, которые периодически сливаются в один большой и периодически обновляются. Лучше всего собирать сервера в кластера, каждый из которых отвечают за свою часть индекса.

Вообще вопрос задан слишком абстрактно, чтобы можно было сказать что-то конкретное.

Вопрос коллегам.

Современный Интернет представляет сложное переплетение информационных потоков, которые зачастую все вместе создают ненужный шум. Поставлена задача "разложить" каналы распространения информации в интернете таким образом, чтобы по мере надобности можно было отключать лишнее.

Я вижу такие информационные каналы:

1) Телевидение - видеоролики, клипы, ТВ-программы в записи

2) Пресса - пресса, которую выкладывают в онлайн

3) Радио - радиопередачи в онлайне, расшифровки

4) Онлайн СМИ - интернет-сайты с новостями и статьями

4) Блоги - сайты, которые ведут пользователи (блоггеры)

5) Форумы - общественное мнение

6) Социальные сети - комьюнити, объединяющиеся вокруг единой идеи

7) Объявления - сайты частных объявлений

8) Товары и аукционы - продажа онлайн

9) Подкасты - звуковые и видеопередачи (можно отследить по анонсам)

10) Комментарии - мнение пользователей, размещенные после информационного сообщения

12) Информационные сайты - ресурсы информационной направленности, информирующие о чем-либо пользователей.

Что еще может быть? Какие каналы распространения информации я не учел?

А невоспитанные быстро попадают в бан и получают репутацию если не malware, то корявого софта.

В этом нет необходимости. Как правило, робот снимает одну страницу (с нужной информацией) с сайта - этого вполне достаточно.

В общем, поддерживать или нет robots.txt - это дело больше философии, чем технологии.

А насчет бана - я не понял, агент что, производит какие-то противоправные действия? Где это написано? Он просто находит нужную информацию и показывает пользователю.

robots.txt относится ко всем системам, автоматически (без участия человека) извлекающим страницы из интернета, вне зависимости поисковик это или нет. Тот же Mediapartners-Google

Наличие robots.txt не является обязательным для исполнения, это рекомендация. Строго говоря, так поступают "воспитанные" роботы вроде Яндекса. А вот для приложений конкурентной разведки это вредно.

Предложение пока остается в силе. Описание "Мониторикса" можно почитать здесь.

Вообще я хотел бы попросить присутствующих относиться к Мониториксу как к средству получения оперативной информации, а не как к источнику автоматического наполнения сайтов.

Для простоты восприятия представьте себе, что Вы включили телевизор, который постоянно что-то показывает - например, новости или какие-то программы, новые или старые. В случае с Мониториксом происходит примерно то же самое - после включения RSS-канала он начинает транслировать все, что видит в Интернете по нужной теме. Это может быть как и старая информация (повтор программы по ТВ), так и новая, если кто-то напишет на интересующую Вас тему.

Надоел канал - смело переключайте его в агрегаторе на другой, и смотрите дальше то, что интересно!

neznaika:
А IP можно узнать?

Нет. Да и сервер далеко не один. Да и не спасет это.

Я не совсем понял, в чем проблема - считайте, что это один раз зашел человек, и передал ссылку другому человеку. Мониторикс - это помощник, а не враг.

neznaika, если Вы боитесь, что у Вас что-то скопипастят, так если это кому-то сильно нужно, то сделают это и без участия Мониторикса.

Скажите, а как узнать вашего бота?

Как Monitorix/v.0.1. Но он же не поисковик, а Интеллектуальный Агент, поэтому правила в robots.txt игнорирует.

редлагаешь поднять цену раз этак в надцать?

Я почему-то уверен, что наполнение сайтов вторичным контентом - несколько рискованное мероприятие. А вот, например, получение оперативной информации (из всего Интернета) по всем тендерам, которые сейчас проходят, это эксклюзив. Особенно по seo- или PR-сопровождению.

1. Оптимально ли хранить индекс в таком виде, и не будет ли слишком долго из него считывать файлы. Файловая система Raiserfs

Лучше собирать по блокам, мегабайт по 50 каждый, а не по файлам. Такое количество файлов ни одна операционная система не выдержит, вне зависимости от структуры дерева.

2. Спайдер, и индекс по которому будет производится поиск, разнесены по разным серверам. Как можно безболезненно синхронизировать такое количество файлов? Вернее, даже так - как вообще их можно синхронизировать? Пробовал через rsync - умирает Пробовал паковать архиватором чтобы потом просто скопировать на другой сервер, тоже умирает. Пробовал по ftp передавать - ооочень долго если консольным. Если пытаться каким нибудь клиентом, типа filezilla - то они тоже умирают

Они не умирают, они делают, просто очень долго - пока архиватор проходится по каждому узлу, а их там миллионы... Лучше собирать промежуточный инвертированный индекс из прямого на той же машине, где спайдер, а потом сливать в один боевой на сервере, предназначенном для поиска.

Всего: 847