Комментарии - Vyacheslav Tikhonov - Профиль вебмастера - Форум об интернет-маркетинге

Поисковые алгоритмы и методы краулинга с логической точки зрения

12 февраля 2009, 23:35

- как должен ходить бот, находя на странице новые ссылки(переходить на них сразу, либо искать не был ли он там ранее)

Бот должен сканировать страницы, хранящиеся в базе, и анализировать частоту их обновления. Новые ссылки должны попадать в это хранилище и сканироваться по определенному алгоритму, чтобы частота обновления была оптимальной. Подробнее можно посмотреть в классической работе Брина и Пейджа.

- в каком виде хранить информацию (то есть именно построение наиболее оптимальной файловой структуры)

Сложный вопрос - зависит от решаемой задачи. Зачастую нужен не просто поиск по ключевым словам, а поиск с параметрами по базе данных. Нужно выбирать какое-то решение, которое позволит комбинировать индексы базы данных и поискового движка.

- как обрабатывать накопленную информацию, дабы максимально оптимизировать её для выдачи (то есть понятное дело, что при вводе запроса не стоит проводить поиск по терабайтным бд)

Строить промежуточные индексы, которые периодически сливаются в один большой и периодически обновляются. Лучше всего собирать сервера в кластера, каждый из которых отвечают за свою часть индекса.

Вообще вопрос задан слишком абстрактно, чтобы можно было сказать что-то конкретное.

Интеллектуальный персональный агент "Мониторикс"

12 февраля 2009, 23:23

Вопрос коллегам.

Современный Интернет представляет сложное переплетение информационных потоков, которые зачастую все вместе создают ненужный шум. Поставлена задача "разложить" каналы распространения информации в интернете таким образом, чтобы по мере надобности можно было отключать лишнее.

Я вижу такие информационные каналы:

1) Телевидение - видеоролики, клипы, ТВ-программы в записи

2) Пресса - пресса, которую выкладывают в онлайн

3) Радио - радиопередачи в онлайне, расшифровки

4) Онлайн СМИ - интернет-сайты с новостями и статьями

4) Блоги - сайты, которые ведут пользователи (блоггеры)

5) Форумы - общественное мнение

6) Социальные сети - комьюнити, объединяющиеся вокруг единой идеи

7) Объявления - сайты частных объявлений

8) Товары и аукционы - продажа онлайн

9) Подкасты - звуковые и видеопередачи (можно отследить по анонсам)

10) Комментарии - мнение пользователей, размещенные после информационного сообщения

12) Информационные сайты - ресурсы информационной направленности, информирующие о чем-либо пользователей.

Что еще может быть? Какие каналы распространения информации я не учел?

Интеллектуальный персональный агент "Мониторикс"

27 января 2009, 13:57

А невоспитанные быстро попадают в бан и получают репутацию если не malware, то корявого софта.

В этом нет необходимости. Как правило, робот снимает одну страницу (с нужной информацией) с сайта - этого вполне достаточно.

В общем, поддерживать или нет robots.txt - это дело больше философии, чем технологии.

А насчет бана - я не понял, агент что, производит какие-то противоправные действия? Где это написано? Он просто находит нужную информацию и показывает пользователю.

Интеллектуальный персональный агент "Мониторикс"

27 января 2009, 13:26

robots.txt относится ко всем системам, автоматически (без участия человека) извлекающим страницы из интернета, вне зависимости поисковик это или нет. Тот же Mediapartners-Google

Наличие robots.txt не является обязательным для исполнения, это рекомендация. Строго говоря, так поступают "воспитанные" роботы вроде Яндекса. А вот для приложений конкурентной разведки это вредно.

Деловой партнер в Москве

22 января 2009, 22:06

Предложение пока остается в силе. Описание "Мониторикса" можно почитать здесь.

Интеллектуальный персональный агент "Мониторикс"

22 января 2009, 15:03

Вообще я хотел бы попросить присутствующих относиться к Мониториксу как к средству получения оперативной информации, а не как к источнику автоматического наполнения сайтов.

Для простоты восприятия представьте себе, что Вы включили телевизор, который постоянно что-то показывает - например, новости или какие-то программы, новые или старые. В случае с Мониториксом происходит примерно то же самое - после включения RSS-канала он начинает транслировать все, что видит в Интернете по нужной теме. Это может быть как и старая информация (повтор программы по ТВ), так и новая, если кто-то напишет на интересующую Вас тему.

Надоел канал - смело переключайте его в агрегаторе на другой, и смотрите дальше то, что интересно!

Интеллектуальный персональный агент "Мониторикс"

22 января 2009, 14:27

neznaika:
А IP можно узнать?

Нет. Да и сервер далеко не один. Да и не спасет это.

Я не совсем понял, в чем проблема - считайте, что это один раз зашел человек, и передал ссылку другому человеку. Мониторикс - это помощник, а не враг.

neznaika, если Вы боитесь, что у Вас что-то скопипастят, так если это кому-то сильно нужно, то сделают это и без участия Мониторикса.

Интеллектуальный персональный агент "Мониторикс"

22 января 2009, 14:08

Скажите, а как узнать вашего бота?

Как Monitorix/v.0.1. Но он же не поисковик, а Интеллектуальный Агент, поэтому правила в robots.txt игнорирует.

Интеллектуальный персональный агент "Мониторикс"

22 января 2009, 13:45

редлагаешь поднять цену раз этак в надцать?

Я почему-то уверен, что наполнение сайтов вторичным контентом - несколько рискованное мероприятие. А вот, например, получение оперативной информации (из всего Интернета) по всем тендерам, которые сейчас проходят, это эксклюзив. Особенно по seo- или PR-сопровождению.

хранение индекса, проблемы

21 января 2009, 22:08

1. Оптимально ли хранить индекс в таком виде, и не будет ли слишком долго из него считывать файлы. Файловая система Raiserfs

Лучше собирать по блокам, мегабайт по 50 каждый, а не по файлам. Такое количество файлов ни одна операционная система не выдержит, вне зависимости от структуры дерева.

2. Спайдер, и индекс по которому будет производится поиск, разнесены по разным серверам. Как можно безболезненно синхронизировать такое количество файлов? Вернее, даже так - как вообще их можно синхронизировать? Пробовал через rsync - умирает Пробовал паковать архиватором чтобы потом просто скопировать на другой сервер, тоже умирает. Пробовал по ftp передавать - ооочень долго если консольным. Если пытаться каким нибудь клиентом, типа filezilla - то они тоже умирают

Они не умирают, они делают, просто очень долго - пока архиватор проходится по каждому узлу, а их там миллионы... Лучше собирать промежуточный инвертированный индекс из прямого на той же машине, где спайдер, а потом сливать в один боевой на сервере, предназначенном для поиска.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Google: E-E-A-T не является фактором ранжирования

Vyacheslav Tikhonov