пишем поиск

ЗодчийТеней
На сайте с 13.02.2006
Offline
11
1065

идея: региональный поисковый сервер

цель: любопытство, наличие свободного времени которое необходимо оприходовать, проверка собственных возможностей

реализация: выделенный сервер, 8Мб канал анлимитед.

Первичная реализация: php+MySQL, преследуемая цель разработка жизнеспособной модели.

Что уже сделано: тестовая версия Crawler-ра. Работает с двух IP адресов, оба завязаны на одной базе данных, за 20 дней совершен обход 32 тыс. сайтов (база предварительно была актуализирована). В настоящий момент пишется spider-агент для вытягивания контента с найденных страниц.

Вопрос первый: сrawler работает по случайной выборке исследуемой страницы, имеет ли смысл «заставить» его сначала пройтись по страницам 1, 2 и возможно 3-го уровня и только потом обрабатывать более глубокие вложения.

Вопрос второй, схемы учета релевантности найденных страниц, расчет их веса, просто по количеству внешних ссылок не интересно из-за большого количества «спам ссылок».

Выслушаю любые предложения, замечания, пожелания.

P.S. проект не коммерческий, финансируется из собственного кармана. В случае успешного создания жизнеспособной модели поисковика планирую инвестировать в него все свои сбережения :-).

Я, однако, не скажу, что все иллюзии или бред нашего ума нужно называть сумасшествием. Эразм Роттердамский "Похвала глупости".

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий