Нет. Просто три базы находятся вместе с рейтингом, все остальное - на другом сервере. Насчет релевантности вполне может быть: если нет полного совпадения фразы, начинаются фокусы с ранжированием. Документы из каталога я пока не индексировал. Индексируется только содержимое электронных библиотек - это поиск в "книгах и рефератах"
Все уже давно на Свит Онлайне
А получилось вот что: поиск уже ведется по 5 базам: по каталогу Пинга, в объявлениях по работе с различных сайтов, по доскам объявлений, по новостям и в электронных библиотеках. Объявления по работе ндексируются ежедневно. Пока я пускал кроулер только по электронным библиотекам, и сейчас эта база достаточно большая (по крайней мере, 85% всех рефератов из Рунета уже можно найти ).
Поисковик уже работает на двух серверах, с 1000 хостов справляется без особых проблем, что позволяет с оптимизмом смотреть в будущее В последнее время поисковая система начала пользоваться популярностью и по посещаемости уже опережает остальные сервисы Пинга.
Ну нельзя же все каталоги поменьше оценивать как помойки, пусть даже каталоги не слишком удачные
Какими бы прекрасными системами не были Яндекс или Google, существует немало полезных ресурсов, находящихся в результатах запроса в n-й сотне/тысяче и на которые здесь пользователь может попасть лишь чудом.
Кроме того, большой каталог - не обязательно значит хороший. Гораздо лучше иметь множество региональных каталогов, чем один центральный с кучей ссылок, которые оказываются совершенно бесполезными.
Линкпопулярити имеет смысл наращивать только тогда, когда на сайте есть что-то интересное. В
Действительно, все пока находится на одной машине, что создает дополнительные трудности. Хотя я думаю, что сервер полнотекстовый индекс на 25 тысяч ссылок вполне может потянуть. Индексацию страниц я фактически уже закончил и скоро пущу. Все-таки, есть надежда, что на 1000 хостов в день хватит. Посмотрим, что получится
Давно не заходил на форум, потому что работы невпроворот - поиск Пинга пока хромает на обе ноги.
По ссылкам САМ у меня он еще не ходит, хотя я к этому уже близок. База пока совершенно небольшая (около 25 тысяч ссылок). При ее индексации получилось что-то около 60 тысяч уникальных слов, из которых я с помощью флективного анализа выделил основы. Плохо то, что сервер нормально не справляется даже с такой ничтожно малой нагрузкой, поэтому сейчас изучаю подобные алгоритмы в нэковской научной библиотеке:
http://citeseer.nj.nec.com/directory.html
Релевантность пока определяю исключительно по количеству ключевых слов в описаниях, что дает в результах поиска много спама.
В mysql, который я сейчас использую, плохо реализована локализация, поэтому некоторые запросы иногда дают совершенно неожиданные результаты даже для меня
В общем, в настоящий момент пытаюсь героически бороться с невесть откуда возникающими проблемами
Вот и кончилась моя эпопея В конце концов моя поисковая система оказалась у Пинга (www.topping.com.ua). Так что милости просим потестировать!
Система, которую я попросил Вас потестировать, всего лишь тестовая версия поисковика, который я сделал за полтора месяц, используя вечернее и ночное время после занятий в Институте. Вся система обошлась на сегодняшний день в стоимость услуг провайдера (а это примерно 10 долларов в месяц ). Отсюда и размещение на домашней страничке, очень ограниченный объем (5 Мбайт) и медленный поиск. А оценить я просил в основном работу поискового механизма. Естественно, я понимаю, что без нормального домена и хостинга ни о какой поисковой системе быть и речи не может. Что касается роботов, то есть спайдеров, то они у меня есть (уж не думаете ли Вы, что я вручную собирал 6 тысяч ссылок ). Да и самих ссылок у меня во много раз больше, но ограниченный хостинг просто не позволяет поместить их в базу. Насчет индексации: я индексировал тэги meta content, притом немного, так как если бы я пустил такого робота, как у Яндекса, то пользователи моего провайдера надолго лишились бы интернета. Ссылки же добавлять нельзя из-за отсутствия лишнего места на хостинге.
Тем не менее, спасибо за Ваши замечания.
С уважением, Вячеслав