Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

<font face="Verdana" size="2">Originally posted by Gray:
Вячеслав, я не понял - две машины только под поисковик?
Кстати, сегодня пользовался поиском - релевантность не очень. Так и не понял, какая часть документа индексируется.
</font>

Нет. Просто три базы находятся вместе с рейтингом, все остальное - на другом сервере. Насчет релевантности вполне может быть: если нет полного совпадения фразы, начинаются фокусы с ранжированием. Документы из каталога я пока не индексировал. Индексируется только содержимое электронных библиотек - это поиск в "книгах и рефератах"

<font face="Verdana" size="2">Еще одно - не могу понять последнее время - серверы ПИНГа по-прежнему стоят на площадке Paco links, или переехали на Свит Онлайн?</font>

Все уже давно на Свит Онлайне

<font face="Verdana" size="2">Originally posted by Vyacheslav Tikhonov:
Действительно, все пока находится на одной машине, что создает дополнительные трудности. Хотя я думаю, что сервер полнотекстовый индекс на 25 тысяч ссылок вполне может потянуть. Индексацию страниц я фактически уже закончил и скоро пущу. Все-таки, есть надежда, что на 1000 хостов в день хватит. Посмотрим, что получится

</font>

А получилось вот что: поиск уже ведется по 5 базам: по каталогу Пинга, в объявлениях по работе с различных сайтов, по доскам объявлений, по новостям и в электронных библиотеках. Объявления по работе ндексируются ежедневно. Пока я пускал кроулер только по электронным библиотекам, и сейчас эта база достаточно большая (по крайней мере, 85% всех рефератов из Рунета уже можно найти ).

Поисковик уже работает на двух серверах, с 1000 хостов справляется без особых проблем, что позволяет с оптимизмом смотреть в будущее В последнее время поисковая система начала пользоваться популярностью и по посещаемости уже опережает остальные сервисы Пинга.

<font face="Verdana" size="2">Originally posted by katya:
замучишься регистриться во всех помойках.</font>

Ну нельзя же все каталоги поменьше оценивать как помойки, пусть даже каталоги не слишком удачные

Какими бы прекрасными системами не были Яндекс или Google, существует немало полезных ресурсов, находящихся в результатах запроса в n-й сотне/тысяче и на которые здесь пользователь может попасть лишь чудом.

Кроме того, большой каталог - не обязательно значит хороший. Гораздо лучше иметь множество региональных каталогов, чем один центральный с кучей ссылок, которые оказываются совершенно бесполезными.

<font face="Verdana" size="2">
Не лучше ли заняться по-крупному. Конечно, тут надо больше ума, но в конечном итоге и полезнее, и продуктивнее. Имхо.
Линкпопьюлярити эту же можно другими средствами наращивать.
</font>

Линкпопулярити имеет смысл наращивать только тогда, когда на сайте есть что-то интересное. В

<font face="Verdana" size="2">Originally posted by Gray:
Вячеслав, без индексации самого текста страницы у вас ничего не выйдет, я думаю, вы это понимаете.
Неужто ПИНГ не может обеспечить устойчивость сервера с такой малой базой? Как я понимаю, это означает, что у них все висит на одной машине, и только невостребованность остальных сервисов обеспечивает "нормальную" работу рейтинга. Или и обе баннерные сети висят на той же машине? Тогда хана дело, поисковик не получится. Как я понимаю, для него одного минимум машина нужна отдельная.
</font>

Действительно, все пока находится на одной машине, что создает дополнительные трудности. Хотя я думаю, что сервер полнотекстовый индекс на 25 тысяч ссылок вполне может потянуть. Индексацию страниц я фактически уже закончил и скоро пущу. Все-таки, есть надежда, что на 1000 хостов в день хватит. Посмотрим, что получится

<font face="Verdana" size="2">Originally posted by Gray:
Это Crawler? Ну, что ж, посмотрим, что из этого выйдет. Подскажите только, Вячеслав, он по ссылкам проходит? И какая у вас база?</font>

Давно не заходил на форум, потому что работы невпроворот - поиск Пинга пока хромает на обе ноги.

По ссылкам САМ у меня он еще не ходит, хотя я к этому уже близок. База пока совершенно небольшая (около 25 тысяч ссылок). При ее индексации получилось что-то около 60 тысяч уникальных слов, из которых я с помощью флективного анализа выделил основы. Плохо то, что сервер нормально не справляется даже с такой ничтожно малой нагрузкой, поэтому сейчас изучаю подобные алгоритмы в нэковской научной библиотеке:

http://citeseer.nj.nec.com/directory.html

Релевантность пока определяю исключительно по количеству ключевых слов в описаниях, что дает в результах поиска много спама.

В mysql, который я сейчас использую, плохо реализована локализация, поэтому некоторые запросы иногда дают совершенно неожиданные результаты даже для меня

В общем, в настоящий момент пытаюсь героически бороться с невесть откуда возникающими проблемами

Вот и кончилась моя эпопея В конце концов моя поисковая система оказалась у Пинга (www.topping.com.ua). Так что милости просим потестировать!

Система, которую я попросил Вас потестировать, всего лишь тестовая версия поисковика, который я сделал за полтора месяц, используя вечернее и ночное время после занятий в Институте. Вся система обошлась на сегодняшний день в стоимость услуг провайдера (а это примерно 10 долларов в месяц ). Отсюда и размещение на домашней страничке, очень ограниченный объем (5 Мбайт) и медленный поиск. А оценить я просил в основном работу поискового механизма. Естественно, я понимаю, что без нормального домена и хостинга ни о какой поисковой системе быть и речи не может. Что касается роботов, то есть спайдеров, то они у меня есть (уж не думаете ли Вы, что я вручную собирал 6 тысяч ссылок ). Да и самих ссылок у меня во много раз больше, но ограниченный хостинг просто не позволяет поместить их в базу. Насчет индексации: я индексировал тэги meta content, притом немного, так как если бы я пустил такого робота, как у Яндекса, то пользователи моего провайдера надолго лишились бы интернета. Ссылки же добавлять нельзя из-за отсутствия лишнего места на хостинге.

Тем не менее, спасибо за Ваши замечания.

С уважением, Вячеслав

Всего: 847