Кластеризация при помощи анализа посещений

S
На сайте с 03.12.2003
Offline
5
1763

Уже давно работаю над таким проектом.

Писал о нем вот здесь:

Но там не основной алгоритм описывается, а только построение дерева тем.

Вряд ли стоит описывать здесь алгоритм полностью, скажу только, что каждый ресурс и каждый посетитель оценивается по нескольким (сейчас - 32) рейтингам. Рейтинги одновременно являются темами. При посещении посетитель и ресурс как бы обмениваются темами по специальному алгоритму, и таким образом устанавливается по каким рейтингам их надо оценивать, а всего рейтингов м. б. до 2^31.

Я даже хотел это написать в качестве ответа на вопрос про кластеризацию всего веба, потому что весь - не весь, но все страницы, по которым бродят зарегистрированные пользователи, таким способом кластеризовать, вроде бы, можно. Почему "вроде бы"? Потому, что на практике это еще не проверялось.

Кстати, пользователей можно учитывать и без их согласия, но этого я не делаю, поскольку некоторые считают это нарушением прав человека.

В той ветке я писал, что мне сервер нужен.

Результаты такие: нашел я в своем институте человека, имеющего какое-то отношение к поисковым технологиям, он меня промучил почти месяц, и сказал, что сервера мне не дадут - "интересно, но для нас неактуально".

Одновременно у меня возникла идея, как обойтись без сервера. Надо отказаться от части возможностей, оставить только поиск друзей по интересам и автоматическую генерацию списков ссылок, переписать все на Perl, его у нас уже многие серверы с бесплатным хостингом поддерживают, и оформить все как клуб персональных страничек. Хочешь вступить в клуб - ставь себе мои скрипты, и они будут тебе автоматически генерировать списки ссылок к твоему сайту. Цетральный сервер, конечно, останется, но будет гораздо меньше загружен, т. к. большую часть операций будут выполнять скрипты на чужих серверах. В этом случае мне хватит и того, что есть сейчас.

Это, конечно, менее масштабный проект, чем был сначала, но в его осуществимости я даже более уверен, а алгоритм на нем проверить можно.

Проблема в том, что у меня почти 200 килобайт исходников и переписывать с Джавы на Перл да переделывать под новый, распределенный, способ обработки, сильно влом. Вот я и в раздумье - то ли продолжать искать организацию, которая предоставит мне сервер, то ли переписывать. Собственно, я уже начал помаленьку переписывать.

Но может это все-таки кого-нибудь заинтересует?

Требования к серверу у меня не очень большие: главное, чтобы памяти было не меньше 512M, а процессор можно даже P2, диска тоже достаточно одного-двух гигабайтов.

ST
На сайте с 25.08.2003
Offline
17
#1

Один из важных параметров проблемы это масштаб -вы можете грубо оценить время, необходимое при вашем подходе для кластеризации индекса Google, например (> 4 млрд документов) ?

S
На сайте с 03.12.2003
Offline
5
#2

Слишком многое еще неизвестно. Известно только, что на обработку одного посещения процессорного времени тратится немногим больше, чем на обычный счетчик - примерно 10^-3 c. Но неизвестно самое главное - сколько посещений потребуется, чтобы адекватно определить тематику ресурса? Допустим - 100. А дальше все зависит от того, сколько у нас будет пользователей и насколько активно они будут пользоваться нашими сервисами.

Можно встроить мой алгоритм в интернет-пейджер типа ICQ или Odigo. В Одиго уже есть поиск людей по интересам, а у меня будет более продвинутый плюс поиск ресурсов по интересам. Пусть наш пейджер не будет столь же популярен как аська и другие старые пейджеры, но допустим у него наберется хотя бы миллион пользователей. А общее число пользователей интернета исчисляется сотнями миллионов.

Если по-прежнему держаться той гипотезы, что нужно 100 посещений наших пользователей, и наши пользователи составляют 1/100 всех пользователей Интернета, значит, чтобы ресурс адекватно включился в нашу сеть, нужно, чтобы его посетило 10000 чел.

Ashmanov
На сайте с 21.11.2000
Offline
66
#3

Найти место и процессорное время - совсем не проблема. А про саму задачу и условия сотрудничества стоило бы поговорить более подробно. Напишите в личную почту - igor@ashmanov.com, обсудим.

С уважением, Игорь Ашманов Все для оптимизации (рассылка, сервисы): www.optimization.ru (www.optimization.ru) Сервис по созданию собственных поисковиков: www.flexum.ru (www.flexum.ru)
S
На сайте с 03.12.2003
Offline
5
#4

Ну вот, наконец готово.

http://astroljabija.webhost.ru

Там пока зарегистрировано только два моих сайта и только один человек.

К тому же, это моя первая работа на Перле, поэтому ужасно боюсь, что допустил какой-нибудь ляп с безопасностью и надежностью.

Но по крайней мере, из этого сайта можно понять как это должно работать.

Интерфейс, естественно, может быть разный, главное - алгоритм, а тот же алгоритм может быть встроен в интернет-пейджеры типа ICQ, использован для адресного показа баннеров и даже для обработки статистики звонков в мобильниках.

spark
На сайте с 24.01.2001
Offline
130
#5

что-то не загрузилось

S
На сайте с 03.12.2003
Offline
5
#6

Да, некоторые уже жаловались, что им fatal.ru не виден. Ну что ж поделаешь, бесплатный хостинг есть бесплатный хостинг. Я все хорошо вижу.

S
На сайте с 03.12.2003
Offline
5
#7

Приобрел под этот проект домен второго уровня:

http://aslb.ru

S
На сайте с 03.12.2003
Offline
5
#8

Зеркало сделал, для тех, у кого основной сервер не грузится:

http://astrolabe.best-host.ru

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий