Тематическая поисковая система (до 1000 сайтов) - как делать?

vrom
На сайте с 15.12.2005
Offline
84
6133

Вопрос:

Как лучше делать англоязычную тематическую поисковую машину, совмещенную с каталогом ресурсов и баннерокрутилкой?

Предполагаемые параметры:

1000 сайтов (можно считать 100 стараниц в среднем, типичная обновляемость сайтов - раз в 2-4 недели или даже реже).

Посещаемость проекта 500-3000 в день (на первом этапе) - сколько хитов затрудняюсь сказать.

Сейчас есть выделенный сервер (P4 1Gb RAM, 80 GB, Linux FC2)

Уже поставил mnogosearch, phpadsnew.

CMS будет TYPO3 (потому что в основном с ней работаю, главную страницу и страницу поиска естественно сделаю вне TYPO3)

Больше всего смущает mnogosearch, опыта с ним у меня мало.

Может быть, стоит использовать http://www.dataparksearch.org/ ?

Естественно, рассматривается задача подружить каталог и поисковую машину (индексировать сайты из каталога).

Заранее благодарю за ответы!

Разработка интернет-магазинов на CS-Cart (http://typo3lab.ru/cs-cart.html). Почему CS-Cart рулит? (http://typo3lab.ru/cs-cart.html#c967)
[Удален]
#1

Ваши параметры задачи очень схожи с тем, что есть в данный момент у меня: http://www.xfiles.ru/top/

1) Берите движок, чтобы потянул 1'000'000 документов.

2) Если будите хранить исходники страниц, то только для них потребуется ~35 Гигабайт, т.е. винтика хватит в притык. Да и один винт - не серьёзно, а бекап ?!

3) Правильно планируйте расписание нагрузки на сервер, т.к. и паук и индексатор и выдача - всё с одной машины. Оптимальный вариант, "тяжёлые" задачи(индексирование) ставить на запуск кронтабом в интервал с 2:30 до 6 ночи, по местному (американскому в вашем случае) времени.

Z
На сайте с 03.01.2004
Offline
32
#2

Dataparksearch легче прикрутить к различным каталогам и CMS, он имеет возможносмть загружать аргументы для команд Realm/Server/URL из поля произвольной таблицы любой указаной базы данных. Плюс он пошестрее mnogosearch при использовании cache miode, особенно на больших поисковых базах. Но Dataparksearch не имеет интерфейса для PHP.

vrom
На сайте с 15.12.2005
Offline
84
#3
Maxim Golubev:
Ваши параметры задачи очень схожи с тем, что есть в данный момент у меня: http://www.xfiles.ru/top/

У Вас вроде mnogo стоит?

1) Берите движок, чтобы потянул 1'000'000 документов.

Как я понимаю и mnogo и dataparksearch потянут

2) Если будите хранить исходники страниц, то только для них потребуется ~35 Гигабайт, т.е. винтика хватит в притык. Да и один винт - не серьёзно, а бекап ?!

сервер брали под другой проект (80Гб внешнего бескапа там есть - www.1and1.com - суппорта никакого, зато куча всяких автоматических вещей)

3) Правильно планируйте расписание нагрузки на сервер, т.к. и паук и индексатор и выдача - всё с одной машины. Оптимальный вариант, "тяжёлые" задачи(индексирование) ставить на запуск кронтабом в интервал с 2:30 до 6 ночи, по местному (американскому в вашем случае) времени.

да.. я уже посмотрел на скорость индексирования и использование памяти

- сейчас 95% а было до запуска indexer - максимум 70% использовано

Сейчас у меня все таблицы в MySQL (вариант single). Я подозреваю, что нужно на таких объемах multy использовать.

[Удален]
#4

нет, у меня стоит моя личная разработка, он и 50'000'000 легко потянет, если винты вовремя доставлять :)

vrom
На сайте с 15.12.2005
Offline
84
#5
Dataparksearch легче прикрутить к различным каталогам и CMS...

Я пока не очень соориентировался в теме и не могу понять, почему нет готовых решений?

Задача-то вроде типичная: "тематическая поисковая машина + каталог".

Да, требуется выделенный сервер.. но так это сейчас довольно дешево стоит.

И почему как сайт mnogosearch, так и сайт dataparksearch такие "странненькие" в смысле бизнеса (ну, как домашние странички программистов выглядят)

Z
На сайте с 03.01.2004
Offline
32
#6

Нет готовых потому, что либо это что-то супер новое, доселе никому не известное, либо это никому не нужно... По-моему, здесь случай номер два :)

vrom
На сайте с 15.12.2005
Offline
84
#7
Нет готовых потому, что либо это что-то супер новое, доселе никому не известное, либо это никому не нужно... По-моему, здесь случай номер два

Ну - тематические каталоги вроде нужны и коммерческие решения - есть

(да они есть в любой CMS)...

А почему бы при этом не прикрутить к каталогу настраиваемый поисковик? свой гугль в миниатюре?

Причем "корпоративный" поиск явно востребован - http://www.google.com/enterprise/

и у Яндекса тоже есть решение.

А почему тематический поисковик нафиг никому не нужен?

Я не понимаю.. рынок явно пустой (в смысле вразумительного предложения вроде как нет, а спрос вроде как есть)

I
На сайте с 26.05.2001
Offline
64
#8

Много миллион не тянет на одном серваке. Чтобы тянул надо ему метра 32 памяти поставить.

Maxim Golubev:
нет, у меня стоит моя личная разработка, он и 50'000'000 легко потянет, если винты вовремя доставлять :)

Позвольте поинтересоваться, а сколько запросов в секунду она "тянет" и на какой железке (сколько оперативной памяти и процов)? на 50 млн страниц. И еще ИМХО скорость от среднего размера страниц зависит.

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
[Удален]
#9
itman:
Позвольте поинтересоваться, а сколько запросов в секунду она "тянет" и на какой железке (сколько оперативной памяти и процов)? на 50 млн страниц. И еще ИМХО скорость от среднего размера страниц зависит.

Сейчас интернет канал очень узкий, посему из вне - скорость ужасная. Если тестировать на прямую, то 20-30 запросов в секунду. Хотя, ещё не все улучшения производительности были использованы. Памяти - 512Mb DIMM, проц PIII-866MHz, SCSI 320 Seagate 10000rpm.

Алгоритм делался так, что скорость конечной выдачи не зависит от объёма базы и тем более от среднего размера страниц.

I
На сайте с 26.05.2001
Offline
64
#10

Ну скорость поиска ИМХО не может не зависить от размера базы.

Maxim Golubev:
Сейчас интернет канал очень узкий, посему из вне - скорость ужасная. Если тестировать на прямую, то 20-30 запросов в секунду. Хотя, ещё не все улучшения производительности были использованы. Памяти - 512Mb DIMM, проц PIII-866MHz, SCSI 320 Seagate 10000rpm.
Алгоритм делался так, что скорость конечной выдачи не зависит от объёма базы и тем более от среднего размера страниц.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий