- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вопрос:
Как лучше делать англоязычную тематическую поисковую машину, совмещенную с каталогом ресурсов и баннерокрутилкой?
Предполагаемые параметры:
1000 сайтов (можно считать 100 стараниц в среднем, типичная обновляемость сайтов - раз в 2-4 недели или даже реже).
Посещаемость проекта 500-3000 в день (на первом этапе) - сколько хитов затрудняюсь сказать.
Сейчас есть выделенный сервер (P4 1Gb RAM, 80 GB, Linux FC2)
Уже поставил mnogosearch, phpadsnew.
CMS будет TYPO3 (потому что в основном с ней работаю, главную страницу и страницу поиска естественно сделаю вне TYPO3)
Больше всего смущает mnogosearch, опыта с ним у меня мало.
Может быть, стоит использовать http://www.dataparksearch.org/ ?
Естественно, рассматривается задача подружить каталог и поисковую машину (индексировать сайты из каталога).
Заранее благодарю за ответы!
Ваши параметры задачи очень схожи с тем, что есть в данный момент у меня: http://www.xfiles.ru/top/
1) Берите движок, чтобы потянул 1'000'000 документов.
2) Если будите хранить исходники страниц, то только для них потребуется ~35 Гигабайт, т.е. винтика хватит в притык. Да и один винт - не серьёзно, а бекап ?!
3) Правильно планируйте расписание нагрузки на сервер, т.к. и паук и индексатор и выдача - всё с одной машины. Оптимальный вариант, "тяжёлые" задачи(индексирование) ставить на запуск кронтабом в интервал с 2:30 до 6 ночи, по местному (американскому в вашем случае) времени.
Dataparksearch легче прикрутить к различным каталогам и CMS, он имеет возможносмть загружать аргументы для команд Realm/Server/URL из поля произвольной таблицы любой указаной базы данных. Плюс он пошестрее mnogosearch при использовании cache miode, особенно на больших поисковых базах. Но Dataparksearch не имеет интерфейса для PHP.
Ваши параметры задачи очень схожи с тем, что есть в данный момент у меня: http://www.xfiles.ru/top/
У Вас вроде mnogo стоит?
Как я понимаю и mnogo и dataparksearch потянут
сервер брали под другой проект (80Гб внешнего бескапа там есть - www.1and1.com - суппорта никакого, зато куча всяких автоматических вещей)
да.. я уже посмотрел на скорость индексирования и использование памяти
- сейчас 95% а было до запуска indexer - максимум 70% использовано
Сейчас у меня все таблицы в MySQL (вариант single). Я подозреваю, что нужно на таких объемах multy использовать.
нет, у меня стоит моя личная разработка, он и 50'000'000 легко потянет, если винты вовремя доставлять :)
Я пока не очень соориентировался в теме и не могу понять, почему нет готовых решений?
Задача-то вроде типичная: "тематическая поисковая машина + каталог".
Да, требуется выделенный сервер.. но так это сейчас довольно дешево стоит.
И почему как сайт mnogosearch, так и сайт dataparksearch такие "странненькие" в смысле бизнеса (ну, как домашние странички программистов выглядят)
Нет готовых потому, что либо это что-то супер новое, доселе никому не известное, либо это никому не нужно... По-моему, здесь случай номер два :)
Ну - тематические каталоги вроде нужны и коммерческие решения - есть
(да они есть в любой CMS)...
А почему бы при этом не прикрутить к каталогу настраиваемый поисковик? свой гугль в миниатюре?
Причем "корпоративный" поиск явно востребован - http://www.google.com/enterprise/
и у Яндекса тоже есть решение.
А почему тематический поисковик нафиг никому не нужен?
Я не понимаю.. рынок явно пустой (в смысле вразумительного предложения вроде как нет, а спрос вроде как есть)
Много миллион не тянет на одном серваке. Чтобы тянул надо ему метра 32 памяти поставить.
нет, у меня стоит моя личная разработка, он и 50'000'000 легко потянет, если винты вовремя доставлять :)
Позвольте поинтересоваться, а сколько запросов в секунду она "тянет" и на какой железке (сколько оперативной памяти и процов)? на 50 млн страниц. И еще ИМХО скорость от среднего размера страниц зависит.
Позвольте поинтересоваться, а сколько запросов в секунду она "тянет" и на какой железке (сколько оперативной памяти и процов)? на 50 млн страниц. И еще ИМХО скорость от среднего размера страниц зависит.
Сейчас интернет канал очень узкий, посему из вне - скорость ужасная. Если тестировать на прямую, то 20-30 запросов в секунду. Хотя, ещё не все улучшения производительности были использованы. Памяти - 512Mb DIMM, проц PIII-866MHz, SCSI 320 Seagate 10000rpm.
Алгоритм делался так, что скорость конечной выдачи не зависит от объёма базы и тем более от среднего размера страниц.
Ну скорость поиска ИМХО не может не зависить от размера базы.
Сейчас интернет канал очень узкий, посему из вне - скорость ужасная. Если тестировать на прямую, то 20-30 запросов в секунду. Хотя, ещё не все улучшения производительности были использованы. Памяти - 512Mb DIMM, проц PIII-866MHz, SCSI 320 Seagate 10000rpm.
Алгоритм делался так, что скорость конечной выдачи не зависит от объёма базы и тем более от среднего размера страниц.