- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Пытался найти в интернете нечто подобное, но так ничего вразумительного и не нашел. Подскажите, какой-нибудь готовый продукт, подходящий под следующие критерии: поиск по HTTP/FTP, сканирование >25 000 фтп серверов + примерно столько же сайтов. На момент написания поста в базе старого поисковика содерджится почти 10 000 000 записей. В дальнейшем планируется увеличение базы и кол-ва запросов в день. Текущая нагрузка >15 000 запросов в день.
Попутно вопрос: потянет ли такое mnogosearch/dataparksearch при способе хранения cache, при использовании Oracle?
Заранее спасибо.
А какой, если не секрет, поисковик работает сейчас, сколько машин он занимает, и чем он не устраивает. Навскидку, можно попробовать nutch он, вроде распределенный. FTP, по идее, должен поддерживать.
Сейчас работает только поисковик по FTP (сильно модифицированный ffsearch, если не ошибаюсь), крутится, кажется, только на одной машине, хотя, возможно, на двух: на одной сам сервер на другой база. На данный момент в его базе
Ну, есть подозрение, что нужно распределенное решение. На одной машине вряд ли потянет. Mnogosearch вроде сейчас может быть распределенным, но cache mode он больше не поддерживает http://mnogosearch.org/doc/msearch-cachemode.html Вместо него некий блоб-моде, прои него ничего не могу сказать по части скорости.
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?
1) Натч не использует базу
2) Datapark не позволяет, насколько я знаю, искать распределенно.
3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет. Что умеет на эту тему натч, я точно не знаю.
А что по поводу Dataparksearch? В смысле, распределенности. И баз, поддерживаемых Nutch'ем?
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?
К нему это к натчу? Я не знаю подробностей "скармливания" ему начального списка URLs. По поводу базы: я имел в виду, что натч не использует СУБД, а данные раскладывает в файлы.
То есть к нему нужно прикручивать файл с урлами DMOZ Open Directory и по всем уэтому он будет искать или он все же что-то индексирует и сам?
Ммм... с многосерчем ситуация начинает постепенно проясняться... кстати, смотрю и у Яндекса есть функция метапоиска.
2) Datapark не позволяет, насколько я знаю, искать распределенно.
3) Mnogosearch позволяет на уровне демона searchd собирать информацию с нескольких машин. Видимо, датапарк несложно докрутить, чтобы он делал примерно тоже самое. Но надо понимать, что при этом никакого распределенного индекса цитирования или учета дубликатов тоже не будет.
Датапарк не надо докручивать, он тоже самое тоже умеет.
Везде, где упоминается слово Datapark, там Zute. Может быть, что и может. Одна из недокументированных фич, заключающая в том, что, видимо, можно несколько DBAddr написать.