- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Народ! А есть ли русский чтоли сапорт или инфа какая-то по этому поисковику? как его вообще поставить и т.д ? Очень интересна тема.
Посмотрите на этой странице;
http://lucene.apache.org/nutch/tutorial.html
Поддержка по русски нет.
А mozdex.com ожил-то ;)
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?
То есть примерно 170 тысяч среднестатистических HTML страничек, объем чистого текста 200-400 кб. Индекс гарантировано влезает в память. Мда... тот же Яндекс-сервер, например раза в 3-4 должен быстрее индексировать. С другой стороны какой-нибудь гугль-мини такой объем чисто теоретически (с лицензионной точки зрения) не будет обрабатывать. И тот же датапарк примерно с такой же скоростью индексирует, может даже медленее. И аспсик у меня 2 гига примерно несколько дней индексировал, правда машинка был гораздо слабее: PII, 500 Mb. Но, видимо, порядок индексации по скорости тот же.
Кстати, а у Вас на Java точно был включен JIT? Вообще, с точки зрения потенциально неэкономного расхода памяти писать поисковый движок на джаве не самая удачная идея.
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?
Довелось потестировать nutch версии 0.7.2.
Впечатление, мягко говоря, не очень.
Тестировалось следующим образом:
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине. Сеть гигабитная. Индексация проводилась методом intranet crawling.
Тестовая машина: Sempron 2600+, 2GB RAM, IDE винт
Так вот, на индексацию такого объёма было затрачено времени ~21ч.
Хотелось бы узнать, это вообще нормальные скоростные показатели для этого движка? Может быть проблема в настройках или в том, что тестирование проводилось по виндой? Вообще интересно зависит ли скорость индексации от ОС (win и linux)?
Интересный тест - точно сказать не могу под win я никогда не пытался делать этого.
На данный момент у меня стоит 3 сервера(Dual Opteron 8gb ram) под Fedora Core 4(64bit) мне удалось проиндексировать по 70 млн страниц на каждом. Cкорость индексации сказать точно не могу так как использую очень модифицированную версию nutch'а, но насколько я помню индексировалось гораздо быстрее. Nutch 0.8 я стал тестировать - он на самом деле индексирует в несколько раз медленее 0.7.2 и кушает очень много памяти.
Попробуйте задать вопрос на моём форуме http://searchengines.o0o.ru/ о open source поисковиках - там есть отдельная ветка о Nutch, я думаю там вам смогут дать более подробный ответ.
itman, JIT по идее был включён.
По крайней мере, команда java -version сообщает о mixed mode.
snoopckuu, Спасибо за ссылку. Попытаюсь там что-нибудь выяснить.
В локальной сети было создано 500 сайтов общим объёмом ~700Mb текстовой информации на одной машине.
"На одной машине"? А натч настраивали, чтобы он не делал принудительные задержки при обращении к одному серверу? +ограничение на число потоков индексатора на один индесируемый сервер.
Да и сколько трэдов использовали при индексации но судя по посту Жени из адре http://searchengines.o0o.ru/showpost.php?p=90&postcount=19
Ед. что могу сказать.
ОСЬ влияет на скорость