Алексей Гурешов

Рейтинг
21
Регистрация
11.11.2005
Kost:
просто наверное не надо стремиться высосать их за день или два, а то активность робота вебальты вызывает недоумение. Должно быть ограничение на количество документов в минуту, пауза между последовательными скачиваниями с одного сайта (хотя бы пару секунд), только и всего.
С другой стороны лимит на 3к запросов в сутки - это действительно глупо.

100тысяч страниц у него на сайте, объясните мне, сколько высасывать в день, чтобы за 2 недели их проиндексировать?

sun:

Я конечно понимаю чтобы составить конкуренцию большим поисковикам нужно иметь, что то особенное типа самой большой базы и т.д., но не такими же средствами. Можно ли настроить чтобы бот ходил не так жестко, а по мягче.

А еще не считайте что страниц 60к, их намного больше получится, превью статей, постраничный вывод тем самым страниц получается как минимум в два раза больше.

Этот сайт я привел как пример, на самом деле ситуация такая на многих сайтах.

Знаете, глупо сравнивать в прицнипе, как по идеологии, так и по принципу работы. Вебальта первоначально планировалась так, чтобы период обновления основной базы был 14 дней, со временем увеличен возможно будет до 30 дней. За это время мы хотим успеть проверить работоспособность ссылок, изменения на сайтах и так далее.

Апорт кушает в сутки 60гиг htmlов (из интервью с Апортом), Вебальта кушает 1900гиг сейчас. Разница в 30 раз. Если Вы не хотите чтобы Все ваши страницы были в индексе - пожалуйста закройте или скажите нам, мы не будем пытаться их скачать, или закройте просто через robots.txt мы будем индексировать ваш сайт как апорт - только морды + немного внутрь.

PS. В принципе порядочный вебмастер должен радоваться тому, что все страницы его сайта проиндексированы и доступны для поиска. Говорить об отношении проиндексированно/кол-во трафика пока в принципе раньше осени бессмысленно.

И как мы твои 60тысяч страниц высосем, если ты на 3х тысячах в день банишь?

Бред... Скажи имя домена, я его забаню, чтобы наше время тоже не терять.

А сколько у Вас страниц на сайте?

antono:
Вебальта сейчас не работает, кто-то нашел там дырищу? :)

f5 :) копаемся немножко :)

snoopckuu :) В общем мы и работаем на 8080 внутри, а циска редиректит 80 внешний на 8080 внутренний, просто юзер у нас не рут, а заморачиваться лень ;)

snoopckuu, нет дырок нет денег :) Я думаю просто ты не знаешь больше ничего, а это ты подсмотрел на altaforum'e где запостил два дня раньше atom тему.

в 20 раз :)

snoopckuu:
Алексей Гурешов, не видно честно говоря что исправлено, все как проходило так и проходит.
И у вас есть ещё очень интересные дырки, но уже пострашнее на публику выкладывать не решусь.

Выкатывай, не стесняйся. Плачу $50 за кажду дырку :)

Jkey:
А речь идёт только о формочке поиска, или есть возможность трансляции результатов у себя на сервере?

конечно можно, некоторые региональные порталы уже ставят

Всего: 276