Ну так, паузы нету между запросами вот и результат. Плюс юзер агент - браузер, а не ПС. А сервера настроены обычно так, чтобы больший приоритет по ресурсам пс отдавать, чтобы владельцы сайтов не жаловались...
Методичка же должна быть какая-то. К каким значения привязывать внешние ссылки в зависимости от их характеристик.
vagogrande, у меня ваш сайт сканируется нормально. За 10 минут 800 страниц прошла, но правда я всего 2 потока поставил. Если вы загружали урлы с хмл то может в этом и есть косяк. Уже бывали проблемы с подгрузкой урлов, я правда текстовые файлы использую и сейчас всё нормально, а хмл я давно уже не проверял. Плюс сам файл может быть кривым.
Зачем вам кстати на каждой странице 2-е ссылки на карту сайта?
Интересно как? Можно в личку.
______________________________________________________________________________
ну и код у сайта... роботс конечно длинный, но явно не весь мусор закрыт...
Вот такое ещё не мешало бы добавить:
Disallow: /*.css?*
Вместо звёздочки там произвольные цифровые комбинации, и полно таких ссылок в коде, по десятку на странице. Такие, я бы тоже закрыл: /image.php? Плюс ливезиллу тоже. А вообще, там такие ссылочки с параметрами, что чёрт ногу сломит...
Во внутренних ссылках не стоит применять нофоллов, вес всё равно уходит.
vagogrande, мне киньте урл. Попробую проверить, на своей версии.
Раз заговорили о юзабилити.... В меню - хорошо бы скрывать ненужные кнопки. К примеру я сейчас не пользуюсь агрегатторами. Взять убрать их и т.п. чтобы осталось только нужное. А для тех что осталось, задать несколько последовательностей действий - я ещё 2 года назад об этом говорил. Типа эмулятора, включить запись, потыкать мышкой куда нужно, выключить - сохранить профиль.
P.S. про тикеты помню))
Сканируйте по списку страниц, а он уже есть с предыдущего скана. Будет быстрее.
Не такой уж и большой, без проблем можно спарсить заново. Тем более что копию сайта можно и на локалке развернуть.
Также можно к "удаляемым" ссылкам добавлять в базе какой-нибудь атрибут, можно несуществующий - тогда ПС внимания на него не обратят, а прога воспримет как метку что ссылку учитывать не надо.
burunduk, а что ты скажешь по моделированию с изменением весов страниц. Насколько это оправдано менять, чем-то отличается от гадания на кофейной гуще?
tenebrum, сервер может отбивать запросы, если часто идут + IP в бан после оперд числа запросов. Потоков меньше надо ставить и задержки побольше. Сайт напишите тут для оценки.
dimatel, если эти данные нашла программа, то по умолчанию оставьте 1. Другие значения ставятся при моделировании, для внешних ссылок на сайт.
Так я тебе написал же выше как определить. Думал ты уже сделал...