- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Если конкретно 5.255.253.124
Ходит на крайне малопосещаемый форум уже вторую неделю.
Чётко "занимает" 100% производительности, т.е. по мере загрузки сервера
приходит то реже, то чаще.
Странно другое.
Посещает он урлы типа
GET /post1047.html?e1281ac0
GET /post2826.html?0159ee02
При этом то, что после ? это по виду какой-то мусор.
Логично было бы предположить, что это некий SID, но пока мне не удалось
обнаружить где он такой к боту "попадает". Плюс обычно сид гораздо длиннее.
Есть какие-то идеи что можно было-бы проверить-поправить ?
Началось это безобразие где-то с неделю назад.
До этого несколько ЛЕТ всё было отлично.
---------- Добавлено 28.10.2014 в 12:48 ----------
ЗЫ. А похоже и правда SID, в списке ботов яндекса для этого форума почему-то не было.
(видать давно движок совсем обновлялся). Но идеи всё равно приветствуются.
Сейчас у многих такая штука. Мое видение: некий нехороший человек долбит урлы вида site.ru/post1047.html?e1281ac0, в дальнейшем софт, насколько я понимаю, отправляет их прямиком яндексу, вот бот и ходит, только каким способом, непонятно. Если посмотрите в логах, то наверняка увидите кучу гет-запросов site.ru/post1047.html?e1281ac0 и все в этом духе, по которым затем ходит бот. Зачем это нужно, не ясно, но ресурсы жрет адово. Рекомендую закрыть знак вопроса в роботсе, только аккуратней действуйте.
Да это скокож надолбить надо ?
Он их в addurl что-ли добавляет ? Там капча вроде...
Да и в чём смысл... именно данный "пациент" никому в качестве диверсий вообще неинтересен.
Идея, что кто-то вначале пытался что-то напостить со спамом, а потом "пингует" была.
Что-то по УРЛу в яндексе ничего не ищется. Да и многовато как-то.
Так в логах есть прямые запросы (не от яндекс бота) вида site.ru/post1047.html?e1281ac0? Какая админка?
Никакой админки.
По логам щаз поищем конечно, не так просто к сожалению.
---------- Добавлено 28.10.2014 в 14:55 ----------
За последнюю одну, возможно две недели - нету
---------- Добавлено 28.10.2014 в 14:56 ----------
ЗЫ. Похоже нет даже и за три недели.
---------- Добавлено 28.10.2014 в 15:02 ----------
Есть относительно немного записей в эррорлоге вида,
search.php?search_id=unanswered&sid=ab343bfa51d20
GET /post3587.html?sid=a409eff5467e8db712fb7fc9
часть к страницам что берет и яндекс,
но корреляции с SID не видно.
Записи относятся к leaky busket от nginx-a, т.е. это были многочисленные
запросы с одного ip часть из которых не была обслужена.
Но их немного - десятки-сотни. Не тысячи.
---------- Добавлено 28.10.2014 в 15:05 ----------
PS. Надо сказать, что бот очень gently... даже не знаю как объяснить...
LA держит четко на уровне единицы. Вероятно анализирует время отклика и
по нему динамически меняет частоту запросов.
В целом работу это замедлило несущественно, но разобраться хотелось-бы.
Надо сказать что сегодня с утра "слегка отпустило". Но не окончательно.
У меня были сначала такие гет-запросы, потом по ним начал лазить бот. Все позакрывал.
Бот у вас шарится вроде честный и должен задержку между запросами понимать: http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#crawl-delay
Upd: если не лень, то сделайте 301-й с /post1047.html?e1281ac0 на /post1047.html
робот яндекса/гугла перейдет по 301 на /post1047.html только один раз(ну пару раз) остальные 301-е с /post1047.html?_random_ он примет к сведению и не будет дергать ваш сервер лишний раз.
admak, нет смысла увеличивать время обращения, так как эти страницы - дубли и в индексе они не нужны. Я бы на месте тса просто закрыл доступ в роботсе, если есть возможность.
Возможность надо уточнить... не факт что можно на этом уровне всё заткнуть.
В Я.Вебмастере ведь нигде нет возможности увидеть "очередь на индексацию" и как-то на неё повлиять(исключая роботс) ?
Редиректить можно еще попробовать, но тоже "под вопросом".
Выше дополнил свой пост, по уму желательно на страницах прописать meta canonical, но хлопотно это, т.к. нужно лезть в код.
Есть еще вариант с http://help.yandex.ru/webmaster/controlling-robot/robots-txt.xml#clean-param но это только под яндекс
У себя я просто 301-м ограничиваюсь, главное в регулярках не ошибиться :)
admak, символы урла могут меняться в произвольном порядке, то есть могут быть абсолютно любыми. Единственным остается знак вопроса, но закрывать его во многих случаях просто так нельзя.