- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
if ($http_user_agent ~ (agent1|agent2|Foo|Wget|Catall Spider|AcoiRobot) ) {return 403;
}
*
Благодарю!
Еще пару полезностей, по теме
grep 'bot' "/data/logs/domainname.tld.access.log" | awk '{ print $12}' | sort | uniq -c | sort -n -k 1 | tail -n 30
Вывести наиболее активных 30 ботов из лога apache (для блокировки по user-agent)
Мой вывод
2 SurdotlyBot/1.0;
3 MegaIndex.ru/2.0;
4 Baiduspider/2.0;
5 Exabot/3.0;
7 YandexImageResizer/2.0;
8 DeuSu/5.0.2;
10 Yahoo!
11 2
14 NT
15 (compatible;
15 Configuration/CLDC-1.1
21 1
22 Uptimebot/1.0;
23 CPU_TIME:
24 SputnikBot/2.3;
43
82 SeznamBot/3.2;
92 Android
128 YandexImages/3.0;
181 YandexNews/3.0;
196 CPU
252 0
331 YandexMetrika/2.0;
460 YandexDirect/3.0;
658 YandexBlogs/0.99;
1031 MJ12bot/v1.4.5;
1658 Googlebot/2.1;
2164 AhrefsBot/5.1;
2684 bingbot/2.0;
16780 YandexBot/3.0;
По сути, основных под бан, это 2164 AhrefsBot/5.1; + 1031 MJ12bot/v1.4.5; + 24 SputnikBot/2.3;
Добрый день.
Мегаиндекс прочёл Ваше сообщение.
Ситуация крайне странная, т.к. у нашего краулера весьма жёсткие рамки на обход сайтов (правда подобное может быть если на одном сервере находится множество сайтов).
Не могли бы Вы сказать по какому домену был такой суровый обход нашим роботом?
Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.
И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.
Мне действительно не интересно с вами вести переписку, настройте ботов, чтобы они работали корректно. Например можете начать с того, чтобы ваши боты начали учитывать Crawl-delay как это делают некоторые другие боты.
И вот когда "правда подобное может быть", превратиться в "правда подобное исключено", тогда это будет корректно. А пока нет.
Если Вы поможете диагностировать данную проблему, это возможно и будет исключено. Ведь нужно помогать, а Вы пожаловались, Вашу проблему захотели решить и Вы заднюю включаете , не дело так поступать.
На сайт megaindex зайдите и почитайте что в комментариях по поводу похожих проблем написано. При чем тут задняя не задняя. Они нагружают чужое оборудование, знают это, и ничего с этим не делают. Начните с Crawl-delay например. Это адресовано megaindex
---------- Добавлено 03.10.2016 в 22:04 ----------
Мне видится странным такая нагрузка на сайт, у которого в robots.txt прописано Crawl-delay: 4 Причем нагрузка в период 00:00 - 11:00