Vladimir

Vladimir
Рейтинг
630
Регистрация
07.06.2004
Интересы
Photo
webledi :

Сайт скопирован полностью практически без изменений: верстка, название, логотипы, все статьи, даже все темы форума. Убрали мои счетчики, блоки РСЯ, заменили ссылки, которые ведут на поддомены, на основной свой домен.

Возник вопрос, почему может быть такая большая загруженность? Возможно, проблема массовая?

Рег, это же и домены и хостинг, вопросов там тьма - загруженность

Катинки же тоже оставили, пропишите домен в картинках ( не текстом, Гуглим)

sanek1991 :

CloudFlare заблокировал его по правилу "Rate limited", но может добавить этот ASN в список известных роботов с отключением правила?

Оптимизируй crawl бюджет

PS Да, на слабеньком VPS,  ПС боты периодически отправляли его на простой. После оптимизации и уменьшения использования бюджета до 2-5% . Сервер держит нагрузку и не падает
Антоний Казанский #:

Интересный материал, раскрывающий некоторые важные нюансы, например то, что малополезный и маловостребованный контент - это раздельные понятия. 

Эти понятия насколько помню год назад обсуждали на серче, и вы в той теме были
Нет там ничего интересного, ложь на 90%

Kwik #:
Видно что тема опустела, многим сняли метки, походу остались самые "тяжелые" случаи. Как бы это не затянулось на несколько месяцев, а то и лет...
Начните с оптимизации crawl бюджета (Гуглим). Как закончите стукните в ЛС
Kaavain #:

Прямого редиректа  robots.txt  => robots_net.txt нет. Есть редирект !www -> www

Пусть robots.txt самый наикривейший, это не делает 

То что редирект с !www -> www это одно, он должен быть ( это про зеркало)
Но, к нему есть дополнительный редирект, для неосновного бота robots.txt  => robots_net.txt

И в этом случае нет ни правильного, ни кривого robots.txt, есть ошибка с неопределенными параметрами.
Которую разрабочик просто не учел, что кто то додумается на такое :)

Ищи и исправляй,  и все будет норм. На этом все, тема закрыта, надеюсь.
сам не найдешь, ищи программера


Kaavain #:

Да я понял! Вопрос как ты его увидел???  robots.txt  => robots_net.txt

1. Выше писал, один робот приходит, другой удаляет
2. Анализ нижней картинки это подтвердил, осталось найти бота

https://trafaret.net/robots.txt

Kaavain #:

Но... раз тебе известен  robots_net.txt, значит где-то это засветилось... Шаман однако, колись.

Прямо же написал, убери редирект
Location: https://www.trafaret.net/robots_net.txt

Kaavain #:

Не буду уподобляться яндексу, отвечу на поставленный вопрос. 

Я уж не знаю, кому мне то уподобляться?
Писал же уберите лишние редиректы 301, не доведут они до добра


PS Никогда не пеняю на Яндекс, а иногда хочется. НО, всегда ошибка почему то на сайте
Уберите редирект с robots.txt  => robots_net.txt 🤣
Удачи!

Kaavain #:

Прошло две недели, в индекс заново влетели порядка 6000 страниц (4000 сегодня только). Но позавчера уже был массовый влет около 2000 а потом вылет 1800 по причине "страницы дола была недоступна", хреналысого, аптайм 100% в последние полгода.

В вебмастере есть проверка ответа сервера. Там штук 6 ботов.
Если для одного из ботов сайт недоступен, сайту хана

Один бот индексирует, неработающий выкидывает.
Если так, ищем где и кто блокирует этого бота на хостинге

Steve Rambo #:

Например, на этих страницах алгоритмы зафиксировали нарушения:

Далее примеры страниц. Короче, дали прямо понять, что проблема в стыренных текстах. Накидал им кучу дорвеев, которые сперли тексты с этих страниц. Тексты в то время сам писал, фотки свои (их на дорах убирают, боятся). Посмотрим, что ответят, но в целом - это пипец, когда тебя обвиняют в том, что у тебя же сперли контент.

Т.е нужно немного перефразировать написанное и определить алгоритм))
1. Яндекс не определяет автора оригинального контента ( true )
2. Яндекс определяет дубли контента  ( true )

Итого имеем твой сайт и 9 дорвеев ( к примеру) твоего сайта.
Вопрос: Как определяются сайты с дублями контента?
Ну или как подсказать Яндексу ( боту ), где дубли?

Steve Rambo #:
Смысла все равно мало. Но зато мы теперь знаем, что валить конкурентов  стало в разы проще.

Уже давно просто, МПК это они еще добавили, но совсем немного

Всего: 9203