Как отвадить робота от переобхода мусорных страниц

123 4
A6
На сайте с 02.09.2019
Offline
69
#11
Антоний Казанский #:

Верно. Рабочая очередь - это уже то, что принято к исполнению.

p.s. Многократно сталкивался.

Вот конкретно сейчас рабочая ситуация - написал ТЗ-шку программисту поправить сломавшийся sitemap.xml (по этого всё нормально работало), а программист никому ничего не говоря вообще решил обновить шаблон Аспро Битрикса и затянул туда кучу рекламных данных. Я смотрю у меня на дня в индекс пачками полетели левые разделы, которые после обновления насоздавались в каких-то абсолютно левых разделах. Cмотрю в новый sitemap.xml - а там весь этот мусор тоже подключен.

Всё закрыл, всё удалил, всё поправили, нигде левых данных нет, а Яндекс всё равно ходит по левым адресам. Бестолково и бессмысленно ходит, получая 410, а всё равно ходит, потому что очередь на переобход уже создана. 

И обновление рабочих данных пока не помогает. Впрочем, нестрашно, походит и успокоится.

Так причем тут рабочая очередь? Год разными методами выгоняю и ничего. Год же, а не вот вот. О сайтмапе речи даже никогда не шло. Их там не было. Ноуиндекс, 404, 410, роботс, индекснау - все из этого не работает. Я не говорю про индекс, я говорю про ботов яндекса из всех щелей, которым год на все пофиг. Еще так же замечено, при склейки полтора года назад домена, из "загруженных" яндекс не может выкинуть страницы. Полтора года.

Антоний Казанский
На сайте с 12.04.2007
Offline
619
#12
Andrew666 #:
Год разными методами выгоняю и ничего. Год же, а не вот вот.
Andrew666 #:
я говорю про ботов яндекса из всех щелей, которым год на все пофиг

Значит есть источники сигналов, которые провоцируют поисковых роботов.

Сама по себе ПС по левым адресам их не генерирует, должны быть причины. А причин масса - внешние ссылки, внутренние ссылки (особенно что касается адресации, которые генерируют шаблоны, компоненты и т.д.). 

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Vladimir
На сайте с 07.06.2004
Offline
531
#13
Антоний Казанский #:

Сама по себе ПС по левым адресам их не генерирует, должны быть причины.

Он написал причину))

Andrew666 #:

Полтора года.

а выше в посте решение,
а на графике удаление  как раз "при склейке"

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
A6
На сайте с 02.09.2019
Offline
69
#14
Vladimir #:

а выше в посте решение,

Какое решение? 2 разные ситуации. По склейке и по обходу удаленных страниц. Либо я что-то не понял

Антоний Казанский
На сайте с 12.04.2007
Offline
619
#15
Vladimir #:
Он написал причину))

Мой предыдущий ответ был не в адрес ТС, а для Andrew666. 

A6
На сайте с 02.09.2019
Offline
69
#16
Антоний Казанский #:

Мой предыдущий ответ был не в адрес ТС, а для Andrew666. 

Антоний Казанский #:

Значит есть источники сигналов, которые провоцируют поисковых роботов.

Сама по себе ПС по левым адресам их не генерирует, должны быть причины. А причин масса - внешние ссылки, внутренние ссылки (особенно что касается адресации, которые генерируют шаблоны, компоненты и т.д.). 


Andrew666 #:

Аналогичная беда (правда причина не взлом, а мой косяк с вложенностью урлов, который просуществовал не более 5 минут), яндекс ходит по ним ГОД!!!

Ходит и стандартный бот и фетчер тысячами в день, хотя урлов чуть больше 200. 404 не помогают 410 не помогают.



Как мою проблему связать с вашей подсказкой так и не понял

Антоний Казанский
На сайте с 12.04.2007
Offline
619
#17
Andrew666 #:
Как мою проблему связать с вашей подсказкой так и не понял

Еще раз.  Значит есть источники сигналов, которые провоцируют поисковых роботов.

Сканируйте сайт, изучайте код, наверняка где-то в слепой для вас зоне движок продолжает генерировать ненужные URL.

Полтора года слишком большой срок, чтобы хранить в очереди короткий рабочий эпизод.

Уверен, есть ссылки, которые провоцируют эти переходы, просто так робот ходить не будет, ищите.

A6
На сайте с 02.09.2019
Offline
69
#18
Антоний Казанский #:

Еще раз.  Значит есть источники сигналов, которые провоцируют поисковых роботов.

Сканируйте сайт, изучайте код, наверняка где-то в слепой для вас зоне движок продолжает генерировать ненужные URL.

Полтора года слишком большой срок, чтобы хранить в очереди короткий рабочий эпизод.

Уверен, есть ссылки, которые провоцируют эти переходы, просто так робот ходить не будет, ищите.

Увы, суровая реальность яндекс бота. ИМЕННО ЯНДЕКСА. Гугл, бинг и прочее туда не идет без недели год.

Антоний Казанский
На сайте с 12.04.2007
Offline
619
#19
Andrew666 #:
Увы, суровая реальность яндекс бота. ИМЕННО ЯНДЕКСА. Гугл, бинг и прочее туда не идет без недели год.

Это не отменяет вышенаписанное. Здесь важно понять, что любые рабочие процессы запрограммированы и все они имеют причинно-следственные связи. 

Просто так Яндекс не будет тратить ресурсы на обход бесполезных URL-ов, если робот ходит, значит есть стартовые импульсы туда идти и этот импульс не возникает на пустом месте. Значит есть источники, которые ссылаются на давно удалённые вами страницы.

Скорее всего это генерируется в результате не удалённых данных, либо других ошибок в навигации, которые генерируются в коде, а в видимой части сайты вы их не видите.

br.almighty
На сайте с 13.07.2021
Offline
62
#20

Может у вас метрика установлена на 404 страницах и включен обход по счетчикам? Я когда-то  пробовал устанавливать счетчик на 404 страницы, так яндекс постоянно находил страницы, которых никогда не было нигде в принципе.

И если вас умудряется яндекс заддосить, то стоит задуматься или об оптимизации, или об качестве хостинга, или о расширении мощностей. Ну это так, общий совет для всех.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий