Мусор в очереди на индексацию роботом Я

12
HoSStiA
На сайте с 18.02.2004
Offline
144
1447

После того, как внезапно главным зеркалом стал сайт без "www", и индекс для всего домена обнулился, решил воспользоваться случаем и понаблюдать за телодвижениями робота Я на этом домене. Да и за процессом возвращения в индекс.

Публикую в основном форуме, так как это касается работы ПС в целом (выпадение позволило провести "эксперимент").

Думаю, что из этих наблюдений можно сделать некоторые полезные выводы:

1). Сразу после выпадения, и до сегодняшего дня (прошла ровно неделя), стиль захода робота "I" качественно изменился. Если раньше это происходило достаточно равномерно в течение всех суток, теперь индексация происходит только в ночное/утреннее время, двумя "волнами". Первая - короткая, ~30 минут, начинается либо в 2 ночи, либо в 5 утра. Вторая - длинная, 1-1.5 часов, наблюдается либо между 5-7 утра, либо между 7-9 утра.

Робот пытается проиндексировать порядка 1500 страниц в сумме.

Новые страницы ему практически не известны, так как он в упор не видит "морду". Возможно потому, что следуя любезной рекомендации Платона попытался вернуть основное зеркало на место, т.е. на www. через robots.txt.

Все, что пытается сейчас проиндексироваться, судя по всему берется из следующих источников:

a). Свежие ссылки с форумов ("естественные")

б). Прямые ссылки с сайтов, размещающих прайс-лист и тянущих информацию через YML-коннекторы

в). Гипотетическая очередь на индексацию поисковым роботом, о чем хотелось бы рассказать подробнее:

Робот упрямо и ежедневно пытается обратиться к скриптам, которые были удалены с сайта еще в 2003(!!!) году и с тех пор выдавали строго 404. В основном, это старый скрипт форума. Причем индексировать несуществующие страницы пытается "по-взрослому" - например, проходится последовательно по нумерованным индексам постов в формум или записям каталога "блоками" по 20-30 записей.

Как уже сказал с самого начала, индекс для домена был обнулен полностью. Возможно, где-то в недрах Я и хранится резервная копия старого индекса, но зачем тогда в течение трех лет в нем хранить страницы, которые уже не существуют? И пускать их на переиндексацию именно сейчас, когда формально для системы этого домена уже не существует?

Создается впечатление, что очередь на индексацию живет собственной жизнью, иногда обращаясь к основному индексу за "свежим мясом". В отсутствии такового начинает рыться по собственным закромам, чтобы не сидеть без дела. Соответственно, кроме мусора там мало чего полезного. Со стороны Google и Rambler ничего не похожего не наблюдаю.

Возможно, именно поэтому после бана робот Я продолжает индексацию сайтов.

2). Основное зеркало сайта было возвращено в индекс после апдейта 06.11 .

Морда + "глубоко" зарытых вовнутрь ~750 страниц. Внутреннее ссылочное полностью утеряно, по НЧ эти страницы появляются в выдаче сразу после аналогичных экспериментального сайта-копии, который давно уже ведет собственную "жизнь" (внешние ссылки на копию не проставлялись специально, по каталогам не прогонялся).

По ВЧ морда вернулась на позиции, которые занимала до выпадения.

Deni
На сайте с 15.04.2006
Offline
355
#1

Подтверждаю.

Робот больной на весь свой код :)

Аналогично ходит и кушает несуществующие давно страницы.

Ладно кушает.......... Он их еще и в индексе выдает........

404 корректно отдается, в robots.txt несуществующие страницы закрыл от индексации.

Платону писал............... все побоку.

HoSStiA
На сайте с 18.02.2004
Offline
144
#2
Deni:
Платону писал............... все побоку.

Платон - "эрудит" службы технической поддержки, и к разработке ПС, насколько я понял интервьюированного недавно Садовского, имеет посредственное отношение. =)

В функции Платона(-ов), кроме отписки (конструктивной и не очень), явно входят и функции Фунта из "Золотого теленка" - щадить "нервы" разработчиков и руководителей отделов, от поступающих жалоб на косяки системы. Оно, может, и правильно, но не очень конструктивно. Тяжко, наверное, выполнять и функции "палача", и оператора "службы спасения".

Больше непонятно другое, почему Яндекс призывает "Создавать сайты для людей, а не для роботов", при этом упуская из виду, что вебмастера - тоже люди, и усложнять им жизнь некорректной работой ПС тоже не следует.

Deni
На сайте с 15.04.2006
Offline
355
#3

HoSStiA, Александр Садовский сам писал что в подобных ситуациях надо писать платону.

Отписал......... бесполезняк.

BigBrother
На сайте с 16.06.2006
Offline
96
#4
Deni:
Подтверждаю.
Робот больной на весь свой код :)

Аналогично ходит и кушает несуществующие давно страницы.
Ладно кушает.......... Он их еще и в индексе выдает........
404 корректно отдается, в robots.txt несуществующие страницы закрыл от индексации.

Платону писал............... все побоку.

Адреса в личку - посмотрю.

So many kings, but few jokers!
T
На сайте с 02.11.2006
Offline
5
#5
Deni:
Аналогично ходит и кушает несуществующие давно страницы.
Ладно кушает.......... Он их еще и в индексе выдает........
404 корректно отдается, в robots.txt несуществующие страницы закрыл от индексации.

Будьте добры, покажите, пожалуйста, сайт.

Хотелось бы посмотреть.

Deni
На сайте с 15.04.2006
Offline
355
#6

Вопрос был решен ............. Решен был кардинально :)

Робот больше не индексирует несуществующие страницы ......... он больше вообще ничего не индексирует :)

Забыл дорогу к нам...... А в день 50-80 новых страниц на сайт добавляется :(

ЗЫ А старый мусор так в индексе и остался :(

HoSStiA
На сайте с 18.02.2004
Offline
144
#7
Deni:
Вопрос был решен ............. Решен был кардинально :)

Робот больше не индексирует несуществующие страницы ......... он больше вообще ничего не индексирует :)


Забыл дорогу к нам...... А в день 50-80 новых страниц на сайт добавляется :(

ЗЫ А старый мусор так в индексе и остался :(

Стало быть, иногда лучше "проругаться" не в курилках, а прямо здесь! =)

Как видно, помогает =))))) но иногда только как повод для трехэтажного мата =)))

V
На сайте с 21.06.2006
Offline
168
vii
#8
Deni:
Вопрос был решен ............. Решен был кардинально :)

Робот больше не индексирует несуществующие страницы ......... он больше вообще ничего не индексирует :)


Забыл дорогу к нам...... А в день 50-80 новых страниц на сайт добавляется :(

ЗЫ А старый мусор так в индексе и остался :(

Лучшее средство от головной боли это гильотина. Кардинальное 100%-ное решение вопроса. :)

Нечего было на жизнь жаловаться...

Лучше заниматься дурью, чем маяться делом Продажа дури для спутникового телевидения (http://www.uni-sat.ru)
HoSStiA
На сайте с 18.02.2004
Offline
144
#9
vii:
Лучшее средство от головной боли это гильотина. Кардинальное 100%-ное решение вопроса. :)
Нечего было на жизнь жаловаться...

Заблуждаетесь, уважаемый. =)

Если налицо недостатки, которые лучше исправить сейчас, чем спустя год или два - надо исправлять по горячим следам.

А кардинальное 100%-ное решение вопроса - уехать в деревню, заняться фермерством, и наплевать на многое что еще, окромя Яндекса ;)

HoSStiA
На сайте с 18.02.2004
Offline
144
#10

Решение вопроса не столько кардинальное, сколько оригинальное. 🍾

Я их понял! Когда был сис-админом, по-молодости, тоже так делал (на почтовом сервере) во время вирусных эпидемии в локалке. Когда в очереди много мусора - ее проще грохнуть целиком! =))))

Короче говоря, за проявленную инициативу, мы с Deni ждем очередного считывания морды, затем начнут индексировать все в пределах одного клика. И т.д.

=)))))))))))))))))))))))))

Как ни верти, вторые сутки - ни одного визита "I". Причем все остальные заходят - и "Ine", и "Dyatel; C", и даже "P" вчера под конец дня развил небурную, но деятельность. ;)

Значит, теперь все будет ХО-РО-ШО! И это радует =))))) Радует и то, что на _той_ стороне еще остались _обычные_люди_, а не только роботы-автоматы ;) Почерк характерный ...

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий