Яндекс: индексация, вылет, индексация — период

12
samimages
На сайте с 31.05.2009
Offline
427
546

Здравствуйте, господа!
Нужна помощь вот в чем:
У Яндекса есть некий пул известных ему страниц, которым он присваивает тот или иной статус.
Получить этот список можно скачав архив из ЯВМ (все страницы)
Часть страниц из этого списка будет иметь статус  BAD_QUALITY - такие страницы не попадают в поиск Яндекса.
Внутри статуса  BAD_QUALITY, в другом отчете (исключенные страницы), мы можем обнаружить статус  LOW_DEMAND
LOW_DEMAND - страницы в том числе с низким поисковым спросом.
Достоверно известно, что эти страницы с течением времени удаляются из Яндекса (не из поиска, а вообще)
Так же достоверно известно, что они в последствии добавляются как новые, как будто никогда небыли в индексе.

Вопрос: кто-то заморачивался периодами этих событий?
т.е. через какой срок страница удаляется из индекса, и через какой срок становится из "б/у", "новой"?

Сейчас имею контрольные точки, но решил поинтересоваться вашим опытом.
Во-первых сэкономить время
Во-вторых периоды могут отличаться

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
Антоний Казанский
На сайте с 12.04.2007
Online
617
#1
samimages :
Вопрос: кто-то заморачивался периодами этих событий?
т.е. через какой срок страница удаляется из индекса, и через какой срок становится из "б/у", "новой"?

Привет, Сереж! 🤝

Именно периодами - нет, потому что в общем срезе средний показатель возврата будет зависеть от объёма выборки.

В перечень факторов добавляется поисковая очередь, квота, структурная конфигурация, позиция в моменте, объём страниц, объем дублей, возможные технические ошибки, стат. факторы страницы, посещаемость и т.д. Т.е. ты гоняешься за совершенно ненужным показателем - это всё равно что анализировать статистику погоды и выводить средние значения по периодам наибольший отклонений атмосферного давления. Для статистики оно может и нужно, но для практического применения обычным людям бессмысленно.

По факту, как ранее исключённая страница набирает достаточно сигналов для повторного добавления в индекс (и как только до неё доходит очередь, среди прочих) - она появляется. В анализе отдельной страницы это может быть и день, и несколько дней, и неделя и месяц. Что даст тебе конкретика, когда одна страница A появилась на следующий день, а интересующая тебя страница Б только через неделю? Что будешь считать средним? У прочих страниц может быть свой период, который обусловлен вышеизложенными факторами.


samimages :
Сейчас имею контрольные точки, но решил поинтересоваться вашим опытом.
Во-первых сэкономить время
Во-вторых периоды могут отличаться

Делюсь каждодневным опытом :) Рабочий вопрос должен звучать не "когда", рабочий вопрос должен звучать - "как и в каком объёме организовать работу, чтобы вернуть необходимую выпавшую массу страниц в индекс", причём не так, чтобы через неделю она опять выпала, а так чтобы постепенно уменьшать базу страниц  BAD_QUALITY и LOW_DEMAND переводить их в рабочий актив сайта.

Тебя возможно интересует минимальный рабочий интервал, отвечу - были случаи, что и за сутки.

Сейчас залезу в рабочий проект, ну, вот, пожалуйста,


Два апа к ряду.

Я просто определяю рабочий перечень, провожу сортировку и приоритизацию и начинаю работу.

На небольших, но хорошо прокаченных сайтах - это может быть в интервале 2-3 суток, на каких-нибудь больших проблемных проектах, где половина страничного объёма могут быть разного рода дубли возврат может быть и неделю. 

В сущности я делаю так. Обработал - отправил на переобход и всё. Дальше ждёшь результатов.

Прыгнуть выше головы сделать больше предела технических возможностей ПС ты всё равно не сможешь, поэтому делай максимум из того что тебе доступно и оценивай результаты.

Периоды самые, самые различные. Когда выполнишь с десяток подобных итераций в течение нескольких месяц, дальше уже сам будешь знать и примерно чувствовать усредненные показатели по конкретному сайту.

 

√ SEO продвижение https://akazansky.ru - экспертный аудит сайтов ( https://akazansky.ru/audit-sajtov ), внедрение эффективных решений цифрового маркетинга. Обучение автоматизации с помощью Zennoposter https://goo-gl.me/6Zypu
Vladimir
На сайте с 07.06.2004
Offline
531
#2
samimages :

т.е. через какой срок страница удаляется из индекса, и через какой срок становится из "б/у", "новой"?

Почему она должна удаляться из индекса?

PS Удаляются единичные. Идем смотрим, что не так, правим, отправляем "взад". Практически сразу восстановление.
Можно и за минуту вернуть, при желании

Аэройога ( https://vk.com/aeroyogadom ) Йога в гамаках ( https://vk.com/aero_yoga ) Аэройога обучение ( https://aeroyoga.ru ) и просто фото ( https://weandworld.com )
samimages
На сайте с 31.05.2009
Offline
427
#3
Привет, Антоний!
Все правильно понимаешь, но вопрос именно технический.
В твоем примере ты не учел, что я говорю не об изменении статуса внутри индекса, а о сроке, за который она вообще вылетает из него. Вообще из Яндекса, как небыло. Как баны начала 2000-х.

Ну и речь идет о парсинге конечно, бессмысленном и беспощадном сотни тысяч страниц под нулевые запросы... там   LOW_DEMAND прям гарантирован)))

Базовая загадка другая.
Представь есть проект 10 лет, миллион страниц.
В яндексе 300 000 в индексе 150 000.
Вопрос в контексте темы: 300 000 это не проиндексированный за 10 лет миллион или ликвидный остаток от него?

Алгоритмически Яндекс не переобходит выкинутые таким образом страницы; на промежутке в полгода/год я не увидел ни одного случая, но если добавить руками, начинает историю такой страницы с момента добавления

samimages
На сайте с 31.05.2009
Offline
427
#4
Vladimir #:
Почему она должна удаляться из индекса?

Ну а я-то откуда знаю? Может у него проблемы с хардами))))
То что  BAD_QUALITY удаляется из индекса - факт. Причем тысячами, а не штуками.

Потому и стало интересно спросить у опытных людей. В одну калитку такое трудно осмыслить)))

Антоний Казанский
На сайте с 12.04.2007
Online
617
#5
samimages #:
Ну и речь идет о парсинге конечно, бессмысленном и беспощадном сотни тысяч страниц под нулевые запросы... там   LOW_DEMAND прям гарантирован)))

Ну, тут либо удалять физически, либо имитировать ПФ, если задача продвинуть страницы под формирующийся спрос.


samimages #:
Вопрос в контексте темы: 300 000 это не проиндексированный за 10 лет миллион или ликвидный остаток от него?

Исходя из твоего описания - это объём загруженных страниц.

Для миллионника - это крайне маленький объём. Но тут встаёт вопрос объём полезного актива, потому что там может быть добрая половина неполных дублей из каких-нибудь товарных фильтров.


samimages #:
Алгоритмически Яндекс не переобходит выкинутые таким образом страницы; на промежутке в полгода/год я не увидел ни одного случая, но если добавить руками, начинает историю такой страницы с момента добавления

Понятное дело. Если проект миллионник, а робот обходит только по трети от объёма, то очередь на обработку там может быть на долгие месяцы.


По поводу скрина - вероятнее всего данные о переобходе страницы были уже стёрты к моменту, когда ты её добавил.

Помним, Яндекс экономит ресурсы, поэтому ему не нужно хранить всё, а значит за определённые период времени невостребованные страницы он может вообще обнулять по статистике. Вот как роботу не надо ходить по той доле страниц, которая не попадает в 300K, также ПС не надо хранить статистику по невостребованным ею страницам.

Теперь я понимаю фокус твоего вопроса, надо тебе было сразу изложить детали и приложить скриншот :)

Так что она не вообще вылетает, а статистка по ней просто очищается.

Антоний Казанский
На сайте с 12.04.2007
Online
617
#6
samimages #:
То что  BAD_QUALITY удаляется из индекса - факт. Причем тысячами, а не штуками.

Где-то пару лет назад на аудите был проект. Крупный интернет магазин, товарное наполнение порядка 4 мнл.

Что примечательно, включается РК в Директе - объём индексации резко подскакивает - в индекс за ап залетает десятки тысяч страниц. РК заканчивая - от апа к апу тысячами и десятками тысяч идёт вылет и такие качели годами.

Vladimir
На сайте с 07.06.2004
Offline
531
#7
samimages #:

Понятное дело. Если проект миллионник, а робот обходит только по трети от объёма, то очередь на обработку там может быть на долгие месяцы.

Для начала, Уменьшить обьем обхода за счет настройки last-modifird
Существует такое на сайте?

samimages
На сайте с 31.05.2009
Offline
427
#8
Антоний Казанский #:
а значит за определённые период времени невостребованные страницы он может вообще обнулять

Вот. Не только может, но и делает. Пытаюсь выяснить за какой период))) но чую придется самому высчитывать, хотя странно...
У нас тут Поставкин? Не помню ник, человек с магазинами плитки по-моему, у него эта проблема должна стоять ребром)))
Может объявится))

Антоний Казанский
На сайте с 12.04.2007
Online
617
#9
samimages #:
Пытаюсь выяснить за какой период))) но чую придется самому высчитывать, хотя странно...

А что это тебе в сухом остатке даст?

Ну допустим, за 2 года полного игнора страницы.

Твоя сторона вопроса - это всё равно ответная реакция на твою попытку реанимировать страницы в индексе. Тут либо "да", либо "нет". Начальный статус (даже если он был когда-то обнулён) всё равно потом заместить актуальной информацией.

samimages
На сайте с 31.05.2009
Offline
427
#10
Vladimir #:

Для начала, Уменьшить обьем обхода за счет настройки last-modifird
Существует такое на сайте?

Да это да. У меня вопрос больше о опыте вылета, а не о решении. Наверняка кто-то кроме меня тоже обращал внимание на эту особенность яндекса.

Так-то, кроме last-modified, можно часть совсем стремных сразу закрывать от индексации по семантическим отчетам - это все автоматизируется на раз.

Но, повторюсь, меня удивило, то что он именно выкидывает страницы из-за чего их количество в ЯВМ на отрезке времени вообще становится не информативным. т.е. ты видишь что у тебя индексация 40% от объема сайта, начинаешь править модифид, а это на самом деле остаток. Этот гаденыш проиндексировал 100%, но 60% выкинул и больше не переобходит.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий