robots.txt Яндекс время индексация (подробно внутри))

samimages
На сайте с 31.05.2009
Offline
427
1694

Здравствуйте!

Суть такова!

1.Есть сайт, который в свое время содержал много страниц и т.д.

2.В панеле вебмастера проиндексированных страниц, ну скажем 1000

3.В роботсе 800 закрыто и на сайте их нет.

4.роботс похож теперь на сточную канаву с 800 штуками disalow (типо структура у сайта такая)

5.по удаленным страницам сервер отдает 200, или скрипт перекидывает на главную, но с адресом удаленной страницы

Таким образом в поиске 200 страниц. Все правильно?! Да! Но это только условие задачи.

вопрос

Можно ли, со временем, очистить robots.txt?

или Яндекс может перепроверить исключенные страницы и правильней не очищать?

пример утрирован для простоты понимания

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
T
На сайте с 07.12.2006
Offline
91
#1

вы каждую страницу заносили в роботс вручную? (постранично)

Обычно то что нужно исключить (директорию, группу страниц - например облегченную версию или _price) - можно исключить одной строкой.

Объем роботса (в разумных пределах) никак сайту не навредит.

Он постоянно проверят роботс, исключите исключения - он снова вернет все в индекс.

Посмотрите что можно сгруппировать и группой запрещайте. (у меня 3-мя строчками - исключает порядка 5тыщ страниц)

IV-й
На сайте с 23.06.2009
Offline
159
#2
samimages:
скрипт перекидывает на главную, но с адресом удаленной страницы

Не понятно

Зачем закрывать в роботс, если там редирект? Настройте ответ сервера 404, вместо 200 ОК и само выпадет, а лучше редиректы настроить.

[Удален]
#3

samimages, вы хотите чтобы страницы исчезли из загруженных роботом? не поможет ничего и не помогает уже больше полугода. У меня страницы удалены, роботу возвращают 404, запрещены в роботсе... но висят как пришпиленные. Почему? ХЗ... наверное есть на это мощностя теперь... может чтобы в другом месте не всплыли?

ЗЫ. Да, кстате... Яндекс в роботсе уже с год как понимает маски типа *

T
На сайте с 07.12.2006
Offline
91
#4
jorevo:
У меня страницы удалены, роботу возвращают 404, запрещены в роботсе... но висят как пришпиленные.

Этот грешок давно за ним наблюдался.

samimages
На сайте с 31.05.2009
Offline
427
#5

уточняю.

вопрос не про то, как надо делать с сервером или сайтом, а конкретно про очистку robots-a и вероятность повторного обхода страниц по адресам исключенным из поиска на основании того, что они закрыты были в роботсе

ЗЫ. Да, кстате... Яндекс в роботсе уже с год как понимает маски типа *

пример утрирован! Нет маски, чисто 800 строк.

Зы: очистка скажем через год, после удаления страниц из индекса Яшки.

Зызы: интересует именно Яшка

Vizavi
На сайте с 31.08.2008
Offline
145
#6
samimages:
уточняю.
а конкретно про очистку robots-a и вероятность повторного обхода страниц по адресам исключенным из поиска на основании того, что они закрыты были в роботсе

Если конкретно, то запрещены в роботсе - не полезет, открыли - полезет (с учётом того, конечно, что на эти страницы есть ссылки). у меня 2 года была директория запрещена в роботс, как только убрал запрещение, сразу всё проиндексировалось из неё.

Большой брат следит за тобой.
samimages
На сайте с 31.05.2009
Offline
427
#7

Vizavi, понятно.

Давайте все вместе еще разок. Пример выдуман

В панеле веб мастера Яндекса есть количество проиндексированных страниц и есть количество страниц, которые учавствуют в поиске.

Количество проиндексированных страниц, это все страницы, которые когда либо были на сайте.

Нормальные сайты развиваются.

Одни страницы удаляются с сайта, другие добавляются и т.д.

Представьте ситуацию, что в период с 2008 по 2010 год, вы закрыли в robots.txt

800 страниц (без масок), ссылок на сайте на них нет, часть из них удалена, но ответ сервера 200, адреса других транслируют главную.

вопрос при этих условиях можно очистить robots.txt в августе 2011 или есть вероятность проверки Яндексом своего старого индекса, не страниц в поиске, а индекса?

Неужели никто не сталкивался?.. ну или не задумывался над этим?

samimages добавил 24.08.2011 в 02:00

jorevo, не 100%, но ориентируясь на дату вашей регистрации и репутацию, могу перефразировать ваш ответ до понятного следующим образом.

пока страницы есть в индексе Яндекса (не в поиске, а индексе), robots должен запрещать!

правильно понял?

[Удален]
#8

ТС, Яндекс не станет индексировать страницы, если они отдают 404-й ответ, или запрещены в robots.txt, и если с них стоит 301-й редирект на другой адрес.

Все что не запрещено - Яндекс проиндексирует. Они недавно очень доходчиво это объяснили (про ситуации с смс-ками и личными данными, я думаю, вы слышали).

пока страницы есть в индексе Яндекса (не в поиске, а индексе), robots должен запрещать!

Именно так.

samimages
На сайте с 31.05.2009
Offline
427
#9

Вот и я так думаю. Просто была уверенность, что кто-либо сталкивался с этим. Ну, что давно удаленные с сайта страницы "возвращались".

когда коту делать нечего он... "филолог", ты меня понял!

Joker-jar
На сайте с 26.08.2010
Offline
154
#10
часть из них удалена, но ответ сервера 200

Имхо, у сайта должно быть конечное число существующих страниц.

Если страница удалена (запрещена к индексированию), Яндекс её выкидывает с индекса, но поначалу иногда её стукает. При этом в Яндекс вебмастере указывается причина исключения. Если ссылка на эту страницу нигде не палится, то со временем Яндекс перестает ее опрашивать, а еще позже (если верить хелпу Яндекса) она пропадет и со списка исключенных страниц.

Но если где-то есть ссылка на страницу, ее следует держать закрытой (роботс, 404, ноиндекс...) постоянно.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий