гугл не смотрит на роботс.тхт?

12
[Удален]
975

ДО индексации сайта составил и залил роботс.тхт на сайт

гугл его обнаружил и он появился в панели вебмастера на второй день после создания (в панели все строки файла отображались верно, ни одной не было пропущено) я думал, что все нормально

что имеем на сегодняшний день - гугл полностью игнорирует мой роботс, гуляет по запрещенным страницам, ВЫКЛАДЫВАЕт их в индекс ДЕСЯТКАМИ. при этом вместо описания страницы стоит вот это "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

то есть он ЗНАЕТ, что я запрещаю эти страницы к поиску, но при этом с радостью их в этот поиск выкладывает, и ладно бы одну страничку случайно, но десятками..

как с этим бороться вообще?

LM
На сайте с 28.04.2012
Offline
7
#1

Удалять через ВМТ, может второй раз не полезет.

[Удален]
#2

а если просто ждать, он их удалит?

---------- Добавлено 21.08.2012 в 21:17 ----------

в гугл вебмастере есть функция просмотра страниц "глазами гуглбота"

туда забиваю заблокированные страницы и...Страницу не удалось просканировать, так как она заблокирована с помощью robots.txt. Подробную информацию см. в статье Справочного центра о robots.txt.

ну так каког ж черта он их выкладывает, спрашивается..

---------- Добавлено 21.08.2012 в 21:21 ----------

вообще есть такая мысль

что я пока заливал сайт, доработки последние на нем делал, (и пока роботса еще не было) гугл успел зайти и просканировать сайт, и теперь эти страницы выкладывает. но это был ПЕРВЫЙ день регистрации домена, и я его никуда не добавлял. но гугл возможно настолько быстрым бывает..

в таком случае просто ждать? если он их до появления роботса закачал, может поэтому и выкладывает, и скоро удалит как поймет что все же они запрещены?

IL
На сайте с 20.04.2007
Offline
435
#3
webmbilo:
ну так каког ж черта он их выкладывает, спрашивается..

Не так давно в обсуждениях было такое

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы могут появиться в результатах поиска Google.

В том же посте решение от гугла

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag.
... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )
[Удален]
#4

ну у меня другая ситуация похоже

он просто шустро успел сайт просканировать, до того как я роботс залил

(я выше описал ситуацию)

в таком случае мне просто подождать? или лучше запросы на удаление из поиска им отправлять?

IL
На сайте с 20.04.2007
Offline
435
#5
webmbilo:
ну у меня другая ситуация похоже

Конечно другая.. по ссылке на английском:

A description for this result is not available because of this site's robots.txt – learn more.

что в корне отличается от Вашего

webmbilo:
при этом вместо описания страницы стоит вот это "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

Речь о том, что страницы, запрещённые в robots.txt в индексе будут висеть. Рекомендую ещё разок почитать.

[Удален]
#6

поясните пожалуйста в чем отличие между

A description for this result is not available because of this site's robots.txt – learn more.

и

"Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

учитывая, что это одна и та же фраза просто на разных языках?

E
На сайте с 21.09.2009
Offline
283
#7

webmbilo, уже писал. очень часто возникает ситуация что несмотря на наличие в роботс запрета на сканирование бот добавляет страницы в ПС. Это происходит по разным причинам. Главная как я понял есть минимум два бота один пробегает собирает ссылки, второй уже бегает по сайту. Что делать? Поставить в страницу noindex как и писали выше и удалить из роботс запрет на индексацию. Бот придет просканирует страницу увидит запрет на индексацию и выкинет ее из индекса. Это работает для бота гугла как с яшей я незнаю.

LM
На сайте с 28.04.2012
Offline
7
#8
webmbilo:
ну у меня другая ситуация похоже
он просто шустро успел сайт просканировать, до того как я роботс залил
(я выше описал ситуацию)
в таком случае мне просто подождать? или лучше запросы на удаление из поиска им отправлять?

Была подобная ситуация. Страниц в индексе у Яши 3к, а у Гугла было 27к. Дублей немеряно (генерились то компонентами то хрен знает чем и как их Гуглбот находил). Все было пофиг, пока не начался весь этот зверинец с Пандами и Пингвинами. Сейчас вот тоже борюсь с этим всем. Написал Роботс нормально, а также много удаляю руками через ВМТ (потому что по куску текста с раздела дубли всплываю выше. Потому смотрите сами. Ждать пока он их сам выкинет из индекса наверное будет очень долго.

[Удален]
#9

это страница вида site.ru/article/feed/

она по сути без контента сама

ее через google reader или что-то подобное надо открывать чтобы прочитать

на нее я даже не знаю как поставить noindex

Devvver
На сайте с 02.07.2008
Offline
683
#10

гугл часто игнорит роботс, мало того, индексирует его с большой охотой, стоит только дать на него ссылку.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий