гугл не смотрит на роботс.тхт?

[Удален]

21 августа 2012, 16:28

995

ДО индексации сайта составил и залил роботс.тхт на сайт

гугл его обнаружил и он появился в панели вебмастера на второй день после создания (в панели все строки файла отображались верно, ни одной не было пропущено) я думал, что все нормально

что имеем на сегодняшний день - гугл полностью игнорирует мой роботс, гуляет по запрещенным страницам, ВЫКЛАДЫВАЕт их в индекс ДЕСЯТКАМИ. при этом вместо описания страницы стоит вот это "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

то есть он ЗНАЕТ, что я запрещаю эти страницы к поиску, но при этом с радостью их в этот поиск выкладывает, и ладно бы одну страничку случайно, но десятками..

как с этим бороться вообще?

LM

7

LeonidMK

21 августа 2012, 16:54

#1

Удалять через ВМТ, может второй раз не полезет.

[Удален]

21 августа 2012, 17:10

#2

а если просто ждать, он их удалит?

---------- Добавлено 21.08.2012 в 21:17 ----------

в гугл вебмастере есть функция просмотра страниц "глазами гуглбота"

туда забиваю заблокированные страницы и...Страницу не удалось просканировать, так как она заблокирована с помощью robots.txt. Подробную информацию см. в статье Справочного центра о robots.txt.

ну так каког ж черта он их выкладывает, спрашивается..

---------- Добавлено 21.08.2012 в 21:21 ----------

вообще есть такая мысль

что я пока заливал сайт, доработки последние на нем делал, (и пока роботса еще не было) гугл успел зайти и просканировать сайт, и теперь эти страницы выкладывает. но это был ПЕРВЫЙ день регистрации домена, и я его никуда не добавлял. но гугл возможно настолько быстрым бывает..

в таком случае просто ждать? если он их до появления роботса закачал, может поэтому и выкладывает, и скоро удалит как поймет что все же они запрещены?

Google: статус «Обнаружена, но UPD: Google+: контролируем поток В Ahrefs выяснили, насколько

IL

435

ivan-lev

21 августа 2012, 17:23

#3

webmbilo:
ну так каког ж черта он их выкладывает, спрашивается..

Не так давно в обсуждениях было такое

Хотя Google не сканирует и не индексирует содержание страниц, заблокированных в файле robots.txt, URL, обнаруженные на других страницах в Интернете, по-прежнему могут добавляться в индекс. В результате URL страницы могут появиться в результатах поиска Google.

В том же посте решение от гугла

Чтобы полностью исключить вероятность появления контента страницы в индексе Google, даже если на нее ссылаются другие сайты, используйте метатег noindex или x-robots-tag.

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )

[Удален]

21 августа 2012, 17:25

#4

ну у меня другая ситуация похоже

он просто шустро успел сайт просканировать, до того как я роботс залил

(я выше описал ситуацию)

в таком случае мне просто подождать? или лучше запросы на удаление из поиска им отправлять?

Google: после работ по Джон Мюллер рассказал, как В Ahrefs выяснили, насколько

IL

435

ivan-lev

21 августа 2012, 17:44

#5

webmbilo:
ну у меня другая ситуация похоже

Конечно другая.. по ссылке на английском:

A description for this result is not available because of this site's robots.txt – learn more.

что в корне отличается от Вашего

webmbilo:
при этом вместо описания страницы стоит вот это "Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

Речь о том, что страницы, запрещённые в robots.txt в индексе будут висеть. Рекомендую ещё разок почитать.

[Удален]

21 августа 2012, 17:50

#6

поясните пожалуйста в чем отличие между

A description for this result is not available because of this site's robots.txt – learn more.

и

"Описание веб-страницы недоступно из-за ограничений в файле robots.txt."

учитывая, что это одна и та же фраза просто на разных языках?

E

283

easywind

21 августа 2012, 17:59

#7

webmbilo, уже писал. очень часто возникает ситуация что несмотря на наличие в роботс запрета на сканирование бот добавляет страницы в ПС. Это происходит по разным причинам. Главная как я понял есть минимум два бота один пробегает собирает ссылки, второй уже бегает по сайту. Что делать? Поставить в страницу noindex как и писали выше и удалить из роботс запрет на индексацию. Бот придет просканирует страницу увидит запрет на индексацию и выкинет ее из индекса. Это работает для бота гугла как с яшей я незнаю.

Google: как скрыть сайт Оптимизация краулингового бюджета Google: Частое сканирование не

LM

7

LeonidMK

21 августа 2012, 18:05

#8

webmbilo:
ну у меня другая ситуация похоже
он просто шустро успел сайт просканировать, до того как я роботс залил
(я выше описал ситуацию)
в таком случае мне просто подождать? или лучше запросы на удаление из поиска им отправлять?

Была подобная ситуация. Страниц в индексе у Яши 3к, а у Гугла было 27к. Дублей немеряно (генерились то компонентами то хрен знает чем и как их Гуглбот находил). Все было пофиг, пока не начался весь этот зверинец с Пандами и Пингвинами. Сейчас вот тоже борюсь с этим всем. Написал Роботс нормально, а также много удаляю руками через ВМТ (потому что по куску текста с раздела дубли всплываю выше. Потому смотрите сами. Ждать пока он их сам выкинет из индекса наверное будет очень долго.

Почему страницы сайта выпадают Google рассказал, как 500 Автоматизация поиска клиентов для

[Удален]

21 августа 2012, 18:06

#9

это страница вида site.ru/article/feed/

она по сути без контента сама

ее через google reader или что-то подобное надо открывать чтобы прочитать

на нее я даже не знаю как поставить noindex

686

Devvver

21 августа 2012, 18:11

#10

гугл часто игнорит роботс, мало того, индексирует его с большой охотой, стоит только дать на него ссылку.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам