Запрещенные к индексации страницы все равно в выдаче

227

Chikago

30 марта 2010, 18:54

1437

Не могу понять, что происходит. Захожу в панель вебмастера, вижу в разделе запрещенный урл к индексации. URL, запрещенный файлом robots.txt 26.03.2010

Вбиваю этот урл в поисковик и вижу его в индексе, причем в выдаче по запросу тоже запрещенные урлы. Почему Гугл не торопится их закрывать??

И что делать в таком случае?

144

-=Spirit=-

30 марта 2010, 19:08

#1

Если урлов не сильно много киньте их на удаление в той же панельке вебмастера. 🚬

✔ Разработка и доработка сайтов на любых CMS, самописные решения. Опыт более 5 лет. (/ru/forum/863452)

I

29

Ippi

30 марта 2010, 19:30

#2

Chikago:
Захожу в панель вебмастера, вижу в разделе запрещенный урл к индексации. URL, запрещенный файлом robots.txt 26.03.2010

Вбиваю этот урл в поисковик и вижу его в индексе, причем в выдаче по запросу тоже запрещенные урлы. Почему Гугл не торопится их закрывать??

Строго говоря, в robots.txt прописывается не запрет к индексации, а запрет доступа для роботов, что далеко не одно и то же. Хотите запретить именно попадание в индекс — откройте страницы для роботов и пропишите туда noindex. Если страницы уже в индексе, запрос на удаление ускорит процесс.

И что это за раздел "запрещенный урл к индексации"? Насколько я помню, там фигурирует фраза "Заблокирован файлом robots.txt" ("Restricted by robots.txt" в англ. версии).

Google Updates - апдейты Google: блокировка страницы в Sape ввела возможность закрывать

258

Alex91

30 марта 2010, 19:42

#3

Ippi:
Строго говоря, в robots.txt прописывается не запрет к индексации, а запрет доступа для роботов, что далеко не одно и то же.

и в чем же разница? :) Вы пробовали добавить в addurl страницу такую? там напишет указанный url запрещен к индексации в robots.txt

C Уважением, Алексей

I

29

Ippi

30 марта 2010, 19:54

#4

Alex91:
и в чем же разница? Вы пробовали добавить в addurl страницу такую? там напишет указанный url запрещен к индексации в robots.txt

Вот, кстати, цитатка из Webmaster Tools Help:

Note that in general, even if a URL is disallowed by robots.txt we may still index the page if we find its URL on another site. However, Google won't index the page if it's blocked in robots.txt and there's an active removal request for the page.

Ну а если страница уже в индексе, то тут блокировать уж точно бесполезно, даже если её совсем удалить (собственно, робот об этом уже и не узнает, ведь ему запретили туда заглядывать). Сколько тут было топиков про непропадающие из индекса удалённые страницы, закрытые в robots.txt?

Кстати, ко второму предложению они забыли добавить, что срок действия запроса на удаление ограничен.

Так оно говорит не залогиненным юзерам:

Removals that are processed through this tool are excluded from Google search results for six months

А так — залогиненным:

Successful webpage removal requests will show a status of "Removed" and will be excluded from Google search results for a minimum of 90 days.

Но смысл в целом один и тот же.

Ippi добавил 31.03.2010 в 00:23

А ещё у страниц с noindex, не заблокированных в robots.txt, есть большое преимущество перед заблокированными — они не превращаются в чёрную дыру для PageRank'а, а накапливают и передают его обычным образом, хоть и виртуально отсутсвуют в индексе.

78

Trean

30 марта 2010, 22:02

#5

Chikago:
Не могу понять, что происходит. Захожу в панель вебмастера, вижу в разделе запрещенный урл к индексации. URL, запрещенный файлом robots.txt 26.03.2010

Вбиваю этот урл в поисковик и вижу его в индексе, причем в выдаче по запросу тоже запрещенные урлы. Почему Гугл не торопится их закрывать??

И что делать в таком случае?

Была такая проблема.

Суть в том, что Google сначала проиндексировал страницу, а потом вы закрыли ее через роботс. Да, робот туда больше не ходит, но это не повод сразу выбросить страницу из индекса.

Что бы решить проблему нужно вручную удалить адрес из индекса. Если их там не критично много, то это лучший выход из положения.

Ippi:
Строго говоря, в robots.txt прописывается не запрет к индексации, а запрет доступа для роботов, что далеко не одно и то же. Хотите запретить именно попадание в индекс — откройте страницы для роботов и пропишите туда noindex.

Доставили, спасибо 😂

Беру заказы на продвижение, также предлагаю качественные консультации и аудиты сайтов (обращаться в ЛС).

URL с типа ?route=information/contact, Как в моем случае Удаление get-параметров из URL

I

29

Ippi

30 марта 2010, 22:59

#6

Trean, вы никогда не видели страниц, закрытых в robots.txt, и попавших в индекс в виде одного лишь URL'а? И намёк в инструкции по удалению контента вас тоже ни в чём не убеждает?

А фрагмент интервью вам ни о чём не скажет, или вы из тех, кто считает, что Каттс обычно врёт, чтобы затруднить жизнь оптимизаторам?

Matt Cutts: Now, robots.txt says you are not allowed to crawl a page, and Google therefore does not crawl pages that are forbidden in robots.txt. However, they can accrue PageRank, and they can be returned in our search results.

In the early days, lots of very popular websites didn't want to be crawled at all. For example, eBay and the New York Times did not allow any search engine, or at least not Google to crawl any pages from it. The Library of Congress had various sections that said you are not allowed to crawl with a search engine. And so, when someone came to Google and they typed in eBay, and we haven't crawled eBay, and we couldn't return eBay, we looked kind of suboptimal. So, the compromise that we decided to come up with was, we wouldn't crawl you from robots.txt, but we could return that URL reference that we saw.

Eric Enge: Based on the links from other sites to those pages.

Matt Cutts: Exactly. So, we would return the un-crawled reference to eBay.

Eric Enge: The classic way that shows it you just list the URL, no description, and that would be the entry that you see in the index, right?

Matt Cutts: Exactly.

Ну а то, что удаление страниц по запросу не происходит навсегда, вас тоже не смущает?

Ippi добавил 31.03.2010 в 03:10

Во, можете даже видео посмотреть: Uncrawled URLs in search results.

227

Chikago

31 марта 2010, 05:26

#7

Спасибо тем, кто отписался. Попробую поставить на удаление. Весь прикол в том, что дома у меня запрещенный урл показывается в выдаче, а в офисе нормальный.

С чем такая фишка может быть связана? Разная выдача для разных провайдеров?

78

Trean

31 марта 2010, 09:50

#8

Chikago:
Спасибо тем, кто отписался. Попробую поставить на удаление. Весь прикол в том, что дома у меня запрещенный урл показывается в выдаче, а в офисе нормальный.

С чем такая фишка может быть связана? Разная выдача для разных провайдеров?

Выйдите из акаунта Гугл и почистите кэш браузера ;)

258

Alex91

31 марта 2010, 09:54

#9

Chikago, сегодня такую же фигню в яндексе наблюдаю. 2000 страниц дублей в индексе :)

647

Sower

31 марта 2010, 13:10

#10

В robots.txt нужно добавлять урлы страниц до их появления, тогда они не попадут в индекс. Если уже попали, то нужно время, чтоб они выпали от туда, или принудительно удалить их через панель веб мастера.

Но и то, не факт, что страница запрещённая для индексации не попадёт в индекс. Если на неё много беков, то она может появится в выдаче без сниппетов, а в качестве тайтла может стоять либо текст анкора одного из беков, либо "сайт", либо ещё что-нибудь.

__________________Бесплатная накрутка ПФ: посещаемость, просмотры, переходы с поисковиков по ключевикам, итд.
__________________Все посетители живые, не боты. (http://livesurf.ru/promo/80271)

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, чтобы попасть в ответы Google Bard