Удаление из индекса страниц с www

4

Voglas

31 января 2010, 09:18

1474

Google пессимизирует сайт из-за того, что, несмотря на прописанные редиректы, затянул в индекс страницы в варианте http://www.site.ru и http://site.ru, вследствие чего получается дублированный контент. Кстати, Яша затянул и поклеил все страницы нормально.

Насколько я разобрался, мне предстоит посидеть и поудалять все страницы с www из индекса Гугла через Веб Мастер Тулз.

Но перед удалением из ВМТ вродь надо удаляемые страницы запретить в robots.txt

Вот например, если я хочу удалить проиндексированные страницы www.site.ru (дабы не дублировали site.ru в индексе гугля), то мне достаточно следующего оператора в robots.txt (?):

User-agent: googlebot

Disallow: /www.site – {запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии www.site}

Али мне придется прописывать запрет индексации каждой отдельно взятой страницы?

продвигаемый сайт (http://www.secondhand.uz.ua/)

168

Plazik

31 января 2010, 10:03

#1

Сделайте 301 редирект с сайта с www на сайт без www. В панеле вебмастеров Google выберите Основной домен. http://www.google.com/support/webmasters/bin/answer.py?answer=44231&hl=ru

В robots.txt поставьте вместо site ваш сайт:

Host: site.ru

Sitemap: http://site.ru/sitemap.xml

Гугл должен сам склеить.

4

Voglas

31 января 2010, 10:10

#2

Plazik:
Сделайте 301 редирект с сайта с www на сайт без www. В панеле вебмастеров Google выберите Основной домен. http://www.google.com/support/webmasters/bin/answer.py?answer=44231&hl=ru

В robots.txt поставьте вместо site ваш сайт:
Host: site.ru
Sitemap: http://site.ru/sitemap.xml

Гугл должен сам склеить.

Так в том и проблема, что при всех этих условиях, google не склеил, а отправил страницы с www в сопли.

240

Willie

31 января 2010, 10:44

#3

Voglas:
... то мне достаточно следующего оператора в robots.txt (?):
User-agent: googlebot
Disallow: /www.site – {запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии www.site}

Нет. Так работать не будет.

Вам нужно удалять отдельные страницы и каталоги, насколько я помню Ваш сайт. После этого поставить 301-редирект. Учтите: ошибетесь - 90 дней удаленное не будет индексироваться!

Voglas:
... Али мне придется прописывать запрет индексации каждой отдельно взятой страницы?

Если бы не боялся Вас обидеть, то сказал бы, что Вы лентяй. А ленивым веб-мастер быть не может по определению! Прописать 40 страниц на удаление - это задача на три часа с перекурами, Вы дольше об этом будете писать на форуме и ждать ответа.

Если же Вам не нравится, что файл robots.txt "разбухнет" - то после удаления и установки редиректа все прописанное можно и нужно убрать. Не забудьте только делать удаление из записи сайт с WWW (если ее нет - надо будет завести).

Попробовать мобильные прокси бесплатно: clck.ru/3EKDyC

4

Voglas

31 января 2010, 10:53

#4

Не лентяй, а большой размер файла robots.txt не рулезз. Мне не проблема 40 строчек накропать.

Я так понимаю пишем по шаблону

Disallow: /www.site.ru/index.html

Voglas добавил 31.01.2010 в 13:55

Willie:
Не забудьте только делать удаление из записи сайт с WWW (если ее нет - надо будет завести).

Можно эту фразу мне растолковать - чувствую, что что-то важное, а смысл не улавливаю

240

Willie

31 января 2010, 13:03

#5

Voglas:
Не лентяй, а большой размер файла robots.txt не рулезз. Мне не проблема 40 строчек накропать.
Я так понимаю пишем по шаблону
Disallow: /www.site.ru/index.html

Да, именно так; формат DISALLOW правильный. А про размер роботса я же написал: это временно. Один денек можете и с большим роботсом пожить.

У меня на днях какой-то мудак (по-другому и не скажешь!) поставил у себя ссылку на место, где размещена его. А поскольку это было по каталожному обмену, место то на народном СЕОшнам языке называется "линкопомойка". В роботсе она не закрыта, поскольку иначе при прогоне часть моих ссылок не примут, а закрыта только точка входа - скрипты подсовывают роботу 404. И Гугол зашел по ссылке и схавал несколько сотен страниц линко-фермы. Хорошо, что я вовремя это заметил! Потрахался славно, пока весь кэш ему не вычистил... представляете, какой там robots.txt был?

Voglas:
Можно эту фразу мне растолковать - чувствую, что что-то важное, а смысл не улавливаю

Вам не дадут удалять URLы или папки с домена www.site.ru, если Вы будете делать это, зайдя в домен site.ru (без WWW). По-моему, так. Даже для того, чтобы указать основной вариант использования домена, с WWW или без, или гео-привязку, когда возможны варианты, нужно внести в WMT и подтвердить права на оба. А потом ненужный убрать, чтобы не мешался.

4

Voglas

31 января 2010, 13:09

#6

Вот, что изрек гугол на запрос удаления:

Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы.

Это после того, как я ручками внес все 40 странитс в роботс...

Часом не придется ждать, пока Гугль затянет новый роботс.тхт??

240

Willie

31 января 2010, 13:17

#7

Voglas:
Вот, что изрек гугол на запрос удаления:
Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы.
Это после того, как я ручками внес все 40 странитс в роботс...

Так... должно выполнятся ДВА условия:

- удаляемая страница или каталог должны возвращать 404 или 410;

- они должны быть перекрыты в файле robots.txt.

Там же хелп есть про удаление, и там это все написано. Редирект же, если он у Вас стоит - это НЕ 404-я ошибка! Он обрабатывается раньше, на уровне Апача, сразу после ресолвинга DNS и до отдачи страницы.

Короче, редирект на время надо убрать - я же написал раньше, что его включить следует после удаления неугодного содержимого. И проверить, что возвращает страница, которую Вы будете удалять. Если все так глубоко вмонтировано на уровне движка, что Вы без стакана не разберетесь - то отключите весь сайт (как вариант - переименовав индексный фвйл в корне). Посидите денек в дауне, ничего страшного! Зато будете знать, как дубли плодить.

282

tysson

9 февраля 2010, 15:49

#8

Хочу удалить урлы из индекса гугла

в роботс внес следующую строчку:

Disallow: /flypage_images.tpl.html*

Хочу закрыть к индексации все страницы имеющие эти символы в составе.

Внес урл в форму удаления: www.mysite.ru/...../flypage_images.tpl.html

получил ответ: "Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы."

я что то неправильно в роботсе прописал?

Смените дизайн.....

151

lcatlas

9 февраля 2010, 15:56

#9

Неправильно.

Пример запрещения параметров из роботс.

Disallow: /*&sid=

Disallow: /*&p=

Disallow: /*&sd=a

Какие конкретно символы вы пытались запретить - для меня честно говоря немного загадка.

Если хотели запретить только эту страницу и она находится в корне сайта, то надо писать следующую строку:

Disallow: /flypage_images.tpl.html$

С уважением, Александр. Продвижение сайтов (http://www.ldi.ru). Интересные обзоры игр. (https://www.youtube.com/channel/UCICcg0J31VIxsv3tkpQTUfw)

282

tysson

9 февраля 2010, 16:00

#10

lcatlas:
Неправильно.

Пример запрещения параметров из роботс.

Disallow: /*&sid=
Disallow: /*&p=
Disallow: /*&sd=a

Какие конкретно символы вы пытались запретить - для меня честно говоря немного загадка.

Если хотели запретить только эту страницу и она находится в корне сайта, то надо писать следующую строку:

Disallow: /flypage_images.tpl.html$

мне надо запретить все страницы с окончанием : flypage_images.tpl.html

Наверное правильной будет конструкция:

Disallow: /index.php/flypage_images.tpl.html*

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Что такое Power BI и зачем это нужно бизнесу