- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Google пессимизирует сайт из-за того, что, несмотря на прописанные редиректы, затянул в индекс страницы в варианте http://www.site.ru и http://site.ru, вследствие чего получается дублированный контент. Кстати, Яша затянул и поклеил все страницы нормально.
Насколько я разобрался, мне предстоит посидеть и поудалять все страницы с www из индекса Гугла через Веб Мастер Тулз.
Но перед удалением из ВМТ вродь надо удаляемые страницы запретить в robots.txt
Вот например, если я хочу удалить проиндексированные страницы www.site.ru (дабы не дублировали site.ru в индексе гугля), то мне достаточно следующего оператора в robots.txt (?):
User-agent: googlebot
Disallow: /www.site – {запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии www.site}
Али мне придется прописывать запрет индексации каждой отдельно взятой страницы?
Сделайте 301 редирект с сайта с www на сайт без www. В панеле вебмастеров Google выберите Основной домен. http://www.google.com/support/webmasters/bin/answer.py?answer=44231&hl=ru
В robots.txt поставьте вместо site ваш сайт:
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Гугл должен сам склеить.
Сделайте 301 редирект с сайта с www на сайт без www. В панеле вебмастеров Google выберите Основной домен. http://www.google.com/support/webmasters/bin/answer.py?answer=44231&hl=ru
В robots.txt поставьте вместо site ваш сайт:
Host: site.ru
Sitemap: http://site.ru/sitemap.xml
Гугл должен сам склеить.
Так в том и проблема, что при всех этих условиях, google не склеил, а отправил страницы с www в сопли.
... то мне достаточно следующего оператора в robots.txt (?):
User-agent: googlebot
Disallow: /www.site – {запрет на индексацию любых файлов и папок, которые называются или имеют в своём названии www.site}
Нет. Так работать не будет.
Вам нужно удалять отдельные страницы и каталоги, насколько я помню Ваш сайт. После этого поставить 301-редирект. Учтите: ошибетесь - 90 дней удаленное не будет индексироваться!
... Али мне придется прописывать запрет индексации каждой отдельно взятой страницы?
Если бы не боялся Вас обидеть, то сказал бы, что Вы лентяй. А ленивым веб-мастер быть не может по определению! Прописать 40 страниц на удаление - это задача на три часа с перекурами, Вы дольше об этом будете писать на форуме и ждать ответа.
Если же Вам не нравится, что файл robots.txt "разбухнет" - то после удаления и установки редиректа все прописанное можно и нужно убрать. Не забудьте только делать удаление из записи сайт с WWW (если ее нет - надо будет завести).
Не лентяй, а большой размер файла robots.txt не рулезз. Мне не проблема 40 строчек накропать.
Я так понимаю пишем по шаблону
Disallow: /www.site.ru/index.html
Voglas добавил 31.01.2010 в 13:55
Не забудьте только делать удаление из записи сайт с WWW (если ее нет - надо будет завести).
Можно эту фразу мне растолковать - чувствую, что что-то важное, а смысл не улавливаю
Не лентяй, а большой размер файла robots.txt не рулезз. Мне не проблема 40 строчек накропать.
Я так понимаю пишем по шаблону
Disallow: /www.site.ru/index.html
Да, именно так; формат DISALLOW правильный. А про размер роботса я же написал: это временно. Один денек можете и с большим роботсом пожить.
У меня на днях какой-то мудак (по-другому и не скажешь!) поставил у себя ссылку на место, где размещена его. А поскольку это было по каталожному обмену, место то на народном СЕОшнам языке называется "линкопомойка". В роботсе она не закрыта, поскольку иначе при прогоне часть моих ссылок не примут, а закрыта только точка входа - скрипты подсовывают роботу 404. И Гугол зашел по ссылке и схавал несколько сотен страниц линко-фермы. Хорошо, что я вовремя это заметил! Потрахался славно, пока весь кэш ему не вычистил... представляете, какой там robots.txt был?
Можно эту фразу мне растолковать - чувствую, что что-то важное, а смысл не улавливаю
Вам не дадут удалять URLы или папки с домена www.site.ru, если Вы будете делать это, зайдя в домен site.ru (без WWW). По-моему, так. Даже для того, чтобы указать основной вариант использования домена, с WWW или без, или гео-привязку, когда возможны варианты, нужно внести в WMT и подтвердить права на оба. А потом ненужный убрать, чтобы не мешался.
Вот, что изрек гугол на запрос удаления:
Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы.
Это после того, как я ручками внес все 40 странитс в роботс...
Часом не придется ждать, пока Гугль затянет новый роботс.тхт??
Вот, что изрек гугол на запрос удаления:
Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы.
Это после того, как я ручками внес все 40 странитс в роботс...
Так... должно выполнятся ДВА условия:
- удаляемая страница или каталог должны возвращать 404 или 410;
- они должны быть перекрыты в файле robots.txt.
Там же хелп есть про удаление, и там это все написано. Редирект же, если он у Вас стоит - это НЕ 404-я ошибка! Он обрабатывается раньше, на уровне Апача, сразу после ресолвинга DNS и до отдачи страницы.
Короче, редирект на время надо убрать - я же написал раньше, что его включить следует после удаления неугодного содержимого. И проверить, что возвращает страница, которую Вы будете удалять. Если все так глубоко вмонтировано на уровне движка, что Вы без стакана не разберетесь - то отключите весь сайт (как вариант - переименовав индексный фвйл в корне). Посидите денек в дауне, ничего страшного! Зато будете знать, как дубли плодить.
Хочу удалить урлы из индекса гугла
в роботс внес следующую строчку:
Disallow: /flypage_images.tpl.html*
Хочу закрыть к индексации все страницы имеющие эти символы в составе.
Внес урл в форму удаления: www.mysite.ru/...../flypage_images.tpl.html
получил ответ: "Ваш запрос был отклонен потому, что веб-мастер сайта не применил соответствующий файл robots.txt или метатеги, чтобы заблокировать индексирование или архивацию этой страницы."
я что то неправильно в роботсе прописал?
Неправильно.
Пример запрещения параметров из роботс.
Disallow: /*&sid=
Disallow: /*&p=
Disallow: /*&sd=a
Какие конкретно символы вы пытались запретить - для меня честно говоря немного загадка.
Если хотели запретить только эту страницу и она находится в корне сайта, то надо писать следующую строку:
Disallow: /flypage_images.tpl.html$
Неправильно.
Пример запрещения параметров из роботс.
Disallow: /*&sid=
Disallow: /*&p=
Disallow: /*&sd=a
Какие конкретно символы вы пытались запретить - для меня честно говоря немного загадка.
Если хотели запретить только эту страницу и она находится в корне сайта, то надо писать следующую строку:
Disallow: /flypage_images.tpl.html$
мне надо запретить все страницы с окончанием : flypage_images.tpl.html
Наверное правильной будет конструкция:
Disallow: /index.php/flypage_images.tpl.html*