- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всех приветствую.
Есть проблема. В роботсе прописан запрет для обоих поисковиков на ряд страниц (страницы фильтров товаров по разным параметрам) по типу
User-Agent: *
Disallow: /*?order=
и т.д.
Гугл, несмотря на эти запреты все равно индексирует все эти страницы. В итоге куча дублей в поиске.
Для него что-то отдельно в роботсе нужно прописывать или в чем проблема?
Интернет-магазин на битриксе.
То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.
Как раз наоборот. Запрещён краулинг вот этого всего ?order= (если правильно правило сформулировали). Но индексирование нет, ибо robots.txt управляет только краулером. Чтобы выкурить из индекса всё, что туда запустили, нужно дать в robots.txt доступ краулеру (иначе он ничего не узнает об изменениях на страницах), а на страницы повесить метатег. В противном случае закрытые страницы в robots.txt потеряют сниппет и уйдут в "сопли".
А вот тут матчасть.
Так же проблему дублей можно решать с помощью канонизации ссылок.
То что Вы прописали в роботсе не дает запрета роботу ходить по вашим страницам. Как вариант, пропишите в .htaceess.
+1 В роботс прописываются рекомендации. Он всегда индексит, только прописывает, что сайт закрыт в роботс.тхт
Все прошли мы через это, что в индекс попадает пагинация, сортировка и страницы с параметрами от фильтра, результаты поиска... и иногда наступаем на те же грабли- забываем закрывать их со старта.
Речь о чём. Просто при самом старте проекта нужно было максимально ограничить в "роботс" доступ к тем страницам, которые будут как дубли. Аналогичная ситуация у меня с одним магазином. Около 3000 товаров, и на всё это залетели в индекс страницы с вариантами когда "по фильтру" выбирать =)
Вот сидим тоже ждём 2 месяц, когда поисковики повыплёвывают из себя эти страницы, закрыв дорогу к этим страницам в "роботс" Тут нужно просто оживить проект, обновлять новыми статьями, менять на главной что-то.. и постоянно скармливать новым файлом "sitemaps.xml" Гугл и Яндекс,
И поверить еще в "гуглвебмастере" стоит ли дополнительный запрет в разделе "Параметры URL" на нежелаемые страницы с параметром: route, product_id, page, sort, order, path....
п.с. ответил в этой теме, так как тоже интересно, как долго могут быть в результатах индекса страницы, запрещённые уже позже в "роботс"
robots.txt носит чисто рекомендательный характер
Как работает robots в Google, и чем отличается сканирование от индексирования.
Рекомендательный - неудачное определение переводчика (первоисточник - Robots.txt instructions are directives only). Это не в том смысле, что можно делать, а можно не делать, а в том, что не стандартизированные прямые команды. В частности, у Яндекс другой механизм работы с robots.txt.
Краулер - сканирующий механизм, включает заход бота на страницу. Механизм называется по-русски "сканирование" (чтение страницы без обработки) .
Robots.txt управляет только сканированием. То есть включает/выключает доступ для робота. К индексированию, то есть процессам вне сайта он уже не имеет отношения.
Метатег robots с параметром noindex (аналог заголовок x-robots) управляет уже индексированием. Страница с данным метатегом продолжает сканироваться роботом, но параметр noindex запрещает ей попадать или оставаться в поисковой базе (->выдаче).
Например, если повесить метатег noindex и запретить страницу в robots.txt, она останется в индексе, потому что Google не сможет считать параметр метатега из-за закрытого доступа.
Если до момента публикации контента закрыть в robots страницы, они не попадут в индекс, потому что бот не будет их читать. Если закрыть после публикации, они останутся в индексе в том состоянии, в котором находились до момента закрытия. Информация по ним не обновится, Google сотрёт сниппет (по правилам необновляемой информации) и отправит в "похожие" страницы.
Инструкции Robots.txt полностью поддерживаются Google согласно правилам ПС, и никаких случаев "читает-не читает" быть не должно. Убийство robots.txt на работающем сайте, насколько я помню, должно привести к ограничению доступа для робота.
вот именно
По сути бесконечно, опускаясь в самый зад. Иногда группируются в дубли. Может что-то ещё экспериментальное происходит.
robots.txt носит чисто рекомендательный характер
Согласен, клал на не Гыыгл
т.е. если уж так случилось, то нужно поставить ноиндекс а в роботсе открыть доступ к таким страницам?
или уже в принципе нечего рыпаться, просто закрыть в роботсе, а основную страницу просто переписать?
robots.txt носит чисто рекомендательный характер
Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.
Недавно google у одного сайта не правильно показывал адаптивную версию. Оказалось, что css и скрипты были закрыты в robots. И выдавал ошибку, что googlebot не может получить доступ к таким то ресурсам. После их открытия в роботсе, все стало нормально.
мне тоже начал ныть, что не может правильно отображать страницу, как переехал на адаптивнуй шаблон. открыл ему доступ...
но это кажись к текущей теме не относится