- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть сайт, который использует mod_rewrite. Адреса страниц имеют вид типа www.site.ru/дд/чч/гг/index.html. Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html
Вопрос: можно ли в robots.txt как-то запретить индексировать страницы содержащие /print/ ? Насколько я знаю, можно только указывать с него должен начинаться урл запрещенный к индексации, но тем не менее хотелось бы услышать точный ответ.
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.
Верно, и мне как раз их надо убрать из выдачи, т.к. там нет ни навигации сайта ни рекламы :-)
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.
если print-версия будет находиться в индексации и находится выше оригинальной версии, то людям не просто будет попасть на главную страницу (большинство интернет-пользователей), так как на этой странице нет выхода на главную страницу или статью.
grey109, http://www.pikalov.kiev.ua/?p=21
можно только указывать с него должен начинаться урл запрещенный к индексации
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print
В том-то вся и проблема, что прописать все страницы запрещенные к индексации - нереально, да и одной строкой их всех не заменить.
Ну а так:
User-Agent: *
Disallow: /*/*/*/print
Вроде бы это тоже работает. Точно не знаю.
Ну а так:
User-Agent: *
Disallow: /*/*/*/print
Вроде бы это тоже работает. Точно не знаю.
Не нашел такого в спецификации по robots.txt. Похоже нельзя использовать "регулярные" выражения.
Похоже нельзя использовать "регулярные" выражения
В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.
Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:
User-agent: *
Disallow: /*.jpg$
Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений.
Это из моего перевода.
Насчет Яндекса не знаю, но по идее он тоже должен поддерживать и обрабатывать такие недокументированные возможности.
Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html
Может сделать www.site.ru/print/дд/чч/гг/index.html и Disallow /print/
http://help.yandex.ru/webmaster/?id=996567#996572