- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы
Для интернет-магазина инженерных систем
Мария Лосева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Есть сайт, который использует mod_rewrite. Адреса страниц имеют вид типа www.site.ru/дд/чч/гг/index.html. Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html
Вопрос: можно ли в robots.txt как-то запретить индексировать страницы содержащие /print/ ? Насколько я знаю, можно только указывать с него должен начинаться урл запрещенный к индексации, но тем не менее хотелось бы услышать точный ответ.
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.
Верно, и мне как раз их надо убрать из выдачи, т.к. там нет ни навигации сайта ни рекламы :-)
а зачем. вроде страницы для печати имеют большую релевантность по отношению к оригиналу. следовательно и в результат выдачи им легче попасть.
если print-версия будет находиться в индексации и находится выше оригинальной версии, то людям не просто будет попасть на главную страницу (большинство интернет-пользователей), так как на этой странице нет выхода на главную страницу или статью.
grey109, http://www.pikalov.kiev.ua/?p=21
можно только указывать с него должен начинаться урл запрещенный к индексации
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print
Все верно
User-Agent: *
Disallow: /дд/чч/гг/print
В том-то вся и проблема, что прописать все страницы запрещенные к индексации - нереально, да и одной строкой их всех не заменить.
Ну а так:
User-Agent: *
Disallow: /*/*/*/print
Вроде бы это тоже работает. Точно не знаю.
Ну а так:
User-Agent: *
Disallow: /*/*/*/print
Вроде бы это тоже работает. Точно не знаю.
Не нашел такого в спецификации по robots.txt. Похоже нельзя использовать "регулярные" выражения.
Похоже нельзя использовать "регулярные" выражения
В спецификации robots.txt не описаны регулярные выражения, но многие поисковые системы сейчас поддерживают такие возможности.
Например, Google, Yahoo! и MSN Search понимают * как соответствие любой строке символов, а знак доллара $ как знак окончания URL. Поэтому для блокировки пауков при попытке загрузить jpeg файлы можно использовать следующую конструкцию:
User-agent: *
Disallow: /*.jpg$
Блокировка доступа к отдельным форматам файлов - самое распространенное применение для регулярных выражений.
Это из моего перевода.
Насчет Яндекса не знаю, но по идее он тоже должен поддерживать и обрабатывать такие недокументированные возможности.
Версия для печати имеет вид www.site.ru/дд/чч/гг/print/index.html
Может сделать www.site.ru/print/дд/чч/гг/index.html и Disallow /print/
http://help.yandex.ru/webmaster/?id=996567#996572