- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, Уважаемые коллеги!
Перед началом хотел бы сразу отметить, что вопрос не про правильное составление robots.txt для DataLife Engine, а про возможные последствия использования недопустимого символа в файле robots.txt.
У меня имеется сайт на движке DataLife Engine (DLE). Как многим известно, в этом движке имеется функция "Версия страницы для печати". И многие понимают, что лучше всего эту страницу запретить для индексации, т.к. в результате ПС может выдавать в выдаче именно эти страницы, а не оригинальные (из-за того, что страницы для печати весят значительно меньше своих оригиналов) или, что еще хуже, в индексе могут остаться страницы с версиями для печати, а оригиналы просто напросто удалены (был один печальный опыт...). Поискав в Google правильный robots для движка DLE везде встречались только robots с параметрами Disallow: /*print - но это совершенно неправильно, т.к. если в названии html-страницы будет присутствовать слово Print (например: принтер, FinePrint и т.д.), то эти страницы так же не будут индексироваться ПС.
Адрес страницы для печати в DLE всегда имеет следующий вид: http://www.ваш_сайт.ру/категория/print:page,1,ID-название-новости.html
И, следуя из этого, я решил поставить для запрета индексации "страниц для печати" следующий параметр:
Далее, я зашел в панель вебмастера Google и сделал проверку моего robots.txt - вуаля, страницы для печати не индексируются, а остальные новости, содержащие в своем названии слово Print уже нормально индексируются ПС.
После Веб-панели Гугла я, соответственно, тут же отправился в Я.Вебмастер, чтобы проверить новый robots.txt. НО, при проверке файла Роботса Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ". Т.е., получается Яшка матюкнулся на символ двоеточия (":"), который по его мнению "возможно является недопустимым символом". Хотя при проверке набора различных страниц сайта, включая версии для печати, обычные страницы, страницы с названиями, в которых присутствует слово print, Яндекс выдал ожидаемый (желанный) результат:
Страницы для печати - не будут проиндексированы;
Страницы, в названии которых присутствует слово print - будут проиндексированы;
Обычные страницы - будут проиндексированы.
И так, вопрос: Какие могут быть последствия использования в параметрах robots.txt "возможно недопустимых" символов, в данном случае ИМЕННО символа двоеточия?
Думаю, что данная тема будет многим интересной и, возможно, актуальной!
Спасибо!
Тоже только, что задался точно таким же, погуглил и вышел на эту тему :)
Поэкспериментировал с
Disallow: /*print*page
после проверки получается (адреса на шару вбил)
/news/678,print:page,1,3 запрещен правилом /*print*page*
/news/print.html разрешен
синтаксических ошибок нет
Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ".
Яндекс предполагает, а не утверждает. Смотрите лучше на результат - "запрещен правилом /*print:page*". Всё будет работать.
А по поводу последствий, скорее всего, некорректно заполненная директива Disallow будет проигнорирована.
У меня были недопустимые символы, но последствий никаких не было.