- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Здравствуйте, Уважаемые коллеги!
Перед началом хотел бы сразу отметить, что вопрос не про правильное составление robots.txt для DataLife Engine, а про возможные последствия использования недопустимого символа в файле robots.txt.
У меня имеется сайт на движке DataLife Engine (DLE). Как многим известно, в этом движке имеется функция "Версия страницы для печати". И многие понимают, что лучше всего эту страницу запретить для индексации, т.к. в результате ПС может выдавать в выдаче именно эти страницы, а не оригинальные (из-за того, что страницы для печати весят значительно меньше своих оригиналов) или, что еще хуже, в индексе могут остаться страницы с версиями для печати, а оригиналы просто напросто удалены (был один печальный опыт...). Поискав в Google правильный robots для движка DLE везде встречались только robots с параметрами Disallow: /*print - но это совершенно неправильно, т.к. если в названии html-страницы будет присутствовать слово Print (например: принтер, FinePrint и т.д.), то эти страницы так же не будут индексироваться ПС.
Адрес страницы для печати в DLE всегда имеет следующий вид: http://www.ваш_сайт.ру/категория/print:page,1,ID-название-новости.html
И, следуя из этого, я решил поставить для запрета индексации "страниц для печати" следующий параметр:
Далее, я зашел в панель вебмастера Google и сделал проверку моего robots.txt - вуаля, страницы для печати не индексируются, а остальные новости, содержащие в своем названии слово Print уже нормально индексируются ПС.
После Веб-панели Гугла я, соответственно, тут же отправился в Я.Вебмастер, чтобы проверить новый robots.txt. НО, при проверке файла Роботса Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ". Т.е., получается Яшка матюкнулся на символ двоеточия (":"), который по его мнению "возможно является недопустимым символом". Хотя при проверке набора различных страниц сайта, включая версии для печати, обычные страницы, страницы с названиями, в которых присутствует слово print, Яндекс выдал ожидаемый (желанный) результат:
Страницы для печати - не будут проиндексированы;
Страницы, в названии которых присутствует слово print - будут проиндексированы;
Обычные страницы - будут проиндексированы.
И так, вопрос: Какие могут быть последствия использования в параметрах robots.txt "возможно недопустимых" символов, в данном случае ИМЕННО символа двоеточия?
Думаю, что данная тема будет многим интересной и, возможно, актуальной!
Спасибо!
Тоже только, что задался точно таким же, погуглил и вышел на эту тему :)
Поэкспериментировал с
Disallow: /*print*page
после проверки получается (адреса на шару вбил)
/news/678,print:page,1,3 запрещен правилом /*print*page*
/news/print.html разрешен
синтаксических ошибок нет
Яндекс выдал мне предупреждение: "Возможно, был использован недопустимый символ".
Яндекс предполагает, а не утверждает. Смотрите лучше на результат - "запрещен правилом /*print:page*". Всё будет работать.
А по поводу последствий, скорее всего, некорректно заполненная директива Disallow будет проигнорирована.
У меня были недопустимые символы, но последствий никаких не было.