- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Допустим структура сайта такова:
в корне лежат папки 10 (1, 2,3, ...) и в каждой этой папке есть еще одна папка, например print.
Верна ли будет такая запись в роботс.тхт, если мы хотим во всех этих папках закрыть от индексации папку print
Disallow: /*/print/
???
Или нужно все 10 адресов пречислить?
Конечно мне не сложно сделать 10 записей, но что если вопрос будет стоять о 100 и более записях.
Вопрос интересный, присоединяюсь тоже.
ЗЫ А 10 строчек один раз совсем в лом прописать? 🚬
В стандарте звездочки не предусмотрены.
В стандарте звездочки не предусмотрены.
И как тогда быть , если мне надо закрыть от индексацию все что находится в папке print, которая явлется вложенной для тысячи директорий?
Что мне ручками надо прописывать все 1000 путей?
Неужели на этот счет не предусмотрен какой-то выход?
Вот рамблер об этом:
Внимание: точно так же и инструкции "Disallow: *", "Disallow: *.doc", "Disallow: /dir/*.doc" не запрещают ничего, поскольку файлов, имя которых начинается со звездочки или содержит ее, не существует! Использование регулярных выражений в строках Disallow, равно как и в файле robots.txt вообще, не предусмотрено.
http://www.rambler.ru/doc/robots.shtml
Гугл об этом:
Я не хочу перечислять все файлы, которые необходимо заблокировать. Можно ли использовать соответствие шаблону?
Да, робот Google распознает соответствия некоторым шаблонам. Это расширение стандарта, поэтому не все роботы могут ему следовать.
Соответствие последовательности символов с использованием *
Чтобы соответствовать последовательности символов, можно использовать звездочку (*). Например, для блокирования доступа ко всем вложенным каталогам, начинающимся с "private", можно использовать следующую запись:
User-Agent: Googlebot
Disallow: /private*/
Чтобы заблокировать доступ ко всем URL, включающим вопросительный знак (?), можно использовать следующую запись:
User-Agent: *
Disallow: /*?*
Соответствие последним символам URL с использованием $
Чтобы задать соответствие окончанию URL, можно использовать символ $. Например, для блокирования URL, заканчивающихся на .asp, можно использовать следующую запись:
User-Agent: Googlebot
Disallow: /*.asp$
Это соответствие шаблону можно использовать в сочетании с инструкцией Allow. Например, если ? обозначает идентификатор сеанса, можно исключить все URL с этими идентификаторами для гарантии, что робот Google не будет сканировать повторяющиеся страницы. Однако URL, заканчивающиеся на ? могут быть определенными версиями этой страницы, которые Вы не хотите включать. Для такой ситуации можно настроить файл robots.txt следующим образом:
User-Agent: *
Allow: /*?$
Disallow: /*?
Строка Disallow:/ *? будет блокировать все URL, включающие ? (точнее, он будет блокировать все URL, начинающиеся с имени домена, за которым следует любая строка, знак вопроса и любая строка).
Строка Allow: /*?$ будет разрешать все URL, заканчивающиеся на ? (точнее, она будет разрешать все URL, начинающиеся с имени домена, за которыми следует строка, завершающаяся знаком вопроса).
http://www.google.com/support/webmasters/bin/answer.py?answer=40367&ctx=sibling
Если я не ошибаюсь, то можно закрыть от индексации ссылки ведущие на данную страницу. Но это не есть гуд
Роботы такую строчку либо проигнорирют либо не правильно поймут. А в последнем случае возможно и выпадение всего сайта из индекса.