- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Вопрос: как запретить к индексации файлы, в которых присутсвуют некоторые символы.
К примеру, я хочу запретить к индексации все файлы с расширением .php или файлы со словом print
К примеру такой путь:
forum14/thread252-print.html
все файлы с расширением .php
Disallow: /*.php$
файлы со словом print
Disallow:/*-print.html$
Я думаю, далеко не все поисковики могут поддерживать wildcards в файле robots.txt, т.к. это расширение формата - не стандартное.
На мой взгляд, более корректный путь - использование для таких файлов мета-тега robots со значением noindex
Я думаю, далеко не все поисковики могут поддерживать wildcards в файле robots.txt, т.к. это расширение формата - не стандартное.
Точно, проверил валидатором.. имхо такой robots.txt только для гугля прокатит
На мой взгляд, более корректный путь - использование для таких файлов мета-тега robots со значением noindex
С этим согласен.
Дело в том, что таких файлов немало :)
Ручками это придется делать полгода ;)
Есть ли другие способы?
Если вы можете автоматом получить список этих файлов, то можно автоматом сгенерить роботс.тхт
Но если файлов много, то вопрос - сколько строк схавает бот? Возможно есть ограничение на размер файла роботс.тхт.
Ручками это придется делать полгода
А почему именно ручками? Неужели нет возможности сделать это автоматом?
А почему именно ручками? Неужели нет возможности сделать это автоматом?
А мнение k-os в данном случае верно? Больше волнует Яндекс.
1. Перехватываете запрашиваемый Url
2. Смотрите кто запросил страницу (поисковая машина или человек)
3. Парсите имя страницы / контент страницы на предмет закрытия индексации яндексом или другими поисковиками.
4. Если поисковая машина - то выдаете пустую страницу или страницу с тегом ноиндекс, если человек - то показываете страницу.
В итоге:
1. Работает без отказов.
2. Можно закрыть индексацию как ко всем поисковикам (даже к тем, которые игнорируют роботс.тхт), так и поотдельности, например только яндексу.
Все.
Если поисковая машина - то выдаете пустую страницу или страницу с тегом ноиндекс, если человек - то показываете страницу.
А не проще ли просто 404 отдать?
А не проще ли просто 404 отдать?
А как я отдам 404 именно на те страицы, которые мне не нужны?
Еще немного добавлю: речь идет о форуме. На нем установлен хак, который формирует статику.
Мне необходимо все .php фалй запретить, а также страницы для печати.
Вот как это сделать?
Спасибо :)