- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Такая ситуация:
сайт с самого корня доступен только через https:// через 443 порт посредством .htaccess:
RewriteEngine On
RewriteCond %{SERVER_PORT} !443
RewriteRule (.*) https://www.site.com/ [R]
На 80-м порту открыта только папка 'shared', которая содержит .htaccess следующего содержания:
RewriteEngine Off
RewriteCond %{SERVER_PORT} !443
RewriteRule (.*) https://www.site.com/ [R]
Проблематика:
1) Будет ли кооректной в данном случае след. конструкция файла robots.txt:
User-agent: ia_archiver
Disallow: /
User-agent: *
Disallow: /
Allow: /shared/
То есть боту архивера закрываем доступ на индексацию полнотью, а всем остальным оставляем папку 'shared' в которой будет лежать вся общедоступная статика.
2) Стоит ли делать robots.txt доступным как исключение на 80-м порту, или же боты заберут его и через защищенный 443?
Буду благодарен всем кто может что-то посоветовать по данному поводу.
1) Будет ли кооректной в данном случае след. конструкция файла robots.txt:
User-agent: *
Disallow: /
Allow: /shared/
Директива Allow недопустима в robots.txt
Нужно в Disallow: перечислять все что закрыто.
Допустима. Гугль, например, имеет четкие инструкции на этот счет. Хотя в общем протоколе Robots.txt ее нет. Пока нет.
Ох уж этот Гугль. Вечно что-нибудь выдумает не по протоколу :)
А нету ссылки где об этом почитать?
В инете много написано. Также http://www.google.com/webmasters/faq.html (1. How should I request that Google not crawl part or all of my site?).
Вот когда будет, тогда и примените.
В инете много чего понаписано. Это никак не обязывает соблюдать эту директиву роботов Yahoo! и MSN, например. Поэтому лучше уж пользоваться стандартной директивой, запрещая всё, кроме shared.
И лучше секцию для ia_archiver вынести в конец файла.
Согласен.
Тоже согласен. Только проблема в том, что директива 'Disallow:' обязывает указывать папки или файлы запрещенные к индексации, что не есть хорошо в плане секьюрности. C этой точки зрения внесение 'Allow:' в RFC было бы весьма логичным.
Ну, это не совсем проблема. Они ведь так и так видны наружу - так как указание в robots.txt ухудшит ситуацию?
Как это видны? Вовсе даже не видны... :) Папочки что называется 'Non for public use'.
А тогда что же вы хотите? Запретить роботу индексировать то, что он никогда не сможет проиндексировать и о наличии чего даже никогда не догадается?
Я бы сделал так:
RewriteEngine On
RewriteBase /
RewriteCond %{SERVER_PORT} !^443
RewriteCond %{REQUEST_URI} !^(/shared/|/robots.txt$)
RewriteRule ^ https://www.site.com/%{REQUEST_URI} [R=301,L]
RewriteCond %{SERVER_PORT} ^443
RewriteRule ^robots.txt$ robots_https.txt [L]
RewriteCond %{SERVER_PORT} ^80
RewriteRule ^robots.txt$ robots_http.txt [L]
robots_https.txt:
User-Agent: *
Disallow: /
robots_http.txt:
пустой файл.
(Потому что www.site.com:80 и www.site.com:443 - это два разных хоста).