- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева

Зачем быть уникальным в мире, где все можно скопировать
Почему так важна уникальность текста и как она влияет на SEO
Ingate Organic
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
На всех страницах одного, который пользуется спросом среди любителей выкачать сайт целиком, поставил невидимую обычному юзеру ссылку, при переходе по которой доступ к сайту блокируется. Естественно, прописал урл в robots.txt. Все известные поисковики блюдут robots, и не было случая, чтобы робот Яндекса или Гугла перешел по бан-ссылке, но переходы с майкрософтовскими ай-пи наблюдаю постоянно, единственное что смущает юзер_агент:
IP-address - 65.55.109.65
User_Agent - Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SLCC1; .NET CLR 1.1.4322; .NET CLR 2.0.40607; .NET CLR
3.0.04506.648)
IP-address - 65.55.110.88
User_Agent - Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SLCC1; .NET CLR 1.1.4325; .NET CLR 2.0.40607; .NET CLR
3.0.30729; .NET CLR 3.5.30707)
и т.д.
Гугл тоже иногда индексирует документы, доступ к которым запрещен в роботсе, приходилось удалять их из выдачи в "инструментах для вебмастеров".
Насколько я понимаю роботс - это всего лишь рекомендация для поисковых ботов. И они не обязаны четко ей следовать.
Гугл тоже иногда индексирует документы, доступ к которым запрещен в роботсе, приходилось удалять их из выдачи в "инструментах для вебмастеров".
Насколько я понимаю роботс - это всего лишь рекомендация для поисковых ботов. И они не обязаны четко ей следовать.
Конструкция Disallow: без слеша / разрешает роботу индексировать все
Oleg Rihkrand добавил 05.03.2010 в 13:24
Конструкция Disallow: без слеша / разрешает роботу индексировать все
Примеры
Запрет доступа всех роботов ко всему сайту:
User-agent: *
Disallow: /
Запрет доступа определенного робота к каталогу /private/:
User-agent: googlebot
Disallow: /private/
[править] Нестандартные директивы
Crawl-delay: устанавливает время, которое робот должен выдерживать между загрузкой страниц. Если робот будет загружать страницы слишком часто, это может создать излишнюю нагрузку на сервер. Впрочем, современные поисковые машины по умолчанию задают достаточную задержку в 1-2 секунды.
User-agent: *
Crawl-delay: 10
Allow: имеет действие, обратное директиве Disallow — разрешает доступ к определенной части ресурса. Поддерживается всеми основными поисковиками. В следующем примере разрешается доступ к файлу photo.html, а доступ поисковиков ко всей остальной информации в каталоге /album1/ запрещается.
Allow: /album1/photo.html
Disallow: /album1/
[править] Расширенный стандарт
В 1996 году был предложен расширенный стандарт robots.txt, включающий такие директивы как Request-rate и Visit-time. Например:
User-agent: *
Disallow: /downloads/
Request-rate: 1/5 # загружать не более одной страницы за пять секунд
Visit-time: 0600-0845 # загружать страницы только в промежуток с 6 утра до 8:45 по Гринвичу.