- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
Поясните пожалуйста, что подразумевается под словом "робот".
Вопрос м.б. глупый, но все же.
Мне нужно взять информацию из области закрытой в robots.txt
Броузером я залезть могу спокойно.
Скриптом, настроенным по таймеру - нельзя.
А вот тот же скрипт запущенный вручную будет считаться роботом?
http://www.robotstxt.org/wc/robots.html
"Web Robots are programs that traverse the Web automatically."
Замечу, что индексирует не робот, а индексатор внутри поисковика.
Робот лишь ПОЛУЧАЕТ информацию об объекте.
В данном случае говорит HEAD, и проверяет жива ссылка или нет.
Как она в дальнейшем используется эта иформация, попадает в
индексную базу поисковика, или в базу состояния закладок совершенно не важно.
Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.
Другого способа "Вежливо" донести подобную информацию роботу нет.
Можно "Грубо" взять и внести его в фаэрвол.
Но мне хочется быть вежливым, как и хочется чтобы вежливо поступали со мною.
Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение
фэйворит-чекера согласно дисциплине robots.txt.
Что и требовалось доказать.
Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?
Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок . Более широкое толкование его предназначения IMHO не более чем спорно. Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.
С Уважением,
В.Иванов
Никто из ответивших не ответил. Похоже таки все де-факто согласились, что нельзя адекватным образом модифицировать поведение
фэйворит-чекера согласно дисциплине robots.txt.
Что и требовалось доказать.
Если это будем делать мы, то нет. Если это будет делать Yandex,
то да. Тоесть Yandex может модифицировать своего робота в
соответствии с общепринятыми нормами.
Нормы описаны тут:
http://www.robotstxt.org/wc/robots.html
Посмотрите список роботов и откройте для себя то,
что большинство роботов сбора статистики соблюдают robots.txt.
Утверждение, что модуль подкачки закладок в IE чем-то отличается от закладок тем, что он не автоматический робот - это, грубо говоря, странное заявление. А кто же он тогда ?
Какой модуль подкачек IE?
Это робот Yandex'а и выполняется он на их сервере, а не в IE.
Опять же мне помнится robots.txt делался специально для наведения порядка с грабберами и индексаторами способными быстро распарсить структуру сайта до самых кишок .
Определение робота дано достаточно чёткое:
"Web Robots are programs that traverse the Web automatically."
Более широкое толкование его предназначения IMHO не более чем спорно.
Так не толкуйте. =)
Тем не менее, если кто-то считает, что процесс обновления закладок на Яндексе ему мешает, фил, что называется, фри. Яндекс все поймет и не обидится - каждый человек имеет право на свои небольшие странности.
Процесс не мешает, пусть себе обновляет, но только там, где владельцы
сайтов не против. О чём они чётко говорят в robots.txt
Для меня в данном случае важно то, что я не хочу чтобы робот яндекса собирал эту информацию и разглашал кому попало. О чём и написано в robots.txt.
Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.
Отмечу, что Яндекс-Закладки не собирают информацию. Закладки ставит пользователь. В смысле разглашения, они также ничем не отличаются от банальной ссылки выложенной куда бы то ни было.
Именно собирает.
Приходит на срвер и говорит HEAD, собирая информацию
о том есть такой документ или нет.
Какой модуль подкачек IE?
Это робот Yandex'а и выполняется он на их сервере, а не в IE.
Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.
Определение робота дано достаточно чёткое:
"Web Robots are programs that traverse the Web automatically."
Если немножко полистать, там можно найти
фразу, что файл является опцией, которую роботы не обязаны использовать.
Процесс не мешает, пусть себе обновляет, но только там, где владельцы
сайтов не против. О чём они чётко говорят в robots.txt
Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.
А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.
С Уважением,
В.Иванов
Именно собирает.
Приходит на срвер и говорит HEAD, собирая информацию
о том есть такой документ или нет.
Методы борьбы я перечислил.
Угрызений совести по поводу этого HEAD не испытываю. Но коли он вас так сердит, забаньте. Или пожалуйтесь в abuse@yandex и Яндекс может быть разорвет связность с этим хостом, чтобы Вас не смущать :-)
С Уважением,
В.Иванов
Классификация устройства, на котором бегает граббер не имеет никакого значения. Если кто-то запустит самопальный wget без учета robots.txt никто и не поглядит, что оно бегает под win98. Скорее всего его забанят либо за перегруз сервера, либо за попытку украсть каталог или базу.
Важным является то, что робот приходит с машины Яндекса, а не
машины клиента, поэтому претензия в данном случае к Яндексу.
И поскольку считается приличным то, что робот соблюдает правила
описанные в robots.txt, а данный робот их не выполняет, то остаётся либо
закрыть доступ для этого робота, что является "Грубым способом",
либо попытаться повлиять на его поведение (Safe Method).
В данном случае это создание топика и обращение к Илье Сегаловичу.
(2 iseg)
Если немножко полистать, там можно найти
фразу, что файл является опцией, которую роботы не обязаны использовать.
Не обязаны. Однако считается приличным использовать.
Само по себе несоблюдение robots.txt не означает почти ничего. Файл лишь помогает роботу соблюдать приличия на сайте. И нам с Вами обоим, если я не ошибаюсь, не кажется, что Яндекс-Закладки как-то навредил вашему сайту.
Это лишь ваше мнение. Лично я склонен считать, что данная информация
(Статус существования документа) навредил сайту.
Однако претензия заключается не в оценке приченённого ущерба,
а в том, что этого можно было избежать, если-бы робот соблюдал правила.
А там, где владельцы сайтов против категорически, надо ставить файрвол или пароль. Разумным способом бороться именно с закладками (такие задачи тоже иногда встречаются) является проверка реферера.
Почему обязательно применять топор или ядерную бомбу,
если достаточно написать: Частная территория, доступ запрещён?
Это лишь ваше мнение. Лично я склонен считать, что данная информация
(Статус существования документа) навредил сайту.
Однако претензия заключается не в оценке приченённого ущерба,
а в том, что этого можно было избежать, если-бы робот соблюдал правила.
Суть ответа состоит в том, что этот вид робота с нашей точки зрения не подпадает под понятие автоматический сборщик ссылок. Ссылками его снабжают пользователи. Попытка ограничить их в выборе ссылок более чем ограничивает сайт мне видится неестественной. Аппеляция к рекомендации, которая изначально не предназначена для описания ситуации не подходит.
С Уважением,
В.Иванов