- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
2melkov
Пойдем отсюда, Саша.
С Уважением,
В.Иванов
Я бы очень хотел верить в то, что они пройдут отсюда учить своего закладочного робота вежливости, но что-то мне подсказывает, что этого не случится. ;)
wolf
> Ну и аргументы - детский сад
Прошу не хамить. Очень жду _конструктивную_ дискуссию.
;
Определение robots.txt достаточно четкое в той части, которая касается настоящих роботов.
> А если я начну Яндекс парсить роботом, который прикидывается Мозиллой
Это замечание не по существу. К тому же User-Agent: *.
> А если робот-анализатор позиций... Он что, перестанет быть роботом???
Он продолжает анализировать большинство ссылок на странице, кроме того, в его алгоритм заложено скачивание следующей страницы (если нужный сайт не найден на первой). Так что под "What is a WWW robot?" вполне подпадает. К тому же, если бы анализатор позиций всегда скачивал 1 страницу, он, подозреваю, остался бы наземеченным :).
> Кем трактуется??? Вами же в вашу пользу и трактуется.
Презумпция невиновности, понимаете ли. Под основное определение закладки не подпадают, хотя и написано, что www-роботы могут заниматься тем, чем занимаются закладки.
Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения. Желательно затронуть максимум деталей. Вы должны понимать, что для Вас это основа доказательства наличия двойного стандарта Яндекса при работе с robots.txt.
Как писал wawa
Из этого следует что, закладки - не робот. Я бы поправил определение - "не совсем робот".
из этого следует, что Закладки - не "нормальный браузер". Согласен. В качестве компенсации за уступку в предыдущем пункте сформулируем это так: "не совсем браузер".
Понимаю, конечно понимаю.
Называйте это как хотите, хоть роботом, хоть "ненормальным агентом" :)
Но пожалуйста поясните, как решить поставленную задачу?
Задача:
Есть серия страничек, но нет доступа к .htaccess,
нет доступа к фаэрволам и так далее.
Но я могу выложить файл robots.txt.
И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этих страниц. Живы они или нет.
Хочет человек это узнать, пусть на них зайдет.
Как кроме через robots.txt я могу известить вашего
и всех других роботов об этом своём желании?
Замечу, что проверялок типа Яндекс.Закладки множество,
и писать админу каждой о необходимости вынести
адреса из их баз у меня просто нет времени.
Что посоветуете?
Теперь я прошу Вас и/или og высказать свое аргументированное мнение по поводу того, почему же Закладки, по вашему, обязаны следовать /robots.txt, причем без эмоций, поскольку это все-таки главный вопрос нашего обсуждения.
Обижаете. Я это я.
Задача указана чуть выше.
Покажите валидное решение отличное от robots.txt.
Это единственный способ. Друхих просто нету.
Вот это и есть причина.
og
> Normal Web browsers are not robots ... срабатывает автоматом
Тут написано, что web-браузеры не являются роботами. Это все и так знают. Но это вообще вне контекста обсуждения:
Идет дождь, следовательно на улице мокро.
Но из того, что на улице мокро, не следует то, что идет дождь, уж извините за банальный пример.
> И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы.
Информацию о "живости" Вашей страницы Вы все равно никогда не сможете скрыть от тех, кому она интересна. И robots.txt тут не поможет. Как говорится, "The real answer is that /robots.txt is not intended for access control, so don't try to use it as such."
Поставьте туда пароль, как рекомендуется в faq, и будет Вам счастье.
og
В общем, нету, похоже, такого средства. Не знаю, хорошо это или плохо. Если что-то в Инет выложили - значит, предназначено для чьих-то глаз.
Кстати, можно настроить сервер так, чтобы он для text/html всегда 404 выдавал вместо 200. Браузеры это, вроде бы, нормально воспримут.
Что касается Закладок - даже если доступ будет закрыт, ссылка останется в базе (хотя и с несвежим значком), если пользователь ее сам не считает нужным удалить.
> И я не хочу чтобы сторонний сайт выдавал информацию о
состоянии этой страницы.
Информацию о "живости" Вашей страницы Вы все равно никогда не сможете скрыть от тех, кому она интересна. И robots.txt тут не поможет. Как говорится, "The real answer is that /robots.txt is not intended for access control, so don't try to use it as such."
Я не хочу её скрывать.
Я не хочу чтобы об этом информацию получали со стороны.
В данном случае через Яндекс.Закладки.
А люди пусть заходят. Welcome!
Поставьте туда пароль, как рекомендуется в faq, и будет Вам счастье.
Какой пароль?
Не отклоняемся.
Доступа к .htaccess нету.
В общем, нету, похоже, такого средства. Не знаю, хорошо это или плохо. Если что-то в Инет выложили - значит, предназначено для чьих-то глаз.
Конечно. Но пусть человек сам зайдёт и посмотрит.
Кстати, можно настроить сервер так, чтобы он для text/html всегда 404 выдавал вместо 200. Браузеры это, вроде бы, нормально воспримут.
Зато в Яндекс.Закладки получим Череп с Костями.
Что касается Закладок - даже если доступ будет закрыт, ссылка останется в базе (хотя и с несвежим значком), если пользователь ее сам не считает нужным удалить.
А кто против того, чтобы ссылка осталась?
Потому что программа, проверяюшая сайты, находящиеся в Закладках, является роботом
Читаем http://www.robotstxt.org/wc/faq.html
A robot is a program that automatically traverses the Web's hypertext structure by retrieving a document, and recursively retrieving all documents that are referenced.
Note that "recursive" here doesn't limit the definition to any specific traversal algorithm; even if a robot applies some heuristic to the selection and order of documents to visit and spaces out requests over a long space of time, it is still a robot.
Эта программа целиком попадает под это определение.
И еще одно определение робота от Webopedia:
A program that runs automatically without human intervention. Typically, a robot is endowed with some artificial intelligence so that it can react to different situations it may encounter. Two common types of robots are agents and spiders.
И опять же программа, проверяюшая сайты, находящиеся в Закладках, попадает под этто определение.