- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Это Вы так решили?)
Это рекомендация ПС предоставлять XML карту в свободном доступе.
На многих проектах закрываю карту для обычных юзеров.
Я такого же мнения, что и ТС. Карта и другие системные разделы (для ПС) должны быть закрыты и быть только для ПС.
Отдельные персональные мнения и выводы иметь никто не запрещает :)
Можно направлять свои усилия в то, чтобы запретить пользовательский доступ к XML карте, к robots.txt и разным другим разделам, но это из разряда кто во что горазд.
Ключевой момент в том, что для более-менее серьёзного парсинга отдельный XML и не обязателен.
Программный парсинг рабочих страниц можно выполнить и Xenu, и Frog-ом в обход XML карты, - я уж не говорю о более серьёзных инструментах типа A-parser, Zennoposter-а и прочих экзотических вещей, включая самописные парсеры.
Да, коллеги выше порекомендовали варианты черeз CF, через соответствия User-Agent-а в htaccess и прочие варианты уже через php проверку, но это не спасёт от серьёзного намерения спарсить.
p.s. Если уж хотите спрятать XML карту от пользователей - используйте нестандартное название и не прописывайте её в robots.txt. Эта самая простая мера без всяких проверок и CF.
Кому нужна карта - забьют урл в сервис, тот пробежится по сайту, создаст карту и отдаст файлик запрашиваемому. Ну а дальше он сделает то, что собирался ) Поэтому, карта есть у нуждающихся даже в том случае, когда ее вообще не существует ) Дело нескольких минут.
Именно. Проблема мне тут видится в другом, проблема в том, что TC серьёзно уверен, что для парсинга нужна XML карта.
А дело не в ней, дело в том, то пользователь в любом случае может получить навигационную структуру сайта. А дальше уже хоть с XML картой, хоть без неё.
p.s. Вот определить квоту запросов для отдельного IP - это уже более серьёзная мера, хотя и она профессионалом своего дела решится (последовательным использованием прокси адресов).
А ничего, что кто угодно может вписать себе любой юзерагент?
Так откуда они знают, что стоит такое ограничение, обычно видят 404 ошибку и делают выводы, что сайт без карты.
обычно
Необычно.
Гораздо более обычно наблюдать в логах всяких разных ботов, у которых в UA прописаны яндексы и гуглы.
Вы придумываете себе совершенно ненужные задачи.
Совершенно не согласен, в карте парсер получает "очищенные" данные, которые необходимо скопировать без всякого мусора - страницы с пагинацией, фильтрами и т.д.. Если закрыть доступ(спрятать) к карте, то парсеру придется сделать существенное кол-во запросов к сайту, из-за той же пагинации. Ну а дальше все просто - превышение запросов, врубаем подмену данных.
Ну а дальше все просто - превышение запросов, врубаем подмену данных
А если вдруг робот гуглояндексов решит пройтись по пагинации или фильтрам - а тут подмена данных? Что мы увидим в качестве страниц сайта?
Простота - хуже воровства (С).
А если вдруг робот гуглояндексов решит пройтись по пагинации или фильтрам - а тут подмена данных? Что мы увидим в качестве страниц сайта?
Так тот же фильтр по UA с проверкой маски гугла и яндекса. Ладно, коллеги, я не вебмастер, а программист(c#) не надо меня слушать. :)
Так тот же фильтр по UA
Уже отвечал:
А ничего, что кто угодно может вписать себе любой юзерагент?
Request.UserHostAddress
Про это тоже писал:
Единственный способ - раздобыть все IP поисковиков и разрешать доступ только с этих IP.
Однако замучаешmься все IP добывать поисковики их не афишируют дабы выявлять клоакинг и подобные "хитрости". В результате можешь либо нарваться на фильтр, либо забанить поискового робота.
я не вебмастер, а программист
А это как раз вопрос программиста, а не вебмастера.
Совершенно не согласен, в карте парсер получает "очищенные" данные, которые необходимо скопировать без всякого мусора - страницы с пагинацией, фильтрами и т.д..
Формально - да, но на мой взгляд вы преувеличиваете потенциальную полезность XML для стороннего парсера.
Во-первых, мы изначально не знаем что/в каком объёме/какой периодичности будет парситься контент.
Я вообще сомневаюсь, что те кто занимаются парсингом нацеленно ищут XML файл хотя бы потому что:
а) он не всегда есть
б) он не всегда корректно сгенерирован
в) он не всегда содержит актуальные данные.
Во-вторых, при парсинге можно настроить рабочие критерии (рабочее пространство по URL, отсечь параметры и т.д.)
Если закрыть доступ(спрятать) к карте, то парсеру придется сделать существенное кол-во запросов к сайту
Это вызывает какие-то дополнительные сложности?
Условно, если мы несколькими кликами мышки запустим тот же доступный Xenu и пробежимся по сайту TC, какое-либо существенное кол-во запросов к сайту нас остановит?
а дальше все просто - превышение запросов, врубаем подмену данных.
Вы уверены, что будет какое-то дальше?
Я например думаю, что прочитав первые ответы TC вероятно и не вернется в тему (как это нередко бывает).