Ну что, любители скрыть свои sitemap от парсеров...

12
br.almighty
На сайте с 13.07.2021
Offline
62
#11
-= Serafim =- #:

Убрать 90% парсеров и ботов можно легко, просто блокируя ненужные страны и подсети. А если детектить обращение к множеству страниц за короткий промежуток, то можно и 99% убрать, добавив в вайтлист нужные боты.

В блеклист все страны, откуда не идет основной трафик + подсети хостеров.

Защита от парсеров сокрытием стандартных путей... ну это дилетантство какое-то.

Мы, наверно, о разном говорим. В том то и дело, что лично мне на эти 100% ботов плевать, они мне не мешают.

Я конкретно про тех, кто целенаправленно, вручную пишут скрипты, чтобы весь контент сайта скопировать и на другой сайт вставить.

Как от таких защититься блэк-листами? Да никак, потому что они не боты, а живые люди.

D-agon
На сайте с 23.06.2022
Offline
0
#12
Проверил свой сайт и рандомные, нет в выдачи карты сайта.
Сергей
На сайте с 10.07.2022
Offline
42
#13
D-agon #:
Проверил свой сайт и рандомные, нет в выдачи карты сайта.

Значит Вам посчастливилось больше чем не.

Очень не приятно видеть в выдачи карту сайта в виде документа.


ПС: причину я нашел. В хедере передавался стандартный заголовок  HTML/text страницы.

Исправил на XML и перезалил на новый адрес.

Но как говорится, осадочек остался.

Юрист по недвижимости в Москве и Московской области https://pravozem.ru/ сопровождение сделок, регистрация домов, оформление строительства
-S
На сайте с 10.12.2006
Offline
Модератор1355
#14
br.almighty #:

Мы, наверно, о разном говорим. В том то и дело, что лично мне на эти 100% ботов плевать, они мне не мешают.

Я конкретно про тех, кто целенаправленно, вручную пишут скрипты, чтобы весь контент сайта скопировать и на другой сайт вставить.

Как от таких защититься блэк-листами? Да никак, потому что они не боты, а живые люди.

Никто не пишет парсеры конкретно под ваш сайт, плюс чаще это не парсинг а проксирование. Как раз эти скрипты и входят в те 100% ботов.

br.almighty
На сайте с 13.07.2021
Offline
62
#15
-= Serafim =- #:
Никто не пишет парсеры конкретно под ваш сайт

Ну вот о чем дальше говорить, если такие смелые утверждения подаются? Уж мне то рассказывать это не надо, когда я сам с этим столкнулся.

-S
На сайте с 10.12.2006
Offline
Модератор1355
#16
br.almighty #:
Уж мне то рассказывать это не надо, когда я сам с этим столкнулся.

Как ты понял что конкретно под твой сайт? Какие меры защиты были приняты, кроме делитантского сокрытия пути сайтмапы?

fliger
На сайте с 17.09.2015
Offline
107
#17
Сергей :
Кто скрывал от парсеров свои сайтмапы
Зачем их скрывать? Мои сайтмапы только официальные роботы Бинг, Гугл, Мэйл.ру и Яндекс могут прочесть, остальным (кого сервер все-таки пропустит) пустой отдается.
br.almighty
На сайте с 13.07.2021
Offline
62
#18
fliger #:
Мои сайтмапы только официальные роботы Бинг, Гугл, Мэйл.ру и Яндекс могут прочесть

По юзер-агенту определяете или по айпишникам?

богоносец
На сайте с 30.01.2007
Offline
753
#19
Сергей #:

причину я нашел. В хедере передавался стандартный заголовок  HTML/text страницы.

Исправил на XML и перезалил на новый адрес

Индексируемую ссылку не забудьте на карту поставить.

И не думайте, что причина в хидере, при неких других обстоятельствах индексилось и   Content-Type: application/xml 

Ну и свой text/xml гугл индексит. Хотя по моим древним канонам - не должен бы


fliger
На сайте с 17.09.2015
Offline
107
#20
br.almighty #:
По юзер-агенту определяете или по айпишникам?
Сначала по Юзер-агенту, затем по связке gethostbyaddr -> gethostbyname (или по apcu_exists, если ранее уже заходили).
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий