Ну что, любители скрыть свои sitemap от парсеров...

12
Сергей
На сайте с 10.07.2022
Offline
43
792

Кто скрывал от парсеров свои сайтмапы будут неприятно удивлены тому факту, что Google стал показывать рядом с выдачей истинный путь к карте сайтов.

То есть, для парсеров раньше было препятствием отсутствие списка адресов всех страниц сайта.

А сейчас всё... спаслил google наши карты.

png sb8_e1va4.png
Открытый проект для юристов в Москве и Московской области https://ask.mosdok.ru сопровождение сделок, регистрация домов, оформление строительства
-S
На сайте с 10.12.2006
Offline
1355
#1
Сергей :

Кто скрывал от парсеров свои сайтмапы будут неприятно удивлены тому факту, что Google стал показывать рядом с выдачей истинный путь к карте сайтов.

То есть, для парсеров раньше было препятствием отсутствие списка адресов всех страниц сайта.

А сейчас всё... спаслил google наши карты.

1. Зачем скрывать от парсеров сайтмапы если они могут просто парсить сайт без них?

2. Парсеры блочат по странам, подсетям или по  User-Agent, а не скрывают из стандартных путей.

Сергей
На сайте с 10.07.2022
Offline
43
#2
-= Serafim =- #:

1. Зачем скрывать от парсеров сайтамы если они могут просто парсить сайт без них?

Постоянно сканировать сайт 200-500 тыс страниц на наличие обновлений?

Парсеру проще сверять список, и после этого "приватизировать" авторскую статью на говнобложик


-= Serafim =- #:

2. Парсеры блочат по странам, подсетям или по  User-Agent, а не скрывают из стандартных путей.

Прокси, User-Agent 😀 какой сделать? wget site.com -U 'Browser no parser'

suffix
На сайте с 26.08.2010
Offline
331
#3
А некоторые имеют столь грамотную и простую структуру сайта что им sitemap просто не нужен и его и нет соответственно на сайте :)
Клуб любителей хрюш (https://www.babai.ru)
-S
На сайте с 10.12.2006
Offline
1355
#4
Сергей #:
Прокси, User-Agent 😀 какой сделать? wget site.com -U 'Browser no parser'

Ну эта глупая шутка от непонимания процессов. Нормальные и легальные краулеры все ставят юзер-агенты по которым можно блчить, тот же ахрефс или бинг, которые очень могут грузить. Понятно, что нелегальные парсеры не ставят в юзер-агент что они парсеры, потому  и было написано про подсети.

Сергей #:

Постоянно сканировать сайт 200-500 тыс страниц на наличие обновлений?

Парсеру проще сверять список, и после этого "приватизировать" авторскую статью на говнобложик

Сайтмапы часто не обновляются и никто в здравом уме не будет полагаться на сайтам при парсинге. И при частом сканировании это проблемы сайта будут, а не парсера.

br.almighty
На сайте с 13.07.2021
Offline
76
#5
Сергей :

Кто скрывал от парсеров свои сайтмапы будут неприятно удивлены тому факту, что Google стал показывать рядом с выдачей истинный путь к карте сайтов.

То есть, для парсеров раньше было препятствием отсутствие списка адресов всех страниц сайта.

А сейчас всё... спаслил google наши карты.

А посложнее ничего не пробовали придумать? Проверил у себя, ничего никто не слил, но у меня и путь гораздо сложнее.

br.almighty
На сайте с 13.07.2021
Offline
76
#6
-= Serafim =- #:
Сайтмапы часто не обновляются и никто в здравом уме не будет полагаться на сайтам при парсинге

Если они вручную делаются, то конечно они не будут обновляться. А если автоматически - лично я вообще не вспоминаю никогда про них. Само всё обновляется.

-S
На сайте с 10.12.2006
Offline
1355
#7
br.almighty #:

лично я вообще не вспоминаю никогда про них. Само всё обновляется.

Очень рад за тебя, только к общей ситуации это мало относится.

br.almighty
На сайте с 13.07.2021
Offline
76
#8
-= Serafim =- #:

Очень рад за тебя, только к общей ситуации это мало относится.

Конечно мало. Человек паникует, что карты сайтов гугл стал сливать. Я ему говорю, что не стал, просто надо сложнее пути делать.

Что касается эффективности таких манипуляций, как скрытие полной карты сайта, тут каждый сам выбирает. Лично для меня эффект есть. Когда она была публичная, у меня весь сайт спарсили, а потом меньше недели проходило после обновлений. После скрытия - это дело прекратилось. Просто стало сложнее парсить весь сайт, а если это будет частично - не страшно для меня. Полностью защитить от копирования и парсинга всё равно не получится никак. Это невозможно.

-S
На сайте с 10.12.2006
Offline
1355
#9
br.almighty #:
Полностью защитить от копирования и парсинга всё равно не получится никак. Это невозможно.

Убрать 90% парсеров и ботов можно легко, просто блокируя ненужные страны и подсети. А если детектить обращение к множеству страниц за короткий промежуток, то можно и 99% убрать, добавив в вайтлист нужные боты.

В блеклист все страны, откуда не идет основной трафик + подсети хостеров.

Защита от парсеров сокрытием стандартных путей... ну это дилетантство какое-то.

W1
На сайте с 22.01.2021
Offline
306
#10
Сергей :
Кто скрывал от парсеров свои сайтмапы будут неприятно удивлены тому факту,

что существуют ещё и проксирование.

Мой форум - https://webinfo.guru –Там я всегда на связи
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий