Сделать невозможным парсинг структуры сайта. Затрудните максимально его обход - Веб-строительство

219

zhitov

25 октября 2016, 18:15

#21

tommy-gung:
неужели вы думаете, что никто не смотрит результат, который отображается?

Все 10-20 тысяч результатов? Хитрый владелец отдаст нужный результат каждый 3-5-10-рандомный раз.

tommy-gung:
да и чаще аяксовые данные еще проще парсить, так как они отдаются чаще в json, xml

Всегда считал, что как отдавать данные решает вебмастер. ;) Хоть шифровкой.

Да и не нужно отдавать все данные для страницы, а только то, что заменять. Плюс что именно менять - можно другим запросом отдавать.

tommy-gung:
Если захотят, спарсят что угодно

Само собой. ТС хочет всего лишь затруднить процесс...

Строительные калькуляторы ( https://www.zhitov.com/ )

[Удален]

25 октября 2016, 18:30

#22

Говорю то, что мне может затруднить парсинг: не отдавайте структуру сайта в открытом виде, т.е. затрудните максимально его обход. При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше. Таким образом тот кто захочет спарсить не сможет найти ту точку через которую сможет размотать весь сайт.

361

Samail

25 октября 2016, 18:36

#23

imagine:
При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше.

Так она же потом в поиске появится, лучше карту сайта им скормить.

imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

B

262

borisd

25 октября 2016, 19:05

#24

Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.

Stolz:
Еще не факт. Вот вызовет - обращайтесь.

Вот именно, еще не известно когда проект выстрелит и выстрелит ли вообще, но не хотелось бы, чтобы его подстрелили на начальном этапе взлета - до выхода в стратосферу :). И конечно, просто интересный никому еще неизвестный проект - это в глазах многих нехороших личностей не ровня высокопосещаемому интересному проекту, при виде которого в их глазах сразу начинают мелькать знаки $$$. Хотя на меня один раз при запуске перспективного проекта наехали с угрозами. Сейчас я практически уверен, что это были конкуренты и они не успевали со своим аналогичным проектом. Потом они кстати перегрызлись между собой. Так что всякое бывает, но это другая история.

Поэтому хотелось бы ограничиться простыми и безопасными, но эффективными (в плане увеличения трудоемкости парсинга) способами.

Итого, пока есть такие варианты:

1) Сделать невозможным парсинг структуры сайта. Разве что из поисковиков проиндексированные страницы им придется дергать. У поисковиков будет карта сайта, а у посетителей только строка поиска.

2) При попытке парсинга через некоторое количество страниц непредсказуемо выдавать искаженную информацию, например числа неправильные - в этом случае даже при ручной проверке каждой спарсенной страницы далеко не каждый поймет, что это лажа.

396

Оптимизайка

25 октября 2016, 20:30

#25

3) Register your data as database to send copyright infrigement letter to hosting/police/somewhere else in the future.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!

[Удален]

25 октября 2016, 21:08

#26

Samail:
Так она же потом в поиске появится, лучше карту сайта им скормить.
imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

Ну это еще надо ее там найти или знать что она там есть. Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок. Есть над чем подумать, но сильно усложнить и отбить желание таким образом можно.

То что касается, грузят ли при парсинге картинки и скрипты, то это зависит от парсера, если ему нужны картинки есс-но он их грузит, если нужны скрипты то и выполняет их тоже. В целом можно сделать полную эмуляцию браузера ( можно вообще через реальный браузер типа selenium). Вышеописанный мной способ обычно основная преграда, т.к. если сайт можно обойти, то вытащить информацию уже дело техники, понятно и здесь можно навставлять палки, но обычно все решается.

Есть еще способ, повесить демона, который следит за логами сайта и сохранять ip адреса обращений, при достижении некоторого неразумного лимита (количества) за скажем 1 мин, 5 мин. 10 мин. /час/день, делать на них whois и если они не принадлежат google, yandex, bing, rambler, mail.ru то банить эти ip, это будут или ненужные пауки типа ahrefs или парсеры. Но в этом случае решается большим или не очень (в зависимости от количества страниц) пулом proxy ip.

B

262

borisd

25 октября 2016, 21:10

#27

Оптимизайка, регистрировать пока нет смысла. Программный код по любому будет недоступен, а база данных по факту будет автоматически генерироваться, поэтому как набор данных не может быть объектом авторских прав. Можно конечно не упоминать об автоматической генерации, типа всё вручную делалось, но в общем не хочу замарачиваться, тем более на данном этапе.

---------- Добавлено 26.10.2016 в 00:16 ----------

imagine:
Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок.

Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

[Удален]

25 октября 2016, 21:28

#28

borisd:
Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

Да, все верно

334

TF-Studio

25 октября 2016, 21:31

#29

я вас расстрою.

спарсить можно все. без труда.

все ваши защиты не обойдут запуск управляемой копии браузера.

а вы не обладаете уровнем знаний. чтобы уже на странице отличить живого юзера, от браузера управляемого через прокси

ваш сайт никому не нужен кроме вас. каждый день тысячи сайтов новых создаются. вот сидят конкуренты и генерят себе копию инета....

При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта

10 страниц в сутки.

потом они появятся в серпе и парсим просто выдачу.

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).

[Удален]

25 октября 2016, 21:41

#30

TF-Studio:
10 страниц в сутки.
потом они появятся в серпе и парсим просто выдачу.

Так не нужно 10, нужна 1 точка входа, по которой поисковики найдут все остальное. А после того как они проиндексировали пожалуйста копируйте, но вы все-равно уже опоздали. Точка входа будет видна только поисковикам, поэтому заранее стырить контент не выйдет. Понятно, что если страница в браузере ее можно спарсить, но чтобы знать какие страницы вообще есть на сайте нужна точка обхода, и если вы ее не знаете обойти сайт не сможете. Все просто, в чем расстройство не ясно. Много раз сам так делал.

Что делать, чтобы попасть в ответы Google Bard

Open AI тестирует память для ChatGPT

Хочу защитить проект от парсинга