Хочу защитить проект от парсинга

1 234
zhitov
На сайте с 30.01.2005
Offline
219
#21
tommy-gung:
неужели вы думаете, что никто не смотрит результат, который отображается?

Все 10-20 тысяч результатов? Хитрый владелец отдаст нужный результат каждый 3-5-10-рандомный раз.

tommy-gung:
да и чаще аяксовые данные еще проще парсить, так как они отдаются чаще в json, xml

Всегда считал, что как отдавать данные решает вебмастер. ;) Хоть шифровкой.

Да и не нужно отдавать все данные для страницы, а только то, что заменять. Плюс что именно менять - можно другим запросом отдавать.

tommy-gung:
Если захотят, спарсят что угодно

Само собой. ТС хочет всего лишь затруднить процесс...

Строительные калькуляторы ( https://www.zhitov.com/ )
[Удален]
#22

Говорю то, что мне может затруднить парсинг: не отдавайте структуру сайта в открытом виде, т.е. затрудните максимально его обход. При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше. Таким образом тот кто захочет спарсить не сможет найти ту точку через которую сможет размотать весь сайт.

Samail
На сайте с 10.05.2007
Offline
361
#23
imagine:
При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше.

Так она же потом в поиске появится, лучше карту сайта им скормить.

imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

B
На сайте с 13.02.2008
Offline
262
#24

Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.

Stolz:
Еще не факт. Вот вызовет - обращайтесь.

Вот именно, еще не известно когда проект выстрелит и выстрелит ли вообще, но не хотелось бы, чтобы его подстрелили на начальном этапе взлета - до выхода в стратосферу :). И конечно, просто интересный никому еще неизвестный проект - это в глазах многих нехороших личностей не ровня высокопосещаемому интересному проекту, при виде которого в их глазах сразу начинают мелькать знаки $$$. Хотя на меня один раз при запуске перспективного проекта наехали с угрозами. Сейчас я практически уверен, что это были конкуренты и они не успевали со своим аналогичным проектом. Потом они кстати перегрызлись между собой. Так что всякое бывает, но это другая история.

Поэтому хотелось бы ограничиться простыми и безопасными, но эффективными (в плане увеличения трудоемкости парсинга) способами.

Итого, пока есть такие варианты:

1) Сделать невозможным парсинг структуры сайта. Разве что из поисковиков проиндексированные страницы им придется дергать. У поисковиков будет карта сайта, а у посетителей только строка поиска.

2) При попытке парсинга через некоторое количество страниц непредсказуемо выдавать искаженную информацию, например числа неправильные - в этом случае даже при ручной проверке каждой спарсенной страницы далеко не каждый поймет, что это лажа.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#25

3) Register your data as database to send copyright infrigement letter to hosting/police/somewhere else in the future.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
[Удален]
#26
Samail:
Так она же потом в поиске появится, лучше карту сайта им скормить.
imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

Ну это еще надо ее там найти или знать что она там есть. Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок. Есть над чем подумать, но сильно усложнить и отбить желание таким образом можно.

То что касается, грузят ли при парсинге картинки и скрипты, то это зависит от парсера, если ему нужны картинки есс-но он их грузит, если нужны скрипты то и выполняет их тоже. В целом можно сделать полную эмуляцию браузера ( можно вообще через реальный браузер типа selenium). Вышеописанный мной способ обычно основная преграда, т.к. если сайт можно обойти, то вытащить информацию уже дело техники, понятно и здесь можно навставлять палки, но обычно все решается.

Есть еще способ, повесить демона, который следит за логами сайта и сохранять ip адреса обращений, при достижении некоторого неразумного лимита (количества) за скажем 1 мин, 5 мин. 10 мин. /час/день, делать на них whois и если они не принадлежат google, yandex, bing, rambler, mail.ru то банить эти ip, это будут или ненужные пауки типа ahrefs или парсеры. Но в этом случае решается большим или не очень (в зависимости от количества страниц) пулом proxy ip.

B
На сайте с 13.02.2008
Offline
262
#27

Оптимизайка, регистрировать пока нет смысла. Программный код по любому будет недоступен, а база данных по факту будет автоматически генерироваться, поэтому как набор данных не может быть объектом авторских прав. Можно конечно не упоминать об автоматической генерации, типа всё вручную делалось, но в общем не хочу замарачиваться, тем более на данном этапе.

---------- Добавлено 26.10.2016 в 00:16 ----------

imagine:
Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок.

Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

[Удален]
#28
borisd:
Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

Да, все верно

TF-Studio
На сайте с 17.08.2010
Offline
334
#29

я вас расстрою.

спарсить можно все. без труда.

все ваши защиты не обойдут запуск управляемой копии браузера.

а вы не обладаете уровнем знаний. чтобы уже на странице отличить живого юзера, от браузера управляемого через прокси

ваш сайт никому не нужен кроме вас. каждый день тысячи сайтов новых создаются. вот сидят конкуренты и генерят себе копию инета....

При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта

10 страниц в сутки.

потом они появятся в серпе и парсим просто выдачу.

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
[Удален]
#30
TF-Studio:
10 страниц в сутки.
потом они появятся в серпе и парсим просто выдачу.

Так не нужно 10, нужна 1 точка входа, по которой поисковики найдут все остальное. А после того как они проиндексировали пожалуйста копируйте, но вы все-равно уже опоздали. Точка входа будет видна только поисковикам, поэтому заранее стырить контент не выйдет. Понятно, что если страница в браузере ее можно спарсить, но чтобы знать какие страницы вообще есть на сайте нужна точка обхода, и если вы ее не знаете обойти сайт не сможете. Все просто, в чем расстройство не ясно. Много раз сам так делал.

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий