Сделать невозможным парсинг структуры сайта. Затрудните максимально его обход - Веб-строительство

Хочу защитить проект от парсинга

borisd · 2016-10-25T10:39:29.0000000Z

Господа, у меня на подходе интересный проект и в силу интересности он однозначно вызовет интерес всяких нехороших вредных личностей, поэтому будет нуждаться в защите. Контентом там будут не авторские тексты, а некая весьма полезная информация, являющаяся результатом работы некоего аналитического алгоритма. Поэтому каждая индивидуальная страница объектом авторских прав являться не будет, ее и не требуется защищать от копипаста. Т.е. каждую индивидуальную страницу защищать от копипаста не надо. Если кому то данные со страницы понадобятся - пусть копипастят. А надо защитить сайт от полного парсинга всех страниц, т.е. надо защитить от создания полных копий сайта. И то лишь в период юности сайта. Количество страниц будет - несколько десятков тысяч. Также не стоит задача полностью исключить возможность парсинга, достаточно будет сильно усложнить. Потенциальные вредители - не из нашей среды, сами они парсеры писать не умеют и не будут, они будут эту работу заказывать на стороне. Поэтому требуется, чтобы эта работа не была дешевой. Основным методом доступа к нужной странице на сайте будет встроенный поиск. Пока склоняюсь к такому решению: 1) Пока сайт молодой доступ ко всем страницам через ссылки категорий исключить. Оставить доступ к страницам только через строку поиска. 2) К урлам добавить случайные щепотки соли, чтобы основываясь на структуре урлов нельзя было написать парсер. 3) Для индексации поисковыми системами (Гуглом и Яндексом) создать карту сайта, но не публиковать ее на самом сайте, а загрузить в панели вебмастера поисковиков. Что думаете? Поможет? Может быть еще что посоветуете?

219

zhitov

25 октября 2016, 18:15

#21

tommy-gung:
неужели вы думаете, что никто не смотрит результат, который отображается?

Все 10-20 тысяч результатов? Хитрый владелец отдаст нужный результат каждый 3-5-10-рандомный раз.

tommy-gung:
да и чаще аяксовые данные еще проще парсить, так как они отдаются чаще в json, xml

Всегда считал, что как отдавать данные решает вебмастер. ;) Хоть шифровкой.

Да и не нужно отдавать все данные для страницы, а только то, что заменять. Плюс что именно менять - можно другим запросом отдавать.

tommy-gung:
Если захотят, спарсят что угодно

Само собой. ТС хочет всего лишь затруднить процесс...

Строительные калькуляторы ( https://www.zhitov.com/ )

Раскручиваю сайты За время углеводородного пира Система SeoPult автоматизированное продвижение

[Удален]

25 октября 2016, 18:30

#22

Говорю то, что мне может затруднить парсинг: не отдавайте структуру сайта в открытом виде, т.е. затрудните максимально его обход. При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше. Таким образом тот кто захочет спарсить не сможет найти ту точку через которую сможет размотать весь сайт.

Страница сайта с кучей И по второму сервису Внешняя ссылка

369

Samail

25 октября 2016, 18:36

#23

imagine:
При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта, т.е. это может быть страница со списком результатов, по которым робот пройдет дальше.

Так она же потом в поиске появится, лучше карту сайта им скормить.

imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

Вопрос про индексацию сайта Прошу помощи. Как поставить счетчик на

B

262

borisd

25 октября 2016, 19:05

#24

Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.

Stolz:
Еще не факт. Вот вызовет - обращайтесь.

Вот именно, еще не известно когда проект выстрелит и выстрелит ли вообще, но не хотелось бы, чтобы его подстрелили на начальном этапе взлета - до выхода в стратосферу :). И конечно, просто интересный никому еще неизвестный проект - это в глазах многих нехороших личностей не ровня высокопосещаемому интересному проекту, при виде которого в их глазах сразу начинают мелькать знаки $$$. Хотя на меня один раз при запуске перспективного проекта наехали с угрозами. Сейчас я практически уверен, что это были конкуренты и они не успевали со своим аналогичным проектом. Потом они кстати перегрызлись между собой. Так что всякое бывает, но это другая история.

Поэтому хотелось бы ограничиться простыми и безопасными, но эффективными (в плане увеличения трудоемкости парсинга) способами.

Итого, пока есть такие варианты:

1) Сделать невозможным парсинг структуры сайта. Разве что из поисковиков проиндексированные страницы им придется дергать. У поисковиков будет карта сайта, а у посетителей только строка поиска.

2) При попытке парсинга через некоторое количество страниц непредсказуемо выдавать искаженную информацию, например числа неправильные - в этом случае даже при ручной проверке каждой спарсенной страницы далеко не каждый поймет, что это лажа.

Key Collector - автоматизированная Как правильно проверять позиции? "Лидер.Сервис" - позиции сайта

396

Оптимизайка

25 октября 2016, 20:30

#25

3) Register your data as database to send copyright infrigement letter to hosting/police/somewhere else in the future.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!

[Удален]

25 октября 2016, 21:08

#26

Samail:
Так она же потом в поиске появится, лучше карту сайта им скормить.
imagine, а вы когда парсите страницы - картинки, стили, скрипты грузите? Может просто банить тех кто с одной страницы идёт на другую, минуя загрузку файлов.

Ну это еще надо ее там найти или знать что она там есть. Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок. Есть над чем подумать, но сильно усложнить и отбить желание таким образом можно.

То что касается, грузят ли при парсинге картинки и скрипты, то это зависит от парсера, если ему нужны картинки есс-но он их грузит, если нужны скрипты то и выполняет их тоже. В целом можно сделать полную эмуляцию браузера ( можно вообще через реальный браузер типа selenium). Вышеописанный мной способ обычно основная преграда, т.к. если сайт можно обойти, то вытащить информацию уже дело техники, понятно и здесь можно навставлять палки, но обычно все решается.

Есть еще способ, повесить демона, который следит за логами сайта и сохранять ip адреса обращений, при достижении некоторого неразумного лимита (количества) за скажем 1 мин, 5 мин. 10 мин. /час/день, делать на них whois и если они не принадлежат google, yandex, bing, rambler, mail.ru то банить эти ip, это будут или ненужные пауки типа ahrefs или парсеры. Но в этом случае решается большим или не очень (в зависимости от количества страниц) пулом proxy ip.

Key Collector - автоматизированная Тестирование программы AllPositions Продвинутая эмуляция браузера аКа

B

262

borisd

25 октября 2016, 21:10

#27

Оптимизайка, регистрировать пока нет смысла. Программный код по любому будет недоступен, а база данных по факту будет автоматически генерироваться, поэтому как набор данных не может быть объектом авторских прав. Можно конечно не упоминать об автоматической генерации, типа всё вручную делалось, но в общем не хочу замарачиваться, тем более на данном этапе.

---------- Добавлено 26.10.2016 в 00:16 ----------

imagine:
Если поисковики проиндексируют к этому несколько тысяч страниц то вряд ли, кто-то обратит внимание на страницу, которую можно сделать ничем не примечательной, и например без видимых ссылок.

Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

Дубли из-за событийного "Календаря" Лидирующая биржа статей Рунета! Пагинация в ИМ закрытая/открытая

[Удален]

25 октября 2016, 21:28

#28

borisd:
Хорошо, что напомнили. На такие страницы можно повесить метатег: "noindex, follow", тем самым запретив её индексацию, но при этом разрешив проходить по ссылкам с неё. Тогда по идее эта страница не должна быть в поисковом индексе, но должна быть использована пауком для прохода по ссылкам.

Да, все верно

334

TF-Studio

25 октября 2016, 21:31

#29

я вас расстрою.

спарсить можно все. без труда.

все ваши защиты не обойдут запуск управляемой копии браузера.

а вы не обладаете уровнем знаний. чтобы уже на странице отличить живого юзера, от браузера управляемого через прокси

ваш сайт никому не нужен кроме вас. каждый день тысячи сайтов новых создаются. вот сидят конкуренты и генерят себе копию инета....

При этом роботам вроде яндекса и гугла скормите урл ( через addurl ) обхода сайта

10 страниц в сутки.

потом они появятся в серпе и парсим просто выдачу.

Отличная TMQ для QA - complexqa ( https://landing.complexqa.com/ru ).

Продвижение канала Индексация AJAX'a Нарушения и угрозы безопасности

[Удален]

25 октября 2016, 21:41

#30

TF-Studio:
10 страниц в сутки.
потом они появятся в серпе и парсим просто выдачу.

Так не нужно 10, нужна 1 точка входа, по которой поисковики найдут все остальное. А после того как они проиндексировали пожалуйста копируйте, но вы все-равно уже опоздали. Точка входа будет видна только поисковикам, поэтому заранее стырить контент не выйдет. Понятно, что если страница в браузере ее можно спарсить, но чтобы знать какие страницы вообще есть на сайте нужна точка обхода, и если вы ее не знаете обойти сайт не сможете. Все просто, в чем расстройство не ясно. Много раз сам так делал.

Кража контента Как доказать, что автор Трейлеры фильмов

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Хочу защитить проект от парсинга