maximuch
Еще раз приведу определение:
Обращаю внимание что любая информация должна относиться к определенному или определяемому физическому лицу.
Определяемое лицо, как я понимаю, - это лицо, которое можно однозначно идентифицировать рассматриваемыми данными.
Определенное лицо - здесь мне сложнее понять, что именно подразумевал законодатель, но, как мне видится, в этом случае лицо также должно быть так или иначе идентифицированно, пусть и не прямо вводимыми данными, но вкупе с другими данными.
Например, определение "лысый" само по себе не говорит об определенном лице, но вкупе со словами "вождь революции" сразу становится понятно, о ком идет речь. Или кто такой "Михаил Сергеевич" непонятно. А вот в контексте "президент СССР" определяется однозначно. Кто такой "Александр Сергеевич" также не понятно, а в контексте "автор стихотворения Я помню чудное мгновенье" определяется однозначно.
Из этого и следует, что сами по себе ФИО без определенного контекста персональными данными не являются.
В общем остановился на самом простом варианте. Буду периодически внедрять какие-нибудь ссылки (можно и не активные) на себя в тех же тегах, что и элементы основного контента, а потом их убирать. Если они парсер не перестроят, у них будут ссылки на меня, а если парсер они перестроят на исключение этих элементов, то после того как я уберу эти блоки, у них похерится часть содержимого. Т.е. они не смогут для гарантированного исключения вставок полагаться на теги, а должны будут полагаться на содержимое вставок, которое в моих руках и не будет постоянным. Таким образом мне даже верстку не надо будет менять.
rustelekom, да у нас практически все правовые нормы такие неопределенные, размытые.
Например, очень размыты критерии предпринимательской деятельности: часто бывает невозможно четко понять, является ли деятельность предпринимательской или нет. И так везде. В итоге конечная трактовка возлагается на плечи чиновника или сотрудника тех или иных органов.
Из этого определения следует, что сами по себе ФИО (без дополнительной информации) не относятся к персональным данным, т.к. по ним нельзя однозначно идентифицировать лицо.
Если в этих дублях полностью одинаковое содержимое, то поможет. А если там разные списки ссылок на внутренные страницы (как при пагинации), то robots.txt я бы не использовал для этого, лучше метатегом запретить индексацию таких страниц, но при этом разрешить роботу проходить по ссылкам, что-то типа: "noindex,follow" прописать.
dlneo, если читать текст этих правовых норм буквально, то откуда тогда идет рекомендация ставить в онлайн-форме галочку? Про эту галочку и про то, что она эквивалентна письменному согласию, четко где-нибудь прописано? Если нет, то в онлайне этот закон при буквальном прочтении, без натяжек, вообще выполнить, получается, не возможно.
К примеру, есть 20 тысяч страниц и у всех или некоторых страниц - своя верстка. Как вы это решите регулярками? Ведь еще перед началом написания (модификации) парсера необходимо провести анализ всех страниц, для чего также надо написать отдельный парсер и анализатор всех вариантов верстки. Потом надо будет искать общее решение для всех вариантов. А если их много?
Подчеркну, что в моем случае вычленить просто основной контент недостаточно, надо отдельно вычленять каждый элемент структуры и очень важно сохранить точность и целостность информации. Если будут ошибки, то поисковики конечно схавают, но как серьезный инструмент это уже не будет годиться.
---------- Добавлено 22.09.2015 в 11:55 ----------
Разобрать конкретную страницу с конкретной версткой, действительно, нет проблем. Но если страницы могут отличаться версткой - это уже проблема, которая требует анализа и не решается с ходу.
Также любое обращение к программисту и составление ТЗ - это уже деньги.
Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать :) Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности. Да не разового копирования, а регулярного. Плюс временной лаг между обновлением контента на моем сайте и сайтах конкурентов - чем больше, тем лучше.
Из опыта: нанимать программиста на каждый чих они не будут, удовлетворятся старыми данными.
Если допустить, что наработанная статистика сохранилась, то где по вашим ощущениям лучше - в юле и здесь? И на сколько? Как вам вообще эта система по сравнению с юлой?
Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.
Хотя я в принципе наверно смогу точно узнать, с каких ip идет интересующая меня закачка. В общем надо подумать над этим вариантом, спасибо.