borisd

Рейтинг
262
Регистрация
13.02.2008

maximuch

Еще раз приведу определение:

любая информация, относящаяся к прямо или косвенно к определенному или определяемому физическому лицу

Обращаю внимание что любая информация должна относиться к определенному или определяемому физическому лицу.

Определяемое лицо, как я понимаю, - это лицо, которое можно однозначно идентифицировать рассматриваемыми данными.

Определенное лицо - здесь мне сложнее понять, что именно подразумевал законодатель, но, как мне видится, в этом случае лицо также должно быть так или иначе идентифицированно, пусть и не прямо вводимыми данными, но вкупе с другими данными.

Например, определение "лысый" само по себе не говорит об определенном лице, но вкупе со словами "вождь революции" сразу становится понятно, о ком идет речь. Или кто такой "Михаил Сергеевич" непонятно. А вот в контексте "президент СССР" определяется однозначно. Кто такой "Александр Сергеевич" также не понятно, а в контексте "автор стихотворения Я помню чудное мгновенье" определяется однозначно.

Из этого и следует, что сами по себе ФИО без определенного контекста персональными данными не являются.

В общем остановился на самом простом варианте. Буду периодически внедрять какие-нибудь ссылки (можно и не активные) на себя в тех же тегах, что и элементы основного контента, а потом их убирать. Если они парсер не перестроят, у них будут ссылки на меня, а если парсер они перестроят на исключение этих элементов, то после того как я уберу эти блоки, у них похерится часть содержимого. Т.е. они не смогут для гарантированного исключения вставок полагаться на теги, а должны будут полагаться на содержимое вставок, которое в моих руках и не будет постоянным. Таким образом мне даже верстку не надо будет менять.

rustelekom, да у нас практически все правовые нормы такие неопределенные, размытые.

Например, очень размыты критерии предпринимательской деятельности: часто бывает невозможно четко понять, является ли деятельность предпринимательской или нет. И так везде. В итоге конечная трактовка возлагается на плечи чиновника или сотрудника тех или иных органов.

maximuch:
персональные данные - любая информация, относящаяся к прямо или косвенно к определенному или определяемому физическому лицу. Думаю эту статью не стоит комментировать, все и так понятно.

Из этого определения следует, что сами по себе ФИО (без дополнительной информации) не относятся к персональным данным, т.к. по ним нельзя однозначно идентифицировать лицо.

Shooting:
в robots.txt запрет на индексацию не поможет?

Если в этих дублях полностью одинаковое содержимое, то поможет. А если там разные списки ссылок на внутренные страницы (как при пагинации), то robots.txt я бы не использовал для этого, лучше метатегом запретить индексацию таких страниц, но при этом разрешить роботу проходить по ссылкам, что-то типа: "noindex,follow" прописать.

dlneo, если читать текст этих правовых норм буквально, то откуда тогда идет рекомендация ставить в онлайн-форме галочку? Про эту галочку и про то, что она эквивалентна письменному согласию, четко где-нибудь прописано? Если нет, то в онлайне этот закон при буквальном прочтении, без натяжек, вообще выполнить, получается, не возможно.

ant_key:
Ерунда. Это решается регулярками.

К примеру, есть 20 тысяч страниц и у всех или некоторых страниц - своя верстка. Как вы это решите регулярками? Ведь еще перед началом написания (модификации) парсера необходимо провести анализ всех страниц, для чего также надо написать отдельный парсер и анализатор всех вариантов верстки. Потом надо будет искать общее решение для всех вариантов. А если их много?

Подчеркну, что в моем случае вычленить просто основной контент недостаточно, надо отдельно вычленять каждый элемент структуры и очень важно сохранить точность и целостность информации. Если будут ошибки, то поисковики конечно схавают, но как серьезный инструмент это уже не будет годиться.



---------- Добавлено 22.09.2015 в 11:55 ----------

ant_key:
Здесь нет по сути никаких ресурсов, лично у меня для всего перечисленного есть уже наработки, фреймворки свои, там действительно ничего сложного нет.

Разобрать конкретную страницу с конкретной версткой, действительно, нет проблем. Но если страницы могут отличаться версткой - это уже проблема, которая требует анализа и не решается с ходу.

Также любое обращение к программисту и составление ТЗ - это уже деньги.

ant_key:
Не тратьте время зря, это бесполезно, поверьте

Ну, почему же бесполезно? Вы же к примеру не бесплатно будете работать :) Задача ведь не в полной защите от парсинга, а в экономической нецелесообразности. Да не разового копирования, а регулярного. Плюс временной лаг между обновлением контента на моем сайте и сайтах конкурентов - чем больше, тем лучше.

Из опыта: нанимать программиста на каждый чих они не будут, удовлетворятся старыми данными.

fingeniy:
до этого был подключен к Юламедиа

Если допустить, что наработанная статистика сохранилась, то где по вашим ощущениям лучше - в юле и здесь? И на сколько? Как вам вообще эта система по сравнению с юлой?

Оптимизайка, некоторые люди wget-ом или подобными утилитами мой сайт скачивают, чтобы потом локально на своем компе работать. Их затрагивать я не хочу. Я лишь ограничил их скоростью скачки - не более 5-ти страниц в секунду.

Хотя я в принципе наверно смогу точно узнать, с каких ip идет интересующая меня закачка. В общем надо подумать над этим вариантом, спасибо.

Всего: 2244