CDATA тут будет не уместен, почитайте спецификацию xhtml
1. Нет, ФИО не позволяет идентифицировать личность, но ФИО + ИП из лога уже может, поэтому все таки да:)
2. Нет, петя по собственной воле сделал информацию общедоступной, у вас есть доказательства(логи)
3. Тоже, что и пункт 2
4. Все что касается Оли в соответствии с п.2, если Оля публикует инфо о других лицах то Оля и сам сайт занимаются обработкой ПДн.
5. В оферте необходимо требовать "согласие пользователя на обработку персональных данных" - именно в этой формулировке, этого достаточно, в любом случае право на прекращение обработки ПДн у пользователя остается, но воспользоваться но может только если докажет что это его учетная запись, то есть у автора сайта есть право требовать подтверждение личности.
Для интернет сайтов это не бред, функцию удаления данных о пользователе по запросу достаточно не сложно реализовать.
Вообще не так все и страшно, проблема в том что считать ПДн, тут много различных толков, даже проверяющие на этот вопрос не могут однозначно ответить, но думаю скоро все утрясется.
Karl_ung добавил 11.11.2009 в 18:29
Вообще то для этого даже этот орган создали :).
Сайт натянуть нельзя, можно только владельцев, и не любой, а на котором есть ПДн, так что паги о Кактусах с форумом, в которых надо регистрироваться только по нику ни кто не тронет.
В первую очередь конечно внимание обратят на соц. сети, но особо крупные подстраховались, и привели в соответствие свои ИСПДн, закон то с 2007 года еще, так что эта новость не для всех была новой.
пруф .
Karl_ung добавил 10.11.2009 в 10:57
Джордж Зипф доказал обратное.
За поисковики не скажу, но урл читается тяжелее когда в качестве разделителя используются точки, меж буквенное расстояние маленькое.
Не верю.
.
Так опубликован же алгоритм был яндексом, конечно часть поменялась но суть осталась той же.
Берется каталог(ЯК), разбивается на слова, высчитывается частота для каждого слова(словоформы не учитываются), далее берется тема опять же из ЯК, высчитывается частота слов в теме, потом высчитываются две вероятности:
1. Вероятность того что если встретилось слово то документ в теме
2. Вероятность того что если слово встретилось то документ не в теме
Далее анализируется текст тематику которого надо определить, и находятся темы близкие этому документу.
При фасетной организации эталонного каталога, тема более менее ярко выражена.
У страниц nic.ru которая предназначена для парковки просроченных доменов, стоит в robots.txt запрет на индексацию поисковиками, поэтому и было все удалено из индекса.
А ждать теперь придется как всем новым сайтам, в течении пары недель залезет в индекс.
Что то подобное делал только не для доров, а для ГС для продажи ссылочного, там как раз делал обратную оптимизацию, чтобы трафика мало шло(меньше нагрузки на хостинг, меньше вероятность стука).
Немного только другая концепция была:
1. Союзы знаки пунктуации не мусор, а важный связующий член предложения.
2. С определением глаголов проблем не было, в словаре Зализняка все есть, сложнее с существительными например с географическими названиями. К тому-же предложения может быть и без подлежащего или сказуемого, или без обоих.
3. Блоки выбирал исходя из верстки и знаков препинания, например </p>, </br> и т.д. обрывают предложения. Удалялся мусор в виде меню, и постоянно присутствующих блоков.
4. Делается максимально возможный разбор предложения(до конца так пока и не удалось сделать, велик и могуч Русский язык), выявляются согласования частей предложения, например дом может быть у дороги, но не может быть в океане, все найденный части удаляются.
5. Кусок предложения который остался после п.4 дополнятся по алгоритму обратному п.4
6. ????????.
7. Profit.
сначала проверяет на доступность потом на бан, так что "Сервер недоступен, либо возвращает код статуса http, отличный от 200" - не говорит ни о чем.
Не будет ни какого конфликта при параллельном чтении, да и при незначительном телодвижении эта проблема снимается и для записи.