Парсят или нет?

12
KK
На сайте с 21.06.2010
Offline
5
1700

Добрый день.

Есть небольшая пар*****альная мысль, которую хочется проверить: парсят контент или нет.

Проверить простым совпадением трудно, т.к. контента сайта — вакансии, соответственно совпадение с другими сайтами вполне допустимо.

Просмотр Google Analytics тоже не дает объективной информации: посетителей и просмотров страниц слишком много, чтобы заметить какие-либо очевидные всплески.

На что можно еще обратить внимание, чтобы дать на этот вопрос точный ответ?

Модераторы, а чем движку форума не нравится слово "пар-а-н-о-и-д-альный"?

SJ
На сайте с 16.03.2008
Offline
78
#1

Логи веб-сервера смотреть надо. Тогда проще всего понять.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
KU
На сайте с 17.07.2008
Offline
251
#2

Если в логах при загрузке страницы не запрашивались картинки/css/js значит это бот.

Хостинг ( https://good-host.net ) / Linux VPS ( https://good-host.net/vps ) / Windows VPS ( https://good-host.net/windows-vps ) / Выделенные серверы ( https://good-host.net/dedicated ) 14 лет онлайн!
KK
На сайте с 21.06.2010
Offline
5
#3

Значит все же логи ковырять нужно...

А по User-Agent или еще какие-нибудь штуки хитрые никак?

KU
На сайте с 17.07.2008
Offline
251
#4

User-Aget тоже в логах.

[Удален]
#5
KM.UA:
Если в логах при загрузке страницы не запрашивались картинки/css/js значит это бот.

+1

Только картинки тоже грабят - следовательно js, css не парсит никто.

Можно добавить еще кусочек js который на onload будет делать js-ajax запрос - защита не надежная но от дураков работает )

KK
На сайте с 21.06.2010
Offline
5
#6
KM.UA:
User-Aget тоже в логах.

А скрипт эмулировать его не может?

oleggo:
+1
Только картинки тоже грабят - следовательно js, css не парсит никто.

Можно добавить еще кусочек js который на onload будет делать js-ajax запрос - защита не надежная но от дураков работает )

js, css — да, пожалуй, идея.

А ajax-запрос какого рода делать? Что именно запрашивать?

KU
На сайте с 17.07.2008
Offline
251
#7
kostas_k:

А скрипт эмулировать его не может?

Может. Если подделывается под поисковик, то можно пробить по whois владельца IP.

Solo_by
На сайте с 19.06.2009
Offline
220
#8

Взять лог за день. Оставить айпишники, обработать на наличие заходов с одного айпи (редко кто парсит с проксей, медленно). Думаю парсящий айпи будет виден невооружённым глазом, если быстро работает.

wizzer
На сайте с 23.02.2009
Offline
152
#9

вообще никакого смысла в этом нет. ну парсят, ну и что дальше? это объявления же, а не гигабайт копирайтига за который уплочено.

//wizzer Проверенный временем опен впн сервис. (http://openvpn.cc) Перестань переживать за свою анонимность.
KK
На сайте с 21.06.2010
Offline
5
#10
wizzer:
вообще никакого смысла в этом нет. ну парсят, ну и что дальше? это объявления же, а не гигабайт копирайтига за который уплочено.

Это объявления клиентов печатного издания, за которые они как раз заплатили деньги. При настоящей популярности изготовления досок объявлений с напарсенной информацией, вопрос: "Тырят или нет" для печатных СМИ вполне актуален.

Solo_by:
Оставить айпишники, обработать на наличие заходов с одного айпи (редко кто парсит с проксей, медленно).

Спасибо, попробуем.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий