Товарищи, опять повторюсь, мне не надо невозможного - не надо абсолютной защиты от парсинга.
Вот именно, еще не известно когда проект выстрелит и выстрелит ли вообще, но не хотелось бы, чтобы его подстрелили на начальном этапе взлета - до выхода в стратосферу :). И конечно, просто интересный никому еще неизвестный проект - это в глазах многих нехороших личностей не ровня высокопосещаемому интересному проекту, при виде которого в их глазах сразу начинают мелькать знаки $$$. Хотя на меня один раз при запуске перспективного проекта наехали с угрозами. Сейчас я практически уверен, что это были конкуренты и они не успевали со своим аналогичным проектом. Потом они кстати перегрызлись между собой. Так что всякое бывает, но это другая история.
Поэтому хотелось бы ограничиться простыми и безопасными, но эффективными (в плане увеличения трудоемкости парсинга) способами.
Итого, пока есть такие варианты:
1) Сделать невозможным парсинг структуры сайта. Разве что из поисковиков проиндексированные страницы им придется дергать. У поисковиков будет карта сайта, а у посетителей только строка поиска.
2) При попытке парсинга через некоторое количество страниц непредсказуемо выдавать искаженную информацию, например числа неправильные - в этом случае даже при ручной проверке каждой спарсенной страницы далеко не каждый поймет, что это лажа.
Обратите внимание на то, что мне не требуется 100%-я защита. Мне по сути нужна фора по времени. У меня уже есть опыт таких интересных проектов. По началу он хоть и интересен многим в плане повторения, но вкладывать не очень копеешные деньги в копипаст или серьезные деньги в полную разработку аналога желающих обычно не находится. А вот когда ресурс активно занимает топы по тысячам позиций и жестко там устраивается, тогда уже подтягиваются люди с денежными ресурсами, но... уже поздно как правило.
Поэтому мне нужна лишь фора по времени, нужно лишь чтобы тупо не смогли сделать копипастные клоны дешевыми средствами. Пока сайт молод и не набрал какого-то веса.
Кстати, спасибо, что напомнили про капчу. Только лучше не капчу выдавать, а молча что-нибудь не так делать, чтобы нарушать работу парсера, причем случайным образом - пусть ломают голову. И скачку в несколько потоков надо будет на корню пресекать, но это будет на стороне nginx. Сталкивался уже - видел, как идиоты каким нибудь wget-ом в сотню параллельных потоков пытались скачивать.---------- Добавлено 25.10.2016 в 13:54 ----------
Да, этого допустить никак нельзя.
dtdt, Можно занять несколько мест в топе по одному запросу, но это вопрос больше рисков, чем технический. На поддержание нескольких проектов нужны деньги, риск фильтра афилиата также существует, причем по стуку. Никто кроме вас эти риски и затраты не взвесит.
Правда есть способы относительно безопасно занять топ (даже если яндекс узнает об афилированности), но они разумеется не лобовые.
С вероятностью 99% где-нибудь в мире будет зарегена ТМ, какое-бы одно-двухсловное имя вы не вводили бы. Главное, чтобы в России не было зарегена такая ТМ. Да и смотреть надо что именно зерегено - само слово или например его конкретное изображение.
Вы смотрели сколько стоит этот патент? Для Москвы насколько помню - дикая сумма какая то и надо иметь доход в десятки миллионов рублей, чтобы имело смысл переходить на этот патент.
Да, есть такой вариант - где то в хелпе гугла его видел. Только мне не очень понятно, что это дает по сравнению с только nofollow. Вес ссылки не будет передаваться в обоих случаях (не должен, по крайней мере), реальные переходы гугл будет видеть также в обоих случаях (кто, откуда и куда переходит - фиксируется по любому - даже переходы без активной ссылки). Так что именно даст страница редиректа? Я еще понимаю запрет к индексации файла с джаваскриптом, вставлящим ссылку, - тогда текст анкора не будет индексироваться, но смысла страницы редиректа не очень понимаю, разве как дополнительную страховку от передачи веса, если реципиент совсем уж стремный. Но если целевые сайты более-менее нормальные, то я решил не плодить лишние сущности и ограничился nofollow.
burunduk,
Так это ж гугл сам и показывает, значит он так и видит, т.е. видит всё и вся. А всё, что он там заявляет в лице своих представителей, что что-то не учитывает, включая яко бы неучет поведенческих факторов, это всё, уверен, лажа. Иметь информацию о реальном положении вещей и не использовать её? Глупость это. Да и уверен, публичные представители не посвящены в реальные детали работы алгоритма, как впрочем и большинство разработчиков.
Давайте уточним, о чем речь. Я не о nofollow, а об индексации текста анкора ссылки. Я пробовал ссылку публиковать разными способами, включая джаваскрипт и аджакс. Так вот если файл джава скрипта, который публикует ссылку не закрывать к индексации в роботс.тхт, то гугл включает текст ссылки в индекс. Если же файл джаваскрипта запретить к индексации, то в вебмастере появляется предупреждение о возможном понижении сайта в выдаче из-за наличия заблокированных ресурсов. Мне что, не верить глазам своим? Хотя, конечно, вряд ли по такой мелочи будет пессимизация.
Я хотел не афишировать афиллированность двух сайтов, связанных сквозной сылкой, но понял, что это не возможно ни скрытием ссылок, ни редиректом (он в индексе с редиректом связывает целевую страницу). В итоге я плюнул на эту затею. В любом случае в конце концов он видит и отслеживает реальные переходы.
ЗЫ
Это всё касается если ссылку публиковать джаваскриптом по событию onload. Если же по какому то другому событию публиковать ссылку, то тогда гугл не будет ее индексировать. Но повторюсь, что гугл по любому видит реальные переходы и поэтому я отказался от затеи скрыть это дело.
Пару десятков милисекунд наверно. Зависит от скорости компа :)
Но систему конечно придется самому разрабатывать, но это уже другая история.