Мы возвращаемся к тому, с чего я начал: меня беспокоит в этом то, что яндекс будет видеть эти манипуляции со счетчиком метрики, причем целью этой манипуляции является улучшение ПФ в глазах яндекса (давайте сами себя не будем обманывать), плюс к тому эта манипуляция может помешать работе антиботовского алгоритма яндекса, который у него однозначно имеется (насколько он эффективен - другой вопрос). В результате эти и прочие вероятные риски и дополнительная неопределенность лично меня остановили. По крайней мере пока. Пока у этих ботов нет прямой цели навредить моему проекту.
А статистика посетиля напрямую включает в себя статистику посещаемых страниц. Сейчас глянул табличку, в которой яндекс расписывает, какую информацию яндекс-браузер по умолчанию передает в обезличенном виде. Есть там и информация о страницах, и даже историю передает. Для обеспечения безопасности передает урл, на который пользователь только собирается перейти. И интересен пункт передаваемой информации:
«—- Адрес страницы, которая не открывается из-за того, что не найден домен или не отвечает сервер. —- »
А если браузер бота не препятствует сбору этой информации, а наоборот способствует, то всё у яндекса будет.
Хотите своими руками передавать яндексу сигнал, что с вашим сервером/сайтом не все в порядке?
Ну, а куда ему (яндексу) деваться? У него это основной фактор, поэтому для него это актуальнейшая проблема. Другое дело, что когда лес рубят, щепки летят...
Бот с скорей всего передает инфу о заходе на ваш сайт яндексу. Т.е. яндекс увидит переход на ваш сайт, а там... капча... Как он это расценит? Как хороший фактор? Вряд ли. Яндекс ведь не только с вашего счетчика статистику по вам собирает, он может ее брать из браузера бота.
Кого вы собрались по ip блокировать? Через один ip мобильного оператора могут в интернет ходить тысячи нормальных людей. По ip только в некоторых случаях имеет смысл блокировать, например если вам не нужен московский трафик, ну и прочие страны можно заблокировать.
Скажем так: пока не уверен, что это стоит делать. Во-первых, выявление ботов будет носить сильно вероятносный характер, а во-вторых (и это главное) яндекс скорей всего будет видеть, что части трафика я счетчик не показываю. Резкое снижение доли прямого трафика (а порежется и часть нормальных заходов) тоже не очень хорошо. Но если доля паразитного трафика резко увеличится, то наверно всё же придется принимать меры. Буду отключать счетчик по ip, реферу и урлу посещаемой страницы (самый сильный критерий ботов в моем случае).
Вы правы, с пхп не дружу, у меня все сайты на питоне на выделенных серверах.
Меня не устраивают варианты бана ботов на уровне приложения и уж совсем не устраивает вычисление ботов на уровне джава скрипта. А по ip и реферу отфутболивать - априори плохая затея. Игру с показом/непоказом счетчика метрики также считаю опасной затеей.
Проблема в том, что отсечь именно паразитный трафик невозможно - нет четких критериев, я даже вручную по вебвизору затрудняюсь определить такого бота. Так что и нормальные посетители попадут под раздачу. Хотя именно в моем случае есть некоторые зацепки, но...
Я уверен, что эту манипуляцию паразитным трафиком яндекс точно заметит. И да, коль вероятная цель этих ботов - сформировать хороший профиль, то скорей всего они предоставляют инфу поисковикам. Так что именно жтот момент меня останавливает больше всего. По крайней мере, пока.
Мы можем оперировать только логикой и вероятностями.
Яндекс имеет некий алгоритм на случай паразитирующего на чужих ресурсах трафика. Насколько он адекватен - это отдельный вопрос, но это серьезная проблема для яндекса и он не может ей не заниматься всерьёз.
У яндекса ресурсов и возможностей выявлять паразитный трафик намного больше, чем у нас.
Все наши манипуляции с метрикой и паразитным трафиком однозначно будут замечены яндексом.
И возникает вопрос: какой алгоритм (вероятно!) будет лучше работать с паразитным трафиком - яндекса или наш? И не нарушим ли работу алгоритма яндекса своим вмешательством?
Повторюсь, я оперирую лишь вероятностями, но мне кажется, что вероятность того, что яндекс справится луше, значительно выше. Поэтому мешать работе его алгоритма, а также сознательно ухудшать ПФ и юзабилити я побаиваюсь.
И что? Я прекрасно знаю, что в топе увижу несколько сайтов построенных по антирекомендациям яндекса и гугла. Вопрос в другом - как долго именно эти сайты там продержатся. Алгоритм яндекса прямо опирается на эту движуху в выдаче, которая им создается целенаправленно. В этом сомнений быть не можем. Однако я речь веду о серьезных долгосрочных проектах в очень высококонкурентных тематиках. Здесь каждая мелочь важна, поэтому приходится всё вылизывать. И вот так вот брать и своими собственными руками ухудшать доступность к своему сайту... сомнительная идея. Если уже сайт улетел из топа, то конечно можно и нужно поэкспериментировать, но если сайт в топе, да еще поведенческие паразитного трафика не столь плохие, то я бы склонялся к тому, что лучше ничего не трогать.