Повадились ко мне на сайт роботы ходить...

12
K
На сайте с 16.09.2010
Offline
59
3389

На днях на одном из сервисов в интернете, который выясняет, как страница сайта ведет себя в поисковой выдаче яндекса с учетом поведенческих факторов и без них, с удивлением обнаружила, что мой сайт по многим запросам, по которым я его продвигаю, мог бы давно уже занимать 1-2 места. А занимает 9-10.

Начала думать, почему у меня ПФ такие слабенькие. Сайт чисто СДЛ, контент пишу сама и с душой, почти каждый день пишут благодарные юзеры, что классный сайт и т.д. и т.п.

Впервые залезла на ЯндексМетрику (до этого именно туда не лазила) и офигела:

Мой ежедневный трафик (1000-1200 в сутки) на 45% состоит из заходов видимо робота!! Пример статистики:

За один из дней на этой неделе у меня было 999 посещений, из которых где-то 450 - какой-то робот (видимо, я так предполагаю, потому что в статистике только у него нет действий для воспроизведения, т.е. нет истории), который

-ходит из поисковых систем (разных),

-ходит по среднечастотным запросам (разным, но по моему сеимантическому ядру фактически),

-ходит на разные самые раскрученные страницы моего сайта (из топ-10),

-проводит на сайте 0:00 во всех случаях,

-у него почти всегда разный IP, регион, хост, браузер

-почти все его заходы - новый неизвестный сайту ранее IP, лишь изредка он повторяется (пишет, что заход повторный)

Таким образом, на сегодняшний день я имею:

-процент отказа - 73% (а могла бы иметь около 40-50%)

-глубина просмотров страниц - 3 (а могла бы иметь 6, т.к. робот занимет чуть ли не половину моего трафа:dont:)

-количество минут - 2-3 (а могла бы иметь 5-6)

Вот откуда у меня такие слабенькие ПФ. И что мне с этим делать?

Спасибо заранее за любой совет, Ксения

http://www.ask4style.ru (http://www.ask4style.ru)
webrock
На сайте с 05.04.2010
Offline
261
#1
ksushan:
на 45% состоит из заходов видимо робота!!

ну, так на то вы и администратор своего сайта что бы следить за ним ...

надо отслеживать неугодных ботов и банить их.

если вы на шаред хостинге и не имеете возможности банить серверно,

баньте с помощью htaccess.

вот примерно такой конструкцией:

RewriteCond %{HTTP_USER_AGENT} MJ12bot [OR]

RewriteCond %{HTTP_USER_AGENT} Java [OR]

RewriteCond %{HTTP_USER_AGENT} NjuiceBot [OR]

RewriteCond %{HTTP_USER_AGENT} Gigabot [OR]

RewriteCond %{HTTP_USER_AGENT} Baiduspider [OR]

RewriteCond %{HTTP_USER_AGENT} JS-Kit [OR]

RewriteCond %{HTTP_USER_AGENT} Voyager [OR]

RewriteCond %{HTTP_USER_AGENT} PostRank [OR]

RewriteCond %{HTTP_USER_AGENT} PycURL [OR]

RewriteCond %{HTTP_USER_AGENT} Aport [OR]

RewriteCond %{HTTP_USER_AGENT} ia_archiver [OR]

RewriteCond %{HTTP_USER_AGENT} DotBot [OR]

RewriteCond %{HTTP_USER_AGENT} SurveyBot [OR]

RewriteCond %{HTTP_USER_AGENT} larbin [OR]

RewriteCond %{HTTP_USER_AGENT} Butterfly [OR]

RewriteCond %{HTTP_USER_AGENT} libwww [OR]

RewriteCond %{HTTP_USER_AGENT} Wget [OR]

RewriteCond %{HTTP_USER_AGENT} SWeb [OR]

RewriteCond %{HTTP_USER_AGENT} LinkExchanger [OR]

RewriteCond %{HTTP_USER_AGENT} Soup [OR]

RewriteCond %{HTTP_USER_AGENT} WordPress [OR]

RewriteCond %{HTTP_USER_AGENT} PHP/ [OR]

RewriteCond %{HTTP_USER_AGENT} spbot [OR]

RewriteCond %{HTTP_USER_AGENT} MLBot [OR]

RewriteCond %{HTTP_USER_AGENT} InternetSeer [OR]

RewriteCond %{HTTP_USER_AGENT} FairShare [OR]

RewriteCond %{HTTP_USER_AGENT} Yeti [OR]

RewriteCond %{HTTP_USER_AGENT} Birubot [OR]

RewriteCond %{HTTP_USER_AGENT} YottosBot [OR]

RewriteCond %{HTTP_USER_AGENT} gold\ crawler [OR]

RewriteCond %{HTTP_USER_AGENT} Linguee [OR]

RewriteCond %{HTTP_USER_AGENT} Ezooms [OR]

RewriteCond %{HTTP_USER_AGENT} lwp-trivial [OR]

RewriteCond %{HTTP_USER_AGENT} Purebot [OR]

RewriteCond %{HTTP_USER_AGENT} User-Agent [OR]

RewriteCond %{HTTP_USER_AGENT} kmSearchBot [OR]

RewriteCond %{HTTP_USER_AGENT} SiteBot [OR]

RewriteCond %{HTTP_USER_AGENT} CamontSpider [OR]

RewriteCond %{HTTP_USER_AGENT} ptd-crawler [OR]

RewriteCond %{HTTP_USER_AGENT} HTTrack [OR]

RewriteCond %{HTTP_USER_AGENT} suggybot [OR]

RewriteCond %{HTTP_USER_AGENT} ttCrawler [OR]

RewriteCond %{HTTP_USER_AGENT} Nutch [OR]

RewriteCond %{HTTP_USER_AGENT} NetCraft [OR]

RewriteCond %{HTTP_USER_AGENT} Majestic-12 [OR]

RewriteCond %{HTTP_USER_AGENT} DoCoMo [OR]

RewriteCond %{HTTP_USER_AGENT} ^Mozilla/4\.76\ \[ru\]\ \(X11;\ U;\ SunOS\ 5\.7\ sun4u\) [OR]

RewriteCond %{HTTP_USER_AGENT} Zeus [OR]

RewriteRule ^(.*)$ – [F,L]

это боты которых баню я.

но список может быть другим, ведь одни роботы заходят что бы загрузить только главную для статистики, а другие парсят всё ...

такую работу я стараюсь проводить ежемесячно, ведь одни боты умирают, а другие рождаются.

это так же полезно снизит нагрузку на сервер.

Полный аудит сайтов. (/ru/forum/765361)
K
На сайте с 16.09.2010
Offline
59
#2

спасибо вам большое за ответ!

извините, я в технических вопросах не большой специалист, но подскажите, откуда вы берете имена этих роботов? CamontSpider, ptd-crawler, HTTrack, suggybot, ttCrawler

где мне их посмотреть, чтобы забанить?

у меня нормальный платный хостинг. Как мне их забанить? Написать в службу поддержки?

и второй вопрос: вы баните по имени, но, насколько я понимаю, можно банить и по IP

Что лучше? У моих роботов IP все разные. Имена, как я подохреваю, тоже будут разными. Так может их по IP проще банить?

Разъясните, плиз, ламеру)

webrock
На сайте с 05.04.2010
Offline
261
#3
ksushan:
спасибо вам большое за ответ!

извините, я в технических вопросах не большой специалист, но подскажите, откуда вы берете имена этих роботов? CamontSpider, ptd-crawler, HTTrack, suggybot, ttCrawler

где мне их посмотреть, чтобы забанить?

и второй вопрос: вы баните по имени, но, насколько я понимаю, можно банить и по IP
Что лучше? У моих роботов IP все разные. Имена, как я подохреваю, тоже будут разными. Так может их по IP проще банить?

Разъясните, плиз, ламеру)

Вычисляю не я, а движки на которых имееются скрипты, плагины, определяющие название бота.

В IP нужно разбираться, а то вы забаните целую подсеть, а на них сидят ваши пользователи.

K
На сайте с 16.09.2010
Offline
59
#4

может меня кто-нибудь один раз обучить отсеивать и банить плохих роботов по имени, не трогая при этом хороших, за вознаграждение?

Движок Джумла

Smart____
На сайте с 25.12.2009
Offline
76
#5
ksushan:
Таким образом, на сегодняшний день я имею:
-процент отказа - 73% (а могла бы иметь около 40-50%)
-глубина просмотров страниц - 3 (а могла бы иметь 6, т.к. робот занимет чуть ли не половину моего трафа)
-количество минут - 2-3 (а могла бы иметь 5-6)
Вот откуда у меня такие слабенькие ПФ. И что мне с этим делать?

Очень хорошие показатели. И с чего вы взяли что это роботы? :)

Все у вас в порядке. А ваше желание удержать посетителя на сайте по дольше - понятно.

возьмем n, нет мало возьмем m
V4
На сайте с 30.01.2012
Offline
5
#6

А почему вы думаете что ПСы учитывают заходы этих роботов на ваш сайт ? Счетчики посещений ведь не учитывают роботов. Почему ПСы должны?

K
На сайте с 16.09.2010
Offline
59
#7

А теперь мои результаты за 2 дня:

1. Два дня назад я установила счетчик ЯндексМетрики на все страницы сайта (до этого ЯндексМетрика подключена была, но через контекстную рекламу Яндекс Директ, которая стояла не на всех страницах). За 9 и 10 февраля имею процент отказов - 18 и 19 соответсвенно) Чему несказанно рада. Думаю, что установка прямого счетчика метрики здесь сыграла свою роль

2. Вчера изменила файл .htaccess, добавив туда всех ненужных роботов и всевозможные качалки, которые смогла найти в интернете.

Результат: за последние 24 часа моих мертвых душ судя по статистике меньше все равно не стало. Еще я поняла, что метрика вообще роботов в своей статистике не отражает. А этих моих "товарищей" она держит за людей. Но они как ходили по несколько раз в час, так и ходят. Имен у них нет, есть только IP, и 95% из них на сайте впервые. Как их блокировать, не знаю. Но в принципе с 18% отказов я на них готова забить.

3. Пока я вчера изучала логи сайта за последние сутки, нарвалась на еще одну неприятную неожиданность. В папке logs обнаружила несанкционированных жильцов в виде сайта, который торгует разными книжками, флеш-играми и т.д. А может там был и не один сайт, всего 6 папок и более 2000 файлов. Что самое интересное, что страницы этого сайта не были проиндексированы Яндексом. В моей панели вебмастера их не было. И жил у меня этот гость аж с октября 2011...

Люди добрые, объясните мне, ламеру, зачем это? Зачем кому-то на базе моего сайта создавать вот такого приживалу? У них что, денег на хостинг свой не хватает? Я не понимаю....

П.С. по результатам последних дней хочу еще и Google Analytics поставить. Как мне кажется, если сайт достойный, то установка прямых их счетчиков только в + идет.

K
На сайте с 16.09.2010
Offline
59
#8
Smart____:
И с чего вы взяли что это роботы? :)

ну у меня есть несколько аргументов в пользу того, что это все-таки "нелюди", а какие-то программулины.

1. У всех них продолжительность посещений 0:00

Я не знаю, каким образом живой человек может придти на сайт меньше, чем на 1 секунду

2. Все они на сайте бездействуют за время посещения

3. У них у всех нет истории

4. Они все приходят на сайт либо по прямой ссылке либо по среднечастотному запросу. Причем запрос звучит так, как в ЯндексВордстат. То есть реальный человек по моему опыту именно так запросы не формулирует.

мне кажется, что это какие-то парсеры

B
На сайте с 02.05.2007
Offline
240
#9
ksushan:
почти каждый день пишут благодарные юзеры, что классный сайт и т.д. и т.п.

сделайте ссылки не dofollow в комментах и роботы от вас отстанут

да и: Метрика и GA забаненых хтакцессом роботов не видят

S
На сайте с 13.03.2009
Offline
26
#10
ksushan:


Люди добрые, объясните мне, ламеру, зачем это? Зачем кому-то на базе моего сайта создавать вот такого приживалу? У них что, денег на хостинг свой не хватает? Я не понимаю....

Недавно я одной знакомой чистил сайт от вредноносного кода. Всё почистил, и случайно в папке includes обнаружил кучу файлов и папок мини форума... Т.е. при вводе в браузере сайт.ру/includes

Открывалась страничка форума, где предлагалось чтото скачать, тут же шли отзывы, что это именно то, что ждали пользователи форума и прочее.. Ссылки ввели назараженный сайт. Антивирусы ругались. Причем поисковиками эти страницы успели проиндексироваться, так как еще обнаружил изменения в сайте robots.txt , где был изменен путь к сайтмапу сайта.

Бдительнее товарищи! Проверяйте robots.txt

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий