borisd

Рейтинг
262
Регистрация
13.02.2008
Xubart #:
Знали бы как Вы сейчас ошибаетесь..... 

Ну, гугл прямо заявил, что в этом году начнет учитывать этот фактор. Да косвенно этот фактор всегда влиял на ПФ. Простой пример: при слабом интернет канале (например gprs) я добился, чтобы мой сайт открывался за две-три секунды, в то время как многие сайты вообще не открывались и через минуту вылетали по таймауту. А в высококонкурентной тематике каждая мелочь важна.

Xubart #:
Ну и подумайте откуда у Вас возьмётся прямой траффик, никогда ранее не бывший на Вашем сайте. Да еще и с высокой долей вероятности так же ходящий по конкурентам.

Я обдумал это и пришел к выводу, что пока лучше ничего не трогать. Логика такая: 

1) Яндекс знает о проблеме и какие то меры предпринимает (или пытается).

2) Начать в такой ситуации манипулировать паразитным трафиком (включая/отключая метрику по разным критериям) - это явная манипуляция со стороны владельца сайта, что легко может быть обнаружено яндексом, а также может помешать антиботовому алгоритму яндекса.

3) В итоге всё это дело яндекс может списать на вас - ведь вы реально манипулировали накруткой, пусть не прямо, а управляя паразитным трафиком. Так что либо надо отключать всю метрику целиком, либо оставить всё как есть. Промежуточные решения могут быть расценены как манипулятивые, чем они по сути и являются.

Как работает активное шумоподавление в наушниках и смартфонах? Один микрофон направлен к вам, второй - во вне. В телефоне происходит вычитание сигналов - из сигнала первого микрофона вычитается сигнал внешнего. Это грубо, но логика примерно такая. И подобная логика может быть у яндекса - яндекс может тупо вычитать паразитный трафик. Если начать вмешиваться в работу такого алгоритма, то результат будет непредсказуем.

Тоже обнаружил аномальный трафик прямых заходов и из ютюба/соцсетей. В основном беспокоят прямые заходы - с конца прошлого года их количество стало соревноваться с трафиком из поисковиков.

Однако, в отличие от многих комментаторов выше, у меня этот аномальный трафик в среднем имеет очень хорошие поведенческие - даже несколько лучше, чем из поиска. Оказов всего около 5%. Сидел полночи, смотрел вебвизор... сам я с большим трудом определяю, что это боты. Идет движение пальцем/мышкой, прокрутка страницы, выделения текста... Единственно за что можно зацепиться - это то, что «читают» боты не самые важные по смыслу куски страницы. Но всё же на 100% по поведению не могу быть уверенным, что это бот. Больше на ботовость указывает то, что прямой переход идет на внутренние глубоко-вложенные очень узкотематические непопулярные страницы...

Не знаю, стоит ли пока что-то делать, коль поведенческие факторы этого подозрительного трафика пока хороши? По той же причине я сомневаюсь, что целью ботов является причинение вреда (по крайней мере именно моему сайту). Но цели непонятны. На это дело кто-то затрачивает огромные ресурсы. Зачем?

Выше приведенные примеры антиботовой защиты мне сильно не по нраву. Они все привносят задержки, снижают юзабилити и поведенческие факторы. А ведь сейчас скорость сайта - один из важных факторов. Я много труда потратил на оптимизацию, на многоуровневую загрузку скриптов, стилей, шрифтов, чтобы достичь идеала... поэтому всю эту работу херить не хочу. Также совет отрубать полностью прямой трафик выглядит сомнительным. Наличие доли прямого трафика - это показатель хорошего сайта. Отрубать собственно ручно этот показатель - имхо плохая затея.

В общем пока буду наблюдать.

В друпале и самописе я эту проблему решал сохранением сохранения информации о предыдущей страницы (откуда перешел посетитель) в куку или сессию.

Таким образом, если посетитель перешел к статье из рубрики "рубрика1", то он увидит хлебные крошки:

"Главная -> рубрика1 -> страница статьи".

Если перейдет из рубрики "рубрика2", то увидит:

"Главная -> рубрика2,-> страница статьи"

и т.д...

Если переход будет напрямую (например из поиска), то отобразится рубрика по умолчанию. Наверняка и на WP подобные решения должны быть.

qvaro:
То есть вы его убрали? У меня разные сайты.

Я уже несколько больших сайтов перевел в турбо. Специально не анализировал, но подозреваю, что этот блок в выдаче появляется для стимуляции новых турбо-страниц в выдаче. Т.е. типа бонуса новичка - яндексу ведь тоже интересно снять и проанализировать статистику по турбо-страницам. Поэтому если в топе вообще ранее не было турбостраниц и вдруг появились, то яндекс стимулирует их, в том числе и данным блоком. Правда, всё это временно.

Почитайте инструкцию асессоров, там все сложно

Да элементарно всё как дважды два. Достаточно пробежаться сначала по руководству асессоров, потом глянуть на выдачу и сделать выводы. Сколько раз я ни глядел на выдачу, я в основном видел преимущество за теми сайтами, о которых в руководстве написано в разделе о плохих сайтах... Ну, реально... вот смотрю по серьезной тематике... в топе несколько автоматически сгенерированных сайтов с копипастным контентом и партнеркой, причем принадлежащих одному владельцу... а реальный крупный сайт (со штатом настоящих журналистов) - под фильтрами, сайт с сервисами (которые копипастеры не смогли повторить) - по многим запросам болтается ниже, чем его клоны, где вместо сервисов заглушки-пустышки...

Дмитрий Громов:
Тогда пришлите, пожалуйста, в ЛС адрес сайта, посмотрим, что можно сделать.

Да ничего не можно сделать, не выключив данное ограничение. Я разобрался уже: если на старнице только один абзац и он больше 400 символов, то выдается эта ошибка. Если абзацы большие, но их несколько, то ошибка не возникает. Почему это не описано в документации, не понятно. Пока внедрил автоматическую разбивку на абзацы в этих случаях, благо их не много. Но это не правильно.

Также информация по сжатию ленты в gzip от вас была некорректной. По факту ограничение на объем задачи действует для сжатой ленты (а не для несжатой) и это мне сильно упростило работу.

ArmenDomain:
знаю одного параноика, он свои "ценные" тексты в jpeg сделал

У меня будет база данных на миллион записей примерно. Отдельные страницы или даже сотню-другую пусть берут, кто хочет, не жалко. А вот чтобы целиком базу скопировали, мне не желательно. По крайней мере на первых порах.

Дмитрий Громов:
Вы можете попробовать использовать элемент p для разделения текста страницы на абзацы.

Во-первых, один абзац точно есть и он не сильно большой - 500 символов примерно.

Во-вторых, разбить его на дополнительные абзацы абсолютно невозможно - это же государственный документ, там каждый абзац не от балды создан, там каждый абзац является структурной единицей, имеет номер, на который возможны ссылки.

ravenpaul:
Что думаете на счёт обфускаторов? Стоит их использовать?

Думаю, стоит использовать всё, что усложняет жизнь копипастерам. Любое усложнение повышает цену копирования и школьнику будет проще найти другой источник. Хорошего профи эти усложнения конечно не остановят, но... хорошему спецу имхо проще и значительно выгодней свой нормальный и интересный проект-сервис сделать, чем такой ерундой заниматься.

Я планирую разработку большого проекта-сервиса. Там будут сотни тысяч страниц. Если всё пойдет удачно, то соблазн скопировать базу данных будет большой, причем соблазн этот возникнет уже не у школоты. Поэтому я наверно сделаю что-то типа такого:

Доступ к любой странице будет только через поисковую строку, поэтому просто спарсить весь сайт будет невозможно. А поисковикам укажу все страницы через xml-карту, которую на сайте публиковать не буду, а загружу в вебмастере яндекса и гугла. Как-то так. По крайней мере на первое время, пока сайт не наберет вес. Потом наверно открою, но... предусмотрю какие-нибудь трудно обходимые технические меры - например, после тысячи скачиваний буду выдавать немного искаженную инфу, некритичную для поисковиков, но критичную для реального использования...

Дмитрий Громов

Я получаю на некоторые страницы сообщение:

Cодержимое Турбо-страницы не соответствует оригинальной версии (в элементе turbo:content текст не разбит на абзацы)

Страницы эти в оригинале и в rss содержат один небольшой абзац. Это официальный текст государственного документа, менять его НЕЛЬЗЯ.

И что делать?

Всего: 2244