Станислав Романенко

Станислав Романенко
Рейтинг
325
Регистрация
05.09.2007
Kolobokk :

Возможно вопрос глупый, но может быть всё же есть какая-то технология, позволяющая исключить из поиска Google сайты-агрегаторы. По некоторым поисковым запросам они занимают все страницы, где ещё сабжи соответствуют результатам поиска, что делает поисковик, либо бесполезным, либо отнимающим слишком много времени. По идее ведь вычислить эти сайты не должно быть очень сложно программным путём.  

Спасибо!

https://support.google.com/websearch/answer/2466433?hl=ru

Исключение результатов с определенными словами

Введите  - (минус) перед словом, которое нужно исключить. Пример:  ягуар скорость -автомобиль.

Поиск по определенному сайту

Введите  site: перед адресом сайта или доменом. Пример:  site:youtube.com или  site:.gov.


Комбинируем оба варианта и получаем выдачу без агрегаторов - https://www.google.com/search?q=купить+-site%3Aavito.ru+-site%3Aozon.ru

Mik Foxi #:

экономически не выгодно потому что этим сложно опустить, и выгоднее ходить на свой сайт , чуть на нем задерживаясь и подымать свой сайт этим. или 10 своих сайтов подымать.

Кстати, тут https://zen.yandex.ru/media/id/5a7c18ba8139baa694017350/kak-my-zascitili-biudjety-ot-sklikivaniia-i-saity-ot-botov-602a6a63c219c97e327f5ec9 человек описывает какую-то загадочную систему "АНТИСКЛИК 2.0", но скриншот внизу от Антибота. Это какой-то брат-близнец или обычный антибот?

Виктор Петров #:
Ручной бан же, выборочная порка клиентов (и жертв) очередного сервиса накруток. Как подтверждение - амнистия платонами. Алгоритмические фильтры амнистии не подлежат, их корректировками снимать приходится.

Ручной бан был только в сентябре - его и сняли. А первые два (весна и лето) - это алгоритмические. Ну или летом тоже, может быть, ручной, но его не сняли. Наверное, подумали, что слишком жирно будет сразу 2 бана снимать :)

Всё было бы понятно, если бы на сайт просто из поиска попёр накрученный траф, а потом прилетел бы бан. Но такого не было. Из поиска шли именно боты, а не люди из юзератора. По Вебвизору это боты из мобильных подсетей с заскриптованными движениями мышки, боты со смартфонов с тачпадом и без тачпада, некоторые боты с выключенным JS и т. д. И из поиска их было очень мало, даже по графику видно, что не было скачка посещений из поиска, зато были скачки не из поиска.

Xubart #:
Т.е. сейчас бототраф отсечен и за более чем полгода сайт не вернулся. Верно?

В сентябре начали пробовать разные способы, там ещё с прогерами были проблемы, поэтому начали с систем типа Botfaqtor, потом Botguard - они фильтровали очень малую часть. До антибота и Cloudflare дело не дошло - владелец бизнеса решил делать новый сайт, поэтому эксперименты прекратили.

Я её смотрел, даже ссылку на неё дал в предыдущем сообщении :)

Виктор Петров #:

Ну не отказаться. Если посмотреть доклад (который "Through the looking glass...") и те метрики Матрикснета, что имеют отношение к ПФ, то логика там достаточно прозрачная. Нерелевантный документ можно яростно прокликивать, и это может даже дать какой-то временный эффект. Но если по факту там всё плохо - то никакой last-click ничего не даст, кроме бана.
Кроме того, это же логарифмы, которые перемалывают информацию на больших объёмах, и всё это базируется на самой примитивной логике. Сколько юзверей откроет десять вкладок? Все эти 10 сайтов (если выдача однородная, не спектр) - примерно одно и то же, разница - в логотипах. Ну, посчитают этот last-click всем, делов-то. На фоне того, что вот сюда это уже не первый визит, а этот ранжируется по более объёмному запросному индексу в заданном кластере, а тут вхождений больше чисто на ассортименте всё определит вес совокупных метрик в формуле.

Я к чему вообще об этом начал говорить - есть такой вот сайт:


Видимость в Яндексе:


Да, в то же время у него была часть ботов из поиска, но их было очень мало (где-то 5-10% от всех ботов). Просел он после всплеска прямых заходов и соцсетей.

Проседал примерно так:


То есть в 2 этапа:

1) Весной просто просел.

2) Летом вообще вылетел.

Причём, летом он вылетел не просто так, а именно в тот день, когда наказали накрутчиков ПФ - https://www.seonews.ru/events/analiziruem-vydachu-yandeksa-v-poiske-samyy-bolshoy-shtorm-za-kvartal/

И на этом дело не кончилось - 20-го сентября сайт вообще вылетел из поиска по всем запросам, в том числе по витальным (название компании и адрес домена):


Нетрудно догадаться, что на картинке по вертикали чередуются позиции в Яндексе и Гугле. После недельного препирательства с Платоном, сайт всё-таки восстановили по витальным запросам. На вопрос о том, что это было, был получен ответ:

К сожалению, в настоящее время невозможно выяснить, что спровоцировало исключение сайта из поиска.

Хотя вылет произошёл во время сентябрьской порки за накрутку ПФ - https://www.seonews.ru/events/yandeks-vozobnovil-pokazatelnye-porki-za-nakrutku-povedencheskikh-faktorov/

Подобный кейс описывал Людкевич - https://searchengines.guru/ru/articles/2048937

В итоге сайт пострадал в 3 этапа:

1) В апреле просел.

2) В июле улетел за топ-50 в день наказания накрутчиков ПФ.

3) В сентябре вылетел по всем запросам (опять же - в канун порки за накрутку ПФ), но был амнистирован Платоном.

В последствии сайту маленько нарастили ссылочной массы, после чего в Гугле он встал в топ-1 почти по всем запросам:


Вот такие пироги. Я это всё к тому, что даже если одними прямыми заходами сайт не завалить, то при добавлении буквально даже чуть-чуть бот-трафика из поиска, сайт улетает. А сайт был в топе (как сейчас в Гугле). Возможно, если бы изначально был исключён бот-трафик хотя бы не из поиска, то сайт до сих пор был бы в топе.

Виктор Петров #:

Ничего из этого. Такие данные алго Яши вероятнее всего проигнорирует. Там всё просто и тупо, это же нейросеть. С телефона такое не воспроизведешь, и пользователь "Дзен" на такое не решится, а значит - "Пренебречь, вальсируем".
Мерило - Директ, все ключи - там. 

Так ведь чтобы понять, что такое поведение нужно проигнорировать, надо его сначала как-то определить. Если обрабатывать его также, как и обычные поисковые сессии, то десятому сайту должен быть засчитан ласт-клик и он должен получить хорошие ПФ, а сайты 1-9 - плохие ПФ.

То есть, чтобы даже отказаться от учёта ПФ в данном случае, нужно потратить ресурсы, чтобы понять, что эта ситуация ненормальная и её не нужно учитывать. И встаёт вопрос - каким образом это понять? Как отличить 10 кликов колёсиком мыши от обычных кликов? Или как понять, посмотрел человек вкладку или не посмотрел?

А можно ещё одно условие добавить - десятый сайт не загрузился, у него сервер не отвечает. Ему всё равно засчитаются хорошие ПФ? Вот в этом случае было бы очень неплохо учитывать хотя бы HTTP-ответ. А ведь в выдаче ссылки на сайты идут не прямые, а через редирект, поэтому HTTP-ответ от сайта при клике на выдаче Яндекс видит.

alaev #:

Это уже вопрос оформления. Иначе бы перелинковка на сайтах тоже бы выглядела пугающее.

Дело в другом. Если пустить бота по группам в ОК, например, про пластиковые окна, то на главной странице Яндекса будет потом висеть реклама пластиковых окон в виде МКБ.

Или по фейсбуку пустить. Можно проверять со своего компа. У ботов фактически такой же полноценный браузер.

Если стереть кеш браузера, зайти на сайт прямым заходом, потом уйти и вернуться на него позже хоть через  Гугл, то метрика засчитает это вторым визитом. С браузером бота будет аналогично.

Ну так а если эти группы в ОК\фейсбуке не будут загружаться у бота? Вот как в примере с b-ok.com

Есть ещё другой пример. Вот заходит человек в Яндекс, вбивает запрос в поиск, потом нажимает средней кнопкой мыши по всем 10 результатам, но по факту просматривает только одну из 10 вкладок в браузере (например, пятую). Смотрит этот сайт, находит ответ на свой вопрос и закрывает браузер, не посмотрев при этом в остальные 9 вкладок.

Вопрос - какие ПФ получит каждый из этих 10 сайтов? У какого из них в этом случае ПФ от данного посещения будут лучше - у пятого сайта, который человек реально посмотрел, или у 10-го, на который был last-click (но который не был просмотрен)? И какие ПФ получает сайты с 1-го по 4-й? Они же по сути были кликнуты, но человек после них кликнул ещё 6 сайтов.

alaev #:

На сайте Белого Дома в США нет метрики, кеш я почистил, а то, что я туда заходил, Яндекс все равно знает.

https://drive.google.com/file/d/1GD_Hh449y0s-4lSzy3h62Mjk8tF21j14/view

Кстати, с вот этим сайтом https://yandex.ru/search/?text=site%3Ab-ok.com такой эксперимент уже не прокатит.

Роботу Яндекса сайт отдаёт 200 ОК, а у посетителей из РФ сайт просто не загружается. И в выдаче он не помечается посещённым.

Vladimir SEO #:

у меня 304 у файлов( смотрю через мозиллу - сеть - заголовки )

через чекмай 200 .

Можно тогда выключить кэширование для PDF:

<filesMatch "\.pdf$">

FileETag None

Header unset ETag

Header set Cache-Control "max-age=0, no-cache, no-store, must-revalidate"

Header set Pragma "no-cache"

Header set Expires "Wed, 11 Jan 1984 05:00:00 GMT"

</filesMatch>



Vladimir SEO #:

попробую и отпишусь, спасибо

еще вопрос а какой ответ должен отдавать заголовок у файла пдф ?

Обычный 200 ОК:

HTTP/1.1 200 OK

Date: Sat, 20 Feb 2021 11:20:46 GMT

Last-Modified: Wed, 16 Sep 2020 12:16:13 GMT

Accept-Ranges: bytes

Content-Length: 298299

Cache-Control: max-age=0, no-cache, no-store, must-revalidate

Pragma: no-cache

Expires: Wed, 11 Jan 1984 05:00:00 GMT

Link: <https://site.ru/asdf/123.pdf>; rel="canonical"

Keep-Alive: timeout=5, max=100

Connection: Keep-Alive

Content-Type: application/pdf


Всего: 3558