И снова "нечеткие дубликаты"

Тимон
На сайте с 08.06.2007
Offline
74
1130

И так, решил разобраться с «нечеткими дублями» и отношением Яндекса к ним. После изучения некоторых статей в голове все перемешалось и теперь вот пытаюсь все расставить по полочкам.

Получилось следующее. Все ниже написанное сугубо личное видение проблемы.

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. фактически от запроса. Происходит это следующим образом.

- пользователь задает запрос

- Яндекс достает из кэша или вычисляет налету релевантность сайтов запросу и ранжирует сайты, но пока не показывает пользователю

- сравнивает сниппеты на предмет определения дубликатов (возможно сниппеты сравниваются методом шинглов, но вроде это очень ресурсоемко)

- выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно; может быть выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы)

То что фильтр такого типа существует, косвенно доказывают слова Сегаловича (не могу их найти) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная. При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуйте запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» - в первом случае в выдаче 27 сайтов, во втором – 21 сайт. Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете.

Теперь разберемся с «полными дубликатами». Мне кажется, такие дубликаты определяются в момент индексации страницы. Метод определения дубликатов - «метод описательных слов» - http://company.yandex.ru/articles/article7.html (русский вариант http://webmastera.org/files/File/secur/FindClonDoc.pdf) комментарии Сегаловича - /ru/forum/56951

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, я думаю, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и проч.

_________________________

Собственно, какое мнение у вас?

«Я слышу - и забываю, я вижу - и помню, я чувствую - и понимаю» (с) Конфуций Теперь я занимаюсь продвижением сайтов здесь (http://www.i-vi.ru/) :) SEO фтоппку! Учим правила фотосъема! (http://www.fotonotes.ru/) - мои заметки о фото
Тимон
На сайте с 08.06.2007
Offline
74
#1

Вот нашел высказывание Садовского /ru/forum/21906 - пост №9

john2007
На сайте с 26.03.2007
Offline
173
#2

ИМХО.

Четкие дубликаты отдельных страниц на разных сайтах - в общей массе нечетких дубликатов редкость, по крайней мере, что бы их как-то отдельно фильтровать на этапе индексации - выигрыша особенного нет.

Нечеткие дубликаты отдельных страниц на разных сайтах фильтруются, как Вы сказали, по сниппетам, в момент запроса.

Не четкие и четкие дубликаты сайтов приводят к образованию зеркал, этим занимается зеркальщик.

Четкие дубли страниц на одном сайте приводят к склейке, в т.ч. ссылочного.

Четкие (пока несклеянные) и нечеткие дубли страниц, фильтруются по сниппетам в момент запроса.

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)
Stripe
На сайте с 05.09.2006
Offline
222
#3

Я так понимаю что из-за дубликатов страниц могут жутко понизить того, кого проиндексировали вторым?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
Krick
На сайте с 25.05.2007
Offline
180
#4
Stripe:
Я так понимаю что из-за дубликатов страниц могут жутко понизить того, кого проиндексировали вторым?

неа, не обязательно....

Отличные рецепты (https://shefcook.ru/)
Stripe
На сайте с 05.09.2006
Offline
222
#5

Есть сайт, с которго поперли всю информацию... сейчас морд очень низко, внутрянки (двигавшиеся) еще ниже... вышевсякая фигня с нашим контентом.. дело не в последнем алгоритме, сайт вообще не выползал за полгода работы наверх (я им занимаюсь третий день).

john2007
На сайте с 26.03.2007
Offline
173
#6
Stripe:
Есть сайт, с которго поперли всю информацию... сейчас морд очень низко, внутрянки (двигавшиеся) еще ниже... вышевсякая фигня с нашим контентом.. дело не в последнем алгоритме, сайт вообще не выползал за полгода работы наверх (я им занимаюсь третий день).

"Ты последний"? :)

Stripe
На сайте с 05.09.2006
Offline
222
#7
john2007:
"Ты последний"?

Да, боюсь что он... мне пока не дают разрешение на смену контента... потому как надо заставить Яндекс моментально проиндексировать его (не нашел приемлемого способа), потому как его опять попрут и толку от работы ноль...разве что писать 50 текстов и менять каждый день.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий