И снова "нечеткие дубликаты"

74

Тимон

15 августа 2007, 13:30

1134

И так, решил разобраться с «нечеткими дублями» и отношением Яндекса к ним. После изучения некоторых статей в голове все перемешалось и теперь вот пытаюсь все расставить по полочкам.

Получилось следующее. Все ниже написанное сугубо личное видение проблемы.

Существует два вида дубликатов: «нечеткие дубликаты» и «полные дубликаты».

«Нечеткие дубликаты» зависят от сниппета, т.е. фактически от запроса. Происходит это следующим образом.

- пользователь задает запрос

- Яндекс достает из кэша или вычисляет налету релевантность сайтов запросу и ранжирует сайты, но пока не показывает пользователю

- сравнивает сниппеты на предмет определения дубликатов (возможно сниппеты сравниваются методом шинглов, но вроде это очень ресурсоемко)

- выдает отфильтрованную выдачу, удаляя некоторые дубликаты (по какому принципу оставляются те или иные документы – неясно; может быть выбирается самый релевантный документ, и вместе с ним в выдачу попадают наименее похожие на него документы)

То что фильтр такого типа существует, косвенно доказывают слова Сегаловича (не могу их найти) и то, что выдача с различными настройками поиска (конкретно, количество отображаемых фрагментов со словами запроса) различная. При настройках «отображать не более 5 фрагментов» в выдаче больше сайтов, чем при настройках «отображать не более 1 фрагмента». Попробуйте запрос «Во & второй & главе & реферата & посвящена & практике & маркетинговой & деятельность & организации & на & примере & сервер & дукса» - в первом случае в выдаче 27 сайтов, во втором – 21 сайт. Все здесь логично – при отображении одного пассажа в сниппете, сниппеты более похожи, чем когда отображается 5 пассажей в сниппете.

Теперь разберемся с «полными дубликатами». Мне кажется, такие дубликаты определяются в момент индексации страницы. Метод определения дубликатов - «метод описательных слов» - http://company.yandex.ru/articles/article7.html (русский вариант http://webmastera.org/files/File/secur/FindClonDoc.pdf) комментарии Сегаловича - /ru/forum/56951

Страницы, выявленные как полные дубликаты – выкидываются из базы. Часто такое происходит со страницами одного сайта (например, каталог товаров, когда значимой информации гораздо меньше, чем слов в навигационной части). По какому принципу Яндекс выкидывает те или иные дубликаты – неизвестно, я думаю, по совокупности признаков как то: временные факторы, «рейтинг ресурса», доверие к ресурсу и проч.

_________________________

Собственно, какое мнение у вас?

«Я слышу - и забываю, я вижу - и помню, я чувствую - и понимаю» (с) Конфуций Теперь я занимаюсь продвижением сайтов здесь (http://www.i-vi.ru/) :) SEO фтоппку! Учим правила фотосъема! (http://www.fotonotes.ru/) - мои заметки о фото

74

Тимон

16 августа 2007, 11:04

#1

Вот нашел высказывание Садовского /ru/forum/21906 - пост №9

173

john2007

16 августа 2007, 13:28

#2

ИМХО.

Четкие дубликаты отдельных страниц на разных сайтах - в общей массе нечетких дубликатов редкость, по крайней мере, что бы их как-то отдельно фильтровать на этапе индексации - выигрыша особенного нет.

Нечеткие дубликаты отдельных страниц на разных сайтах фильтруются, как Вы сказали, по сниппетам, в момент запроса.

Не четкие и четкие дубликаты сайтов приводят к образованию зеркал, этим занимается зеркальщик.

Четкие дубли страниц на одном сайте приводят к склейке, в т.ч. ссылочного.

Четкие (пока несклеянные) и нечеткие дубли страниц, фильтруются по сниппетам в момент запроса.

Совершая ошибки, мы не только учимся их не повторять, но и учимся прощать такие же ошибки другим... (с)

Противоречия определений зеркала Ситуация с поддоменами Как понять склеились ли

222

Stripe

16 августа 2007, 13:38

#3

Я так понимаю что из-за дубликатов страниц могут жутко понизить того, кого проиндексировали вторым?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)

180

Krick

16 августа 2007, 13:46

#4

Stripe:
Я так понимаю что из-за дубликатов страниц могут жутко понизить того, кого проиндексировали вторым?

неа, не обязательно....

Отличные рецепты (https://shefcook.ru/)

222

Stripe

16 августа 2007, 14:10

#5

Есть сайт, с которго поперли всю информацию... сейчас морд очень низко, внутрянки (двигавшиеся) еще ниже... вышевсякая фигня с нашим контентом.. дело не в последнем алгоритме, сайт вообще не выползал за полгода работы наверх (я им занимаюсь третий день).

Google: после работ по Яндекс внедрит алгоритм против Google Panda принимает во

173

john2007

16 августа 2007, 14:21

#6

Stripe:
Есть сайт, с которго поперли всю информацию... сейчас морд очень низко, внутрянки (двигавшиеся) еще ниже... вышевсякая фигня с нашим контентом.. дело не в последнем алгоритме, сайт вообще не выползал за полгода работы наверх (я им занимаюсь третий день).

"Ты последний"? :)

222

Stripe

16 августа 2007, 14:28

#7

john2007:
"Ты последний"?

Да, боюсь что он... мне пока не дают разрешение на смену контента... потому как надо заставить Яндекс моментально проиндексировать его (не нашел приемлемого способа), потому как его опять попрут и толку от работы ноль...разве что писать 50 текстов и менять каждый день.

ContactRoot: свяжитесь с нашим как заставить Яндекс переиндексировать Не индексирует :(

Дзен реализовал для авторов возможность вывода денег через СПБ

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы