Уникальность контента

Tonjob · 2005-09-20T13:02:21.0000000Z

Добрый день! Вроде уже во много разобрался. Осталась одна тема, не очень для меня понятная, а именно duplicate content(DP). Насколько я понимаю, чем идет о сходстве контента разных страниц (включая страницы разных доменов и субдоменов). Вот скажем есть в интернете две одинаковые страницы: a. domainA.com/reviewA.html b. domainB.com/reviewB.html 1. Каким образом гугл определяет, которая из страниц является оригиналом и, соответственно, какой из ресурсов (A or B) требуется наказать за DP? 2. Насколько велико должно быть соответствие текста страниц, чтобы они показались гуглу DP? Что будет, если на странице A лежит полный вариант статьи (5 абзацев), а на странице B урезанный (2 абзаца)? Спасибо!

352

Lor

28 сентября 2005, 14:21

#31

Да и зачем им все сравнивать?

Первых 100 позиций более чем достаточно. Кто нибудь получал реальный траф с Гугла, находясь на 11 странице в выдаче :) ?

Йопез - форум без модераторов. https://yopez.com

291

ДЖАЗЗ!

28 сентября 2005, 14:23

#32

Ну да. Именно так они и делают. Находят дубль, и отдыхай на 10-й.

E

221

Ergo

28 сентября 2005, 16:42

#33

В серпе спокойно лежат по определенным запросам десятки копий одного и того же интернет-магазина, где разное только название и домено - уже несколько месяцев как минимум. А все потому, что на них стоят уникальные ссылки.

Домен или поддомен для Продвижение по инфо-запросам Яндекс кобласит

519

greenwood

28 сентября 2005, 18:46

#34

И сравнивают на лету?

почему на лету ?

T

3

Tonjob

28 сентября 2005, 22:40

#35

Понятно, что ничего не понятно...

Варианта два:

1. Гугл проверяет уникальность документа на этапе индексации. Тогда запрос здесь совершенно не при чем. Гугл сравнивает документ с n-миллиардов документов в базе и, в случае DP, выставляет документу соответствующую пометку, на которую ориентируется при выдаче на запрос.

Вообщем, как я уже говорил, данная сложность гуглу просто не под силу.

2. Гугл, получая запрос, сравнивает документы на лету. Вообщем та же фигня, для гугла это непосильная задача.

Комментирую так же реплику насчет 11 страницы. Понятно дело, что люди не ходят дальше 11 страницы. Но чтобы сформировать эти 11 страниц гугл делает выборку из всей базы в 13 миллиардов документов. Итак, ему бы требовалось:

1. Сделать выборку.

2. Сравнить полученные N миллионов документов.

3. Отранжировать полученные N миллионов документов.

Вообщем-то такая постановка вопроса кажется фантастической.

Вариант другой.

1. Гугл делает выборку.

2. Ранжирует документы исходя из основных критериев.

3. Делает на лету сравнение первых 100, к примеру, документов и выкидывает неуникальные.

Увы, у меня сейчас нет под рукой программиста, чтобы спросить о реалистичности данного варианта.

2greenwood: а есть другие варианты?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

M

133

medaest

29 сентября 2005, 02:45

#36

Tonjob:
Понятно, что ничего не понятно...

Может стоит почитать http://www.i2r.ru/static/215/out_13150.shtml чтобы стало что-то понятно :) Позволю обратить внимание на следующие слова

"Документ конвертируется в набор входящих в него слов, так называемые хиты (hits). Каждая запись о хите содержит собственно слово, его позицию в документе, информацию о регистре и размере шрифта, которым это слово отображено. Далее индексатор распределяет хиты в хранилища, называемые цилиндрами (Barrels), тем самым создавая частично отсортированный предварительный индекс. "

.....

"Затем за дело берется программа сортировки (Sorter). Она сортирует цилиндры по идентификаторам слов (wordIDs) и помещает результаты в инвертированный индекс. Сортировщик генерирует список идентификаторов слов и их смещение в инвертированном индексе.".

Далее читаем про построение инвертированных индексов и понимаем, что Sorter достаточно лишь просмотреть N соседних от текущей позиции в индексе в обе стороны, чтобы найти "идентичные документы". Далее судя по всему принимается решение об идентичности с учетом PR, Link Popularity.....

Суд США разрешил Google Яндекс не согласен с Яндекс кобласит

S

59

sec

29 сентября 2005, 11:30

#37

[offtopic]

С начала апреля Google перешел на более продвинутую технологию ранжирования сайтов, разработанную с учетом последних достижений в области биофизики, — PigeonRank (подробнее об этом можно прочитать здесь). http://www.google.com/technology/pigeonrank.html

:D :D :D

[/offtopic]

V

43

Vertigo

29 сентября 2005, 11:53

#38

kevindark:
Смотрит по кэшу своему, имхо.

На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.

Интересно, у вас на практике такое было? На мой взгляд, пеналить за совпадение одного абзаца - чистый нонсенс. Могу дать примеры куч сайтов, где идет сплошное дублирование контента, и причем в данном случае нельзя сказать, что "материалы одного сайта заимствованы с другого" - это например сайты с текстами песен. У одной и той же песни один и тот же текст, и существует куча сайтов, где это все можно найти. Или, например, сайты с табами для гитары, или сайты с нормативными актами (законами) - такая же ситуация. По каким критериям тогда должны отбираться сайты для выдачи?

Google допускает разный контент Поисковые запросы в одном Вредна ли метрика?

ST

136

Sergey T

1 октября 2005, 13:11

#39

kevindark:
Смотрит по кэшу своему, имхо.

На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.

Подскажите, а как это проявляется? Просто понижается в результатах поиска или вообще выпадает из кэша и даже не ищется по запросу содержащему УРЛ?

Глобальная мечта: создать бизнес, управляемый с яхты.

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Все что нужно знать о DDоS-атаках грамотному менеджеру