Уникальность контента

1 234
Lor
На сайте с 28.05.2004
Offline
352
Lor
#31

Да и зачем им все сравнивать?

Первых 100 позиций более чем достаточно. Кто нибудь получал реальный траф с Гугла, находясь на 11 странице в выдаче :) ?

Йопез - форум без модераторов. https://yopez.com
ДЖАЗЗ!
На сайте с 10.02.2004
Offline
291
#32

Ну да. Именно так они и делают. Находят дубль, и отдыхай на 10-й.

E
На сайте с 08.04.2001
Offline
221
#33

В серпе спокойно лежат по определенным запросам десятки копий одного и того же интернет-магазина, где разное только название и домено - уже несколько месяцев как минимум. А все потому, что на них стоят уникальные ссылки.

greenwood
На сайте с 08.09.2003
Offline
519
#34
И сравнивают на лету?

почему на лету ?

T
На сайте с 06.09.2005
Offline
3
#35

Понятно, что ничего не понятно...

Варианта два:

1. Гугл проверяет уникальность документа на этапе индексации. Тогда запрос здесь совершенно не при чем. Гугл сравнивает документ с n-миллиардов документов в базе и, в случае DP, выставляет документу соответствующую пометку, на которую ориентируется при выдаче на запрос.

Вообщем, как я уже говорил, данная сложность гуглу просто не под силу.

2. Гугл, получая запрос, сравнивает документы на лету. Вообщем та же фигня, для гугла это непосильная задача.

Комментирую так же реплику насчет 11 страницы. Понятно дело, что люди не ходят дальше 11 страницы. Но чтобы сформировать эти 11 страниц гугл делает выборку из всей базы в 13 миллиардов документов. Итак, ему бы требовалось:

1. Сделать выборку.

2. Сравнить полученные N миллионов документов.

3. Отранжировать полученные N миллионов документов.

Вообщем-то такая постановка вопроса кажется фантастической.

Вариант другой.

1. Гугл делает выборку.

2. Ранжирует документы исходя из основных критериев.

3. Делает на лету сравнение первых 100, к примеру, документов и выкидывает неуникальные.

Увы, у меня сейчас нет под рукой программиста, чтобы спросить о реалистичности данного варианта.

2greenwood: а есть другие варианты?

M
На сайте с 12.05.2005
Offline
133
#36
Tonjob:
Понятно, что ничего не понятно...

Может стоит почитать http://www.i2r.ru/static/215/out_13150.shtml чтобы стало что-то понятно :) Позволю обратить внимание на следующие слова

"Документ конвертируется в набор входящих в него слов, так называемые хиты (hits). Каждая запись о хите содержит собственно слово, его позицию в документе, информацию о регистре и размере шрифта, которым это слово отображено. Далее индексатор распределяет хиты в хранилища, называемые цилиндрами (Barrels), тем самым создавая частично отсортированный предварительный индекс. "

.....

"Затем за дело берется программа сортировки (Sorter). Она сортирует цилиндры по идентификаторам слов (wordIDs) и помещает результаты в инвертированный индекс. Сортировщик генерирует список идентификаторов слов и их смещение в инвертированном индексе.".

Далее читаем про построение инвертированных индексов и понимаем, что Sorter достаточно лишь просмотреть N соседних от текущей позиции в индексе в обе стороны, чтобы найти "идентичные документы". Далее судя по всему принимается решение об идентичности с учетом PR, Link Popularity.....

S
На сайте с 25.04.2005
Offline
59
sec
#37

[offtopic]

С начала апреля Google перешел на более продвинутую технологию ранжирования сайтов, разработанную с учетом последних достижений в области биофизики, — PigeonRank (подробнее об этом можно прочитать здесь). http://www.google.com/technology/pigeonrank.html

:D :D :D

[/offtopic]

V
На сайте с 22.09.2004
Offline
43
#38
kevindark:
Смотрит по кэшу своему, имхо.

На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.

Интересно, у вас на практике такое было? На мой взгляд, пеналить за совпадение одного абзаца - чистый нонсенс. Могу дать примеры куч сайтов, где идет сплошное дублирование контента, и причем в данном случае нельзя сказать, что "материалы одного сайта заимствованы с другого" - это например сайты с текстами песен. У одной и той же песни один и тот же текст, и существует куча сайтов, где это все можно найти. Или, например, сайты с табами для гитары, или сайты с нормативными актами (законами) - такая же ситуация. По каким критериям тогда должны отбираться сайты для выдачи?

ST
На сайте с 17.01.2004
Offline
136
#39
kevindark:
Смотрит по кэшу своему, имхо.

На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.

Подскажите, а как это проявляется? Просто понижается в результатах поиска или вообще выпадает из кэша и даже не ищется по запросу содержащему УРЛ?

Глобальная мечта: создать бизнес, управляемый с яхты.
1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий