Как ПС определяют уникальность контента?

12
S
На сайте с 18.09.2007
Offline
22
4484

До сих пор не понимаю, ну как можно определить что контент уникальный? Понятно, что существуют мощные алгоритмы, типа по проценту совпадения слов или подобные, но как ПС могут проверять ВСЕ САЙТЫ, которых МИЛЛИОНЫ, учитывая что число страниц....

Т.е. нужно одну страницу, добавляемую в индексацию сверить со ВСЕМИ другими страницами. Даже примерно не понимаю, сколько на это надо вычислительных ресурсов!:confused:

Или на конкурентов стучат, мол у посмотрите они воруют контент!:bl:

kolobok74
На сайте с 29.01.2006
Offline
267
#1

Бытует мнение, что по алгоритму шинглов.

А оригиналом признается более авторитетный документ (с бОльшим вИЦ).

MASe
На сайте с 17.09.2002
Offline
219
#2
Sylex:
До сих пор не понимаю, ну как можно определить что контент уникальный?

сказать честно - криво!!!

а вообще как правильно сказали - сам алгоритм и его обсуждения были в темах с ключевым словом ШИНГЛЫ... была также выложена мини-программка (от Hkey если не ошибаюсь) с примерным внедрением данного алгоритма

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)
prlink
На сайте с 05.05.2006
Offline
195
#3
kolobok74:
Бытует мнение, что по алгоритму шинглов.

Именно, так и есть. Хотя, судя по результатам, алгоритм слабенький...🚬

А оригиналом признается более авторитетный документ (с бОльшим вИЦ).

Спорное утверждение (кстати и для Гугла). Есть много примеров, показывающих обратное.

S
На сайте с 18.09.2007
Offline
22
#4

Очень интересно, нужно посмотреть алгоритм шинглов. Но ведь факт, что по многим запросам выдаются сайты все-таки с одинаковым содержанием, при чем множество!

При чем, если учесть, что ПС не может определить где начинается контент сайта, также в текст идет менюшки, другим ссылки, шапка сайта и проч. проч. Т.е. очень затруднительно ИМХО...🚬

SK
На сайте с 13.06.2005
Offline
111
#5
Т.е. нужно одну страницу, добавляемую в индексацию сверить со ВСЕМИ другими страницами. Даже примерно не понимаю, сколько на это надо вычислительных ресурсов!

На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.

Думаю поисковики тоже понимают что это неразумно :)

Поэтому они добавляют страницу не глядя.

Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.

BulkAddurl.com - добавляйте страницы в гугль на автомате (http://bulkaddurl.com) + 10% партнерка
WebSee
На сайте с 12.11.2007
Offline
66
#6

Я думаю навигацию (меню) от контента ПС в состоянии отличить, а текст скорее всего не целиком определяется на уникальность, а сравниваются пассажи по алгоритму ШИНГЛЫ.

Встань и иди!
S
На сайте с 18.09.2007
Offline
22
#7
SergijKo:
На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.
Думаю поисковики тоже понимают что это неразумно :)
Поэтому они добавляют страницу не глядя.
Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.

мудро...;) Возможно и так, но если все-таки учесть что на страницу сразу можно выдать 50 документов... И их сравнивать между собой, да и скорее всего больше!!! А люди то делают запросы ежесекундно!! Тоже затратно:)

Возможно выделенно несколько серверов под это дело, чем они постоянно и занимаются:)

SK
На сайте с 13.06.2005
Offline
111
#8
на страницу сразу можно выдать 50 документов

на запрос а не на страницу? Можно выдать миллионы документов, да. Но поисковые системы знают больше одного алгоритма ранжирования-определения дубликатов. И разные алгоритмы по разному затратны. А уж комбинировать разные алгоритмы для получения удовлетворительного коефициента точность-затратность поисковики умеют. Потому что если работают - значит точно умеют :)

Тоже затратно

Просто индексация всех сайтов - такая затратная вещь... Даже домашняя индексация всех com-морд для своих нужд - немеряно затратная вещь оказывается...

Но не надо сравнивать наши домашние мощности и мощности поисковиков.

Kislov
На сайте с 29.04.2006
Offline
185
#10
Sylex:
А люди то делают запросы ежесекундно!! Тоже затратно

Данные кешируются, чтобы снизить нагрузку на сервера.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий