Как ПС определяют уникальность контента?

22

Sylex

23 января 2008, 09:22

4518

До сих пор не понимаю, ну как можно определить что контент уникальный? Понятно, что существуют мощные алгоритмы, типа по проценту совпадения слов или подобные, но как ПС могут проверять ВСЕ САЙТЫ, которых МИЛЛИОНЫ, учитывая что число страниц....

Т.е. нужно одну страницу, добавляемую в индексацию сверить со ВСЕМИ другими страницами. Даже примерно не понимаю, сколько на это надо вычислительных ресурсов!:confused:

Или на конкурентов стучат, мол у посмотрите они воруют контент!:bl:

267

kolobok74

23 января 2008, 09:43

#1

Бытует мнение, что по алгоритму шинглов.

А оригиналом признается более авторитетный документ (с бОльшим вИЦ).

219

MASe

23 января 2008, 09:47

#2

Sylex:
До сих пор не понимаю, ну как можно определить что контент уникальный?

сказать честно - криво!!!

а вообще как правильно сказали - сам алгоритм и его обсуждения были в темах с ключевым словом ШИНГЛЫ... была также выложена мини-программка (от Hkey если не ошибаюсь) с примерным внедрением данного алгоритма

Only God Can Judge Me... Nobody Else... Дрезна (http://www.drezna.ru/) Помощники: Sape (http://www.sape.ru/r.167724536c.php)

P

195

prlink

23 января 2008, 10:03

#3

kolobok74:
Бытует мнение, что по алгоритму шинглов.

Именно, так и есть. Хотя, судя по результатам, алгоритм слабенький...🚬

А оригиналом признается более авторитетный документ (с бОльшим вИЦ).

Спорное утверждение (кстати и для Гугла). Есть много примеров, показывающих обратное.

S

22

Sylex

23 января 2008, 10:22

#4

Очень интересно, нужно посмотреть алгоритм шинглов. Но ведь факт, что по многим запросам выдаются сайты все-таки с одинаковым содержанием, при чем множество!

При чем, если учесть, что ПС не может определить где начинается контент сайта, также в текст идет менюшки, другим ссылки, шапка сайта и проч. проч. Т.е. очень затруднительно ИМХО...🚬

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

SK

111

SergijKo

23 января 2008, 10:43

#5

Т.е. нужно одну страницу, добавляемую в индексацию сверить со ВСЕМИ другими страницами. Даже примерно не понимаю, сколько на это надо вычислительных ресурсов!

На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.

Думаю поисковики тоже понимают что это неразумно :)

Поэтому они добавляют страницу не глядя.

Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.

BulkAddurl.com - добавляйте страницы в гугль на автомате (http://bulkaddurl.com) + 10% партнерка

66

WebSee

23 января 2008, 10:46

#6

Я думаю навигацию (меню) от контента ПС в состоянии отличить, а текст скорее всего не целиком определяется на уникальность, а сравниваются пассажи по алгоритму ШИНГЛЫ.

Встань и иди!

S

22

Sylex

23 января 2008, 10:51

#7

SergijKo:
На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.
Думаю поисковики тоже понимают что это неразумно :)
Поэтому они добавляют страницу не глядя.
Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.

мудро...;) Возможно и так, но если все-таки учесть что на страницу сразу можно выдать 50 документов... И их сравнивать между собой, да и скорее всего больше!!! А люди то делают запросы ежесекундно!! Тоже затратно:)

Возможно выделенно несколько серверов под это дело, чем они постоянно и занимаются:)

Факторы ранжирования Гугл 2024 Яндекс кобласит Откуда берутся всякие SEO-байки?

SK

111

SergijKo

23 января 2008, 11:14

#8

на страницу сразу можно выдать 50 документов

на запрос а не на страницу? Можно выдать миллионы документов, да. Но поисковые системы знают больше одного алгоритма ранжирования-определения дубликатов. И разные алгоритмы по разному затратны. А уж комбинировать разные алгоритмы для получения удовлетворительного коефициента точность-затратность поисковики умеют. Потому что если работают - значит точно умеют :)

Тоже затратно

Просто индексация всех сайтов - такая затратная вещь... Даже домашняя индексация всех com-морд для своих нужд - немеряно затратная вещь оказывается...

Но не надо сравнивать наши домашние мощности и мощности поисковиков.

103

metaContent

23 января 2008, 12:53

#9

Sylex:
посмотреть алгоритм шинглов

http://www.yandex.ru/yandsearch?date=&text=%D1%88%D0%B8%D0%BD%D0%B3%D0%BB%D0%B0%D0%BC%D0%B8&spcctx=notfar&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=23&to_month=1&to_year=2008&mime=all&site=http%3A%2F%2Fcompany.yandex.ru%2F&rstr=&ds=&numdoc=10

185

Kislov

23 января 2008, 21:26

#10

Sylex:
А люди то делают запросы ежесекундно!! Тоже затратно

Данные кешируются, чтобы снизить нагрузку на сервера.

Что делать, чтобы попасть в ответы Google Bard

VK приобрела 70% в структуре компании-разработчика red_mad_robot