Как ПС определяют уникальность контента?

12
solomko
На сайте с 01.09.2007
Offline
213
#11

Что такое ШИНГЛ?

Пассаж - это часть текста?

30% всех моих доходов идут отсюда (http://www.sape.ru/r.d5e628f4c4.php) Когда-то тут была ссылка рефки Рrofit-partner - R.I.P милый друг Поднимаю показатели сайтов, стабильный доход (http://gogetlinks.net/?inv=gypp40)
metaContent
На сайте с 31.03.2007
Offline
103
#12

http://www.yandex.ru/yandsearch?text=%D1%88%D0%B8%D0%BD%D0%B3%D0%BB&site=http%3A%2F%2Fcompany.yandex.ru%2F&ras=1&site_manually=true

solomko:
Пассаж - это часть текста?

Что такое Яндекс.Пассаж ... или ограничен длиной или разметкой текста (теги типа <p> <div> <td> <li> <br>. "Инлайновые" <i> <b> <span> не ограничивают).

Часто (но не всегда) это предложение, начавшееся с большой буквы и закончившееся точкой.

Можете поискать слова и содержимое разных пассажей попадёт в сниппете в разные текстовые фрагменты (будет в разных строках, если текст не в теге <pre> посмотрите код страницы).

dlyanachalas
На сайте с 15.09.2006
Offline
693
#13
WebSee:
а сравниваются пассажи по алгоритму ШИНГЛЫ.

Это уже при детальном анализе. А для всей страницы формируется "супершингл", по которому и происходит сравнение по всей базе. Для этого параметра формируется индекс, а это значит, что определение уникальна ли страница, или нет, сводится к менее чем

ln(число страниц в базе Яндекса) / ln(2)

сравнением чисел.

(Если кол-во страниц в индексе Яндекс выдаёт честно, то это около 32-х сравнений чисел)

Т.е. фактически, Яндексу это ничего не стоит с точки зрения мощности

IL
На сайте с 06.10.2007
Offline
15
#14

не думаю что сравнение идет со всей базой, скорее при выкачки сайт метится в зависимости от контента и идет сравнение лишь со смежными секторами.

Рисую баннеры от 100 у.е. за штуку - пример тут (/ru/forum/171586)
dlyanachalas
На сайте с 15.09.2006
Offline
693
#15
IamLogo:
не думаю что сравнение идет со всей базой, скорее при выкачки сайт метится в зависимости от контента и идет сравнение лишь со смежными секторами.

Для тех, кто в танке - сравнить супершингл со всей базой проще и быстрее, чем по каким-либо "умозрительным" алгоритмам.

Вот здесь Яндекс упоминает о применении этой методики: http://company.yandex.ru/articles/spamooborona.html

Обсуждение на SE: /ru/forum/83293

IL
На сайте с 06.10.2007
Offline
15
#16

а сравнивать супершинлг лишь в отдельном секторе еще проще и быстрее чем по всей базе

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий