Увеличение количества редковстречаемых слов в документе повышает его релевантность?

187

oleg1979

4 декабря 2011, 20:58

1454

Начитался на ночь гляда умных статей с РОМИРов. В общем-то в целом все понятно, но остается три вопроса:

1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца:( Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

3. Кто может объяснить что такое кучность слов запроса в документе и как она влияет на релевантность документа?

Буду очень признателен откликнувшимся.

Консультирую по всем вопросам, связанным с запуском интернет-магазина

E2

128

error2k

4 декабря 2011, 21:56

#1

Что это Вы такое прочитали. Редкие слова - ну это богатство лексикона автора ) 7 вхождений - это очень много, по-моему. Кучность - ну это когда они подряд идут и выглядят как адский спам, видимо.

Но вообще это ерунда. ОНИ специально запутывают население )

Ап! И тигры у ног моих сели.

Мой сайт спамят. Зачем? AJAX для новичков Что нужно Рамблеру?

111

Tatsu

5 декабря 2011, 04:24

#2

Нельзя ли увидеть ссылку на конкретное, упомянутое исследование? Без первоисточника не совсем ясна суть вопросов.

7 вхождений - это очень много, по-моему

На мой взгляд это очень зависит от ключа и от тематики, а так же от плотности употребления.

Портфолио/ (http://www.weblancer.net/users/tatsu81/portfolio/)

187

oleg1979

5 декабря 2011, 07:13

#3

error2k:
Что это Вы такое прочитали.

Поищите в ПС Ромир 2010

error2k:
Кучность - ну это когда они подряд идут и выглядят как адский спам, видимо.

Смысл слова кучность относительно seo мне понятен, я не понял как она рассчитывается:)

Tatsu:
Нельзя ли увидеть ссылку на конкретное, упомянутое исследование?

Например, вот.

Цитата оттуда: Mprox(q,d) – вклад «кучности» [3] документа;

XE

21

Максим Михайличенко

5 декабря 2011, 07:41

#4

oleg1979:
1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

Правильно. Редкоупотребляемые слова имеют больший вес, чем частоупотребляемые. Но если их нет в запросе, по которому продвигаетесь, то они только отберут вес у нужных слов.

2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Полный бред. Смысл в том, что каждое новое конкретное вхождение запроса имеет меньший вес, чем предыдущее, но общий вес все равно прибавляется.

P/S/ надо понимать, что это все в вакуме, и в реальности все намного сложнее....

Google: слова в URL Факторы ранжирования в Яндексе YouTube ответил на 5

187

oleg1979

5 декабря 2011, 07:59

#5

XoseErnest:
Смысл в том, что каждое новое конкретное вхождение запроса имеет меньший вес, чем предыдущее, но общий вес все равно прибавляется.

Т.е. вес прибавляется, но вместе с ним начинает действовать вторая переменная, уже с отрицательным знаком - за переспам, и она растет значительно быстрее чем "+". Возможно это та самая кучность - по-логике она работать с учетом размера документа, и Яша сейчас учитывает размер документа при расчете спамности документа.

XoseErnest:
P/S/ надо понимать, что это все в вакуме, и в реальности все намного сложнее....

Это понятно, хотя надо сказать что на приведенной выше ссылке в экспериментах коллег с серча - очень точно они подобрались к одной из частей уравнения релевантности.

Передача веса по ссылкам Сквозняк - это плохо? Тошнота страницы

V

91

Vigar

5 декабря 2011, 09:55

#6

XoseErnest:
Правильно. Редкоупотребляемые слова имеют больший вес, чем частоупотребляемые. Но если их нет в запросе, по которому продвигаетесь, то они только отберут вес у нужных слов.

А чем взвешиваете-то? Или что взвешиваете и что употребляете...

oleg1979

Вы бы еще за 2002 год темы и эксперименты с серча отсыкали.

1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

В документ стоит вводить синонимы продвигаемого слова, схожие запросы \ доп.слова (которые раньше в выдаче подсвечивались при запросах "запчасти тойота" - выделялись купить, цена и тд)

А не "редкоупотребляемые" слова, которые имеют "больший вес".

Выбор из 4 имен Сбор подсветок из сниппетов Слово "купить" - плохо

122

G00DMAN

5 декабря 2011, 12:37

#7

oleg1979:
Начитался на ночь гляда умных статей с РОМИРов.

РОМИП, а не РОМИР, есличо. :)

oleg1979:
1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

Не правильно. Во-первых, ни в одной публикации РОМИПа вы не найдете формул для расчета релевантности, которые бы учитывали слова, не входящие в запрос. Т.е. классические факторы ранжирования, построенные на BM25 не учтут ваши редкие слова.

С другой стороны - у поисковиков (Яндекса и Гугла) есть и иные факторы и фильтры, которые могут и учесть редкие. Причем учесть в минус. Такие факторы и фильтры я описывать не буду, но могу дать рекомендацию - пишите тексты простыми словами, и не очень длинными предложениями. :)

oleg1979:
2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца:( Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Не правильно. Корень из частоты слова в то время не должен был превышать 7, а не сама частотность. Если корень 7, то слов, как вы могли бы и сами догадаться - 49. :)

Это древний эксперимент, сейчас эти знания бесполезны, т.к. не работают. Зря тратили время. :)

oleg1979:
3. Кто может объяснить что такое кучность слов запроса в документе и как она влияет на релевантность документа?

Я могу объяснить на пальцАх. Вот если в вашем тексте встречаются какие-то слова запроса какое-то кол-во раз, то чем больше эти "встречи" в одной кучке, тем фактор кучности будет выше. :)

Но, лепя слова запроса в кучку, не следует забывать о фильтрах на сеопереоптимизированность текста. ;)

oleg1979:
Например, вот.
Цитата оттуда: Mprox(q,d) – вклад «кучности» [3] документа;

О, кто-то прочел мою статью и как всегда ничего не понял. :)

Удобнее читать в хтмле, тут.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)

Построение вектора релевантности согласно Сергей Людкевич на конференции Сергей Людкевич: «Современные тенденции