Увеличение количества редковстречаемых слов в документе повышает его релевантность?

oleg1979
На сайте с 23.07.2010
Offline
187
1444

Начитался на ночь гляда умных статей с РОМИРов. В общем-то в целом все понятно, но остается три вопроса:

1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца:( Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

3. Кто может объяснить что такое кучность слов запроса в документе и как она влияет на релевантность документа?

Буду очень признателен откликнувшимся.

Консультирую по всем вопросам, связанным с запуском интернет-магазина
E2
На сайте с 15.12.2006
Offline
128
#1

Что это Вы такое прочитали. Редкие слова - ну это богатство лексикона автора ) 7 вхождений - это очень много, по-моему. Кучность - ну это когда они подряд идут и выглядят как адский спам, видимо.

Но вообще это ерунда. ОНИ специально запутывают население )

Ап! И тигры у ног моих сели.
Tatsu
На сайте с 11.07.2006
Offline
111
#2

Нельзя ли увидеть ссылку на конкретное, упомянутое исследование? Без первоисточника не совсем ясна суть вопросов.

7 вхождений - это очень много, по-моему

На мой взгляд это очень зависит от ключа и от тематики, а так же от плотности употребления.

oleg1979
На сайте с 23.07.2010
Offline
187
#3
error2k:
Что это Вы такое прочитали.

Поищите в ПС Ромир 2010

error2k:
Кучность - ну это когда они подряд идут и выглядят как адский спам, видимо.

Смысл слова кучность относительно seo мне понятен, я не понял как она рассчитывается:)

Tatsu:
Нельзя ли увидеть ссылку на конкретное, упомянутое исследование?

Например, вот.

Цитата оттуда: Mprox(q,d) – вклад «кучности» [3] документа;

XE
На сайте с 20.02.2010
Offline
21
#4
oleg1979:
1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

Правильно. Редкоупотребляемые слова имеют больший вес, чем частоупотребляемые. Но если их нет в запросе, по которому продвигаетесь, то они только отберут вес у нужных слов.

2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Полный бред. Смысл в том, что каждое новое конкретное вхождение запроса имеет меньший вес, чем предыдущее, но общий вес все равно прибавляется.

P/S/ надо понимать, что это все в вакуме, и в реальности все намного сложнее....

oleg1979
На сайте с 23.07.2010
Offline
187
#5
XoseErnest:
Смысл в том, что каждое новое конкретное вхождение запроса имеет меньший вес, чем предыдущее, но общий вес все равно прибавляется.

Т.е. вес прибавляется, но вместе с ним начинает действовать вторая переменная, уже с отрицательным знаком - за переспам, и она растет значительно быстрее чем "+". Возможно это та самая кучность - по-логике она работать с учетом размера документа, и Яша сейчас учитывает размер документа при расчете спамности документа.

XoseErnest:
P/S/ надо понимать, что это все в вакуме, и в реальности все намного сложнее....

Это понятно, хотя надо сказать что на приведенной выше ссылке в экспериментах коллег с серча - очень точно они подобрались к одной из частей уравнения релевантности.

V
На сайте с 12.02.2009
Offline
91
#6
XoseErnest:
Правильно. Редкоупотребляемые слова имеют больший вес, чем частоупотребляемые. Но если их нет в запросе, по которому продвигаетесь, то они только отберут вес у нужных слов.

А чем взвешиваете-то? Или что взвешиваете и что употребляете...

oleg1979

Вы бы еще за 2002 год темы и эксперименты с серча отсыкали.

1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

В документ стоит вводить синонимы продвигаемого слова, схожие запросы \ доп.слова (которые раньше в выдаче подсвечивались при запросах "запчасти тойота" - выделялись купить, цена и тд)

А не "редкоупотребляемые" слова, которые имеют "больший вес".

G00DMAN
На сайте с 19.04.2008
Offline
122
#7
oleg1979:
Начитался на ночь гляда умных статей с РОМИРов.

РОМИП, а не РОМИР, есличо. :)

oleg1979:
1. Правильно ли я понимаю, что поскольку релевантность документа складывается из веса всех слов в него входящих, то в документ имеет смысл вводить больше редкоупотребляемых слов, т.к. они имеют бОльший вес? Сомнение здесь в том что редкость слов в документе какбэ мало коррелируема с запросом пользователя.

Не правильно. Во-первых, ни в одной публикации РОМИПа вы не найдете формул для расчета релевантности, которые бы учитывали слова, не входящие в запрос. Т.е. классические факторы ранжирования, построенные на BM25 не учтут ваши редкие слова.

С другой стороны - у поисковиков (Яндекса и Гугла) есть и иные факторы и фильтры, которые могут и учесть редкие. Причем учесть в минус. Такие факторы и фильтры я описывать не буду, но могу дать рекомендацию - пишите тексты простыми словами, и не очень длинными предложениями. :)

oleg1979:
2. Прочитал про некое магическое число 7, которое ессно может изменяться - число вхождений запроса в документ. Но мягко сказать не до конца понял идею автора до конца:( Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Не правильно. Корень из частоты слова в то время не должен был превышать 7, а не сама частотность. Если корень 7, то слов, как вы могли бы и сами догадаться - 49. :)

Это древний эксперимент, сейчас эти знания бесполезны, т.к. не работают. Зря тратили время. :)

oleg1979:
3. Кто может объяснить что такое кучность слов запроса в документе и как она влияет на релевантность документа?

Я могу объяснить на пальцАх. Вот если в вашем тексте встречаются какие-то слова запроса какое-то кол-во раз, то чем больше эти "встречи" в одной кучке, тем фактор кучности будет выше. :)

Но, лепя слова запроса в кучку, не следует забывать о фильтрах на сеопереоптимизированность текста. ;)

oleg1979:
Например, вот.
Цитата оттуда: Mprox(q,d) – вклад «кучности» [3] документа;

О, кто-то прочел мою статью и как всегда ничего не понял. :)

Удобнее читать в хтмле, тут.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
богоносец
На сайте с 30.01.2007
Offline
774
#8
Увеличение количества редковстречаемых слов в документе повышает его релевантность

Чему?

oleg1979:
Правильно ли я понимаю, что есть некое число вхождений слов запроса в документ, превышение которого начинает снижать вес самих вхождений? Т.е. если 6 вхождений - вес 6, для 7 - 7, а если 8 - то уже 6 (снижение)?

Нет .

ХренРедькиНеСлаще:
Если у Вас самое частое слово на странице "недвижимость" и встречается 40 раз, то Яндексу до фени сколько раз Вы любое другое слово на странице повторите, если число повторений будет меньше 40!

Поэтому пишите что хотите, но так, чтобы за 40 раз не зашкаливало.

А то тут некоторые все буквально понимают, якобы 7 ключевиков ГОЛЫХ и ничего более. Да пишите хоть тыщи других слов хороших и разных и именно для людей! Но меньше 40 одинаковых!

Теперь число 40 замените на любое другое и перечитайте пост еще раз и так до тех пор, пока не поймете. В первом классе вроде на Х переходят после 5-6 уроков подсчета кубиков.
Белый Ум
На сайте с 27.04.2009
Offline
251
#9

Даешь авторерайт!

П.С. после авто рерайта частота любого слова в документе становиться константой, независимо от реальной языковой частоты. Для редких слов - частота очень сильно растет.

Skype: shum_beliy

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий