ФАК - плотность ключевых слов

wolf
На сайте с 13.03.2001
Offline
1183
#91
pro-maker:
Термин "плотность КС" для Яндекса неактуален. Актуальна нормировка по наиболее часто встречающемуся слову, используемая в тошноте (спамности) документа пре-умнейшим из умнейших Хрнс.

А вот сами яндексоиды утверждают, что нормировка внутри-документной частоты у них идет по размеру документа, а не по частоте самого частотного термина:


Функция Яндекса, подобно функциям Harman и BM25, нормализует внутри-документную частоту по размеру документа.

http://company.yandex.ru/articles/romip2004.xml

Таки кому верить? Сегаловичу или ХРНС?

То что для запросов, состоящих из нескольких слов, считать плотность каждого слова - бесполезная трата времени, это понятно, тут и переколдовка, и расстояние до других терминов, и разный вес idf каждого термина. А вот как быть в случае однословного запроса, который никак хитро не переколдовывается? А таких весьма много. Давайте прикинем. Вот тут Женя говорит:

euhenio:
во-первых, фраза "плотность ключевых слов почти не влияет" смысла не имеет - либо влияет, либо нет, либо ты не знаешь. На мой взгляд таки влияет. Алгоритм tf*idf хоть и переколбасили по-разному, но он должен работать и работает.

В общем-то, верно говорит. Внутридокументная частота tf термина таки используется при определении релевантности документа запросу (или, как говорят яндексоиды, веса документа по отношению к запросу). Чисто теоретически, чем больше частота tf этого термина и чем больше пассажей с ним найдено, то чем выше должен быть вес документа по отношению к этому термину. Наверное, так и было б, если б не поисковый спам. Поэтому разработчики поисковиков навешивают всякие спамодавилки. Как работает канкретная спамодавилка - тут остается только догадываться. И не факт, что они работают на основе оценки внутридокументной частоты tf, штрафуя за ее превышение. Возможно, игнорируют пассажи, содержащие термин, которые не удовлетворяют неким параметрам (например, термин встречается в нем несколько раз подряд), возможно еще как-то. И тут уже внутридокументная частота tf, по-моему отходит на второй план, и оптимальное ее значение в итоге получается настолько зависимым от других параметров, что говорит о нем, как о "вещи в себе" тоже становится бессмысленным.

Сергей Людкевич, независимый консультант, SEO-аудиты и консультации - повышаю экспертность SEO-команд и специалистов ( http://www.ludkiewicz.ru/p/blog-page_2.html ) SEO-блог - делюсь пониманием некоторых моментов поискового продвижения ( http://www.ludkiewicz.ru/ )
Alden
На сайте с 04.04.2005
Offline
76
#92

Мда, начали со сбора FAQ-а для новичков, а закончили головоломкой для профи :D

Sape.Ru (http://www.sape.ru/r.7d765d2f01.php) - наше всё! С уважением, Алимкин Денис (http://www.alimkin.ru/).
ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#93
wolf:
А вот сами яндексоиды утверждают, что нормировка внутри-документной частоты у них идет по размеру документа, а не по частоте самого частотного термина:
Цитата:
Функция Яндекса, подобно функциям Harman и BM25, нормализует внутри-документную частоту по размеру документа.
http://company.yandex.ru/articles/romip2004.xml

Таки кому верить? Сегаловичу или ХРНС?

Я больше своим глазам доверяю :)

У нас есть народовские странички, добавленные через адурелку и только. Никто на них не ссылается. Опыт говорит, что размер документа (если его наращивать словами, но так, чтобы больше 7 слов не встречалось) на релевантность не влияет. А вот добавление самого частого слова влияет (если больше семи) и очень сильно (на запрос по этому частому слову положительно) а на запросы по всем другим словам отрицательно :)

Кстати, вот цитата Сегаловича насчет внутридокументной частоты:

Пусть "частота" это нормированная внутридокументная частота слова в документа (TF), лежащая в диапазоне 0..1, где 1 частота самого частого слова в документе.

Смотрите /ru/forum/comment/1414344

Миныч это давно уже знал и без этой цитаты :)

Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
wolf
На сайте с 13.03.2001
Offline
1183
#94
ХренРедькиНеСлаще:
Я больше своим глазам доверяю
У нас есть народовские странички, добавленные через адурелку и только. Никто на них не ссылается. Опыт говорит, что размер документа (если его наращивать словами, но так, чтобы больше 7 слов не встречалось) на релевантность не влияет. А вот добавление самого частого слова влияет (если больше семи) и очень сильно (на запрос по этому частому слову положительно) а на запросы по всем другим словам отрицательно

Кстати, вот цитата Сегаловича насчет внутридокументной частоты:

Ну, вообще-то в цитате Сегаловича речь идет о несколько другой задаче, а именно об определении нечетких дубликатов.

Но, в общем-то, в плане темы топика не суть важно. Факт в том, что для определения веса страницы по отношению к термину, используется нормированная внутридокументная частота (по размеру страницы, или по частоте самого частотного термина, или еще как), а не абсолютная. И поэтому говорить о оптимальном значении абсолютной частоты бессмысленно.

webcat
На сайте с 19.10.2005
Offline
137
#95
wolf
Возможно, игнорируют пассажи, содержащие термин, которые не удовлетворяют неким параметрам (например, термин встречается в нем несколько раз подряд), возможно еще как-то. И тут уже внутридокументная частота tf, по-моему отходит на второй план, и оптимальное ее значение в итоге получается настолько зависимым от других параметров, что говорит о нем, как о "вещи в себе" тоже становится бессмысленным.

Согланса в принципе.

Тем не менее в любом случае tf в связи с IDF используются для оцеки веса слов / терминов при автоматической индексации документов. При каком пороге поиковики могут игнорировать значение tf по одному слову навряд-ли мы сможем точно сказать

_________________

Поэтому предлагаю говорить только о том, что понятие tf и keyword density пересекаются в отношении поисковиков (СЕО) только тематически и определение „плотность ключевых слов „ в СЕО имеет упрощённое значение.

Поэтому предлагаю для FAQ простое определение, которое любому новичку будет понятно.

__________________

Термин „плотность ключевого слова“ (англ. keyword density) возникло в контексе СЕО

и описывает соотношение количества встречающегогся в документе/вебстранице (на выбор) ключевого слова к сумме всех слов этого документа/этой вебстраницы (на выбор ) выраженное в процентах.

При ранжирывантии документов поисковые системы наряду с другими факторами учитывают и плотность ключевого слова. Нет точных данных насколько это имплементировано в Ranking Алгоритм и как точно влияет на выдачу.

Тем не менее существует мнение, что плотность ключевого слова в документе не должна превышать 5-7 % на 1000 знаков.

________________

:)

pro-maker
На сайте с 08.12.2003
Offline
281
#96
wolf:
говорить о оптимальном значении абсолютной частоты бессмысленно

Сергей, если использовать такую рекомендацию в FAQ-е, она будет восприниматься как универсальная (на все случаи), хотя критерии оптимальности определяются контекстом задачи. Т.е. задачу оптимальности встречаемости КС решить можно, но решит её не каждый профессионал. Поэтому более корректным кажется Ваше предложение:

wolf:
желательно, чтобы точное вхождение ключевой фразы хотя бы раз встречалась в документе

Добавив:

1. Повторение желательно, но с учетом с сохранением осмысленности текста.

2. Также желательно вхождение в определенные зоны документы такие, как title, Hx, strong/b и ссылающуюся на документ внутреннюю навигацию.

Давайте закроем топик. :)

webcat
На сайте с 19.10.2005
Offline
137
#97

[

B]pro-maker
Сообщение от wolf
желательно, чтобы точное вхождение ключевой фразы хотя бы раз встречалась в документе

Добавив:

1. Повторение желательно, но с учетом с сохранением осмысленности текста.

2. Также желательно вхождение в определенные зоны документы такие, как title, Hx, strong/b и ссылающуюся на документ внутреннюю навигацию.

Предлагаю топик закрыть.

Согласна :D

AiK
На сайте с 27.10.2000
Offline
257
AiK
#98

ХренРедькиНеСлаще, я вообще-то старательно избегал упоминаний какого-то конкретного поисковика. И писал не про однословные запросы. Если говорить о Яндексе, то все красивые теории про оптимальную частосту разбиваются на практике о то, что Яндекс предпочитает морды внутренним страницам сайтов. В результате, вместо страницы, имеющей точное вхождение фразы в title, hx, тексте, внутренних и внешних ссылках, Яндекс выдаёт морду, на которой просто есть оба слова из запроса, но в разных частях документа.

Dervish
На сайте с 11.05.2005
Offline
186
#99

AiK, ссылки с к.с. идут на морду а не на внутреннюю?

Пингвин под микроскопом. (http://ac-u.ru/arts/pingvin-pod-mikroskopom/) Особенности продвижения Интернет-магазинов. (http://ac-u.ru/arts/osobennosti-prodvizhenija-internet-magazinov-bytovojj-ili-kompjuternojj-tekhniki-s-interesnymi-primerami-i-zabavnymi-kartinkami/) Копирайтинг. Качественно. (/ru/forum/725909)
AiK
На сайте с 27.10.2000
Offline
257
AiK
#100

Dervish, с точной фразой - на внутреннюю. Что, вообще говоря, вполне естественно. Особенно для внутренних ссылок ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий