Найти связанные с запросом слова, которые помогут документу лучше ранжироваться - Яндекс

155

YaanGle

10 июня 2015, 15:02

#21

burunduk:
я пробовал с этим бороться, выбирая документы не просто по топу, а по видимости доменов в тематике, стало чуть по лучше,

А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос? Ну и еще - лидеры вряд ли стали таковыми благодаря LSI и тд :)

ЧислоДок(Запрос) + ЧислоДок(Слово)
IDF = —--------------------------------------------------
ЧислоДок(Запрос+Слово)

Сомнительная формула, лучше уж брать классический tf*idf, где tf = частота связанного термина в релевантных документах; idf, по-моему, в mystem есть.

Джон Мюллер о роли Сергей Людкевич на конференции Сергей Людкевич: «Современные тенденции

694

alaev

10 июня 2015, 15:10

#22

YaanGle:
А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос? Ну и еще - лидеры вряд ли стали таковыми благодаря LSI и тд :)

Сомнительная формула, лучше уж брать классический tf*idf, где tf = частота связанного термина в релевантных документах; idf, по-моему, в mystem есть.

А как же возраст документа? Почему тогда его нет в формуле? :)

Вот, например, заходим в топ и почти по каждому запросу находим жестко переспамленный текст, выделенный болдом, который висит в топе годами и фильтр за переоптимизацию его постоянно обходит?

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама

155

YaanGle

10 июня 2015, 15:12

#23

alaev:
А как же возраст документа? Почему его нет в формуле? :)
Вот, например, заходим в топ и почти по каждому запросу находим жестко переспамленный текст, выделенный болдом, который висит в топе годами и фильтр за переоптимизацию его постоянно обходит?

А причем тут возраст? :) Цель - найти связанные с запросом слова, которые помогут документу лучше ранжироваться.

По факту, любой нормальный текст, скорее всего сам по-себе будет содержать нужные термины.

[Удален]

10 июня 2015, 15:14

#24

YaanGle:
А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос?

а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов? :)

155

YaanGle

10 июня 2015, 15:18

#25

burunduk:
а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов? :)

Ну так, возможно нас именно кривизна и интересует :)

[Удален]

10 июня 2015, 15:21

#26

YaanGle, точно нет, вы наверное просто не наблюдаете за выдачей по большому количеству нч запросов, в топ постоянно влетает/вылетает откровенное говно, не имеющие отношение к запросу

а пытаться работать только по вч - бесполезно, есть несменяемые топы на протяжении нескольких лет :)

222

Stripe

10 июня 2015, 15:21

#27

burunduk:
а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов?

Найти общее с нескольких точек, к примеру?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)

[Удален]

10 июня 2015, 15:25

#28

Stripe, ну так ещё раз

так вот разрыв в видимости между лидерами и остальными составляет десятки-сотни, а иногда и тысячи (условных единиц).

на большом пуле запросов (одной тематике) пересечений практически не будет даже у лидеров :(

раньше было

155

YaanGle

10 июня 2015, 15:30

#29

burunduk:
YaanGle, точно нет, вы наверное просто не наблюдаете за выдачей по большому количеству нч запросов

Не наблюдаю, рассуждал в контексте поиска связанных слов для вч и сч-запросов.

, в топ постоянно влетает/вылетает откровенное говно, не имеющие отношение к запросу

Наверное, как вы и сказали - либо пересечение по близким запросам, либо на основе длительности присутствия в топе.

Видимо, каждый оценил сабж применительно к своим задачам. :)

Директ - цена клика. Как найти ТОП выдачи Рост роботности в Метрике

694

alaev

10 июня 2015, 15:37

#30

YaanGle:
А причем тут возраст? :) Цель - найти связанные с запросом слова, которые помогут документу лучше ранжироваться.
По факту, любой нормальный текст, скорее всего сам по-себе будет содержать нужные термины.

Я ж написал выше, что может быть откровенный переспам и прекрасно себя чувствовать в топе годами, но аналогичный текст вы уже не загоните в топ.

Хороший пример - интернет магазины.

На одних сайтах простыня на 3-5k знаков под товарами , а на других только товары и ни строчки текста.

2

Нарушения и угрозы безопасности Перенос траста с одного Яндекс ддосит сайт. Что

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

почитайте! коментарии оставьте для себя!