почитайте! коментарии оставьте для себя!

1 234 5
YaanGle
На сайте с 06.09.2011
Offline
155
#21
burunduk:
я пробовал с этим бороться, выбирая документы не просто по топу, а по видимости доменов в тематике, стало чуть по лучше,

А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос? Ну и еще - лидеры вряд ли стали таковыми благодаря LSI и тд :)

ЧислоДок(Запрос) + ЧислоДок(Слово)
IDF = —--------------------------------------------------
ЧислоДок(Запрос+Слово)

Сомнительная формула, лучше уж брать классический tf*idf, где tf = частота связанного термина в релевантных документах; idf, по-моему, в mystem есть.

alaev
На сайте с 18.11.2010
Offline
694
#22
YaanGle:
А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос? Ну и еще - лидеры вряд ли стали таковыми благодаря LSI и тд :)


Сомнительная формула, лучше уж брать классический tf*idf, где tf = частота связанного термина в релевантных документах; idf, по-моему, в mystem есть.

А как же возраст документа? Почему тогда его нет в формуле? :)

Вот, например, заходим в топ и почти по каждому запросу находим жестко переспамленный текст, выделенный болдом, который висит в топе годами и фильтр за переоптимизацию его постоянно обходит?

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
YaanGle
На сайте с 06.09.2011
Offline
155
#23
alaev:
А как же возраст документа? Почему его нет в формуле? :)
Вот, например, заходим в топ и почти по каждому запросу находим жестко переспамленный текст, выделенный болдом, который висит в топе годами и фильтр за переоптимизацию его постоянно обходит?

А причем тут возраст? :) Цель - найти связанные с запросом слова, которые помогут документу лучше ранжироваться.

По факту, любой нормальный текст, скорее всего сам по-себе будет содержать нужные термины.

[Удален]
#24
YaanGle:
А зачем, в контексте сабжа, собирать лидеров тематики, когда надо анализировать непосредственно запрос?

а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов? :)

YaanGle
На сайте с 06.09.2011
Offline
155
#25
burunduk:
а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов? :)

Ну так, возможно нас именно кривизна и интересует :)

[Удален]
#26

YaanGle, точно нет, вы наверное просто не наблюдаете за выдачей по большому количеству нч запросов, в топ постоянно влетает/вылетает откровенное говно, не имеющие отношение к запросу

а пытаться работать только по вч - бесполезно, есть несменяемые топы на протяжении нескольких лет :)

Stripe
На сайте с 05.09.2006
Offline
222
#27
burunduk:
а как из выдачи по запросу удалить мусор, который оказался в топе из-за кривизны алгоритмов?

Найти общее с нескольких точек, к примеру?

Сайты от 30р почти по любой теме или наполнение ваших сайтов (/ru/forum/887821) дешевым контентом. Базы товаров и контента (http://nakovalnja.ru). Вечные ссылки за 1$ или 30р. (/ru/forum/741397)
[Удален]
#28

Stripe, ну так ещё раз

так вот разрыв в видимости между лидерами и остальными составляет десятки-сотни, а иногда и тысячи (условных единиц).

на большом пуле запросов (одной тематике) пересечений практически не будет даже у лидеров :(

раньше было

YaanGle
На сайте с 06.09.2011
Offline
155
#29
burunduk:
YaanGle, точно нет, вы наверное просто не наблюдаете за выдачей по большому количеству нч запросов

Не наблюдаю, рассуждал в контексте поиска связанных слов для вч и сч-запросов.

, в топ постоянно влетает/вылетает откровенное говно, не имеющие отношение к запросу

Наверное, как вы и сказали - либо пересечение по близким запросам, либо на основе длительности присутствия в топе.

Видимо, каждый оценил сабж применительно к своим задачам. :)

alaev
На сайте с 18.11.2010
Offline
694
#30
YaanGle:
А причем тут возраст? :) Цель - найти связанные с запросом слова, которые помогут документу лучше ранжироваться.
По факту, любой нормальный текст, скорее всего сам по-себе будет содержать нужные термины.

Я ж написал выше, что может быть откровенный переспам и прекрасно себя чувствовать в топе годами, но аналогичный текст вы уже не загоните в топ.

Хороший пример - интернет магазины.

На одних сайтах простыня на 3-5k знаков под товарами , а на других только товары и ни строчки текста.

1 234 5

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий