Какого сервиса вам не хватает? Реализую и будет бесплатным!

12
SmileP
На сайте с 18.02.2010
Offline
386
#11
IBakalov:

IDF слов

Есть идеи откуда можно взять значения?

по IDF

1.Есть архивные данные:

http://tools.promosite.ru/old/weight.php

нужно договариваться с владельцем.

2. Используем XML Яндекса, для получения количества документов по слову.

Нужны XML лимиты.

<found priority="phrase">
346300489
</found>
<found priority="strict">
346300489
</found>
<found priority="all">
346300489
</found>

3. Общаемся с ребятами http://pr-cy.ru/zypfa/.

Возможно у них определение синонимов происходит по idf. Если так, то договариваемся о использование баз\технологий.

IBakalov:
среднюю длину документа в коллекции

Можно взять какое-либо число, например посмотрев доклады.

25-й важен не с точки зрения точного вычисления, а сравнения его значения для различных документов.

Sterh
На сайте с 15.06.2006
Offline
226
#12
SmileP:

Возможно у них определение синонимов происходит по idf.

IDF это соотношение общего количества документов в коллекции к количеству документов, где встречается искомое слово.

Определять синонимы по равенству IDF бред.

"дешево" - 16 млн. документов, "недорого" - 37 млн. документов. Очевидно, что IDF этих слов будет различаться.

Программа для настройки внутренней перелинковки сайта: купить (http://www.page-weight.ru/) Проверка внешних ссылок на сайт (https://backlink.page-weight.ru) (когда Ахрефс дорого) Возьму на продвижение пару магазинов, & SEO консультации (/ru/forum/987866) для сложных случаев.
P
На сайте с 25.05.2007
Offline
103
#13
IBakalov:
SmileP, чтобы BM25 считать нужно знать:

среднюю длину документа в коллекции
IDF слов

Есть идеи откуда можно взять значения?

Баловался я такой ерундой.

Я считал IDF на основе данных о количестве найденных документов по слову и общее количество документов в яндексе. Правда проблемка с переколдовками, но вроде как почти решаемо. Дальше по стандартной формуле BM25. Сравнивал результаты по 1000 слов "мои" веса против тех, что стянуты Трофименко, корелляция 87%. Не фонтан, конечно, но вполне приемлемо.

Длину документа в коллекции вычислить еще проще: спарсить топ100 по нескольким тысячам запросов, спарсить все полученные документы и посчитать медиану или другой усредняющий параметр.

Другой вопрос, что полученные результаты в действительности имеют мало практического применения. По крайней мере лично я до этого не дорос.

SmileP:
если idf1=idf2, то это синоним

Гениально:))) А если масса Васи = масса Пети, значит они братья. Или даже близнецы.

coolakov.ru/tools (http://coolakov.ru/tools/): определение конкурентов (http://coolakov.ru/tools/most_promoted/), кластеризация запросов (http://coolakov.ru/tools/razbivka/) и т.д.
SmileP
На сайте с 18.02.2010
Offline
386
#14
pimandr:
Гениально)) А если масса Васи = масса Пети, значит они братья. Или даже близнецы
Sterh:
Определять синонимы по равенству IDF бред.

Согласен, опечатался.

yesterday
На сайте с 11.02.2009
Offline
121
#15

Поведенческое что-нибудь. Оно решает и будет решать в будущем :):)

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#16

tearync, сделайте CMS с полной настройкой SEO в новых реалиях. Чтобы по-умолчанию вся техническая оптимизация была выполнена, а все остальное можно было настраивать без программиста.

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
SmileP
На сайте с 18.02.2010
Offline
386
#17
Ingref:
сделайте CMS с полной настройкой SEO в новых реалиях

Пишите Т.З. или что-то похожее, а то отражение реалий у всех разное.

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#18

Да я напишу без проблем:) Если ТС готов взяться.

Злобный Гыук
На сайте с 30.08.2007
Offline
83
#19
Ingref:
Да я напишу без проблем:) Если ТС готов взяться.

Да даже если и возьмется, вряд ли что то путное накодит в одиночку и без оплаты своего труда.

SEO-api для программистов (/ru/forum/869285)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий