- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева

Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
IDF слов
Есть идеи откуда можно взять значения?
по IDF
1.Есть архивные данные:
http://tools.promosite.ru/old/weight.php
нужно договариваться с владельцем.
2. Используем XML Яндекса, для получения количества документов по слову.
Нужны XML лимиты.
346300489
</found>
<found priority="strict">
346300489
</found>
<found priority="all">
346300489
</found>
3. Общаемся с ребятами http://pr-cy.ru/zypfa/.
Возможно у них определение синонимов происходит по idf. Если так, то договариваемся о использование баз\технологий.
среднюю длину документа в коллекции
Можно взять какое-либо число, например посмотрев доклады.
25-й важен не с точки зрения точного вычисления, а сравнения его значения для различных документов.
Возможно у них определение синонимов происходит по idf.
IDF это соотношение общего количества документов в коллекции к количеству документов, где встречается искомое слово.
Определять синонимы по равенству IDF бред.
"дешево" - 16 млн. документов, "недорого" - 37 млн. документов. Очевидно, что IDF этих слов будет различаться.
SmileP, чтобы BM25 считать нужно знать:
среднюю длину документа в коллекции
IDF слов
Есть идеи откуда можно взять значения?
Баловался я такой ерундой.
Я считал IDF на основе данных о количестве найденных документов по слову и общее количество документов в яндексе. Правда проблемка с переколдовками, но вроде как почти решаемо. Дальше по стандартной формуле BM25. Сравнивал результаты по 1000 слов "мои" веса против тех, что стянуты Трофименко, корелляция 87%. Не фонтан, конечно, но вполне приемлемо.
Длину документа в коллекции вычислить еще проще: спарсить топ100 по нескольким тысячам запросов, спарсить все полученные документы и посчитать медиану или другой усредняющий параметр.
Другой вопрос, что полученные результаты в действительности имеют мало практического применения. По крайней мере лично я до этого не дорос.
если idf1=idf2, то это синоним
Гениально:))) А если масса Васи = масса Пети, значит они братья. Или даже близнецы.
Гениально)) А если масса Васи = масса Пети, значит они братья. Или даже близнецы
Определять синонимы по равенству IDF бред.
Согласен, опечатался.
Поведенческое что-нибудь. Оно решает и будет решать в будущем :):)
tearync, сделайте CMS с полной настройкой SEO в новых реалиях. Чтобы по-умолчанию вся техническая оптимизация была выполнена, а все остальное можно было настраивать без программиста.
сделайте CMS с полной настройкой SEO в новых реалиях
Пишите Т.З. или что-то похожее, а то отражение реалий у всех разное.
Да я напишу без проблем:) Если ТС готов взяться.
Да я напишу без проблем:) Если ТС готов взяться.
Да даже если и возьмется, вряд ли что то путное накодит в одиночку и без оплаты своего труда.