Релевантные пассажи - Форум об интернет-маркетинге
Этот сайт существует на доходы от рекламы.
Пожалуйста, выключите AdBlock.
Старый 11.09.2006, 09:18   #1
Студент
 
Аватар для Analitik2000
 
Регистрация: 11.09.2006
Сообщений: 29
Репутация: 97

По умолчанию Релевантные пассажи

В общем, всем «здрасьте». Вопрос следующий…
Хотел тут примерно посчитать текстовую релевантность. Выделить все факторы, согнать их в формулу и потом написать скриптик. Но столкнулся с некоторой проблемой… и так по порядку…
Изучив главным образом статью «Яндекс на Ромип 2004» и начитавшись сообщений с форума, решил попробовать научиться определять релевантность текста относительно какого-либо запроса. Для начала допустил, что главным образом нам нужно считать количество релевантных пассажей в общей массе, затем учитывать форматирование слова в пассаже полюс давать некоторые баллы за пассаж-title и т.п. (Ничего тут не придумывал – все из статьи). Для однословных запросов все не так сложно: релевантный пассаж – пассаж, содержащий ключевое слово хотя бы раз. Можно найти общее количество пассажей, экспериментально определить влияние тегов форматирования и других факторов. Короче, все не так сложно.
НО!!! Что же делать с многословными запросами? Теоретически здесь все будет аналогично – пассаж, содержащий все слова запроса – релевантный, пассаж, содержащий одно слово – нерелевантный. Но на самом-то деле все не так!…
Во-первых (от сюда и далее – мои догадки, основанные на информации из разных форумов) начинает действовать кворум. Как он считается, нас учил Миныч, однако он писал формулу словами и так, как я ее разобрал - она ни фига не действует. Вот она - Сумма_по_словам_из_кворума(вес_слова^0,38)>=
(1-мягкость)^sqrt(число_слов_запроса-1)*Сумма_по_всем_словам_запроса(вес_слова^0,38).
Так вот, уважаемый Миныч! Сумма_по_всем_словам_запроса(вес_слова^0,38) должна быть в степени или нет? Если да, то что-то не получается посчитать…
Итак, имеем далее с уточнением – релевантный пассаж – пассаж, в котором есть определенный набор слов из запроса, прошедший кворум.
А как быть с неполными пассажами – вообще их отбрасывать при анализе или нет? Ну в общем ладно, не так сложно…
Но тут еще свое слово говорит колдунщик. Например, он выдает нам:
text=точно ртуть алоэ&reqtext=(точно::3586 &&/(-7 7) ртуть::320470 & алоэ::715521)//6&dsn=325&d=5560485&sh=3&sg=9
(«точно ртуть алоэ» - альбом группы Мумий тролль :-) )
Мы видим, что слова «точно» и «ртуть» могут находиться в пределах семи предложений… И как же тут быть с подсчетом релевантных пассажей? Во-первых, нужно ввести коэффициент за расположение слов. Во-вторых, … не знаю…
Может кто подскажет…
Analitik2000 вне форума   Ответить с цитированием

Реклама
Старый 11.09.2006, 09:37   #2
patan
Студент
 
Регистрация: 14.06.2005
Сообщений: 36
Репутация: 125

По умолчанию Re: Релевантные пассажи

Analitik2000,
коэфиценты на расстояние между словами, коэфиценты на порядок слов и коэфицент на частоту встречаемость каждого из слов... уверен, что это не всё.
__________________
Всё дело в позиции...
patan вне форума   Ответить с цитированием
Старый 11.09.2006, 14:16   #3
Analitik2000
Студент
 
Аватар для Analitik2000
 
Регистрация: 11.09.2006
Сообщений: 29
Репутация: 97

ТопикСтартер Re: Релевантные пассажи

На счет коэффициентов понятно, но как быть с подсчетом количества релевантных пассажей. Просто считать количество повторений ключевой фразы в тексте (или ее части, прошедшей кворум) или как-то иначе? Явно тут подсчет по другому ведется, нежели при однословном запросе...
Analitik2000 вне форума   Ответить с цитированием
Старый 11.09.2006, 15:02   #4
ХренРедькиНеСлаще
Lovelace
 
Аватар для ХренРедькиНеСлаще
 
Регистрация: 27.07.2006
Адрес: Шалаш
Сообщений: 957
Репутация: 7975

По умолчанию Re: Релевантные пассажи

Analitik2000, не количество пассажей, а от каждой словопозиции после итераций получается некоторый вклад.

Конечно, для многословных запросов, все посложнее.

Например, операторы " " (аналог & или &&) и оператор "|" по разному вклад вносят.

Для кворума Вам легче самому повторить запросик-экспериментик. например задайте для какойнить Вашей странички на которой есть слово1 и нет слова2) запросик вида:

(слово1::вес1 слово2::вес3)//мягкость

поиграйтесь, изменяя вес1, вес2, мягкость и найдите такие вес1 (или вес2), что при изменении веса на +-1 Ваша страничка то находится, то не находится.

Зафиксируйте эти вес1, вес2, мягкость и сами проверьте формулу.

Пример:
http://www.yandex.ru/yandsearch?rpt=...000%29%2F%2F50
http://www.yandex.ru/yandsearch?rpt=...001%29%2F%2F50
__________________
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
ХренРедькиНеСлаще вне форума   Ответить с цитированием
Старый 11.09.2006, 15:18   #5
Analitik2000
Студент
 
Аватар для Analitik2000
 
Регистрация: 11.09.2006
Сообщений: 29
Репутация: 97

ТопикСтартер Re: Релевантные пассажи

ХренРедькиНеСлаще, веса слова - величина постоянная (от апдейта к апдейту незначительно меняющаяся), разве не так? Да и мягкость обычно = 6... В любом случае все это можно найти через строку запроса Яндекса...
А вот где в формуле кворума степень или логарифм - простым перебором сложно найти...
Analitik2000 вне форума   Ответить с цитированием
Старый 11.09.2006, 15:21   #6
patan
Студент
 
Регистрация: 14.06.2005
Сообщений: 36
Репутация: 125

По умолчанию Re: Релевантные пассажи

Analitik2000, по сути количество - одна из переменных. точнее количество точных вхождений.
patan вне форума   Ответить с цитированием
Старый 11.09.2006, 15:47   #7
ХренРедькиНеСлаще
Lovelace
 
Аватар для ХренРедькиНеСлаще
 
Регистрация: 27.07.2006
Адрес: Шалаш
Сообщений: 957
Репутация: 7975

По умолчанию Re: Релевантные пассажи

Для кворума Яндекс позволяет вес глобальный задавать прямо в запросе (через двойное двоеточие)
То же и для мягкости, это сейчас по умолчанию она часто равна 6.
Но по нынешнему хелпу самого Яндекса // есть стандартный оператор и его можно менять (я для простоты взял в примере 50, так как время мое это деньги и его надо беречь)

Логарифма в кворуме нет, там только степень, вроде была раньше 0.38, но ведь Яндекс и ее запросто может поменять в любой момент.

Посмотрите у Миныча, там хоть и словами, но тогда когда я сам проверял, все сходилось (для двух слов).

типа при нахождении этой грани (находится не находится) должно выполняться соотношение:

вес1^0.38/(вес1^0.38 + вес2^0.38) = мягкость/100
ХренРедькиНеСлаще вне форума   Ответить с цитированием
Старый 11.09.2006, 16:19   #8
Analitik2000
Студент
 
Аватар для Analitik2000
 
Регистрация: 11.09.2006
Сообщений: 29
Репутация: 97

ТопикСтартер Re: Релевантные пассажи

Цитата:
Сообщение от ХренРедькиНеСлаще
Для кворума Яндекс позволяет вес глобальный задавать прямо в запросе (через двойное двоеточие)
То же и для мягкости, это сейчас по умолчанию она часто равна 6.
Но по нынешнему хелпу самого Яндекса // есть стандартный оператор и его можно менять (я для простоты взял в примере 50, так как время мое это деньги и его надо беречь)

Логарифма в кворуме нет, там только степень, вроде была раньше 0.38, но ведь Яндекс и ее запросто может поменять в любой момент.

Посмотрите у Миныча, там хоть и словами, но тогда когда я сам проверял, все сходилось (для двух слов).

типа при нахождении этой грани (находится не находится) должно выполняться соотношение:

вес1^0.38/(вес1^0.38 + вес2^0.38) = мягкость/100
______________
Понял в чем суть игры с весом слова :-) Подбирал-подбирал, получилось, что степень =0,56 , а не 0,38. Точность (проверял на небольшой выборке) +/- 500 единиц веса... Будем дальше работать...
Analitik2000 вне форума   Ответить с цитированием
Старый 11.09.2006, 17:11   #9
ХренРедькиНеСлаще
Lovelace
 
Аватар для ХренРедькиНеСлаще
 
Регистрация: 27.07.2006
Адрес: Шалаш
Сообщений: 957
Репутация: 7975

По умолчанию Re: Релевантные пассажи

Проверьте также соотношение в другом виде, иногда из-за этого путаница:
вес1^0.38/(вес1^0.38 + вес2^0.38) = мягкость/100
или
вес2^0.38/(вес1^0.38 + вес2^0.38) = мягкость/100

Тут ведь 1-0.56 примерно равно 0.38

Возьмите вес побольше (можно брать до 2 000 000 000)
ХренРедькиНеСлаще вне форума   Ответить с цитированием
Старый 11.09.2006, 23:30   #10
alut
Петрович
 
Регистрация: 25.10.2005
Адрес: Петергоф
Сообщений: 3,169
Репутация: 82173

По умолчанию Re: Релевантные пассажи

Analitik2000,
Цитата:
научиться определять релевантность текста относительно какого-либо запроса.
т.е. научиться, вместо Яндекса, самому, определять позицию сайта в серпе?
Простите, но Миныч выяснял только некоторые факторы, которые могут повлиять на позициии в серпе. Полностью смоделировать черный ящик (Яндекс) невозможно по определению.
alut вне форума   Ответить с цитированием
Ответ




Опции темы

Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.

Быстрый переход



Текущее время: 02:41. Часовой пояс GMT +3.

Регистрация Справка Календарь Поддержка Все разделы прочитаны