Комментарии - wolf - Профиль вебмастера - Форум об интернет-маркетинге

16 октября 2007, 17:41

Doc Spoc:
проблема есть и имя ей - ЯНДЕКС

Проблема немного другая. И имя ей - алчность. Но не Яндекса.

Про разделители («.» «?» «!» «,») в анкоре ссылки.

16 октября 2007, 17:06

Кот:
Что бы этого не произошло, в ТНК необходимо предусмотреть отдельный "поднабор" коэффициентов для повторяющихся терминов.

На мой взгляд, достаточно просто не вычислять расстояния между самими повторяющимися терминами. Всё остальное - дело техники без всякого поднабора.

оО K. Ermakov, Поздравляем! =)

16 октября 2007, 14:25

Поздравляю!

Про разделители («.» «?» «!» «,») в анкоре ссылки.

16 октября 2007, 14:11

Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно

А разве Сгалович не говорит именно о взвешивании каждой словопозиции отдельно чуть выше процитированного фрагмента?

Затем по ним происходит итерирование и вычисление веса каждой словопозиции с учетом расстояния до всех остальных слов из запроса, попавших в пассаж. Учет состоит в вычислении сходства этого расстояния с заданным в запросе оптимальным расстоянием

Расчет веса словопозиции позволяет максимально точно учесть сходство пассажа и запроса. При этом выигрыш получит документ, у которого более «тяжелые», смыслоразличительные слова окажутся в А контексте, более похожем на контекст в запросе.

Кот:
Если взвешивать каждую (в том числе, повторяющуюся) позицию отдельно, то пассаж, обладающий меньшим контекстуальным сходством может получить больший вес.

А я понял Сегаловича с точностью до наоборот :)

Кредиты для участников searchengines.ru

16 октября 2007, 13:57

Tj93:
или просто внесли определенные правила и поправки?

Смысл в том, что личные вопросы (а тем более финансовые) следует решать в личке.

Про разделители («.» «?» «!» «,») в анкоре ссылки.

16 октября 2007, 01:54

Кот:
Первое, имхо, логичнее т.к. получится учесть веса повторяющихся терминов при вычислении веса пассажа. Но возникнут сложности с "табулированным набором коэффициентов" - он же не резиновый, на все варианты "повторяемости терминов" коэффициентов, имхо, не напасешься В случае использования пересекающихся пассажей такая проблема не стоит.

По этапу прохождения кворума - тут вообще все довольно интересно. Мне кажется логичным, что каждый термин должен учитываться один раз, независимо от того, сколько раз он встречается в запросе или пассаже. Например, имеем запрос [a a b], где а - тяжелый термин. Должен ли пройти кворум пассаж [a b]? Если термин а в запросе учитывать дважды, то ведь может и не пройти.

А вот на этапе ранжирования должно учитываться всё, т.к. расстояния различные. И "табулированный набор коэффициентов" должен быть пусть не резиновый, но весьма обширный. Впрочем, не вижу тут никакой технической сложности. Вармантов, конечно много, но прописать их надо в наборе всего единожды и навсегда. Да и пользоваться терминологией "один, два и много" тоже не запрещено :)

Про разделители («.» «?» «!» «,») в анкоре ссылки.

15 октября 2007, 18:11

И все-таки идея пересекающихся пассажей мне кажется неверной. Вижу два пути - "лишнее" вхождение какого-либо термина в пассаже игнорируется:

1) только на этапе прохождения кворума

2) как на этапе прохождения кворума, так и на этапе ранжирования

Всё-таки IDF на этапе прохождения кворума и этапе ранжирования расчитываются по-разному (степенная функция в первом случае и логарифм во-втором) Что мешает внести и другие различия?

Про разделители («.» «?» «!» «,») в анкоре ссылки.

15 октября 2007, 17:58

Кот:
Стоп! А откуда взялось произведение? Я с этим, как бы, не совсем согласен

Я как бы тоже. Почему не сумма? Читаем у Сегаловича:

Наконец, веса словопозиций, взвешенные по сходству их полного контекста, «собираются» обратно и образуют вес документа.

Под "собираются" мне явно видится сумма.

Про разделители («.» «?» «!» «,») в анкоре ссылки.

15 октября 2007, 14:21

Кот:
По ходу, именно про это Вольф и говорил, имхо

Именно про ее я и говорил.

euhenio:
ну и ошибка может быть, в конце-концов - по сравнению с ошибкой в формуле расчета веса кворума это мелочь

Ну, там просто скобочку просто не туда поставили. А тут целый новый элемент :)

И всё таки не нравится мне гипотеза с перекрывающимися пассажами. Сам не знаю почему...

Про разделители («.» «?» «!» «,») в анкоре ссылки.

15 октября 2007, 11:09

Кот:
Важный вопрос: формируются пассажи по простым принципам (типа описанного Вами) или они (пассажи) могут пересекаться.

Есть какие-либо предпосылки для гипотезы о пересечении пассажей? Ведь в этом случае конкретный термин может быть учтен несколько раз.

Что делать, если ваша email-рассылка попала в спам

Курс биткоина превысил $50 тысяч

wolf