Комментарии - wolf - Профиль вебмастера - Форум об интернет-маркетинге

Про разделители («.» «?» «!» «,») в анкоре ссылки.

17 октября 2007, 19:31

oiL-k:
Хорошая тема после последних месяцев пустословия на форуме

Всякому овощу - свой срок :)

oiL-k:
Дайте определение, что есть пассаж и пляжите от этого.

Дык, я про то же. Как-то у Федоровского с Костиным прочел:

Под пассажем мы понимаем фрагмент документа, размера, не превышающего заданный, в котором встречаются все термы запроса, либо значительная часть термов запроса, суммарный IDF которых превышает заданное ограничение

http://www.dialog-21.ru/dialog2006/materials/html/Fedorovsky.htm

Вот и думаю - пассаж разработчики поисковиков всяк по-своему интерпертируют или же есть таки какой-то "корпоративный стандарт"?

переколдовку не вижу - неужто отменили?

17 октября 2007, 19:07

TimeBomb:
Не видел пока желающих попасть в топ по "готовые фирмы", ставящих слова "готовые" и "фирмы" в разных концах документа.

Да разве ж в документе - главное? ;)

TimeBomb:
Взята она изначально была "от балды", видимо (номер телефона чьей-то бабушки?!)
Вот только с чего ее в свое время уменьшили в ~2.25 раза?

А фиг его знает. Вчера был, к примеру просто натуральный логарифм (кстати, ln(181910916) - всего-то чуть больше 21), а сегодня - логарифм не просто, и, может, совсем не натуральный. А, может, и не логарифм уже вовсе... А табулированные коэффициенты пересчитывать не с руки. Поэтому надо исходные данные в заданную нормировку загонять... ;)

Про разделители («.» «?» «!» «,») в анкоре ссылки.

17 октября 2007, 14:00

Кот:
По остальному возражений нет?

- Капитан, почему батарея не ведет огонь?

- На это есть восемнадцать причин. Во-первых, нет снарядов... 😂

Про разделители («.» «?» «!» «,») в анкоре ссылки.

17 октября 2007, 13:59

Кот:
С другой стороны, для согласования алгоритма пересекающихся пассажей с "идеей алгоритма tf*idf" достаточно разделить вес "общих" терминов между пассажами (это выше уже обсуждали). ИМХО, это не сложно сделать корректно.

Очередная надстройка, от которых Вы намеревались уйти. Шило на мыло.

переколдовку не вижу - неужто отменили?

17 октября 2007, 13:58

euhenio:
а где было 1 819 103 916? Я видел 800378936 вроде.

Было-было....

переколдовку не вижу - неужто отменили?

17 октября 2007, 13:56

TimeBomb:
Меня тут вот что заинтересовало: что все-таки у них 1 819 103 916, а потом
800378936 означало? И почему поменялось? Оно ясно, что и то, и другое - это очень много, но все таки? а?

Да просто у них так обратная частота отнормирована была

Про разделители («.» «?» «!» «,») в анкоре ссылки.

17 октября 2007, 10:10

Кот:
Соответственно, вопрос. Зачем так уродовать надстройками (кстати, тоже не идеальными) один алгоритм, когда другой (в чистом виде, без надстроек) позволяет достичь тех же результатов?

Это про пересекающиеся пассажи? Да хотя бы потому что учет одного термина несколько раз противоречит идее алгоритма tf*idf

Обсудим фильтр Яндекса "ты последний"

17 октября 2007, 05:33

jump:
охоже это слово отключили поскольку слово было только в ссылках!

А, может, ссылки отключили? ;)

переколдовку не вижу - неужто отменили?

17 октября 2007, 05:26

Ну, убрали и убрали. Давно пора :)

euhenio:
ты имеешь в виду выкачивание весов отдельных слов? Очень удачно, что мы как раз недавно веса 100 тыс самых частотных слов распарсили

Вот, поди, вашего робота и забдили. Все могут говорить спасибо Жене :)

Про разделители («.» «?» «!» «,») в анкоре ссылки.

17 октября 2007, 04:59

Кот:
В частности, имея запрос [aa bb cc dd] и следуя Вашим простым алгоритмам без поднабора, из двух пассажей
[AA bb cc dd] и [AA bb _ _ _ _ _ _ AA _ cc _ _ _ _ _ _ _ AA _ _ dd] более релевантным запросу будет признан второй. Что не очень согласуется с цитатой Сегаловича из моего предыдущего поста.

Во-первых, цитата Сегаловича относится к конкретному примеру. Во-вторых, с чего Вы взяли, что в Вашем примере более релевантным будет признан второй пассаж? Из-за наличия нескольких более тяжелых слов? Но, кто поручится, что значительный проигрыш в расстояниях между терминами bb cc и dd не сведет это преимущество на нет? Да и учет количества одинаковых терминов в пассаже запросто может быть ограничен каким-нибудь антиспамовым модулем.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

VK приобрела 70% в структуре компании-разработчика red_mad_robot

wolf