ХренРедькиНеСлаще

ХренРедькиНеСлаще
Рейтинг
57
Регистрация
27.07.2006
Должность
Безработный, если кто даст подработать подкинет, милости прошу к своему шалашу... Девушкам особое почтение! :)
Интересы
Вино и бабы :) Короче, Любовь!
Любитель редьки и огурца
wolf:
А не проще ли элементарно человека подготовить, если уж взялись за народное просвещение? Тем более, это не так сложно.

Не так сложно? Здесь зависимость от более чем двадцати параметров, о которых некоторые вообще понятия не имеют. И с моей точки зрения, пусть и не знают, иначе голова поедет. Главное постепенность и основные вещи.

wolf:
Во-первых, для начала было бы неплохо определить все переменные. У Вас пока вообще не ясно, что есть переменная, а что есть константа.

В одном эксперименте мы получаем таблицу результатов (двумерную), у меня вообще переменных нет. Это я меняю веса, когда ИЩУ ГРАНЬ МИныча, а когда она найдена это не переменная, а число. В файле Ексель набор статичных данных. Каждая строка означает СИТУАЦИЮ, которая фиксируется соответствующим запросо с УКАЗАННЫМИ в этой строке весами и шаблоном запроса (смотрите красным цветом над данными 4 короткие строчки). Правильность данных может быть проверена почти моментально любым, кто удосужится немного подумать как надо подать запрос Яндексу в соответствие с данными СТРОКИ Ексель..

wolf:
Во-вторых, если уж взялись вводить свои функции, то не мешало бы их также определить в самом начале. Например, "тошнота ссылочная страницы" - ни словечка о том, что сие значит, от каких переменных и каким образом зависит.

Весело бы было, если бы я дал определение функции релевантности :)

Любое понятие школьникам вводят на примерах, а что такое определение, они начинают понимать только через несколько лет. Я не Эвклид и не Лобачевский строить на форуме аксиоматическую теорию.

Примеры ссылочной тошноты я на форуме давал. Это ЧИСЛО вхождений в страницу самого частого слова (в иной терминологии удобно вводить корень квадратный из этого числа). Для ссылочной надо потерпеть :) Не все сразу. В файлике ниже есть немного об этом (отношение ссылочных тошнот равно в нашем случае отношению высот ступенек Миныча).

wolf:
В-третьих, говоря о пропорциональности (кстати, что есть в Вашем понимании пропроциональность - линейная зависимость без свободного члена или что-то другое?) чего-то одним переменных, Вы умалчиваете о зависимости этого чего-то от других переменных.

Пропорциональность как в аптеке (без свободного члена). Умалчиваю, конечно, если все выложить, форум не стерпит :)

wolf:
Такое впечатление, что Вы просто транслируете чьи-то слова, сами толком не понимая всей картины.

Это без трансляции. Фактически аналогичные опыты Миныч делал раньше, а я их проверял без его помощи (это специально было, как альтернативная проверка). Сейчас идет повторная проверка. Ввиду якобы нового алгоритма.

Сложность в том, что я не могу выкладывать наши секретные тестовые странички, специально подобранные для анализа Яндекса по понятным причинам. А взятые из жизни - довольно сложно анализировать.

wolf:
Кстати, Вы, часом, не химик по образованию? Обычно у них встречается столь оригинальный подход к математике.

Нет не химик, я чистый гуманитарий (мехмат).

zip 2859.zip
pro-maker:
Сообщение от ХренРедькиНеСлаще
Вклад контента пропорционален (для одного ключевика, например mail): число ключевикА в контенте * корень из логарифма веса ключевика/тошнота контента страницы

Здесь, наверное, вИЦа еще не хватает?

Верно. Мы еще до него доберемся как коэффициента пропорциональности :)

Продолжаю выкладывать результаты экспериментов по ссылочному ранжированию.

Так как если все выложить, то можно охренеть неподготовленному человеку, выкладываю маленькую часть.

Пояснения к файлику Ексель смотрите в посте номер один.

Данный эксперимент устанавливает:

1. Функция релевантности при одновременном нахождении ключевиков в ссылке и контенте есть СУММА вкладов.

2. Вклад ссылочного пропорционален (для одного ключевика, например meths):

число ключевикА в ссылке * логарифм веса ключевика/тошнота ссылочная страницы

3 Вклад контента пропорционален (для одного ключевика, например mail):

число ключевикА в контенте * корень из логарифма веса ключевика/тошнота контента страницы

P.S. Все это при МАЛОМ числе найденных ключевиков. При большом числе найденных ключевиков тошнотЫ начинаЮт (могут) зависеть от этого числа.

P.S. Не следует забывать об округлениях (ступеньки Миныча, см. в экселе, видны отчетливо). Опущено, чтобы мысли не затуманивать. Ступеньки по контенту идут по корню из логарифма, по ссылочному - по логарифму без корня.

P.S. Продолжение следует!

🚬

zip 2856.zip
Wade:
Сообщение от BigBrother
Часа через два закончится.... Только это не апдейт, это его последствия.

Точно! Индексация индексов!

:)

Vetra:
Переколдовка по #like="www.ya.ru"
(лебедев::95545 && яндекс::42465 && 00000001997::14656 && 00000002006::21959 && яndex::169544 && студия::9752 && почта::5411 && артемий::322951 && лебедева::70589)//40
Вопрос к ХРНС, как к самому знатному колдуну: почему "лебедев" упоминается 2 раза?

Перехвалите, Vetra, мышек ловить перествну :)

Два раза лебедев мог быть по двум причинам:

-в тестах ссылках сильно отметился

-слово "Лебедева" Яндекс сейчас переколдовывает спецобразом для контента (не ссылок).

В ссылках на я.ру точного слова лебедев нет, да и ссылок со словом лебедева(у) всего 4,поэтому остается второй вариант: спецпереколдовка с процентом. Но точную переколдовку Яндекс сейчас не показывает. Вот только таким макаром и видим.

Если взять переколдованный запрос для оператора like то выдача похоже совпадает с выдачей по лайку, я проверил по like="www.yandex.ru":

http://www.yandex.ru/yandsearch?text=%28%FF%ED%E4%E5%EA%F1%3A%3A42465+%26%26+%EC%E0%F0%EA%E5%F2%3A%3A107268+%26%26+%E0%F4%E8%F8%E0%3A%3A17910+%26%26+%E7%E0%F0%E5%E3%E8%F1%F2%F0%E8%F0%EE%E2%E0%F2%FC%F1%FF%3A%3A6129+%26%26+wifi%3A%3A97227+%26%26+%EB%E5%E1%E5%E4%E5%E2%3A%3A95545+%26%26+00000000163%3A%3A38106+%26%26+00000000690%3A%3A111035+%26%26+advertise%3A%3A38641+%26%26+pda%3A%3A51611+%26%26+%E1%EB%EE%E3%3A%3A70075+%26%26+%EA%EE%F2%E8%F0%EE%E2%EA%E0%3A%3A68041%29%2F%2F40&stype=www

Надо обратить внимание, что мягкость там 40, а не 6. Т.е. кворум может быть очень низким. И если еще учесть множитель кворумный с корень_квадратный(число слов запроса-1), то лень считать, но это примерно 2-3 слова из 12 должно быть на похожих страницах (чтобы пройти отбор по похожести).

Adolf Mauder:
тИЦ-тематический индекс цитирования, расчитывается с учетом тематики сайта.
Если бэки прибавляются, а тИЦ стоит на месте - вывод один:не те бэки.
Это истина.

Бывают и другие истины. График отпусков Яндекса, Платон-Бэк отпуск отгулял, Платон-ТИЦ догуливает :)

Бальшой привет продолжается.

Вот сейчас по тем же почти запросам (см начало темы) ступеньки Миныча на этих числах:

запрос1

запрос2

т.е переходы в выдаче при изменении НА ЕДИНИЦУ веса запроса типа url="ghfhg.hv/bjjhh"

происходят при

ln(485165195)=20,0000000001859

ln(1318815734)=21,0000000000127

Или это эффект пессимизации? Так сказать огрубление дельты(дискреты) ВИЦА :)

itman:
Да нет, скорее всего, Яндекс на ходу классифицирует страничку, приписывая ее к нескольким категориям, а потом смотри, а есть ли среди этих категория пересечения. Если есть, то линки между страничками учитываются.

Возможно очень, что и так. Просто мне кажется более общим подход непосредственного сравнения на похожесть.

Плюсы:

-Рубрикатор вещь обычно несовершенная, вечно доделываемая. А при "похожих" вариантах эта штука вообще может работать без рубрикатора.

-Со временем такая штука может дорасти до авторубрикатора, помогая Яндексу совершенствовать рубрикатор.

-Введение рубрикатора это введение испорченного телефона, удвоение цепи ошибок:

стр1-->>рубрикатор, стр2-->> рубрикатор - это ДВЕ операции, на которых возможны ошибки

стр1-->>стр2 , это ОДНА операция, на которой возможна ошибка.

Хотя реально не мы управляем Яндексом и он поступает так, как нам и не снится :)

itman:
Как только мы получили вектор, у нас открывается море возможностей для оценки близости документов по теме (а фактически по лексике), а также для их классификации: от байеса до SVM. А Байес можно сделать очень быстро. Кстати, господа, обратите внимание на профессию товарища, когда пойдете по ссылке :-)

Сразу видно, ссылка прямо по тематике нашего раздела нашего форума :)

Спасибо, itman :)

pro-maker:
Хрнс, у itman-а о нечетком поиске. Похожесть, конечно, можно по-разному понимать, но тематическая близость, наверное, ближе к оценке пересечения с лексикой уровня рубрикатора
itman:
О тематической близости у Itman нет. Тематическая близость - это, все-таки, классификация

Возможно я неправильно выразился. Но мне лично при словах похожих "яндекс стал учитывать тематические ссылки" вначале на ум не классификатор приходит, а ПОХОЖЕСТЬ страниц донора и больного.

Кстати не вижу больших проблем введения классификатора, как расставляющего границы между похожими страницами, а вот для адекватного поиска похожих страниц проблем хоть отбавляй (это на мой взгляд).

Берем заданный документ, ищем похожие документы в Яндекс каталоге, упорядочиваем по "похожести", группируем по сайтам, и выдаем тематику первого в выдаче. Это если по топорному. Не по топорному тоже можно, если подумать

Например, по максимуму скалярного произведения на "тематические орты". Методов довольно много.

Всего: 982