Релевантность контента страниц запросу для Яндекса Эксперимент по Минычу

Р
На сайте с 23.05.2006
Offline
258
#21

ХренРедькиНеСлаще, никто не отрицает важность Вашего экперимента, не заводитесь 🚬

А чтбы ответить на Ваши вопросы в пятом абзаце таких экспериментов нужно провести несколько.

Ещё раз, спасибо, что поделились результатами, а выводы каждый для себя сделает.

d12:
Вроде уже убрали, но долго висел. Я все думал хорошо это или плохо. Вроде как популярность и уважение от самой популярной русскоязычной поисковой системы :)

Не знаю..я лично не хочу такой популярности :)

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#22

Опыт номер 3

Два одностраничных сайта из опыта 1.

Тошнота у них одинаковая.

Теперь исследуем релевантность тем же запросом:

(слово1::вес1 | слово2::вес2)

только слово1, это слово, которое встречается ДВА раза на странице. а слово2 встречается ОДИН раз.

Что изменяется?

Величина ступеньки для страницы со словом слово1 уменьшилась в 5 раз.

Тоже и для ступеньки на странице со словом слово2.

Релевантность ~ (число найденных слов)*sqrt(ln(вес найденного слова))/тошнота

Т.е. две найденных словоформы одного слова с маленьким весом эквивалентны одному найденному слову с большим весом, если

sqrt(ln(большой вес)=2*sqrt(ln(маленький вес)

Почему величина ступеньки уменьшилась в ПЯТЬ раз, (вырезано внутренней цензурой) или можно считать это как данное свыше Яндексом.

Скрин с результатами:

jpg clip7.jpg
jpg clip8.jpg
Дайте мне рюмку опоры и мир засветится всеми цветами радуги.
CG
На сайте с 07.09.2005
Offline
13
#23

ХренРедькиНеСлаще, вы слишком доверяете расширеному оператору "вес", выставленому всем на обозрение. Какая связь между ним и реальным весом, по которому ранжируются сайты при простых запросах? Неизвестно откуда он вообще взялся, а Вы вИЦ считаете и замахиваетесь на ссылочное. Это как с тИЦем, вроде и видно его, а смысла нету. Не знали бы все физический смысл тИЦа, тоже гадали бы, эксперименты ставили .. :)

ИМХО единственный серьезный подход к реверсинжинирингу алгоритмов Ya, это запись в базу изменений позиций и влияющих факторов с последующим анализом. Если бы к сервису Ашманова http://www.seorate.ru/rate прицепить ссылки, получилась бы уже весьма мощная штука. Ну а вебальта вне конкуренции :) Если не станут лидером поиска, станут ведущим оптимизатором :) .. сори, отвлекся ..

Я с интересом читаю про Ваши эксперименты, но ощущение как от книг по занимательной математике. Во всяком случае пока :)

Каширин
На сайте с 03.01.2004
Offline
995
#24
cls-group:
Я с интересом читаю про Ваши эксперименты, но ощущение как от книг по занимательной математике.

Ну это если не знать как приложить ;)

У Эдисона во дворе была калитка, которая очень туго окрывалась. Гости попеняли ему - всемирно известный изобретатель, а калитку наладить не может. Эдисон отвечал, что калитка прекрасно налажена, когда гость открывает ее - он закачивает в бак 5 литров воды ;)

Умеешь программировать, знаешь English? Пиши в личку - есть работа
A0
На сайте с 29.10.2006
Offline
114
#25
ХренРедькиНеСлаще:
Подается запрос Яндексу:
( слово1::вес1 | слово2::вес2)

А можно уточнить: "::" это тоже самое что ":" в синтаксисе запросов?

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#26
cls-group:
ХренРедькиНеСлаще, вы слишком доверяете расширеному оператору "вес", выставленому всем на обозрение. Какая связь между ним и реальным весом, по которому ранжируются сайты при простых запросах?

Прежде чем ему доверять, Миныч и я сотни экспериментов сделали, если не тысячи, чтобы убедиться в адекватности метода. Связь между весом, который мы задаем и весом Яндекса (в подсветке) ДЛЯ ДАННОГО ТИПА ОПЫТОВ: НИКАКОЙ СВЯЗИ НЕТ, если не считать, что когда мы вес задаем Яндекс наш вес в формулу релевантности закладывает, когда Яндекс вес задает (те мы его не задаем через двойное двоеточие) тогда Яндекс свой вес в формуле закладывает.

Анализируя как меняются позиции при изменении веса мы фактически можем догадаться (и догадались уже :) ) по какой формуле релевантность для контента подсчитывается и с какими коэффициентами эта формула работает.

Откуда же берется вес Яндекса мы из наших экспериментов определили, что это та величина, которую Маслов и Сегалович называют ICF: смотрите подробнее здесь Алгоритм текстового ранжирования Яндекса на РОМИП -2006
© Андрей Гулин , Михаил Маслов , Илья Сегалович Яндекс
gulin, maslov, iseg}@yandex-team.ru

Эксперименты показывают, что алгоритм Яндекса не есть классическая схема "BM25 weighting scheme", хотя в работе, данной выше Сегалович и др. называют ее лучшей из опробованных. В нее введена нелинейность другого рода (корень квадратный). Хотя с другой стороны:

BM25 originally introduced another constant, as a power to which f and K are raised. However, Stephen remarks that powers other than 1 were 'not helpful', and other tests confirm this, so Xapian's implementation of BM25 ignores this.

По какой схеме ссылочная составляющая работает, я пока умолчу.

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#27
cls-group:
а Вы вИЦ считаете и замахиваетесь на ссылочное. Это как с тИЦем, вроде и видно его, а смысла нету. Не знали бы все физический смысл тИЦа, тоже гадали бы, эксперименты ставили

Да, ВИЦ измеряем, а не считаем. Вы неправильно выразились. И что в этом плохого, что мы это умеем делать? И что умеем измерять эффективность ссылок и с морд и с внутренних?

И совсем не замахнулись, Вы опять неправильно выразились. Замах был год-полтора назад, и от стадии "замаха" мы давно уже перешли к более ощутимым вещам.

Если я Вам сейчас изложил результаты опытов фактически полуторагодичной давности (сейчас на всякий случай просто идет очередная проверка), неужели Вы думаете, что мы на месте полтора года стояли?

Не время еще публично выдавать результаты более ценных экспериментов. Попридержим для собственного потребления.

ХренРедькиНеСлаще
На сайте с 27.07.2006
Offline
57
#28
Aleksey01:
Сообщение от ХренРедькиНеСлаще
Подается запрос Яндексу:
( слово1::вес1 | слово2::вес2)

А можно уточнить: "::" это тоже самое что ":" в синтаксисе запросов?

Нет, это не тоже самое. Точнее это совсем иное перевзвешивание и его можно тоже с пользой использовать в некоторых экспериментах, более того, одинарное двоеточие можно применить не только к отдельному слову, но и к выражению (подзапросу).

DrJeans
На сайте с 06.07.2006
Offline
200
#29
Каширин:
У Эдисона во дворе была калитка, которая очень туго окрывалась. Гости попеняли ему - всемирно известный изобретатель, а калитку наладить не может. Эдисон отвечал, что калитка прекрасно налажена, когда гость открывает ее - он закачивает в бак 5 литров воды ;)

Всё бы ничего, пока один его знакомый не вцепился в ручку этой калитки с криком: "За-а-ааато-о-оооплю!"

Действительно, топикстартер уже на столько увлёкся своими изысканиями, что напрочь забыл про то, для кого создаются сайты. Константин, лично Вы пишите свои заметки с учётом ВСЕХ расчётных показателей, известных Вам? Или же в Ваших трудах остаётся доля художественности текста и индивидуальности пера? Ведь не каждый Ваш новый абзац проходит полный мат. анализ? Т.е. не все "Ваши калитки" имеют скрытый механизм на столько, что будь Вы Лев Толстой, то свою "Войну и Мир" писали бы исключительно по нужному алгоритму...

Или я не прав?

Тренды Instagram 2020 (https://youtu.be/WsYeDFW-J9U) - ВИДЕО. Раскрутка Instagram 2020 (https://youtu.be/WIWpA06NqEY) - ВИДЕО. Подписчики instagram без накруток (https://youtu.be/SQEQ4-T1zAU) - ВИДЕО.
Junior
На сайте с 19.04.2005
Offline
58
#30
DrJeans:
Или я не прав?

Мне кажется, что тут надо смотреть шире. Ведь зная особенности, можно автоматизировать процесс определения собственной релевантности. Т.е. после написания текста алгоритм опять же своего типа "поисковика" может подсказать, что и где лучше дополнить. Математика же автоматизируется! Иначе, это не математика. ;) Лично я себе именно так вижу практическое применение. А про "художественный стиль" и т.д. - это задача грамотного копирайтера подкорректировать текст, что бы "и овцы сыты и волки целы" (читать внимательно - ошибки нет) ;)

Труженик КП, ТЗ и ИА

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий