ХренРедькиНеСлаще

ХренРедькиНеСлаще
Рейтинг
57
Регистрация
27.07.2006
Должность
Безработный, если кто даст подработать подкинет, милости прошу к своему шалашу... Девушкам особое почтение! :)
Интересы
Вино и бабы :) Короче, Любовь!
Любитель редьки и огурца

Версия о непоказе правильной переколдовки получила дальнейшее подтверждение.

Заменил тестовый запрос:

(берлин::весберлина | хрен::весхрена) на

(берлину::весберлина | хрен::весхрена) а потом на

(берлине::весберлина | хрен::весхрена)

и оказалоссь, что Яндекс учитывает падежи в запросе и на странице и дает примерно вдвое больше влияния для запросов "берлин" или "берлину", если на странице есть точная форма слова "берлин". При этом для запроса "берлин" влияния дается немного больше, чем для запроса "берлину".

Для запроса "берлине" наличие точной формы слова "берлин" на странице не дает никакого преимущества.

Все это наводит на мысль, что Яндекс сейчас проводит очередную компанию по перетряхиванию тех запросов, которые по мнению Яндекса должны учитывать падежи и заглавные/строчные первые буквы слов (аналогично прежним компаниям, если вспомнить много таких уже было "качелей": часы, домофоны, ногинск, официальный сайт и т.д.).

Сейчас проверю для запроса "великобритания", где вроде такая же пертрушка.

barca1:
Столкнулся с тем, что в обычном поиске выходит оптимизированная под запрос страница, а если для этого же запроса задать региональное уточнение - почему-то другая, там даже ни одного точного вхождения запроса нет!

Есть ли на страницах региональные различия? Какие города и деревни там упомянуты, коды телефонов, почтовые индексы, названия рек, названия ресторанов....

Например в Крыму был пансионат "Криворожский горняк", а сайт возможно о Крыме, а не Кривом Роге.

Или ресторан Пекин в Москве....

Aleksey01:
Сообщение от ХренРедькиНеСлаще
Подается запрос Яндексу:
( слово1::вес1 | слово2::вес2)

А можно уточнить: "::" это тоже самое что ":" в синтаксисе запросов?

Нет, это не тоже самое. Точнее это совсем иное перевзвешивание и его можно тоже с пользой использовать в некоторых экспериментах, более того, одинарное двоеточие можно применить не только к отдельному слову, но и к выражению (подзапросу).

cls-group:
а Вы вИЦ считаете и замахиваетесь на ссылочное. Это как с тИЦем, вроде и видно его, а смысла нету. Не знали бы все физический смысл тИЦа, тоже гадали бы, эксперименты ставили

Да, ВИЦ измеряем, а не считаем. Вы неправильно выразились. И что в этом плохого, что мы это умеем делать? И что умеем измерять эффективность ссылок и с морд и с внутренних?

И совсем не замахнулись, Вы опять неправильно выразились. Замах был год-полтора назад, и от стадии "замаха" мы давно уже перешли к более ощутимым вещам.

Если я Вам сейчас изложил результаты опытов фактически полуторагодичной давности (сейчас на всякий случай просто идет очередная проверка), неужели Вы думаете, что мы на месте полтора года стояли?

Не время еще публично выдавать результаты более ценных экспериментов. Попридержим для собственного потребления.

cls-group:
ХренРедькиНеСлаще, вы слишком доверяете расширеному оператору "вес", выставленому всем на обозрение. Какая связь между ним и реальным весом, по которому ранжируются сайты при простых запросах?

Прежде чем ему доверять, Миныч и я сотни экспериментов сделали, если не тысячи, чтобы убедиться в адекватности метода. Связь между весом, который мы задаем и весом Яндекса (в подсветке) ДЛЯ ДАННОГО ТИПА ОПЫТОВ: НИКАКОЙ СВЯЗИ НЕТ, если не считать, что когда мы вес задаем Яндекс наш вес в формулу релевантности закладывает, когда Яндекс вес задает (те мы его не задаем через двойное двоеточие) тогда Яндекс свой вес в формуле закладывает.

Анализируя как меняются позиции при изменении веса мы фактически можем догадаться (и догадались уже :) ) по какой формуле релевантность для контента подсчитывается и с какими коэффициентами эта формула работает.

Откуда же берется вес Яндекса мы из наших экспериментов определили, что это та величина, которую Маслов и Сегалович называют ICF: смотрите подробнее здесь Алгоритм текстового ранжирования Яндекса на РОМИП -2006
© Андрей Гулин , Михаил Маслов , Илья Сегалович Яндекс
gulin, maslov, iseg}@yandex-team.ru

Эксперименты показывают, что алгоритм Яндекса не есть классическая схема "BM25 weighting scheme", хотя в работе, данной выше Сегалович и др. называют ее лучшей из опробованных. В нее введена нелинейность другого рода (корень квадратный). Хотя с другой стороны:

BM25 originally introduced another constant, as a power to which f and K are raised. However, Stephen remarks that powers other than 1 were 'not helpful', and other tests confirm this, so Xapian's implementation of BM25 ignores this.

По какой схеме ссылочная составляющая работает, я пока умолчу.

Опыт номер 3

Два одностраничных сайта из опыта 1.

Тошнота у них одинаковая.

Теперь исследуем релевантность тем же запросом:

(слово1::вес1 | слово2::вес2)

только слово1, это слово, которое встречается ДВА раза на странице. а слово2 встречается ОДИН раз.

Что изменяется?

Величина ступеньки для страницы со словом слово1 уменьшилась в 5 раз.

Тоже и для ступеньки на странице со словом слово2.

Релевантность ~ (число найденных слов)*sqrt(ln(вес найденного слова))/тошнота

Т.е. две найденных словоформы одного слова с маленьким весом эквивалентны одному найденному слову с большим весом, если

sqrt(ln(большой вес)=2*sqrt(ln(маленький вес)

Почему величина ступеньки уменьшилась в ПЯТЬ раз, (вырезано внутренней цензурой) или можно считать это как данное свыше Яндексом.

Скрин с результатами:

jpg clip7.jpg
jpg clip8.jpg
IndexSa:
Хренсла, конкуренты перебьютсла Ваши низкочастотники 2$ ссылкой, ведь так.

Не хочется вообще офтопить и спорить просто ради спора.

Это расчет неправильный. Никто ради одного НЧ и 3 баксов в месяц напрягаться не будет.

Низкочастотники важны, когда товар разнообразный и/или дешевый, например книги или разнос пиццы по домам. Позиций товара книг может быть до 160 000 позиций. Сайты делаются до 300 000 страниц суммарно, настраиваются на конкретную книгу (автора, серию, жанр, название, предмет в вузе, возраст читателя, мужчин, женщин,...).

Замучаешься платными ссылками напрягаться и бухучет вести покупного ссылочного хозяйства.

Второй момент, именно эти исследования позволяют измерить просто и сердито ВИЦ любой страницы и фактически важность той же морды, в которой деньги лежат.

Сравнили тут сейчас с другом (15 минут назад) вклад двух ссылок с ПР5-ок, по 50 - 60 баксов за штуку, оказалось разница в ссылочном эффекте в ДЕСЯТЬ раз! Вот и верь посе этого людям. Кстати, а как можно было бы сравнить этот эффект без таких примерно опытов, которые я привожу в этом топике?

Самые хитрые, ну-ка ответьте ТОЧНО, а не на уровне "адна баба сказала", на простейший вопрос: как влияет контент страницы морды на важность ссылки с этой морды? Как влияют ТОЧНО внутренние ссылки и внешние ссылки другие? Влияет ли размер текста в ссылке на важность ссылки? Как влияет текст в других ссылках на важность ссылки? Что будет, если на морде ДВЕ ссылки на одну и ту же страницу, каков суммарный итог в граммах?...

🚬

Tarry:
Сообщение от ХренРедькиНеСлаще
Практический смысл в том, что там где нам надо, все низкочастотники наши

Они и так наши...

Так нахрена Вам вообще на форум ходить? Вы и так все занете и все у Вас одноцветное и однозначное :)

Чем то Вы пальцы растопыренные напоминаете. Надеюсь не обидетесь как я на личные выпады?

Tarry:
Во во... И что нам дают подобные исследования? Я не говорю, что они не нужны, или бесполезны, но просто это сродни поиску черной кошки сами знаете где. Толку ноль, с точки зрения оптимизатора. Так, около научные ковыряния во мгле тайны... Практический смысл равен нулю.

Практический смысл в том, что там где нам надо, все низкочастотники наши, конкуренты в заднице, простите за выражение. Или им приходится платные ссылки использовать , чтобы выше нас быть. Сравнил тут по тематике с ценой клика в директе порядка бакса. Мы тратим в 10 раз меньше денег, чем конкуренты нашего клиента рядом с нами (по инфе сотрудника ушедшего от нас на постоянную работу в фирму конкурента нашего клиента).

Второе, а кто Вам сказал, что в ссылочном нет аналога такого ранжирования?

Третье, то, что Яндекс поменял 7 на 13 мы узнаем первыми.... Делайте выводы.

:)

Разработчик:
Значит я правильно понял (всё-таки)
Но почему именно "семь"? Разве адекватна подобная привязка к количеству?

Семь это число введенное Яндексом с потолка. Иначе страницы, на которых было бы всех слов по одному слову получили бы значительный перевес. Мы проверили. До тех пор пока самое частотное слово не встречается больше 7 раз, тошнота не меняется, тошнота начинает меняться, начиная с частоты самого частотного слова, большего, чем 7. Еще раз подчеркну, что самое частотное слово (число этого слова на странице) и общее число слов на странице, это, как говорят в Одессе, две большие разницы!

Почему 7, спросите у Платона Щукина или Ильи Сегаловича (на конференции, я спросить не смогу, так как меня там не будет) :)

Да и потом.... Завтра они его установят равным 13... Своя рука владыка... Сегодня это было семь.

Всего: 982