Возможно, что так оно и есть, время покажет...
ICF и для анкор-файла и для текста документа применяется. Интуитивная понятность не покатит, если пытаться на больших выборках закономерности искать. Старая база IDF конечно же есть практически у всех, но Яндекс перешел на ICF, а это немного не то. Метрики на IDF дают результаты существенно хуже, чем они же на ICF.
Почему сео не работает? Коммерческие топы все же сео-заполнены, хотя, возможно, и не так, как хотелось бы. :)
Пока не понятно, что будет в топах после каждого апдейта, будет ли вообще четкая стабильность, или не совсем. Как я писал где-то выше в ветке, какие-то факторы Яндексу не удается пока размазать до степени неузнаваемости, был пример с вхождением в урлы англоязычного запроса. Что будет с отлавливанием более значимых закономерностей, типа влияния различных текстовых или ссылочных факторов - пока не понятно, пусть сначала устаканится немного, потом можно начинать планомерные исследования. Кстати, какие-то простые методики для исследования я на ашмановской конфе покажу в след. пятницу, в Арзамасе они прилично работали, с хорошим выхлопом.
Нет, все не совсем так. Одно дерево глубиной к - это одна из hi в формуле ранжирования. Этих hi несколько тысяч.
Мозоль там, где положено. Растет, сволочь... :D
Коллеги, не все так просто. Дело в том, что для реинжиниринга формулы с приличным качеством нужно подобрать достаточно похожий набор признаков для пары (запрос,документ), а большое число этих признаков завязано сегодня на такую характеристику, как ICF (определение, если кто не в курсе, есть в докладе Яндекса на РОМИП-2006). Для сбора базы ICF нужна коллекция документов, аналогичная коллекции Яндекса по качеству. У кого она есть? Ни у кого этого нет (кроме меня :D), более того - никто из спецов в крупных конторах сегодня не способен сформулировать требований для получения правильной коллекции, как мне кажется. ;)
G00DMAN добавил 19.11.2009 в 02:12
не спешите завидовать. Судя по текущему методу формирования функции ранжирования, большая база для ресерча просто быстрее обломает все здравые идеи, только и всего. ;)
BM25 для российских разработчиков поиска - что-то вроде священной коровы... На РОМИП-2009 чуть ли не в каждом докладе упоминалась. Вместо того, чтобы разработать свою отечественную чюда-формулу, все почему-то продолжают дрочить вприсядку на буржуйскую. Наступая на мой патриотический мозоль. :D
Сергей, я в этой ветке давал ссылку на источник, в посте #1209. ;)
Да, сначала ищем hi (в пдфке стр. 20 внизу), а потом ai (стр. 21).
Сегалович написал, что больше 100, да это и понятно. Не забывайте еще про два с лишним десятка разных региональных выдач, для каждого региона может быть больше одного параметра. ;)
Какие-то примеры "признаков" можно посмотреть в докладе Яндекса на РОМИП-2006.
Примеров именно такого рода в ветках про Снежинск куча, а в выдаче еще больше. При англоязычных запросах очень весомо стало влиять вхождение в имя домена и даже просто в урл. Это не гуд, я в буковую форму обратной связи писал комменты по этому поводу.
Но эта "фича" Снежинска забавна по другой причине. Казалось бы, теперь функция ранжирования строится так, что отдельные слагаемые не просчитываются ввиду своей алогичности. Это полный ппц для оптимизаторов. Но в данном случае ситуация несколько иная - не важно в какие слагаемые и как входит признак "наличие английского ключа в урле", важно, что в итоговой формуле релевантности уши этого признака видны издалека и просчитываются любым школьником. Т.е. сделать все признаки случайно-размазанными по выдаче пока не вышло, и я подозреваю, что при более глубоком копании все встанет на свои места... :)
Где-то наверное можно...
UZPN, объяснялка все же не строгая научная статья, писалась специально для гуманитариев, чтобы поняли все, а не только технари. Пример с 3:14*log7(f9(q; d)) + ef66(q;d) был взят потому, что он есть в пдфке и как своего рода страшилка. :D
В формуле F = a1*f1 + a2*f2 + … + an*fn fk=hk, hk – кусочно-постоянная функция(о чем выше уже писал Сергей Людкевич), ее вид еще более не логичный, но он сложен для осмысления не специалистами. Так что не стоит про hk в объяснялке расписывать. Аргументы для hk тоже не простые, что следует из реплики Сегаловича.
G00DMAN добавил 17.11.2009 в 17:14
Цель данного алгоритма - выдать наиболее релевантный ответ с точки зрения обучающего множества, а величина отдельных параметров может сыграть, а может и нет. :)