G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
wolf:
И всё таки, полагаю, что для реинжиниринга вполне можно обойтись и без знания точных значений ICF. Не так страшен черт. Ведь совсем необязательно формулу восстанавливать полностью

Возможно, что так оно и есть, время покажет...

Intelis:
ICF это ведь та, что для анкор-файлов применяется, правильно? Вместо IDF для текстов?
В любом случае относительные значения, что IDF, что ICF интуитивно понятны во многих случаях, а супер точных данных не нужно.
По IDF-ам кстати база есть хорошая, правда старенькая.

ICF и для анкор-файла и для текста документа применяется. Интуитивная понятность не покатит, если пытаться на больших выборках закономерности искать. Старая база IDF конечно же есть практически у всех, но Яндекс перешел на ICF, а это немного не то. Метрики на IDF дают результаты существенно хуже, чем они же на ICF.

kozlodoy:
G00DMAN, По Вашим словам выходит, что SEO больше не работает? На факторы ранжирования больше не повлиять? Формула не может крутится по 10 раз в день. Это рандом в выдаче станет.

Почему сео не работает? Коммерческие топы все же сео-заполнены, хотя, возможно, и не так, как хотелось бы. :)

Пока не понятно, что будет в топах после каждого апдейта, будет ли вообще четкая стабильность, или не совсем. Как я писал где-то выше в ветке, какие-то факторы Яндексу не удается пока размазать до степени неузнаваемости, был пример с вхождением в урлы англоязычного запроса. Что будет с отлавливанием более значимых закономерностей, типа влияния различных текстовых или ссылочных факторов - пока не понятно, пусть сначала устаканится немного, потом можно начинать планомерные исследования. Кстати, какие-то простые методики для исследования я на ашмановской конфе покажу в след. пятницу, в Арзамасе они прилично работали, с хорошим выхлопом.

Northwolf:
Яндекс писал: "MatrixNet - сеть матриц, полные деревья принятия решений с глубиной k и количеством вершин 2^k"

Ребят, правильно ли я понимаю, что теперь алгоритмов у Яндекса стало 2^k?

Нет, все не совсем так. Одно дерево глубиной к - это одна из hi в формуле ранжирования. Этих hi несколько тысяч.

Aladdin:
Гудман, признавайся где мозоль 😂 и на что они там тебе наступают.

Мозоль там, где положено. Растет, сволочь... :D

kozlodoy:
Хотя для реализации этого нужны ресурсы и много проектов. А те у кого это есть и так давно делают нечто подобное.
Intelis:
Виктор, я бы даже сказал больше, кто более-менее давно на рынке и --> у него много проектов, может по хронологии применяемых методов к клиентам и поведению всех клиентов в новом алгоритме достаточно быстро понять ориентиры, в какую сторону смотреть в новой ситуации ;)

Коллеги, не все так просто. Дело в том, что для реинжиниринга формулы с приличным качеством нужно подобрать достаточно похожий набор признаков для пары (запрос,документ), а большое число этих признаков завязано сегодня на такую характеристику, как ICF (определение, если кто не в курсе, есть в докладе Яндекса на РОМИП-2006). Для сбора базы ICF нужна коллекция документов, аналогичная коллекции Яндекса по качеству. У кого она есть? Ни у кого этого нет (кроме меня :D), более того - никто из спецов в крупных конторах сегодня не способен сформулировать требований для получения правильной коллекции, как мне кажется. ;)

G00DMAN добавил 19.11.2009 в 02:12

kozlodoy:
Эхх завидую сеопульту белой завистью :) Реально просто огроменнейшая база для ресерча.

не спешите завидовать. Судя по текущему методу формирования функции ранжирования, большая база для ресерча просто быстрее обломает все здравые идеи, только и всего. ;)

wolf:
там фигурирует "группа факторов, состоящая из различных модификаций формулы Okapi_BM25".

BM25 для российских разработчиков поиска - что-то вроде священной коровы... На РОМИП-2009 чуть ли не в каждом докладе упоминалась. Вместо того, чтобы разработать свою отечественную чюда-формулу, все почему-то продолжают дрочить вприсядку на буржуйскую. Наступая на мой патриотический мозоль. :D

wolf:
_S_, источником цитаты не поделитесь?

Сергей, я в этой ветке давал ссылку на источник, в посте #1209. ;)

UZPN:
Функции hi ищутся в виде "кусочно-постоянных" функций. Причем пары ai hi ищутся итеративно путем решения локальной оптимизационной задачи аналогичной исходной, но с фиксированными всеми aj, hj где j<i и с нулевыми aj hj где j>i.

Да, сначала ищем hi (в пдфке стр. 20 внизу), а потом ai (стр. 21).

UZPN:
1. Количество “реальных” факторов вовсе не “тысячи” и его можно оценить:
Несколько тысяч – это с учетом суперпозиций, а их гораздо больше чем самих факторов. Сделаем допущение о том что нет никакого интереса делать какие-то специфические суперпозиции (разве что какие-то единичные) и вполне можно ограничиться полиномиальными моделями. Причем для разных групп факторов степень полинома может быть разной от 1 до много. Если взять эту степень в среднем 2, то получается что исходных факторов вовсе не тысячи, а всего лишь 50-100.

Сегалович написал, что больше 100, да это и понятно. Не забывайте еще про два с лишним десятка разных региональных выдач, для каждого региона может быть больше одного параметра. ;)

Какие-то примеры "признаков" можно посмотреть в докладе Яндекса на РОМИП-2006.

devzev:
Хотел найти информацию о производителе и его продукции.

Набрал: http://yandex.ru/yandsearch?text=gesan&lr=1.

Ну и как вам первое место?

А на хрена мне сайт на испанском (4-е место)?

"Полный пипец" (с) Аллочка

Примеров именно такого рода в ветках про Снежинск куча, а в выдаче еще больше. При англоязычных запросах очень весомо стало влиять вхождение в имя домена и даже просто в урл. Это не гуд, я в буковую форму обратной связи писал комменты по этому поводу.

Но эта "фича" Снежинска забавна по другой причине. Казалось бы, теперь функция ранжирования строится так, что отдельные слагаемые не просчитываются ввиду своей алогичности. Это полный ппц для оптимизаторов. Но в данном случае ситуация несколько иная - не важно в какие слагаемые и как входит признак "наличие английского ключа в урле", важно, что в итоговой формуле релевантности уши этого признака видны издалека и просчитываются любым школьником. Т.е. сделать все признаки случайно-размазанными по выдаче пока не вышло, и я подозреваю, что при более глубоком копании все встанет на свои места... :)

UZPN:
А о виде hk где-то можно почитать?

Где-то наверное можно...

UZPN, объяснялка все же не строгая научная статья, писалась специально для гуманитариев, чтобы поняли все, а не только технари. Пример с 3:14*log7(f9(q; d)) + ef66(q;d) был взят потому, что он есть в пдфке и как своего рода страшилка. :D

В формуле F = a1*f1 + a2*f2 + … + an*fn fk=hk, hk – кусочно-постоянная функция(о чем выше уже писал Сергей Людкевич), ее вид еще более не логичный, но он сложен для осмысления не специалистами. Так что не стоит про hk в объяснялке расписывать. Аргументы для hk тоже не простые, что следует из реплики Сегаловича.

G00DMAN добавил 17.11.2009 в 17:14

Fresher:
G00DMAN, На сколько я понимаю смысл данного алгоритма выдать пользователю усредненный вариант из множества конкурирующих документов, исключив из влияния на выдачу факторов с большим коэффициентом. То есть скажем если на мой сайт будет ссылаться большое количество авторитетных документов (даже с естественным ссылочным), то это не поможет ему стопроцентно стать самым релевантным документом. (поправьте меня если я ошибаюсь).

Цель данного алгоритма - выдать наиболее релевантный ответ с точки зрения обучающего множества, а величина отдельных параметров может сыграть, а может и нет. :)

Всего: 1960