G00DMAN

G00DMAN
Рейтинг
122
Регистрация
19.04.2008
LeonCrab:
G00DMAN
Кстати, а актуальны ли на данный момент те веса, которые выдает сервис Михаила?

Конечно же нет. Но там вполне сбалансированная база. :)

wolf:
Такое впечатление, что ссылочное сейчас пересчитывают 1-2 раза в месяц.

Скорее всего как-то по-другому все.

wolf:
В этом месяце я еще не видел.

Я видел, хотя выборка у меня кислая и именно в этом направлении не анализировал, может и ошибся.

wolf:
Полагаете, включили рубильник?

Мне Сегалович сказал позавчера, что да. Но Илья любит приколоться над оптимизаторами, так что все может быть... :)

wolf:
Зимой это и был полный бред

Согласен на 100%.

wolf:
И еще бабушка надвое сказала, что ссылочное не апдейтится. А вдруг оно таки апдейтится, но не так, как мы все привыкли? ;)

Да. Я так же думаю, к тому же похоже, что оно "апдейтится" по-разному на разных регионах.

zZmeIOka:
G00DMAN, да, я согласен, формулировка "хорошее ссылочное" довольно расплывчата ;)
Тогда если говорить об известных факторах - возможно ли написание программы на основе Ваших данных, которая оценивала тексты хотя бы по известным критериям? Ведь знание хотя бы одного фактора (контентного) уже даст известные преимущества...

Конечно возможно написание программы, Вы сами можете такие программы писать. Значения IDF можете парсить у Райцина в тулзах, там далеко не полная база, зато по хорошей коллекции, для исследований с натяжкой покатит. :)

Дадут ли такие программы (при условии, что Вы верно определили критерии) ощутимые преимущества - не факт, в Арзамасе 1.2 вообще многое стало не очевидным. :)

zZmeIOka:
G00DMAN, скажите, как вы считаете - может ли текст, соответствующий этим 69 (или хотя бы 60 ;)) критериям релевантности, но со слабым ссылочным, перебить в выдаче слабый текст с хорошей ссылочной базой?

Вопрос не корректный хотя бы потому, что не определено понятие "хорошего" ссылочного. Но, даже если его как-то определить, то не зная ранжирующего полинома ответить на вопрос было бы не просто даже теоретически. А практически - не возможно отранжировать два документа, не имея базы данных Яндекса.

Думаю не нужно тешить себя иллюзиями типа "я знаю 60 критериев". Некоторые критерии настолько неожиданны, что догадаться вообще не реально.

Среди критериев, до которых можно догадаться, но которые не активно обсуждаются на серче, теоретически могут быть например такие:

- абсолютная "важность" ключа в предложении (по IDF)

- относительная "важность" ключа в предложении

- вхождение ключа в опорную пару (в терминах доклада Яндекса на РОМИП-2008)

- расстояние между словами в опорной паре и близость опорной пары к началу предложения (даже если ключ не входит в пару)

- близость ключа к началу предложения

- количество предложений, в которых самое важное слово тяжелее ключа

и т.д. :)

Dallas184:
Господа, прочитайте РОМИП-2004 и не спорьте, тему еще тогда раскрыл сам Яндекс.
"Некоторые аспекты полнотекстового поиска и ранжирования в Яндекс" - ничего не напоминает?

Этот алгоритм не работает на Яндексе. Сейчас совсем другой алго, к тому же с сильно различными настройками по регионам и с добавкой из "испанского доклада" (хотя это может быть и деза :)).

Но алгоритм Ильи Сегаловича-2004 на самом деле сильный, например в этом году дорожку поиска на РОМИПе выиграл Сафронов из hh.ru с тюнингом именно этого алгоритма.

olegapro:
А этот доклад есть в виде pdf, на тетрадке или в видео аудио-записи? очень хотелось бы послушать.

Доклады скоро будут выложены на сайте РОМИПа. Видео и аудио записей не было, фотки делал кто-то иногда.

Miha Kuzmin (KMY):
Тока там из нормальных более-менее этот один. Остальные о сборище(((

Не, это не тот доклад, это Борис Добров из НИВЦ МГУ. От Яндекса молодые парни выступали.

Miha Kuzmin (KMY):
G00DMAN, а если по слайду - то по 18))))

Кстати, нормальные слайды/камменты/аудио/видео где появились?

А где выложены слайды?

Пдфки выложат на днях на сайте РОМИПа, в виде книжки я могу дать при случае. :)

Background:
Каждый ресурс по разному количеству факторов? Или это просто общий пример..

Каждый текст без учета внешних оценивается по 69-ти факторам. :)

Background:
Ясно, Вы используете более точные расчеты, используя веса слов. Почему же те кто знают, знаю не верно? Много контор, оптимизаторов ставят эксперименты и косвенно догадываются, сколько куда вставлять. Это конечно выражено не в цифрах, а в конкретных экспериментах, что в них лучше себя показало, то и использовать. Я, конечно, не хотел добиться информации об этом, понятно, что любая подобная информация - ценность, а просто хотел услышать мнения.

Имхо потому, что не копают глубоко в математику, а надо бы. В ранжировании давно уже все не просто, даже в текстовом. Все не просто во-первых математически, в формулах нет на разу прямого вхождения кол-ва ключа (ну, может быть кроме вхождений в тайтл). Хотя увеличение количества вхождений повышает релевантность по формуле, о чем я и писал. Во-вторых, кроме не простой математики, в ранжировании учитывается немеряно факторов, например на РОМИП-2009 Яндекс проводил текстовое ранжирование коллекции КМ.RU по 69 факторам (коллекцию WEB.BY они ранжировали с учетом ссылок внутри коллекции, считали PR - это добавило еще 96 факторов :D).

Всего: 1960