Ну я надеюсь, что Вы не рассчитываете получить формулу вида "два раза в тайтл + 10 в боди, из них 2 в стронге, 2 в анкорах и 2 в других словоформах - и вы в топе"? :)
G00DMAN добавил 30.06.2010 в 01:43
Кстати да, не плохой фактор. Я такой использую в этом году (в числе других) для выполнения поисковых заданий на РОМИПе. Вроде не плохо работает, хотя асессоры еще не оценивали. :)
ApokalipsYs, Вы слишком много всего намешали в кучу. И верного, и спорного и не верного. Как-то влом все это разгребать подробно, да и зачем? Что Вы хотите в итоге получить? Все простые факторы, влияющие на ранжирование? А Вы разве не в курсе, что корреляция каждого из них с выдачей (тупо посчитанная по большому числу топ-10) очень низкая? Ну, кроме "артефактов". :)
Можно заметить, что из значимых для ранжирования факторов:
Кроме факторов для ранжирования есть еще факторы для индексирования, те же АГС, аффилиаты и т.д.
Это все разные группы и мешать их в кучу не стоит.
Выдача на самом деле улучшилась. Особенно в регионах, даже многие региональные оптимизаторы тащатся, реально стало что-то местное искаться не выходя с 1-й страницы и без галочки.
Ну было не лучше, если в среднем. Понятно, что косяки будут всегда и в целом их будет много, т.к. обучалка все же малонаучным методом подгонки проходит. Пока науки не хватает. :(
Данный конкретный случай на самом деле совсем не простой, сложно такие обрабатывать, смысл документа не прочекать, тематичность в общем случае тоже не прокатит, легко можно привести контрпримеры.
Если Яндекс такой тупой, а Вы такой острый, то предложите малозатратный алгоритм, отсеивающий такие страницы. Только не именно эту, а в целом по индексу.
Отличная идея, особенно для молодых сайтов.
Почему рандом? Нет, релевантности там так же расставляет матрикснет. Но на 4-й странице он не обучается, поэтому и предъявы не катят. :)
Поисковая система Вам ничего не должна. Хотя у нее есть желание дать пользователю релевантный ответ, и она эту задачу неплохо решает. По данному запросу топ достаточно релевантен, а 4-я страница яндексоидов не интересует. Какая разница, кто там выше? :)
Как правило - да.
У Вас паранойя. :D
В общем случае ссылки будут по разному работать для разных акцепторов. Ваши, как вариант, могут вообще не работать для большинства покупателей. :)
Может Вам для начала нужно разобраться в теме, а потом уже вылезать из раздела копирайтинга? ;)
А, Вы о стеммерах... Конечно же нет, в Руках используется хороший морфологический анализатор (какой- пусть сами скажут). Другое дело, как он используется, я не проверял на хитрых текстах, ничего не могу сказать.
Я уже писал где-то, что логичнее выглядит другая гипотеза - после ранжирования накладывается фильтр, т.е. спамность режется независимо от релевантности, по конкретным запросам, возможно даже по конкретным (обработанным) документам.
Вы думаете, что сеонисты сегодня готовы к разработкам собственных морфологических анализаторов? Вроде же ничто в отрасли на это не намекает, задача достаточно затратная и наверняка не окупаемая. Ну и уже есть два анализатора от Яндекса - более грубый, но быстрый mystem и более точный, но медленный АОТ. Все пользуются одним из, на мой взгляд мистема вполне достаточно.
Это при исследовании черных ящиков такой сложности? Да Вы, батенька, наивняк... ;)
Тот факт, что кто-то много спарсил и что-то посчитал - это всегда гуд, Wasya, продолжай в том же духе. Для мну в статье мало графиков - по каждому столбцу в диаграммах интересно было бы посмотреть на график распределения. Еще более интересно было бы сделать несколько пересчетов, привязать такие графики к конкретным апам и посмотреть динамику. Может и родилась бы какая-то безумная идея. :)