wolf, почему??? в большинстве случае и для большинства страниц метод Стеммера работает безошибочно - помоему этого достаточного для качественной оценки при изучении новых аспектов алгоритма Яндекса. Или Вы сравнивает учет морфологии с полным неучетом?
ЗЫ. Хотя сказано как всегда в таком стиле, что в любом случае не соврали 😂 (фразу можно трактовать в разных смыслах).
Professor, да я видел это когда искал. Но у меня нет возможности на хостинге запускать приложения под linux. Думаю, что суть то не в качестве морфологии, а в другом :).
reklamist, на момент написания было ок, видимо кокосовцы там прикрутили проверку заголовков запросов ) чтобы на трафике сэкономить.
Miha Kuzmin (KMY),
ХРНС вот о чем:
http://moiblog.info/internet/Mne-skazali-chem-Jandeks-udaril-po-dorvejam/
/ru/forum/89537
вполне связно с текущей темой пишет, надо сказать.
Да одно из двух:
1) по барабану - Nкл / Nтош
2) чем больше, тем лучше - Nкл / sqrt(Nтош)
Отсюда вывод, сделать значение достаточно большим, но в пределах разумного.
MiRaj, скиньте в личку адрес - посмотрим.
reklamist, с кокосом не понял, сейчас там все в порядке.
vano, алгоритм морфологии достаточно прост и сложнокоренные и некоторые другие слова плохо поддаются классификации... думаю это не сильно критично в большинстве случаев, поэтому писать сложную обработку словоформ не считаю целесообразной.
happy-joker, да честно говоря не смотрел толком, но большинство сайтов помоему - каталоги статей, что, в принципе, не удивительно.
Я получил отчет. В отчете 87 сайтов, где расположены статьи. Из этого числа статей, только 85 имеют прямые ссылки. Жду еще 15 сайтов :).
Насколько я понял ХРНС, чем меньше, тем лучше :).
Artlight, из <body>. Помоему так и должно быть. Хотя точно не скажу. Если выясниться, что данные из <title> надо тоже учитывать, то переделаем. А пока точных данных нет.