Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.
Почему вы не используете байесовский классификатор ?
Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).
p.s. как например ваш алгорит классифицирует этот кусок текста?
у меня был забанен один сайт как "не отвечающий политике яндекса". безо всяких комментариев. не сетка, не линкфарма - просто большой справочник фирм.
после это на фразу "точно не забанят" я смотрю с большим скепсисом.
ваши друзья - нерепрезентативная выборка.
репрезентативная здесь http://i.li.ru/i/s/1SqfZO.png
я никогда не соглашусь с той инфернальной картиной мира, в которую ты ​веришь 😂
а разве плохо, что в топ вылезут "старые проекты с огромной ссылочной массой"?
даже если Я откажется от учета покупных ссылок, это не приведет к какому-то принципиальному перевороту. ну повылазят в топ другие магазины, только и всего. ну поменьше спама будет в некомерческих тематиках.
есть только один способ обойти этот алгоритм - не покупать ссылки (на тех сайтах которые их продают массово) и не покупать ссылки массово. то есть продвижение "естественными" ссылками. а уж как получить "естественные" ссылки каждый будет решать по-своему.
это вряд-ли.
гм... странно, а я от них получаю в WMZ без задержек (за ссылки расставленные еще в старом клисе руками).
ну это всего лишь эксперимент. и вполне вероятно что 22 тематики были выбраны не наобум, а в результате каких-то "вычислений"
почему несколько тысяч ? для построения словаря:
p.s. да и в конце концов - заявленная точность 95% - этого более чем достаточно, что бы принять решение об учете или не учете конкретной ссылки.
Мастер Йода добавил 16.05.2009 в 15:56
а вот на счет применяемых санкций (типа занижения веса) можно только гадать. хотя мои наблюдения подтверждают такое занижение.
надо полагать что не учитывают.
или сайт "ссылается тематично" или "продает ссылки"
да просто владельцы доменов развлекаются.