Мастер Йода

Мастер Йода
Рейтинг
135
Регистрация
29.11.2006

Существуют уже готовые системы (алгоритмы) для классификации (кластеризации) текстов. Я бы на вашем месте изучил то что уже (давно) сделано в этом направлении, и только потом, оценив достоинства/недостатки существующих алгоримов и готовых программных средств, начал бы сочинять свой.

Почему вы не используете байесовский классификатор ?

Недостатков в вашем алгоритме хоть отбавляй. Начиная с однословности (надо использовать как минимум 2) и заканчивая ручной простановкой коэффициентов (бррррр....).

p.s. как например ваш алгорит классифицирует этот кусок текста?

В нем нет ни капли благородства, но есть букет. Вы спросите меня: в чем загадка этого букета? Я вам отвечу: не знаю, в чем загадка этого букета. Тогда вы подумаете и спросите: а в чем же разгадка? А в том разгадка, что "белую сирень", составную часть "духа Женевы", не следует ничем заменять, ни "жасмином", ни "шипром", ни "ландышем". "В мире компонентов нет эквивалентов", как говорили старые алхимики, а они-то знали, что говорили. То есть, "ландыш серебристый" - это вам не "белая сирень", даже в нравственном аспекте, не говоря уж о букетах.
rpex:
Сорри, не точно прочитал пост - сайты а не сателлиты. Сетку сайтов не забаят без линковки.

у меня был забанен один сайт как "не отвечающий политике яндекса". безо всяких комментариев. не сетка, не линкфарма - просто большой справочник фирм.

после это на фразу "точно не забанят" я смотрю с большим скепсисом.

AXR_GREEN:
Я искренне удивляюсь своим знакомым, друзьям, которые достаточно далеки от интернет и от SEO, на мой вопрос- где они ищут информацию в интернет отвечают в Google.☝

ваши друзья - нерепрезентативная выборка.

репрезентативная здесь http://i.li.ru/i/s/1SqfZO.png

AXR_GREEN:
И что получится?
Начнется хаос, в ТОПе, как правило, будут старые проекты с огромной ссылочной массой.
Новым проектам путь в ТОП будет закрыт и т.д. А как следствие от такого поисковика люди откажутся со временем.

я никогда не соглашусь с той инфернальной картиной мира, в которую ты ​веришь 😂

а разве плохо, что в топ вылезут "старые проекты с огромной ссылочной массой"?

даже если Я откажется от учета покупных ссылок, это не приведет к какому-то принципиальному перевороту. ну повылазят в топ другие магазины, только и всего. ну поменьше спама будет в некомерческих тематиках.

den78ru:
Я вот пару дней пытаюсь на чисто прикладное всё это переложить, и знаете, даже если дать Я. аванс в способности корректно воплотить всё в жизнь, и то получается, что решение(обход) этой его фичи если и не очевиден, то без особого труда решаем.

есть только один способ обойти этот алгоритм - не покупать ссылки (на тех сайтах которые их продают массово) и не покупать ссылки массово. то есть продвижение "естественными" ссылками. а уж как получить "естественные" ссылки каждый будет решать по-своему.

varlam:
Отключив платные ссылки, даже частично, в топах будут одни гс...

это вряд-ли.

гм... странно, а я от них получаю в WMZ без задержек (за ссылки расставленные еще в старом клисе руками).

Беобахтер:
Узким местом вижу категоризацию ссылок на основе классификатора, а не кластеризации (разумнее иерархической). В т.ч. вручную.

ну это всего лишь эксперимент. и вполне вероятно что 22 тематики были выбраны не наобум, а в результате каких-то "вычислений"

Беобахтер:
B потом, несколько тысяч ссылок для обучающей выборки - не маловато ли будет?

почему несколько тысяч ? для построения словаря:

we used a simplified host-to-host link graph with 20 million edges containing non-zero SEO-text anchors

p.s. да и в конце концов - заявленная точность 95% - этого более чем достаточно, что бы принять решение об учете или не учете конкретной ссылки.

Мастер Йода добавил 16.05.2009 в 15:56

Str256:
А если продаёт, то занижение передаваемого веса, по всем исходящим ссылкам, в т.ч. и тематическим, даже если они находятся на других страницах сайта. Так получается.

а вот на счет применяемых санкций (типа занижения веса) можно только гадать. хотя мои наблюдения подтверждают такое занижение.

Str256:
Т.е. ссылки с одного кластера на другой внутри сайта, не учитываются при определении тематичности страницы с исходящими ссылками?

надо полагать что не учитывают.

Str256:
Получается, сайт или Монотематичный или Ссылки продаёт, так?

или сайт "ссылается тематично" или "продает ссылки"

wizzer:

Интересная политика Яндекса или что это?

да просто владельцы доменов развлекаются.

Всего: 1779