Алгоритм определения тематики сайтов (решение)

kotofeich
На сайте с 25.03.2009
Offline
28
#11
Владислав Железный:
Изобретаете что-то типа этого? http://www.ashmanov.com/tech/semantic/demo/

Да. Задачей стояло повторить этот алгоритм.

Expert Theme (http://extheme.ru) - определение тематики любых сайтов, текстов и страниц
ВЖ
На сайте с 20.11.2007
Offline
91

Алгоритм как я понял еще на стадии разработки? Будет интересно узнать его точность. Например, сравнивая с сайтами в Яндекс.Каталоге.

kotofeich
На сайте с 25.03.2009
Offline
28
#13
Владислав Железный:
Алгоритм как я понял еще на стадии разработки? Будет интересно узнать его точность. Например, сравнивая с сайтами в Яндекс.Каталоге.

Думаю сам понимаешь, что если результаты будут положительными, то их уже никто не узнает:)

А 99.99% человек прочитавшие этот пост скоро забудут про него.

ВЖ
На сайте с 20.11.2007
Offline
91
kotofeich:
Думаю сам понимаешь, что если результаты будут положительными, то их уже никто не узнает:)
А 99.99% человек прочитавшие этот пост скоро забудут про него.

А зачем тогда дискуссию открывать? Если это тема, то лучше молчать, чтоб лишнего не спалить, и реализовывать, чтоб дивиденты получить, если это лажа для репы, то тогда топик стоит продолжить. :)

[Удален]
#15
kotofeich:
Если незнакомое мне слово "паллиатив" есть на нескольких страницах, то оно явно встретится более трех раз, чтобы имело воздействие на тематику

да а как же например грабштихель, то же не окажет воздействия на тематику текста

kotofeich:
Возможно это лишь покупная ссылка

так зачем тогда анализировать исходящие анкоры, если вы пытаетесь определить тематику страницы? :)

ВЖ
На сайте с 20.11.2007
Offline
91
burunduk:
так зачем тогда анализировать исходящие анкоры, если вы пытаетесь определить тематику страницы? :)

Лучше все предложение исключать тогда из анализа, если ссылка не локальная.

kotofeich
На сайте с 25.03.2009
Offline
28
#17
Владислав Железный:
А зачем тогда дискуссию открывать? Если это тема, то лучше молчать, чтоб лишнего не спалить, и реализовывать, чтоб дивиденты получить, если это лажа для репы, то тогда топик стоит продолжить. :)

Смотри - для меня это тема. Пару человек могут вчитаться и подсказать что-нибудь, поскольку здесь много народу набившего себе шишки. Теперь отбросим из сеошников всех, кто незнаком с программированием. Далее подумай сколько программистов сядут с целью повторить это? Очень сомневаюсь что наберутся полчеловека. А ведь нужна как минимум фирма с десятком человек для реализации алгоритма. Так что я не беспокоюсь о "палеве".

kotofeich добавил 20.05.2009 в 20:32

burunduk:
да а как же например грабштихель, то же не окажет воздействия на тематику текста

так зачем тогда анализировать исходящие анкоры, если вы пытаетесь определить тематику страницы? :)

Анализировать исходящие анкоры нужно чтобы не потерять доли тошнотности ключевиков. В реальности можно исследовать все слова с учетом тошнотности на предмет определения тематики, но для этого нужны довольно большие мощностя. Я думаю точность не изменится, если отбросить одиночные слова.

Если например в тексте идут ключевые слова "таблетки", "медикаменты", "аптека" и т.д. повторяющиеся по 3 раза. А потом встречается одно слово "автомобили", либо "фарма", то они не сыграют абсолютно никакой роли в общей оценке.

unknown php developer
На сайте с 08.04.2009
Offline
9
#18
kotofeich:
Да. Задачей стояло повторить этот алгоритм.

Насколько я понял вся соль не в определении тематики отдельной страницы, а в определении тематики сайта

ВЖ
На сайте с 20.11.2007
Offline
91
kotofeich:
Смотри - для меня это тема. Пару человек могут вчитаться и подсказать что-нибудь, поскольку здесь много народу набившего себе шишки. Теперь отбросим из сеошников всех, кто незнаком с программированием. Далее подумай сколько программистов сядут с целью повторить это? Очень сомневаюсь что наберутся полчеловека. А ведь нужна как минимум фирма с десятком человек для реализации алгоритма. Так что я не беспокоюсь о "палеве".

Да, ладно. Одной здравомыслящей головы достаточно, чтобы реализовать подобный алгоритм, главное желание. :) Рутины правда много по составлению словаря... и размытые перспективы по применению. У кого-то одни идеи, у кого-то другие, а какие из них рабочие, да и рабочие ли вообще, можно никогда и не узнать. ;) Тицекрутителям разве что понятно какую пользу из этого можно извлечь.

[Удален]
#20
kotofeich:
Если например в тексте идут ключевые слова "таблетки", "медикаменты", "аптека" и т.д. повторяющиеся по 3 раза. А потом встречается одно слово "автомобили", либо "фарма", то они не сыграют абсолютно никакой роли в общей оценке

просто лень писать много букв (можно попросить корпарайтеров, они точно напишут :)), но вот вам несколько вариантов тематики текста на странице с ключивиками

"таблетки", "медикаменты", "аптека" и "автомобили":

лекарства, грузоперевозки, логистика и т.д. и т.п. :)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий