Вычисление соотношения ключевых слов донора и акцептора

12
kotofeich
На сайте с 25.03.2009
Offline
28
1166

Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).

Вижу три варианта решения:

1) Разбить текст донора и акцептора на слова. Взять из них n наиболее повторяющихся слов, исключая склонения, и сравнить сколько слов совпало.

2) Тоже самое но сравнить абсолютно все слова.

3) сравнить только слова из title, h1, h2, b (может что-то еще)

Само собой из текста исключить noindex текст, скрипты, теги и прочую лабуду.

Охото услышать мнение насчет:

1) имеют ли такие действия смысл?

2) что лучше 1-ый вариант сравнения, второй или третий?

2) Есть ли еще какие-нибудь мысли как можно сравнить тексты?

Expert Theme (http://extheme.ru) - определение тематики любых сайтов, текстов и страниц
S2
На сайте с 07.01.2008
Offline
611
#1

Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.

Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)
kotofeich
На сайте с 25.03.2009
Offline
28
#2
Str256:
Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.
Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.

Спасибо за совет.

Вычисление схожести внешняков донора довольно ресурсоемко. Упростим пока задачу: доноры - обычные страницы 3-его уровня, которые не имеют линкбэков.

А почему не стоит исключать noindex?

S2
На сайте с 07.01.2008
Offline
611
#3
kotofeich:
А почему не стоит исключать noindex?

В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?

Мастер Йода
На сайте с 29.11.2006
Offline
135
#4
kotofeich:
Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).

решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.

более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.

в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.

p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.

Мастер Йода добавил 14.05.2009 в 00:20

kotofeich:
А почему не стоит исключать noindex?

то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.

НалетайТорописьПокупайЖивопись.рф (http://colmix.ru/paint.html) Офисная-Мебель-Петербург.рф (http://Офисная-Мебель-Петербург.рф/) - скидка для участников форума домены RU на продажу (/ru/forum/comment/8125673) и кириллица в spb.ru (/ru/forum/568196)
kotofeich
На сайте с 25.03.2009
Offline
28
#5
Мастер Йода:
решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.

более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.

в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.

p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.

Респект! Спасибо большое. Я не знал про байесовский алгоритм. Теория вероятностей это гуд.

Сейчас пробежался по его теории, думаю это вполне подходит в данном случае.


В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?

Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?


то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.

Можешь хоть привести простой пример?

Мастер Йода
На сайте с 29.11.2006
Offline
135
#6
kotofeich:
Можешь хоть привести простой пример?

пример чего именно ?

S2
На сайте с 07.01.2008
Offline
611
#7
kotofeich:
Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?

Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.

kotofeich
На сайте с 25.03.2009
Offline
28
#8
Мастер Йода:
пример чего именно ?

Того как может использоваться noindex текст.

Мастер Йода
На сайте с 29.11.2006
Offline
135
#9
kotofeich:
Того как может использоваться noindex текст.

в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.

kotofeich
На сайте с 25.03.2009
Offline
28
#10
Str256:
Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.

Хм.. Интересный скрипт. Похоже что он определяет вектор тематики по семантическому ядру. То бишь для каждой тематики составил набор ключевых слов, и вычисляй.

Насчет як - давай лучше его отбросим. Сайтов в яке маловато по сравнению с остальными, и там мы видим тематику. Тут вопросов не возникнет.

в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.

Тогда для чего существует noindex? Чтобы запретить передачу ссылочного? Но ведь обычно его и ставят на ссылки.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий