Вычисление соотношения ключевых слов донора и акцептора

28

kotofeich

13 мая 2009, 19:47

1186

Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).

Вижу три варианта решения:

1) Разбить текст донора и акцептора на слова. Взять из них n наиболее повторяющихся слов, исключая склонения, и сравнить сколько слов совпало.

2) Тоже самое но сравнить абсолютно все слова.

3) сравнить только слова из title, h1, h2, b (может что-то еще)

Само собой из текста исключить noindex текст, скрипты, теги и прочую лабуду.

Охото услышать мнение насчет:

1) имеют ли такие действия смысл?

2) что лучше 1-ый вариант сравнения, второй или третий?

2) Есть ли еще какие-нибудь мысли как можно сравнить тексты?

Expert Theme (http://extheme.ru) - определение тематики любых сайтов, текстов и страниц

S2

611

Str256

13 мая 2009, 19:54

#1

Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.

Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.

Не надо приписывать мне свои выводы, я имею ввиду только то, что написал. Лучшая партнёрка по футболкам/толстовкам (http://partnerka.kolorado.ru/?ref=1921540) Опрос: Проверить текст на уник - как? (/ru/forum/495885)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

28

kotofeich

13 мая 2009, 20:03

#2

Str256:
Важно не только внутреннее содержание, но также и внешнее. Т.е. ресурсы каких тематик ссылаются на донора, кто ссылается на них и на ресурсы каких тематик ссылается донор помимо вашего акцептора. Тексты анкоров.
Что касается сравнению по содержимому сайтов, ноидекс тексты не стоит исключать.

Спасибо за совет.

Вычисление схожести внешняков донора довольно ресурсоемко. Упростим пока задачу: доноры - обычные страницы 3-его уровня, которые не имеют линкбэков.

А почему не стоит исключать noindex?

S2

611

Str256

13 мая 2009, 20:10

#3

kotofeich:
А почему не стоит исключать noindex?

В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?

135

Мастер Йода

13 мая 2009, 20:14

#4

kotofeich:
Вообщем задача вычислить программно в % насколько донор и акцептор схожи по словам из текста страниц. Задача базируется на том, что в теории схожесть ключевиков на страницах нравится поисковикам и в частности яшке (доказывать это не буду, и к теме не относится).

решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.

более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.

в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.

p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.

Мастер Йода добавил 14.05.2009 в 00:20

kotofeich:
А почему не стоит исключать noindex?

то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.

НалетайТорописьПокупайЖивопись.рф (http://colmix.ru/paint.html) Офисная-Мебель-Петербург.рф (http://Офисная-Мебель-Петербург.рф/) - скидка для участников форума домены RU на продажу (/ru/forum/comment/8125673) и кириллица в spb.ru (/ru/forum/568196)

28

kotofeich

13 мая 2009, 20:26

#5

Мастер Йода:
решение такой задачи на основе простого сравнения ключевиков даст плохие результаты.

более продуктивны методы классификации. можно построить свои наборы признаков, по которым относить текст к той или иной тематике. можно использовать байесовкий алгоритм.

в результате классификации документа вы получаете вектор коэффициентов тематической близости. перемножая вектора вы получаете коэффициент тематической схожести.

p.s. если ПС использует "тематику", то скорее всего применяются подобные алгоритмы. насколько я понимаю гугл при размещении рекламы именно так и подбирает тематику объявления.

Респект! Спасибо большое. Я не знал про байесовский алгоритм. Теория вероятностей это гуд.

Сейчас пробежался по его теории, думаю это вполне подходит в данном случае.

В ЯК например принимают сайт на основе его видимого содержания, а не кода. Почему же при сравнении тематики, то что закрыто в ноиндекс не должно влиять на общую тематику ресурса?

Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?

то что текст закрытый этим тегом не включается в поисковый индекс (то есть по нему страница не найдется) совсем не означает что этот текст никак не используется.

Можешь хоть привести простой пример?

Google Updates - апдейты Вопрос о профессии СЕО Яндекс кобласит

135

Мастер Йода

13 мая 2009, 20:33

#6

kotofeich:
Можешь хоть привести простой пример?

пример чего именно ?

S2

611

Str256

13 мая 2009, 20:35

#7

kotofeich:
Но ведь индексирует (то бишь заносит в базу данных), не человек а робот. По идее он должен обрубать куски noindex. Человек лишь смотрит и говорит good сайт или нет. Или я не прав?

Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.

28

kotofeich

13 мая 2009, 20:35

#8

Мастер Йода:
пример чего именно ?

Того как может использоваться noindex текст.

135

Мастер Йода

13 мая 2009, 20:43

#9

kotofeich:
Того как может использоваться noindex текст.

в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.

28

kotofeich

13 мая 2009, 20:49

#10

Str256:
Тематику определяет редактор каталога на основании содержимого сайта. В первую очередь смотрят на преобладание тематики указанной в заявке на морде. Если намешано много тематик - в лучшем случае в универсаное, в худшем в отказ. Отказ обычно - если на морде много новостей - с миру по нитке. Код, наличие сайта в индексе - совершенно не при чём. Наличие сайта в выдаче по тематическим ключам - тоже может влиять. Автоматика может применяться для первичного отбора, но просмотр человеком всё равно будет.

Хм.. Интересный скрипт. Похоже что он определяет вектор тематики по семантическому ядру. То бишь для каждой тематики составил набор ключевых слов, и вычисляй.

Насчет як - давай лучше его отбросим. Сайтов в яке маловато по сравнению с остальными, и там мы видим тематику. Тут вопросов не возникнет.

в смысле как поисковик может использовать то что внутри ? ну например например учитывать при вычислении веса ключевиков на странице или учитывать при определении расстояния между словами.

Тогда для чего существует noindex? Чтобы запретить передачу ссылочного? Но ведь обычно его и ставят на ссылки.

URL с типа ?route=information/contact, Google: когда использовать rel=canonical, Google: nofollow это не

Все что нужно знать о DDоS-атаках грамотному менеджеру

Курс биткоина превысил $50 тысяч