Тематика сайта

[Удален]
2782

Тема о возможности автоматического определения тематики сайта уже многократно поднималась и обсуждалась. Но хотелось бы поделиться новыми идеями и обсудить их...

Итак, возьмем за основу структурированный каталог, например Яндекс. Каждой конечной тематической рубрике ставим в соответствие взвешенный перечень специфических ключевых слов-маркеров (или фраз). Под взвешенным перечнем подразумевается, что каждое ключевое слово имеет определенный вес в соответствии с глобальной статистикой: частоупотребимые слова - меньший, редкоупотребимые - больший - такие веса есть у Яндекса.

Затем осуществляется анализ контента всех страниц сайта. В случае если в контенте сайта встречается слово-маркер, то к соответствующему показателю тематичности сайта прибавляется вес слова умноженный на частоту его повторения на сайте. По итогам полного пересчета каждый сайт будет иметь показатели его тематического соответствия каждой отдельной рубрике. В случае, если ни одна из рубрик не выделяется среди других (например каталоги), то сайт считается нетематическим.

Модель достаточно проста для реализации и в тоже время эффективна.

Bloody dude
На сайте с 16.03.2006
Offline
68
#1

По-моему, громоздкая конструкция... Как быть с сайтами, на которых количество страниц измеряется сотнями тысяч, а то и миллионами? Особенно если учесть, что яндекс и так не особо торопится индексировать все, что видит? Как быть с сайтами, которые зарегистрированы в паре директорий и пяти-шести поддиректориях?

Да и формирование взвешенного перечня слов - процесс длинный и непростой...

Skyter
На сайте с 17.02.2005
Offline
175
#2
aka352:
Тема о возможности автоматического определения тематики сайта уже многократно поднималась и обсуждалась. Но хотелось бы поделиться новыми идеями и обсудить их...
Итак, возьмем за основу структурированный каталог, например Яндекс. Каждой конечной тематической рубрике ставим в соответствие взвешенный перечень специфических ключевых слов-маркеров (или фраз). Под взвешенным перечнем подразумевается, что каждое ключевое слово имеет определенный вес в соответствии с глобальной статистикой: частоупотребимые слова - меньший, редкоупотребимые - больший - такие веса есть у Яндекса.
Затем осуществляется анализ контента всех страниц сайта. В случае если в контенте сайта встречается слово-маркер, то к соответствующему показателю тематичности сайта прибавляется вес слова умноженный на частоту его повторения на сайте. По итогам полного пересчета каждый сайт будет иметь показатели его тематического соответствия каждой отдельной рубрике. В случае, если ни одна из рубрик не выделяется среди других (например каталоги), то сайт считается нетематическим.
Модель достаточно проста для реализации и в тоже время эффективна.

Ну а если встречаются маркеры подходящие под несколько тематик? В принципе, наверное это наипростеший вариант развития событий...

Юрий Батиевский www.antop.ru (http://www.antop.ru/): тел: +7 903 796 05 86 Ищу SEO-специалиста, специалиста по контекстной рекламе, интернет-маркетолога.
Bloody dude
На сайте с 16.03.2006
Offline
68
#3
Skyter:
Ну а если встречаются маркеры подходящие под несколько тематик? В принципе, наверное это наипростеший вариант развития событий...

Не знаю, насколько такой вариант можно считать наипростейшим... Это ж все - футурология:) Здесь многое зависит от трендов развития интернета. Мне кажется, что такое понятие, как "тематика" вообще будет стремиться к вымиранию...

[Удален]
#4
Skyter:
Ну а если встречаются маркеры подходящие под несколько тематик?

Такие можно отбросить. Вполне достаточно уникальных.

Bloody dude:
Как быть с сайтами, на которых количество страниц измеряется сотнями тысяч, а то и миллионами?

Вы можете привести много примеров подобных сайтов?

Bloody dude
На сайте с 16.03.2006
Offline
68
#5
aka352:
Вы можете привести много примеров подобных сайтов?

Все сайты приличных СМИ. У каждого, кстати, есть еще и тематика - деловое издание существенно отличается по контенту от таблоида, спортивного, эротического и др. И воевать с этим сложно. Другой вопрос, что у некоторых архивы зашиты и продаются за деньги и нужно ли поисковику держать у себя в индексе все это счастье, - диспутабельно.

Встречал сайты заводов, где страниц действительно сотни тысяч. Другой вопрос, насколько разумно делать это именно так...

Сайты всяческих парламентов с законодательством. Как, кстати, определять тематику законодательства? По слову "законодательство"? Или по отраслевым признакам? Юзер-то едва ли ищет "что-то про законодательство" (если он не студент)... Юзер ищет "нормативные акты, регулирующие разведение кроликов в Бобруйском районе"...

Всякого рода онлайновые игрушки...

Полагаю, что таких сайтов действительно много

Bor-ka
На сайте с 16.11.2004
Offline
256
#6

тогда крупные вероятно будут описаны в каталоге и тематика им будет задана человеком, а все остальные попадут либо в автотематику, либо будут считаться нетематичными.

UPD: я долго думал над определением тематичности документов, думаю такое вот весовое определние вполне имеет право на реализацию. Причем определение тематики может происходить не только и не столько для сайта, как для документа (ресурсов правда потребуется поболее).

[Удален]
#7

Bloody dude,

Результат поиска: страниц — 139 611

Область поиска: сайт — www.lenta.ru

Результат поиска: страниц — 103 575

Область поиска: сайт — www.utro.ru

Результат поиска: страниц — 55 413

Область поиска: сайт — www.pravda.ru

Сотню вижу, а сотни или миллионы... нет. Старайтесь голые слова всегда подкреплять фактами, тем более, если утверждаете категорично. В SEO и без этого хватает неопределенности. Хотя бы нам с вами надо быть конкретными.

Bloody dude
На сайте с 16.03.2006
Offline
68
#8
Bor-ka:
тогда крупные вероятно будут описаны в каталоге и тематика им будет задана человеком, а все остальные попадут либо в автотематику, либо будут считаться нетематичными.

Дык ить даже в яке сейчас очень много крупных сайтов. И они, вроде бы, разбиты по тематике (можно спорить, насколько корректно, но это - просто факт). А если крупный сайт добавляет у себя новую тему? Каждый раз тарахтеть об этом модераторам? Они ж руками везде если лазить будут, то ротация пойдет неимоверная в связи с эпидемией шизофрении среди сотрудников отдельно взятой компании... Как, к примеру, быть с тематикой "вторичных" ресурсов? Которые занимаются переводом иностранных текстов, или формируют дайджесты чужих?

Не знаю, мне кажется, что вся эта тематика - черная магия и будет помирать. Рулить будет контент. То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации. Это, наверное, сложнее, чем бить по тематике...

Bloody dude
На сайте с 16.03.2006
Offline
68
#9
aka352:
Bloody dude,
Результат поиска: страниц — 139 611
Область поиска: сайт — www.lenta.ru

Результат поиска: страниц — 103 575
Область поиска: сайт — www.utro.ru

Результат поиска: страниц — 55 413
Область поиска: сайт — www.pravda.ru

Дык это... Как бы сказать - это ж то, что есть в индексе, а не есть физически на сайте.

Хотя если Вы именно об индексе, то готов согласиться

Bor-ka
На сайте с 16.11.2004
Offline
256
#10
Bloody dude:
То есть, на мой взгляд, самый корректный и правильный путь для поисковиков - решить, каким образом определять первоисточник информации.

имхо, задача не решаема. это не могут решить люди, а Вы хотите машину это заставить делать. В один день вышло 10 одинаковых книжек в разных обложках 10 авторов, вопрос - кто у кого стыбзил?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий