Определение тематики документа. ТЕОРИЯ.

12
Bor-ka
На сайте с 16.11.2004
Offline
201
1397

Уважаемые господа!

Понятно, что в Яндексе ведутся работы по вопросам определения тематики документа. Определять тематику всего сайта достаточно утопично, однако тематика документа никому не мешала.

Меня интересует, имеет ли кто ссылки на работы (статьи) уважаемых разработчиков Яндекса (они любят публиковать интересные вещи) или других деятелей по методам определения тематики текстовой информации. Интересует теория и практика (если есть).

Будет замечательно, если мы сможем подискутировать по различным алгоритмам и теориям.

Сервис полуавтоматического рерайта текста (http://topwriter.ru/)
Dybra
На сайте с 23.10.2005
Offline
84
#1

Думаю сначала нужно определится с самим термином "тематика". Как она будет выглядеть? В виде дерева, списка или какой-то особой структуры? И есть ли тут место такой тематике как "универсальное".

Мы из ВЫКСЫ (http://wyksa.ru)!
Bor-ka
На сайте с 16.11.2004
Offline
201
#2
Dybra:
Думаю сначала нужно определится с самим термином "тематика".

я предполагаю, что тематика комплексное понятие, например документ на 40% туризм, на 20% отдых и на 10% бизнес к примеру. возможно такой подход ошибочен, хочется это обсудить.

Dybra:
Как она будет выглядеть? В виде дерева, списка или какой-то особой структуры?

да как угодно, нужно определеить некое соотношение текста одной или нескольким тематикам.

Dybra:
И есть ли тут место такой тематике как "универсальное".

думаю нет (оно хоть на сколько то %-в соответствует некой тематики), хотя здесь тоже нужно смотреть в контексте определенных методов определения.

greenwood
На сайте с 08.09.2003
Offline
519
#3

недавно про это топик был

Bor-ka
На сайте с 16.11.2004
Offline
201
#4

greenwood, действительно, по поиску нашел несколько топиков:

/ru/forum/81156

/ru/forum/75928

/ru/forum/51705

ушел читать

Megavolt
На сайте с 23.12.2005
Offline
179
#5

вернетесь, кратко выводы озвучьте, плиз :)

Иногда лучше жевать.... (С)
Bor-ka
На сайте с 16.11.2004
Offline
201
#6
Megavolt:
вернетесь, кратко выводы озвучьте, плиз

угу, оказывается в одной ветке я активно участвовал, но ничего не помню. читаю как в первый раз свои сообщения :) вот что значит была пора защиты диплома :)

kod_ssilki_ru
На сайте с 02.03.2005
Offline
176
#7

Я тоже недавно открывал тему об учете, а скорее НЕучете тематики в ссылочном ранжировании - ни к чему не пришли, но предположения кой какие проскакивали

/ru/forum/78691

Аккаунт закрыт 21.07.2009 ЛС (PM) отключены. Всем успехов! И Спасибо тем, кто был добр ко мне. Этот аккаунт ломали 18.05.2010 в 11.13 с ip 118.97.72.37 189.42.222.213 202.146.241.19 82.198.27.9
Bor-ka
На сайте с 16.11.2004
Offline
201
#8
kod_ssilki_ru:
Я тоже недавно открывал тему об учете, а скорее НЕучете тематики в ссылочном ранжировании - ни к чему не пришли, но предположения кой какие проскакивали

вполне возможно, однако думаю Яндех работает над этим.

DrJeans
На сайте с 06.07.2006
Offline
231
#9
Bor-ka:
я предполагаю, что тематика комплексное понятие, например документ на 40% туризм, на 20% отдых и на 10% бизнес к примеру. возможно такой подход ошибочен, хочется это обсудить.

А если у меня сайт про колорадских жуков? Значит часть тематики про северную америку, часть про насекомых, часть про сельское хозяйство? А если в статье рассмотерть тему аэродинамики крыла этих тварей? Значит часть тематики летательные аппараты?

Спроси на Boosty: https://boosty.to/smorovoz SEO на Ютубе: https://www.youtube.com/@youtube-seo/
Bor-ka
На сайте с 16.11.2004
Offline
201
#10
DrJeans:
А если у меня сайт про колорадских жуков?

сайт или страница сайта?

DrJeans:
Значит часть тематики про северную америку, часть про насекомых, часть про сельское хозяйство?

именно так. на счет северной америки не уверен.

DrJeans:
А если в статье рассмотерть тему аэродинамики крыла этих тварей? Значит часть тематики летательные аппараты?

угу

только все этиматики имеют определенные соотношения для конкретной страницы.

в общем ушел писать алгоритм и его реализовывать в небольшой тестовой программной модели.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий