определение вероятности тематики докумета

12 3
AG
На сайте с 24.10.2006
Offline
0
4601

Я конечно понимаю, что нельзя точно определить тематику докумета машинніми средствами, кроме анализа всего контента по большому словарю :D, что не целесообразно, когда таких документов много.

Есть к примеру док, мне нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики? :gm:

Sla_Dom
На сайте с 18.02.2006
Offline
252
#1
AdultGO:
ак определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики

вам зачем определять то? Это задача поискового робота - вот и оставьте ему эту головную боль.

Eddie
На сайте с 12.07.2006
Offline
36
#2

Без словарей и привязки слов к тематике - никак вообще; даже элементарный фильтр на мат в гостевой книге/форуме без словаря не сделать, а Вы говорите об определении тематики документов.

А уж если определять по словарю, то просто посчитать частоту встречания слов из Вашего словаря в анализируемом документе с учетом словоформ и без учета регистра написания; и суммировать частоты встречания слов внутри одной тематики. Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей... Это самый примитивный способ, который может быть довольно эффективным при наличии огромного словаря и грамотной привязке всех слов из него к определенным темам.

Блог веселого программиста (http://www.bloged.org)
snoopckuu
На сайте с 26.02.2006
Offline
34
#3

Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.

AdultGO,

Как правило для этого и существуют каталоги в поисковых системах для описания их определённой тематики и определение географической принадлежности сайта. А анализировать текст каждой страницы нужны достаточно большие ресуры и большое кол-во времени для анализа тематики. Возможно в будуйщем что то такое и будет а пока - каталоги.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
B
На сайте с 02.09.2002
Offline
42
bvd
#4

определение соответствия заданной тематике - один из видов рубрикации/классификации

существует два основных подхода - прямого лексического описания (набор слов и словосочетаний, возможно, с весами и с логикой) и машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)

в зависимости от постановки задачи более эффективным оказывается тот или иной метод (или их гибрид).

если идет речь формирования тематической подборки из Интернет - сначала формируется коллекция с запасом (обходом сайтов, каталогов, исполнением кучки запросов в ПМ), затем фильтруется.

Литература обширная. Читайте.

AG
На сайте с 24.10.2006
Offline
0
#5

Sla_Dom! Вот и пытаемся научит его определению приблизтельного сответствия тематики. А каталоги это конечно хорошо, но всё же. в каталогах тоже нужно определять тематику на угад.. не все же сайты одинаковой структуры.

P.S. отлаживаем робота для поисковоЙ маленькой системки...

Eddie
На сайте с 12.07.2006
Offline
36
#6
snoopckuu:
Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.

snoopckuu, не поверите, но уже реализовано и работает. Если Вы хоть отдаленно имеете отношение к программированию (в чем я сильно сомневаюсь), то слово Perl Вам может быть знакомо; как разбить текст по словам, Вам подскажут старшие товарищи; как подсчитать количество слов в участке текста/файле, Вы возможно, догадаетесь сами. А что дальше делать со статистикой слов и словарем, я вкратце уже описал, более детально описывать алгоритм я не собираюсь.

P.S. Я ведущий программист одной известной московской фирмы,а Вы не провидец - это очевидно. Ничего личного, без обид.

snoopckuu
На сайте с 26.02.2006
Offline
34
#7

Eddie, :). Интересно увидить это на деле, особенно как это будет работать с хотя бы 1 млн документов.

Выводы у вас отличные.

harlot
На сайте с 21.10.2004
Offline
116
#8
Eddie:
Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей...

Какие еще способы существуют - именно алгоритмы - не подскажете? Этот метод не очень удовлетворяет скоростью работы, да и составить словарь с разбивкой по тематикам задача достаточно ресурсоемкая.

bvd:
машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)

А про это где можно почитать подробнее?

Vive como si fueras a morir mañana y Aprende como si fueras a vivir para Siempre.
Eddie
На сайте с 12.07.2006
Offline
36
#9

snoopckuu, это для внутреннего пользования, так что показать не смогу. Там нет 1 млн документов, но порядка 500 тысяч есть.

harolt, в первом сообщении этого топика речь не шла о скорости работы. Это действительно не быстро, но это легко реализуемо.

А как составить словарь с разбивкой - это наше ноу-хау.

harlot
На сайте с 21.10.2004
Offline
116
#10

Eddie, поверьте, всяких ноу-хау у нас и у самих хватает :)

Вопрос был про другие алгоритмы. Я так понимаю, другого решения не нашлось?

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий