определение вероятности тематики докумета

0

AdultGO

27 октября 2006, 20:34

4638

Я конечно понимаю, что нельзя точно определить тематику докумета машинніми средствами, кроме анализа всего контента по большому словарю :D, что не целесообразно, когда таких документов много.

Есть к примеру док, мне нужны доки только определённой тематики, как определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики? :gm:

252

Sla_Dom

27 октября 2006, 20:42

#1

AdultGO:
ак определить приблизительную хотябы вероятность того, что док относится к нужной мне тематики

вам зачем определять то? Это задача поискового робота - вот и оставьте ему эту головную боль.

36

Eddie

28 октября 2006, 13:24

#2

Без словарей и привязки слов к тематике - никак вообще; даже элементарный фильтр на мат в гостевой книге/форуме без словаря не сделать, а Вы говорите об определении тематики документов.

А уж если определять по словарю, то просто посчитать частоту встречания слов из Вашего словаря в анализируемом документе с учетом словоформ и без учета регистра написания; и суммировать частоты встречания слов внутри одной тематики. Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей... Это самый примитивный способ, который может быть довольно эффективным при наличии огромного словаря и грамотной привязке всех слов из него к определенным темам.

Блог веселого программиста (http://www.bloged.org)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

28 октября 2006, 18:56

#3

Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.

AdultGO,

Как правило для этого и существуют каталоги в поисковых системах для описания их определённой тематики и определение географической принадлежности сайта. А анализировать текст каждой страницы нужны достаточно большие ресуры и большое кол-во времени для анализа тематики. Возможно в будуйщем что то такое и будет а пока - каталоги.

Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

B

42

bvd

29 октября 2006, 11:13

#4

определение соответствия заданной тематике - один из видов рубрикации/классификации

существует два основных подхода - прямого лексического описания (набор слов и словосочетаний, возможно, с весами и с логикой) и машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)

в зависимости от постановки задачи более эффективным оказывается тот или иной метод (или их гибрид).

если идет речь формирования тематической подборки из Интернет - сначала формируется коллекция с запасом (обходом сайтов, каталогов, исполнением кучки запросов в ПМ), затем фильтруется.

Литература обширная. Читайте.

Яндекс Карты запустили нейросетевой ПОИСКОВАЯ ОПТИМИЗАЦИЯ И ПРОДВИЖЕНИЕ Яндекс.Переводчик научился переводить текст

AG

0

AdultGO

30 октября 2006, 06:11

#5

Sla_Dom! Вот и пытаемся научит его определению приблизтельного сответствия тематики. А каталоги это конечно хорошо, но всё же. в каталогах тоже нужно определять тематику на угад.. не все же сайты одинаковой структуры.

P.S. отлаживаем робота для поисковоЙ маленькой системки...

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

36

Eddie

31 октября 2006, 06:26

#6

snoopckuu:
Eddie, очень интересно слушать ваше рассуждение особенно когда вы его называете примитивным, попробуйте реализовать его на деле сразу видно что вы не программист. Без обид.

snoopckuu, не поверите, но уже реализовано и работает. Если Вы хоть отдаленно имеете отношение к программированию (в чем я сильно сомневаюсь), то слово Perl Вам может быть знакомо; как разбить текст по словам, Вам подскажут старшие товарищи; как подсчитать количество слов в участке текста/файле, Вы возможно, догадаетесь сами. А что дальше делать со статистикой слов и словарем, я вкратце уже описал, более детально описывать алгоритм я не собираюсь.

P.S. Я ведущий программист одной известной московской фирмы,а Вы не провидец - это очевидно. Ничего личного, без обид.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

34

snoopckuu

31 октября 2006, 08:26

#7

Eddie, :). Интересно увидить это на деле, особенно как это будет работать с хотя бы 1 млн документов.

Выводы у вас отличные.

116

harlot

31 октября 2006, 08:38

#8

Eddie:
Там, где сумма получилась наибольшая, та тема и будет наиболее подходящей...

Какие еще способы существуют - именно алгоритмы - не подскажете? Этот метод не очень удовлетворяет скоростью работы, да и составить словарь с разбивкой по тематикам задача достаточно ресурсоемкая.

bvd:
машинного обучения (сначала откладываются тексты по теме/темам - специальные алгоритмы строят классифицирующие правила)

А про это где можно почитать подробнее?

Vive como si fueras a morir mañana y Aprende como si fueras a vivir para Siempre.

Переделка скрипта clickunder в Google Updates - апдейты Упал доход

36

Eddie

31 октября 2006, 08:58

#9

snoopckuu, это для внутреннего пользования, так что показать не смогу. Там нет 1 млн документов, но порядка 500 тысяч есть.

harolt, в первом сообщении этого топика речь не шла о скорости работы. Это действительно не быстро, но это легко реализуемо.

А как составить словарь с разбивкой - это наше ноу-хау.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

116

harlot

31 октября 2006, 12:04

#10

Eddie, поверьте, всяких ноу-хау у нас и у самих хватает :)

Вопрос был про другие алгоритмы. Я так понимаю, другого решения не нашлось?

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов