Определение тематики текста

12
T
На сайте с 22.06.2009
Offline
19
4613

Есть много-много текстовых файлов различной тематики.

Хочется рассортировать по темам и сделать выборку по нужным.

Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки.

OPTIMER
На сайте с 05.01.2006
Offline
497
#1

Telegranimonic, тыренных?)

Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)

Выборку. Людьми надо будет делать, видимо.

оО Раскрутка сайтов без абон. платы, единоразово от 100.000 руб.
K
На сайте с 31.01.2001
Offline
737
#2

Вам нужно что-то типа "семантического зеркала".

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.
Brand from Amber
На сайте с 18.08.2007
Offline
293
#3
Telegranimonic:
Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки

VB. =) Алгоритм прост:

  • Разбиваем все слова по пробелам в массив
  • определяем словоформы (что бы не изобретать велосипед можно воспользоваться mystem)
  • Подсчитываем количество вхождения для каждого слова с учётом словоформ (в двумерный массив: слово, частота)
  • Сортируем полученный массив по частотности.
  • Убираем минус-слова.
  • Из "верхушки" полученного массива определяем тематику

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Лучший способ понять что-то самому - объяснить это другому.
T
На сайте с 22.06.2009
Offline
19
#4
OPTIMER:
Telegranimonic, тыренных?)
Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)
Выборку. Людьми надо будет делать, видимо.

Думаю, что если делать людьми, то нужна армия китайцев или машина времени, так как даже разархивирование этих статей занимает большое время. Например за 4 часа распаковалось только 1,5 млн. статей на машине Dual Opteron 265.

Вам нужно что-то типа "семантического зеркала".

Вчера давал запрос Ашманову на стоимость этого скрипта, пока нет ответа.

Мне кажется, что алгоритм не плохой. Он был бы полезен именно в моем случае, если ему подсунуть чистую статью. А тематику web-страниц он плохо определяет, потому что жрёт абсолютно все слова на странице включая менюшки, сайдбары и футеры. Цены бы ему не было, если бы он был поинтеллектуальнее в плане разбора кода страницы на основной текст и на всё остальное.

На сколько я понимаю готовых решений в природе не существует. Придется киркой работать.

AO
На сайте с 02.08.2010
Offline
2
#5
Telegranimonic:
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.

Хочется рассортировать по какому-то своему специфическому списку тем или просто по универсальным темам типа "Здоровье", "Автомобили", "Образование" и т. д.? Во втором случае, действительно, может подойти что-то вроде "Семантического зеркала". В первом - придется позаниматься машинным обучением.

T
На сайте с 22.06.2009
Offline
19
#6

Хочется раскидать по универсальным темам, как в Яндекс-каталоге.

AO
На сайте с 02.08.2010
Offline
2
#7
Brand from Amber:

6. Из "верхушки" полученного массива определяем тематику.

Хм. А можно подробнее раскрыть этот пункт алгоритма? ;) Как именно на основании верхушки Вы предлагаете определять тему?

Brand from Amber:

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

А куча географических там понятно, из-за чего - из-за выпадающего списка "Регион".

AnyOf добавил 02.08.2010 в 21:10

А, да, вот еще, для полноты картины:

http://keva.ru/docThema.html

http://www.linkfeedator.ru/index.php?task=tematika

Но там с сайтом МТС дела обстоят похуже, чем у "Семантического зеркала".

Brand from Amber
На сайте с 18.08.2007
Offline
293
#8
AnyOf:
Хм. А можно подробнее раскрыть этот пункт алгоритма? Как именно на основании верхушки Вы предлагаете определять тему?

Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

AnyOf:
Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

T
На сайте с 22.06.2009
Offline
19
#9

Относительно недавно были эксперименты над тематическим фильтром.

/ru/forum/474938;highlight=cfilter.ru

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Жалко, что не доработано, да ещё и платно.

Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

AO
На сайте с 02.08.2010
Offline
2
#10
Brand from Amber:
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

В теории, способ прост, да :) Но на практике там придется столкнуться с кучей проблем. Что и так понятно, впрочем :)

Brand from Amber:
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

Ошибочный - это слишком сильно сказано. Я бы сказал "недостаточно точный". Все-таки правильная рубрика была определена, а вот такие случаи с географией можно постобработать, если они действительно мешают.

AnyOf добавил 02.08.2010 в 21:53

Telegranimonic:

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Т. е. на странице были просто слова "смерть" и "война"?

Telegranimonic:

Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

Если б нормальное качество, то еще туда-сюда. Подозреваю, что "Семантическое зеркало"-то подороже выйдет, хотя точно не знаю, врать не буду.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий