Определение тематики текста

T

19

Telegranimonic

1 августа 2010, 14:03

4626

Есть много-много текстовых файлов различной тематики.

Хочется рассортировать по темам и сделать выборку по нужным.

Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки.

497

OPTIMER

1 августа 2010, 19:51

#1

Telegranimonic, тыренных?)

Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)

Выборку. Людьми надо будет делать, видимо.

оО Раскрутка сайтов без абон. платы, единоразово от 100.000 руб.

K

737

Kost

1 августа 2010, 20:30

#2

Вам нужно что-то типа "семантического зеркала".

Выделенные полосы в Москве (http://www.probkovorot.info) привели к снижению скорости до 23%.

309

Brand from Amber

1 августа 2010, 22:44

#3

Telegranimonic:
Пожалуйста, подскажите чем можно воспользоваться для пакетной обработки

VB. =) Алгоритм прост:

Разбиваем все слова по пробелам в массив
определяем словоформы (что бы не изобретать велосипед можно воспользоваться mystem)
Подсчитываем количество вхождения для каждого слова с учётом словоформ (в двумерный массив: слово, частота)
Сортируем полученный массив по частотности.
Убираем минус-слова.
Из "верхушки" полученного массива определяем тематику

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Лучший способ понять что-то самому - объяснить это другому.

T

19

Telegranimonic

2 августа 2010, 07:28

#4

OPTIMER:
Telegranimonic, тыренных?)
Если файлы уже есть, то сортировка их это уже малое дело, но у вас это не так :)
Выборку. Людьми надо будет делать, видимо.

Думаю, что если делать людьми, то нужна армия китайцев или машина времени, так как даже разархивирование этих статей занимает большое время. Например за 4 часа распаковалось только 1,5 млн. статей на машине Dual Opteron 265.

Вам нужно что-то типа "семантического зеркала".

Вчера давал запрос Ашманову на стоимость этого скрипта, пока нет ответа.

Мне кажется, что алгоритм не плохой. Он был бы полезен именно в моем случае, если ему подсунуть чистую статью. А тематику web-страниц он плохо определяет, потому что жрёт абсолютно все слова на странице включая менюшки, сайдбары и футеры. Цены бы ему не было, если бы он был поинтеллектуальнее в плане разбора кода страницы на основной текст и на всё остальное.

На сколько я понимаю готовых решений в природе не существует. Придется киркой работать.

AO

2

AnyOf

2 августа 2010, 16:13

#5

Telegranimonic:
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.

Хочется рассортировать по какому-то своему специфическому списку тем или просто по универсальным темам типа "Здоровье", "Автомобили", "Образование" и т. д.? Во втором случае, действительно, может подойти что-то вроде "Семантического зеркала". В первом - придется позаниматься машинным обучением.

T

19

Telegranimonic

2 августа 2010, 16:18

#6

Хочется раскидать по универсальным темам, как в Яндекс-каталоге.

AO

2

AnyOf

2 августа 2010, 16:27

#7

Brand from Amber:

6. Из "верхушки" полученного массива определяем тематику.

Хм. А можно подробнее раскрыть этот пункт алгоритма? ;) Как именно на основании верхушки Вы предлагаете определять тему?

Brand from Amber:

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

А куча географических там понятно, из-за чего - из-за выпадающего списка "Регион".

AnyOf добавил 02.08.2010 в 21:10

А, да, вот еще, для полноты картины:

http://keva.ru/docThema.html

http://www.linkfeedator.ru/index.php?task=tematika

Но там с сайтом МТС дела обстоят похуже, чем у "Семантического зеркала".

309

Brand from Amber

2 августа 2010, 17:13

#8

AnyOf:
Хм. А можно подробнее раскрыть этот пункт алгоритма? Как именно на основании верхушки Вы предлагаете определять тему?

Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

AnyOf:
Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

Телеграмм - на сколько Тревожно насчет fozzy.ru Помощь в фильтрации ботов

T

19

Telegranimonic

2 августа 2010, 17:26

#9

Относительно недавно были эксперименты над тематическим фильтром.

/ru/forum/474938;highlight=cfilter.ru

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Жалко, что не доработано, да ещё и платно.

Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

AO

2

AnyOf

2 августа 2010, 17:42

#10

Brand from Amber:
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

В теории, способ прост, да :) Но на практике там придется столкнуться с кучей проблем. Что и так понятно, впрочем :)

Brand from Amber:
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

Ошибочный - это слишком сильно сказано. Я бы сказал "недостаточно точный". Все-таки правильная рубрика была определена, а вот такие случаи с географией можно постобработать, если они действительно мешают.

AnyOf добавил 02.08.2010 в 21:53

Telegranimonic:

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Т. е. на странице были просто слова "смерть" и "война"?

Telegranimonic:

Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

Если б нормальное качество, то еще туда-сюда. Подозреваю, что "Семантическое зеркало"-то подороже выйдет, хотя точно не знаю, врать не буду.

Что делать, если ваша email-рассылка попала в спам

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах