AnyOf

Рейтинг
2
Регистрация
02.08.2010
HapKOTuK:
Частоты слов\словосочетаний, веса слов\словосочетаний на странице, базовые формы слов.

Мне кажется, сама вот эта база слов по тематикам Я.Каталога может представлять определенный интерес. Её не продаете? Если да, то, помимо цены, хотелось бы узнать некоторые параметры:

- По какой части Я.Каталога она построена? (Вряд ли ведь каталог взят целиком?)

- Сколько там выражений по каждой из тематик (в среднем)?

- Можно ли для примера привести топ выражений по одной-двум тематикам?

Имхо, результаты у сервиса неплохие.

Прошу прощения - нашел багу - залил не ту базу

А что представляет собой база, если не секрет?

или на наш новый форум, который я наконец-то запустил

А дискуссионного подписного листа по тематикам РОМИП нету?

mining-enc.ru/a/abix/

В принципе, это не самая простая страница для классификатора, ошибка простительна. "Семантическое зеркало" тут, кстати, выдает рубрики "Геология" и "Горная промышленность", ну так в него и вложена куча человеколет.

Яндекс.Директ подсказал еще такую штуку: http://www.acrg.ru/rus.html У них, видимо, нет готового универсального классификатора (информация на сайте слишком скудна), но можно уточнить.

Brand from Amber:
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

В теории, способ прост, да :) Но на практике там придется столкнуться с кучей проблем. Что и так понятно, впрочем :)

Brand from Amber:
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

Ошибочный - это слишком сильно сказано. Я бы сказал "недостаточно точный". Все-таки правильная рубрика была определена, а вот такие случаи с географией можно постобработать, если они действительно мешают.

AnyOf добавил 02.08.2010 в 21:53

Telegranimonic:

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Т. е. на странице были просто слова "смерть" и "война"?

Telegranimonic:

Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

Если б нормальное качество, то еще туда-сюда. Подозреваю, что "Семантическое зеркало"-то подороже выйдет, хотя точно не знаю, врать не буду.

Brand from Amber:

6. Из "верхушки" полученного массива определяем тематику.

Хм. А можно подробнее раскрыть этот пункт алгоритма? ;) Как именно на основании верхушки Вы предлагаете определять тему?

Brand from Amber:

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

А куча географических там понятно, из-за чего - из-за выпадающего списка "Регион".

AnyOf добавил 02.08.2010 в 21:10

А, да, вот еще, для полноты картины:

http://keva.ru/docThema.html

http://www.linkfeedator.ru/index.php?task=tematika

Но там с сайтом МТС дела обстоят похуже, чем у "Семантического зеркала".

Telegranimonic:
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.

Хочется рассортировать по какому-то своему специфическому списку тем или просто по универсальным темам типа "Здоровье", "Автомобили", "Образование" и т. д.? Во втором случае, действительно, может подойти что-то вроде "Семантического зеркала". В первом - придется позаниматься машинным обучением.