Комментарии - AnyOf - Профиль вебмастера - Форум об интернет-маркетинге

Автоматическое определение тематики _страницы_. Надо?

21 ноября 2010, 18:41

HapKOTuK:
Частоты слов\словосочетаний, веса слов\словосочетаний на странице, базовые формы слов.

Мне кажется, сама вот эта база слов по тематикам Я.Каталога может представлять определенный интерес. Её не продаете? Если да, то, помимо цены, хотелось бы узнать некоторые параметры:

- По какой части Я.Каталога она построена? (Вряд ли ведь каталог взят целиком?)

- Сколько там выражений по каждой из тематик (в среднем)?

- Можно ли для примера привести топ выражений по одной-двум тематикам?

Автоматическое определение тематики _страницы_. Надо?

19 ноября 2010, 23:20

Имхо, результаты у сервиса неплохие.

Прошу прощения - нашел багу - залил не ту базу

А что представляет собой база, если не секрет?

или на наш новый форум, который я наконец-то запустил

А дискуссионного подписного листа по тематикам РОМИП нету?

mining-enc.ru/a/abix/

В принципе, это не самая простая страница для классификатора, ошибка простительна. "Семантическое зеркало" тут, кстати, выдает рубрики "Геология" и "Горная промышленность", ну так в него и вложена куча человеколет.

Определение тематики текста

2 августа 2010, 18:25

Яндекс.Директ подсказал еще такую штуку: http://www.acrg.ru/rus.html У них, видимо, нет готового универсального классификатора (информация на сайте слишком скудна), но можно уточнить.

Определение тематики текста

2 августа 2010, 17:42

Brand from Amber:
Ну это кому насколько воображения хватит. Самый простой способ взять 2-а верхних слова =)

В теории, способ прост, да :) Но на практике там придется столкнуться с кучей проблем. Что и так понятно, впрочем :)

Brand from Amber:
ДЫК он же взял. И неважно, что они там в LI и т.п... важно, что результат скрипт вернул ошибочный.

Ошибочный - это слишком сильно сказано. Я бы сказал "недостаточно точный". Все-таки правильная рубрика была определена, а вот такие случаи с географией можно постобработать, если они действительно мешают.

AnyOf добавил 02.08.2010 в 21:53

Telegranimonic:

В принципе интересно, но у меня чистая страница про смерть и войну определилась как юмор.

Т. е. на странице были просто слова "смерть" и "война"?

Telegranimonic:

Жалко, что не доработано, да ещё и платно.
Если мне нужно проверить 1 000 000 страниц, то придется заплатить 1000 WMZ. :(

Если б нормальное качество, то еще туда-сюда. Подозреваю, что "Семантическое зеркало"-то подороже выйдет, хотя точно не знаю, врать не буду.

Определение тематики текста

2 августа 2010, 16:27

Brand from Amber:

6. Из "верхушки" полученного массива определяем тематику.

Хм. А можно подробнее раскрыть этот пункт алгоритма? ;) Как именно на основании верхушки Вы предлагаете определять тему?

Brand from Amber:

Kost, прикольно это "зеркало" определило тематику сайта МТС (mts.ru)

Если географические рубрики не брать, то выдается только "Мобильная связь". Все правильно, вроде как.

А куча географических там понятно, из-за чего - из-за выпадающего списка "Регион".

AnyOf добавил 02.08.2010 в 21:10

А, да, вот еще, для полноты картины:

http://keva.ru/docThema.html

http://www.linkfeedator.ru/index.php?task=tematika

Но там с сайтом МТС дела обстоят похуже, чем у "Семантического зеркала".

Определение тематики текста

2 августа 2010, 16:13

Telegranimonic:
Есть много-много текстовых файлов различной тематики.
Хочется рассортировать по темам и сделать выборку по нужным.

Хочется рассортировать по какому-то своему специфическому списку тем или просто по универсальным темам типа "Здоровье", "Автомобили", "Образование" и т. д.? Во втором случае, действительно, может подойти что-то вроде "Семантического зеркала". В первом - придется позаниматься машинным обучением.

Дзен реализовал для авторов возможность вывода денег через СПБ

Маркетинг для шоколадной фабрики. На 34% выше средний чек

AnyOf