Определение тематики страницы (Бурж)

[Удален]
433

Хочу представить вашему вниманию инструмент определения тематики страницы.

Изначально задача была поставлена как быстрое определения тематики доменов для помещения на парковки. Однако начав разработку, я несколько углубился в идею.

Каркас тематик строился на Каталоге Google и DMOZ: сейчас в алгоритм заложены ~1200 тематик и около 600к английских слов.

Сам алгоритм определения после теоретической разработки получился, мягко говоря, «несколько хрупким» в плане огромной тонкости его настройки и возможных параметров. Поэтому я рассчитывал после окончания сборки получить весьма такой забавный бредо-генератор, не более того.

Однако результаты меня, мягко говоря, удивили. Видимо природа в виде мат. статистики доделала все сама.

Сейчас провел тест, определяя тематику 5 000 страниц, взятых из разных тематических категорий DMOZ.

При выдаче алгоритмом 3-х возможных вариантов, отсортированных по степени релевантности:

1. 59% (!) сайтов точно определили тематику во вхождении на 1-м месте. Т.е. в 59% случаев релевантность составляла 100%.

2. 72% (!!!) сайтов имели точное совпадение тематики в одном из трех первых результатов.

3. Если учесть, что в оставшихся 28% присутствуют недоступные сайты, сайты без текстового или англоязычного контента - то результат весьма таки впечатляющ.

Сам алгоритм в бета-версии и доступен по адресу: Определение тематики страницы (Внимание, вообще не работает с русскоязычными сайтами - нужны ТОЛЬКО рабочие страницы с английским контентом)

Стоит отметить, что, как я полагаю всего в DMOZ+Google каталоге более 3000 тематик, поэтому, учитывая, что я взял за основу уровень вложения не больше 4 (1200 тематик) - многие узкоспециализированные темы не могут быть определены в принципе, однако алгоритм постарается найти им свое близкое значение.

Например, сейчас в алгоритм вообще не заложены тематики доменных имен. Однако алгоритм для таких тематик попытается найти максимально соответствующий результат.

К примеру, на запрос сайтов доменных регистраторов выдаст такие результаты:

1. Godaddy.com = shopping=>auctions

2. Register.com = reference=>directories=>address and phone numbers

3. Icann.org = news=>directories=>headline links

Очевидные тематики щелкает как орешки:

1. cats.about.com = recreation=>pets=>cats

(а вот для cat.com = business=>electronics and electrical=>instrumentation=>data acquisition and control)

2. foodnetwork.com = recreation=>food

Сам инструмент можно найти и опробовать по адресу тут .

Хотелось бы услышать мнения по этому поводу.

Скопировано мной отсюда.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий