Выделение тэгов (часто встречающихся слов)

sozon
На сайте с 04.09.2006
Offline
90
460

Здравствуйте.

Поделитесь опытом по выделению тэгов из текста. К примеру есть сайт, на нем есть некий контент. Хотелось бы на основе этого контента выделить тэги (наиболее часто встречающиеся слова).

С одиночными словами все в принципе понятно. Для каждого слова ищем количество повторов в текстах и берем самые частоупотребляемые, естественно выбрасывая союзы и предлоги.

А вот как найти многословные тэги? Т.е. например сайт про окна. В итоге будет найдено:

слово "окна" - 100 раз

слово "пластиковые" - 50 раз

Очевидно что часто эти слова встречались рядом ("Пластиковые окна"). Как найти такие варианты?

Может кто подкинет ссылки, где можно почитать про обработку текстов.

Спасибо.

[Удален]
#1

так же как и обычные.

просто разбивается текст не через каждый пробел/знак препинания, а через каждую вторую.

Причем дважды - сначала через четные, а потом через нечетные.

Аналогично сочетания из трех слов - через три и три раза.

Разумеется при хороших навыках программирования это делается в 5 строчек

Тока это метод глупый, потому что не учитывает морфологию

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий