Выделение тэгов (часто встречающихся слов)

sozon

5 сентября 2009, 11:32

464

Здравствуйте.

Поделитесь опытом по выделению тэгов из текста. К примеру есть сайт, на нем есть некий контент. Хотелось бы на основе этого контента выделить тэги (наиболее часто встречающиеся слова).

С одиночными словами все в принципе понятно. Для каждого слова ищем количество повторов в текстах и берем самые частоупотребляемые, естественно выбрасывая союзы и предлоги.

А вот как найти многословные тэги? Т.е. например сайт про окна. В итоге будет найдено:

слово "окна" - 100 раз

слово "пластиковые" - 50 раз

Очевидно что часто эти слова встречались рядом ("Пластиковые окна"). Как найти такие варианты?

Может кто подкинет ссылки, где можно почитать про обработку текстов.

Спасибо.

[Удален]

5 сентября 2009, 12:10

так же как и обычные.

просто разбивается текст не через каждый пробел/знак препинания, а через каждую вторую.

Причем дважды - сначала через четные, а потом через нечетные.

Аналогично сочетания из трех слов - через три и три раза.

Разумеется при хороших навыках программирования это делается в 5 строчек

Тока это метод глупый, потому что не учитывает морфологию

Все что нужно знать о DDоS-атаках грамотному менеджеру

Google: E-E-A-T не является фактором ранжирования

Выделение тэгов (часто встречающихся слов)