[поисковые алгоритмы] выделение полезной информации

NN
На сайте с 02.07.2004
Offline
0
749

Есть научно-популярное издание

У него есть сайт, где выкладываются номера этого издания.

Нужен алгоритм, который бы мог вычленить полезную информацию , т.е. , на основе сравнения документов (статей), мог бы удалить безполезную информацию (навигацию, рекламу, служебную инфу и т.д.)

Может быть кто знает статьи или где можно посмотреть необходимую информацию по этому поводу?

[Удален]
#1

Ну так вот навскидку в unix'е есть замечательная команда diff :) Она позволяет сравнивать файлы... Т.е. сравнив 2 файла она выделит как раз то, что не является идентичным. Грубо конечно и вывод все равно надо дальше обрабатывать, но все же :)

I
На сайте с 08.07.2004
Offline
0
#2

NA_NEBE, Извиняюсь.

Григорий Селезнев
На сайте с 25.09.2001
Offline
298
#3

если есть некая шаблонность и сайт не Ваш, то можно вычленять контент на признаках длинных предложений или абзацев. Рекламный контент часто не является повествовательным.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий