[поисковые алгоритмы] выделение полезной информации

0

NA_NEBE

2 июля 2004, 12:57

756

Есть научно-популярное издание

У него есть сайт, где выкладываются номера этого издания.

Нужен алгоритм, который бы мог вычленить полезную информацию , т.е. , на основе сравнения документов (статей), мог бы удалить безполезную информацию (навигацию, рекламу, служебную инфу и т.д.)

Может быть кто знает статьи или где можно посмотреть необходимую информацию по этому поводу?

[Удален]

2 июля 2004, 13:31

#1

Ну так вот навскидку в unix'е есть замечательная команда diff :) Она позволяет сравнивать файлы... Т.е. сравнив 2 файла она выделит как раз то, что не является идентичным. Грубо конечно и вывод все равно надо дальше обрабатывать, но все же :)

Добавьте налоговую информацию Нужно забанить ботов htaccess Нарушение требований к запросам

I

0

iftoed

11 июля 2004, 00:53

#2

NA_NEBE, Извиняюсь.

298

Григорий Селезнев

11 июля 2004, 17:52

#3

если есть некая шаблонность и сайт не Ваш, то можно вычленять контент на признаках длинных предложений или абзацев. Рекламный контент часто не является повествовательным.

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Курс биткоина превысил $50 тысяч