Сравнительный анализ методов определения нечетких дубликатов для Web-документов

raspberry
На сайте с 22.01.2007
Offline
129
1000

Юрий Зеленков и Илья Сегалович (Яндекс) написали исследование методов определения дубликатов веб-страниц.

В работе дается сравнительное экспериментальное исследование наиболее популярных современных методов обнаружения нечетких дубликатов для текстовых документов. Приводится количественная оценка показателей полноты, точности и F-меры. Тестовый набор, использованный в экспериментах, представляет собой веб-коллекцию РОМИП. Предложены два новых алгоритма, имеющих высокие показатели качества.


Исследование PDF-файлом

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий