Разработчикам вопрос, какой длинны шингл пользуете для определения уникальности?

W
На сайте с 02.10.2004
Offline
78
481

подскажите плз за сабж.

задача, отсеивать частичный дуп.

10 слов, больше, меньше? почему?

принципиальная разница между 10 и 7-8 словными будет в точности?

banshee(oleg)
На сайте с 12.08.2007
Offline
140
#1

Почти везде используется длина шингла 10. Почему? Во многих описаниях шинглов эта величина принята за стадартную, только поэтому. Уменьшение до некоторого предела может повысить точность, но чрезмерное уменьшение будет излишним. Понятно, наверное, почему.

ИМХО, длина 10 достаточна, если сочетать с ээ.. другим методом, забыл название, учитывающим расстояния (позволяет от перестановок местами защититься).

//ad

Собственно, в моей программе Article Copy Master для фильтра генерируемых текстов по уникальности используются шинглы (д.10) с предварительной обработкой текста псевдолемматизатором.

ortega3000
На сайте с 11.06.2007
Offline
32
#2

Чем короче шингл, тем точнее можно отловить дуп, но разница будет и не очень велика. Но это влечет за собой увеличение как используемой памяти, так и используемого времени.

Насколько я знаю, все известные в паблике программы для сравнения текстов используют шинглы длиной в 10 слов.

W
На сайте с 02.10.2004
Offline
78
#3

тобишь, что 8, что 10 - принципиальной разницы не будет?

услышал что хотел, пасиб)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий