Алгоритмы определения нечетких дубликатов

123 4
E
На сайте с 27.08.2005
Offline
15
#11

Я смотрю у вас обратная задача :) Обмануть поисковик. Но антиподход - тоже интересно ;) Сейчас просмотрю.

AiK
На сайте с 27.10.2000
Offline
257
AiK
#12

Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

E
На сайте с 27.08.2005
Offline
15
#13
AiK:
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

Плох прежде всего тем, что это легко обойти. Оно и не удивительно, т.к. оперирование идет показателем TF, который очень сильно подвержен влиянию onpage факторов. Гораздо разумнее смотреть на IDF:

http://www.ir.iit.edu/publications/downloads/p171-chowdhury.pdf

Но все зависит от того, какие дубли отлавливаются. Если неумышленные дубли - это одно дела, а спам - совершенно другое.

kir_pich
На сайте с 09.07.2006
Offline
124
#14

скажу по секрету, для яндекса самое оптимальное 5 процентов из всего текчта на странице!

в дубле выпадут все страницы, даже ежели они будут отлечаться друг от друга 2-3 словами!

я не идиот, просто у меня винтиков в голове не хватает! (c) kir_pich
L
На сайте с 02.05.2004
Offline
35
#15
AiK:
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

Только тем что он в принципе не работает как впрочем и все чисто частотные алгоритмы. надо отслеживать еще порядок слов и многое другое. И даже если применять статистику то нельзя наиболее часто встречающиеся слова в документе -- как правило это будут общеупотребительные слова.

Вообще говоря интеллектуальное решение данной проблемы уже есть и успешно работает в корпоративном секкторе -- http://www.searchinform.com/site/ru/index.htm

Leo www.searchinform.ru (www.searchinform.ru)
!Иван FXS
На сайте с 16.11.2001
Offline
119
#16

Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

E
На сайте с 27.08.2005
Offline
15
#17
!Иван FXS:
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

С определением здесь туговато ;) Обычно придумывается метод, потом в рамках сформулировнной теории дается определение нечеткого дубликата. Главное, чтобы это определение совпадало, в большинстве своем, с оценками экспертов. А на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, здесь мы не затрагиваем понятие смысла текста, т.к. в принципе можно перефразировать полность текст, не потеряв смысл, но к сожалению анализ смысловой нарузки машине пок ане по зубам ;)

!Иван FXS
На сайте с 16.11.2001
Offline
119
#18
Eugen:
... на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, ...

- акцент на содержат или изменения?

Первое предполагает, что на страницах "один и тот же текст" обрамлен различающимися хедерами, футерами и всяческими навигационными меню.

А второе - что текст (на страницах) В ЦЕЛОМ один и тот же, но в него "вкраплены" различные мелкие изменения ...

Методы будут разные - в зависимости от указанных акцентов.

Segey
На сайте с 23.08.2005
Offline
404
#19
!Иван FXS:
Методы будут разные - в зависимости от указанных акцентов.

Вероятно второй метод использовать больше смысла, так как если мы нашли нечеткий дубль с небольшими изменениями именно текста, то какая впринципе разница какой там хеадер и футер, там всеравно интересного уже не найдешь.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)
!Иван FXS
На сайте с 16.11.2001
Offline
119
#20

Материя есть объективная реальность данная нам в ощущениях, как учил дедушка Ленин ...

Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий