Используйте нечеткие дубликатоми. Надо отслеживать количество употреблений N самых часто встречающихся слов в документе, за исключением некоторых - Поисковые технологии

Алгоритмы определения нечетких дубликатов

Eugen · 2006-06-18T15:00:17.0000000Z

Знаю, тема уже поднималась не раз, но все-таки хотелось бы собрать summary насчет существующих алгоритомов. Я знаю о 2х алгоритмах определения дублировния - шинглы и http://company.yandex.ru/articles/article7.html (descriptive words). С шинглами - все понятно, но вот они очень небыстрые. Что же касается метода, преложенного Sergey Ilyinsky, Maxim Kuzmin, Alexander Melkov, Ilya Segalovich, то он заявлен как более быстрый и проще в реализации. Вот только не ясно, как же все-таки выбирать эти слова. Есть 3 правила: 1. A set of words should cover the maximal possible amount of documents 2. The "quality" of a word in the sense described below should be the highest 3. The number of words in the set should be minimal Но, к сожалению, конкретики это не прибавляет. В дополнение к 2м перечисленным методам, есть еще такая идея - считать контрольную сумму от слов с частотами появления в интервале 3% - 4% (пока что сказал наобум, смысл в том, чтобы учитывать слова из "середины" по частоте появления в документе)

E

15

Eugen

8 июля 2006, 23:14

#11

Я смотрю у вас обратная задача :) Обмануть поисковик. Но антиподход - тоже интересно ;) Сейчас просмотрю.

Eugen's blog (http://www.kochuev.com/)

257

AiK

8 июля 2006, 23:39

#12

Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

15

Eugen

8 июля 2006, 23:48

#13

AiK:
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

Плох прежде всего тем, что это легко обойти. Оно и не удивительно, т.к. оперирование идет показателем TF, который очень сильно подвержен влиянию onpage факторов. Гораздо разумнее смотреть на IDF:

http://www.ir.iit.edu/publications/downloads/p171-chowdhury.pdf

Но все зависит от того, какие дубли отлавливаются. Если неумышленные дубли - это одно дела, а спам - совершенно другое.

124

kir_pich

9 июля 2006, 02:34

#14

скажу по секрету, для яндекса самое оптимальное 5 процентов из всего текчта на странице!

в дубле выпадут все страницы, даже ежели они будут отлечаться друг от друга 2-3 словами!

я не идиот, просто у меня винтиков в голове не хватает! (c) kir_pich

L

35

Leom

6 августа 2006, 16:38

#15

AiK:
Интересно, а чём плох вариант сравнения количества употреблений N самых частовстречающихся слов в документе? Гугль очень похоже, что именно так и поступает, а потому документы с малым количеством текста у него в supplemental results попадают.

Только тем что он в принципе не работает как впрочем и все чисто частотные алгоритмы. надо отслеживать еще порядок слов и многое другое. И даже если применять статистику то нельзя наиболее часто встречающиеся слова в документе -- как правило это будут общеупотребительные слова.

Вообще говоря интеллектуальное решение данной проблемы уже есть и успешно работает в корпоративном секкторе -- http://www.searchinform.com/site/ru/index.htm

Leo www.searchinform.ru (www.searchinform.ru)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

6 августа 2006, 17:37

#16

Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

E

15

Eugen

6 августа 2006, 21:09

#17

!Иван FXS:
Мне кажется, сначала нужно сформулировать, что именно Вы понимаете под "нечеткими дубликатами", а потом уже - говорить об "алгоритмах их определения" ...

С определением здесь туговато ;) Обычно придумывается метод, потом в рамках сформулировнной теории дается определение нечеткого дубликата. Главное, чтобы это определение совпадало, в большинстве своем, с оценками экспертов. А на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, здесь мы не затрагиваем понятие смысла текста, т.к. в принципе можно перефразировать полность текст, не потеряв смысл, но к сожалению анализ смысловой нарузки машине пок ане по зубам ;)

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

119

!Иван FXS

7 августа 2006, 01:37

#18

Eugen:
... на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, ...

- акцент на содержат или изменения?

Первое предполагает, что на страницах "один и тот же текст" обрамлен различающимися хедерами, футерами и всяческими навигационными меню.

А второе - что текст (на страницах) В ЦЕЛОМ один и тот же, но в него "вкраплены" различные мелкие изменения ...

Методы будут разные - в зависимости от указанных акцентов.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

404

Segey

7 августа 2006, 03:25

#19

!Иван FXS:
Методы будут разные - в зависимости от указанных акцентов.

Вероятно второй метод использовать больше смысла, так как если мы нашли нечеткий дубль с небольшими изменениями именно текста, то какая впринципе разница какой там хеадер и футер, там всеравно интересного уже не найдешь.

Brexit - уже совсем рядом. (https://about-this-model.blogspot.com/2019/03/brexit.html)

119

!Иван FXS

7 августа 2006, 07:11

#20

Материя есть объективная реальность данная нам в ощущениях, как учил дедушка Ленин ...

Это я к тому, что документ-то "нам дан" целиком - вместе с хедерами и футерами ...

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Алгоритмы определения нечетких дубликатов