Признаки похожести

InSAn · 2005-04-26T08:23:35.0000000Z

Задача: найти похожие страницы. Например, есть множество сайтов, на которые стоят ссылки типа: ...com/ ...com/?id=1 ...com/?p=2 и т.д. При этом контент совершенно не различается. Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять... Какие есть мысли?

E

17

eshum

28 апреля 2005, 10:40

#31

Как писал Rusl

Просто сравнивая 1-ый ранг (шинглы кратны 10) с 3-им (шинглы кратны 40), из первого для сравнения выбираем только кратные 40-ка. Понимаете?

А если прийдется сравнивать наоборот, 3-й ранг (шинглы кратны 40) с 1-м рангом (шинглы кратны 10), ведь 40 не кратно 10?

R

37

Rusl

28 апреля 2005, 11:01

#32

Как писал eshum

А если прийдется сравнивать наоборот, 3-й ранг (шинглы кратны 40) с 1-м рангом (шинглы кратны 10), ведь 40 не кратно 10?

Сравнить 3-й с 1-м рангом при кратности шинглов 10 нельзя по принципиальным причинам (иначе Вам необходимо хранить для 3-го ранга шинглы кратные 10, что самом по себе убивает весь смысл в разделении на ранги).

3-й ранг сравнивается с 1-м точно так же как и 1-й с 3-м. Какая разница? Просто для сравнения из шинглов 1го ранга кратных 10 берутся только шинглы кратные 40-ка.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

17

eshum

28 апреля 2005, 11:25

#33

Как писал Rusl

Сравнить 3-й с 1-м рангом при кратности шинглов 10 нельзя по принципиальным причинам (иначе Вам необходимо хранить для 3-го ранга шинглы кратные 10, что самом по себе убивает весь смысл в разделении на ранги).

3-й ранг сравнивается с 1-м точно так же как и 1-й с 3-м. Какая разница? Просто для сравнения из шинглов 1го ранга кратных 10 берутся только шинглы кратные 40-ка.

Ведь смысл в шинглах вычислить их для каждого вновь добавляемого документа один раз и сохранить только кратные некоторому числу для последующего сравнения, тем самым съэкономив ресурсы машины.

А так, при поиске документа 3-го ранга среди ранее сохраненных шинглах документов 1-х рангов прийдется либо пересчитывать шинглы "на лету" для всех документов 1-го ранга, либо хранить все шинглы и при поиске брать только кратные искомому.

Я имею ввиду ситуацию, когда документы добавляются в коллекцию в произвольном порядке (не в порядке возрастания/убывания их длины), что характерно для большинства поисковых машин.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

R

37

Rusl

28 апреля 2005, 12:03

#34

Как писал eshum

А так, при поиске документа 3-го ранга среди ранее сохраненных шинглах документов 1-х рангов прийдется либо пересчитывать шинглы "на лету" для всех документов 1-го ранга, либо хранить все шинглы и при поиске брать только кратные искомому.

...либо хранить все шинглы и при поиске брать только кратные искомому. Но это только для документов разных рангов! Для документов же одних рангов, будем брать все шинглы имеющие кратность соответствующую данному рангу. Например

док1 (ранг1):

19734298510

44578957880

36719111850

94235456700

док2 (ранг2):

54887592520

52856783240

Сравниваем только:

из док1 - 44578957880, 94235456700

из док2 - 54887592520, 52856783240

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

E

17

eshum

28 апреля 2005, 13:25

#35

Как писал Rusl

...либо хранить все шинглы и при поиске брать только кратные искомому. Но это только для документов разных рангов! Для документов же одних рангов, будем брать все шинглы имеющие кратность соответствующую данному рангу. Например...

Кажется понял. Т.е. Вы предпологаете что документы разной длины всегда различны если они не находятся в пределах одного ранга.

R

37

Rusl

28 апреля 2005, 14:28

#36

Как писал eshum

Кажется понял. Т.е. Вы предпологаете что документы разной длины всегда различны если они не находятся в пределах одного ранга.

Да нет же. Страницы на границе рангов вполне могут быть "почти похожими". Я уж и не знаю как объяснить.

Хотя...

может быт, это и не такая плохая идея. Для повышения скорости можно сравнивать только документы объем которых различается не более чем в заранее заданное число раз. Так как если документы отличаются, например, больше чем в два раза то они не могут быть "почти похожими". Хотя, стоит оговорится, если необходимо помимо почти-дубликатов определять и включенность, то этот метод не прокатит.

Нарушения и угрозы безопасности Google Updates - апдейты Джон Мюллер: асессоры Google

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Что делать, если ваша email-рассылка попала в спам