Признаки похожести

123 4
InSAn
На сайте с 13.01.2003
Offline
60
3487

Задача: найти похожие страницы.

Например, есть множество сайтов, на которые стоят ссылки типа:

...com/

...com/?id=1

...com/?p=2

и т.д.

При этом контент совершенно не различается.

Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...

Какие есть мысли?

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)
VT
На сайте с 27.01.2001
Offline
130
#1
Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...
Какие есть мысли?

Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.

InSAn
На сайте с 13.01.2003
Offline
60
#2

Контент - да, но сама страница весьма незначительно меняется.

Отличие в один символ - уже проблема.

Как вариант, брать только от текста (исключая все остальное). Но что-то мне подсказывает, что это не совсем верно...

Artisan
На сайте с 04.03.2005
Offline
374
#3

Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов
InSAn
На сайте с 13.01.2003
Offline
60
#4
Как писал Artisan
Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Как проверить - это я знаю. Вопрос в другом - что проверить :)

Т.е. каким образом отбирать страницы, которые подлежат проверке.

Если же проверять все подряд - никаких мощностей не хватит :)

Как писал Artisan Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

Т.е.?

Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?

Мыло всое в личку бросьте - проверим отлупы.

Artisan
На сайте с 04.03.2005
Offline
374
#5
Как писал InSAn
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?

Не так чтобы постоянно но время от времени разные сайты на разные почтовые адреса, а письма о регистрации не приходят, и в итоге регистрация которая в этом рейтинге жестко привязана к почте вообще не получается. Сейчас попробую зарегистрировать сайт и пришлю все что есть по этому поводу.

E
На сайте с 12.01.2004
Offline
17
#6

Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.

Тогда при добавлении нового документа в индекс, для него вычисляются эти хеш значения, которые ищутся среди хеш значений уже существующих в индексе документов. В результате поиска получается ограниченный набор документов "вероятно похожих" на искомый. Наверно это не сильно ресурсоемкий способ.

На последнем этапе, для каждого документа из полученного списка "вероятно похожих" можно вычислить редакционное расстояние, например методом Левенштейна.

R
На сайте с 29.04.2003
Offline
37
#7

Вообще не обязательно проверять все шинглы (так действительно никаких мощностей не хватит). Но так как распределение контрольных сумм (хешей шинглов) равномерное, то мы можем использовать значения шинглов кратных какому-нибудь числу (10-30). Критерий выборки, в данном случае, получается не привязанным к особенностям текста, так как значения контрольных сумм для разных документов распределены равномерно. И получается что количество сравниваемых шинглов приблизительно равно 1/10-1/30 от общего объема текста (если мерять его в словах). Хотя в принципе думаю Вы это и так прекрасно знаете.

[Удален]
#8
Как писал InSAn


Как проверить - это я знаю. Вопрос в другом - что проверить :)
Т.е. каким образом отбирать страницы, которые подлежат проверке.
Если же проверять все подряд - никаких мощностей не хватит :)

Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.

InSAn
На сайте с 13.01.2003
Offline
60
#9
Как писал Interitus

Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.

А подробнее можно?

Представьте себе ситуацию, когда рейтинг, раздающий кнопочки, "дает" код, котором ссылка вида .../?id=123

Около 10 тыс. ресурсов данный код поставили.

Согласно вашему совету, "Если какая-то страница признана дублем" - для начала нужно эти страницы "отловить".

InSAn
На сайте с 13.01.2003
Offline
60
#10
Как писал eshum
Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.

не "одно или несколько хеш значений для каждого документа", а набор хеш-значений, который зависит от "величины" страницы.

В большинстве случае величина этого набора - от 200 штук.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий