Признаки похожести

60

InSAn

26 апреля 2005, 08:23

3487

Задача: найти похожие страницы.

Например, есть множество сайтов, на которые стоят ссылки типа:

...com/

...com/?id=1

...com/?p=2

и т.д.

При этом контент совершенно не различается.

Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...

Какие есть мысли?

ADPRO - Мы знаем, что Вам нужно! (http://adpro.ua)

VT

130

Vyacheslav Tikhonov

26 апреля 2005, 11:36

#1

Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...
Какие есть мысли?

Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.

60

InSAn

26 апреля 2005, 15:37

#2

Контент - да, но сама страница весьма незначительно меняется.

Отличие в один символ - уже проблема.

Как вариант, брать только от текста (исключая все остальное). Но что-то мне подсказывает, что это не совсем верно...

Как дают сайту "настояться"? Смогу ли я монетезировать Гугл не сканирует некоторые

374

Artisan

26 апреля 2005, 15:40

#3

Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

www.leak.info / ДАРОМ линки конкурентов и забытых доменов

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

60

InSAn

26 апреля 2005, 15:56

#4

Как писал Artisan
Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...

Как проверить - это я знаю. Вопрос в другом - что проверить :)

Т.е. каким образом отбирать страницы, которые подлежат проверке.

Если же проверять все подряд - никаких мощностей не хватит :)

Как писал Artisan Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...

Т.е.?

Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?

Мыло всое в личку бросьте - проверим отлупы.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

374

Artisan

26 апреля 2005, 16:31

#5

Как писал InSAn
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?

Не так чтобы постоянно но время от времени разные сайты на разные почтовые адреса, а письма о регистрации не приходят, и в итоге регистрация которая в этом рейтинге жестко привязана к почте вообще не получается. Сейчас попробую зарегистрировать сайт и пришлю все что есть по этому поводу.

Магазин Доменов Рег.ру - Вымогательство от рег.ру Аргументы почему не нужно

E

17

eshum

27 апреля 2005, 07:42

#6

Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.

Тогда при добавлении нового документа в индекс, для него вычисляются эти хеш значения, которые ищутся среди хеш значений уже существующих в индексе документов. В результате поиска получается ограниченный набор документов "вероятно похожих" на искомый. Наверно это не сильно ресурсоемкий способ.

На последнем этапе, для каждого документа из полученного списка "вероятно похожих" можно вычислить редакционное расстояние, например методом Левенштейна.

MegaIndex открыл API для Форум технологий Mail.Ru Group: Определяем быстроботовскую примесь в

R

37

Rusl

27 апреля 2005, 09:27

#7

Вообще не обязательно проверять все шинглы (так действительно никаких мощностей не хватит). Но так как распределение контрольных сумм (хешей шинглов) равномерное, то мы можем использовать значения шинглов кратных какому-нибудь числу (10-30). Критерий выборки, в данном случае, получается не привязанным к особенностям текста, так как значения контрольных сумм для разных документов распределены равномерно. И получается что количество сравниваемых шинглов приблизительно равно 1/10-1/30 от общего объема текста (если мерять его в словах). Хотя в принципе думаю Вы это и так прекрасно знаете.

BatchUniqueChecker - новый бесплатный include в php большого Растолкованный PageRank, часть 6

[Удален]

27 апреля 2005, 10:13

#8

Как писал InSAn

Как проверить - это я знаю. Вопрос в другом - что проверить :)
Т.е. каким образом отбирать страницы, которые подлежат проверке.
Если же проверять все подряд - никаких мощностей не хватит :)

Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.

60

InSAn

27 апреля 2005, 11:44

#9

Как писал Interitus

Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.

А подробнее можно?

Представьте себе ситуацию, когда рейтинг, раздающий кнопочки, "дает" код, котором ссылка вида .../?id=123

Около 10 тыс. ресурсов данный код поставили.

Согласно вашему совету, "Если какая-то страница признана дублем" - для начала нужно эти страницы "отловить".

Маркировка рекламы с 1 Google о «средней позиции» Источники трафика сайта-конкурента

60

InSAn

27 апреля 2005, 11:46

#10

Как писал eshum
Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.

не "одно или несколько хеш значений для каждого документа", а набор хеш-значений, который зависит от "величины" страницы.

В большинстве случае величина этого набора - от 200 штук.

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта