Комментарии - Eugen - Профиль вебмастера - Форум об интернет-маркетинге

Алгоритмы определения нечетких дубликатов

22 июня 2006, 20:25

seodev:
А есть уверенность, что у похожих страниц в вашем случае наблюдается действительно пересечение по общим словам? В случае спама это может быть и неверно: спамер может специально коверкать слова или заменять некоторые русские буквы латинскими эквивалентами.

Замена букв в слове равносильна замене самомго слова, а если заменить все слова - то такой документ дубликатом являться не будет наверняка ;) Кстати, факт замены букв в слове и алгоритм шинглов будет рассматривать как факт замены слова, а значит - как разницу м/д документами.

seodev:
Если пересечение есть, то можно использовать идеи Locality Sensitive Hash, см. например здесь: http://www-db.stanford.edu/~taherh/papers/scalable-clustering.pdf
только вместо одной суммы crc будет несколько, чем больше сумм, тем меньше вероятность не найти похожий документ. Найденные в результате кандидиты нужно сравнить непосредственно с помощью какой-нибудь более точной функции.

Хм... Но сравнивать еще раз с помощью более точной функции - точно очень накладно. Более точная - это расстояние Левенштейна?

Алгоритмы определения нечетких дубликатов

20 июня 2006, 16:20

Rusl:
А поподробнее можно? Идея, насколько я понял в том, что эти слова передают суть документа и при незначительных изменениях теста страницы остаются не изменными?

Да, мы берем качественный состав (т.е., например, считаем контрольную сумму от строки из конкатенированных, отсортированных в определенном порядке - например, по алфавиту - слов из среднечастотников) среднечастотников. К сожалению - это не более чем идея. Интересно, какая получится у нее статистика в плане ошибок 1го и 2го рода. Но метод длжен быть очень удобным, т.к. имеем всего 1 контрольную сумму для документа и считать ее быстро.

А насчет метода от комманды Яндекса, кто-то может прокомментировать, как выбирать эти "характеристические" слова? :)

Словоформы

14 июня 2006, 22:32

Кстати, кто что думает по-поводу нормализатора от AOT ? Я в свое время ирался с ним, но скорость обработки мягко говоря хромала (сильно тормозилась индексация именно на этапе нормализации).

Оптимизация сайта под Google

4 июня 2006, 19:54

geminibiz:
Регистрируйте домены на несколько лет вперёд, или покупайте старые и продлевайте их на 3-5 лет, минимум.

А есть какие-то экспериментальные данные по этому? Помогает ли в реальности при ранжировании?

Поисковый движок Nutch

4 июня 2006, 19:23

А mozdex.com ожил-то ;)

Выпадение из индекса... Проблема в линках

20 мая 2006, 12:01

andrewxr:
Ага,останутся только серьёзные СЕО-проекты,которые смогут заплатить за хорошую ссылку...Бред...Первым делом этот алгоритм скажется никак не на сео-проектах,а на обычных юзерских-проектах.

Вот тут я полностью согласен, что это каснется всех владельцев блогов, небольших сайтов. А SEO все-равно будет жить, просто ссылки будут покупать тематические, на которые цены вырастут.

Выпадение из индекса... Проблема в линках

20 мая 2006, 10:50

В любом случае апакалипсисом это нельзя назвать. Да метод здравый - убивать те сайты, с которых уходит много ссылок на разные темы, т.к. такие сайты являются с большой вероятностью продавцами. Соответственно, после бана такие ссылки и учитываться не будут. Впрочем кроме бана, возможна пессимизация таких линков для начала. А потом - после ручной проверки - бан. Все это, конечно, не более, чем предположения.

Но, надо подождать и посмотреть, насколько жесткими будут эти фильтры, баны и т.д.

Поисковый движок Nutch

20 мая 2006, 08:33

Кстати, Evg, вы часом не один из команды адре? ;) Впрочем, если нет, то все-равно в предмете разбираетесь.

Позвольте задать вам несколько вопросов ;)

1. Как лучше решать задачу повторного кравлинга страниц? Т.е. если 1контент обновился?

2. Горячая подмена индекса - как правильнее?

Это все для того, чтобы максимально автоматизировать работу паука, т.к. изначально все команды запускаются ручками.

Поисковый движок Nutch

20 мая 2006, 07:31

Pike:
А где многоуважаемые господа берут 0.8 версию? Вроде последняя доступная 0.72? Или не там смотрю?

Из SVN. Кроме того у них есть nightly-build.

Supplemental пришел

12 мая 2006, 11:01

В саплементал статус перешли ранее забаненные домены?

В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах

Все что нужно знать о DDоS-атаках грамотному менеджеру

Eugen