Замена букв в слове равносильна замене самомго слова, а если заменить все слова - то такой документ дубликатом являться не будет наверняка ;) Кстати, факт замены букв в слове и алгоритм шинглов будет рассматривать как факт замены слова, а значит - как разницу м/д документами.
Хм... Но сравнивать еще раз с помощью более точной функции - точно очень накладно. Более точная - это расстояние Левенштейна?
Да, мы берем качественный состав (т.е., например, считаем контрольную сумму от строки из конкатенированных, отсортированных в определенном порядке - например, по алфавиту - слов из среднечастотников) среднечастотников. К сожалению - это не более чем идея. Интересно, какая получится у нее статистика в плане ошибок 1го и 2го рода. Но метод длжен быть очень удобным, т.к. имеем всего 1 контрольную сумму для документа и считать ее быстро.
А насчет метода от комманды Яндекса, кто-то может прокомментировать, как выбирать эти "характеристические" слова? :)
Кстати, кто что думает по-поводу нормализатора от AOT ? Я в свое время ирался с ним, но скорость обработки мягко говоря хромала (сильно тормозилась индексация именно на этапе нормализации).
А есть какие-то экспериментальные данные по этому? Помогает ли в реальности при ранжировании?
А mozdex.com ожил-то ;)
Вот тут я полностью согласен, что это каснется всех владельцев блогов, небольших сайтов. А SEO все-равно будет жить, просто ссылки будут покупать тематические, на которые цены вырастут.
В любом случае апакалипсисом это нельзя назвать. Да метод здравый - убивать те сайты, с которых уходит много ссылок на разные темы, т.к. такие сайты являются с большой вероятностью продавцами. Соответственно, после бана такие ссылки и учитываться не будут. Впрочем кроме бана, возможна пессимизация таких линков для начала. А потом - после ручной проверки - бан. Все это, конечно, не более, чем предположения.
Но, надо подождать и посмотреть, насколько жесткими будут эти фильтры, баны и т.д.
Кстати, Evg, вы часом не один из команды адре? ;) Впрочем, если нет, то все-равно в предмете разбираетесь.
Позвольте задать вам несколько вопросов ;)
1. Как лучше решать задачу повторного кравлинга страниц? Т.е. если 1контент обновился?
2. Горячая подмена индекса - как правильнее?
Это все для того, чтобы максимально автоматизировать работу паука, т.к. изначально все команды запускаются ручками.
Из SVN. Кроме того у них есть nightly-build.
В саплементал статус перешли ранее забаненные домены?