С определением здесь туговато ;) Обычно придумывается метод, потом в рамках сформулировнной теории дается определение нечеткого дубликата. Главное, чтобы это определение совпадало, в большинстве своем, с оценками экспертов. А на эристическом уровне нечеткими дубликатоми можно называть страницы, которые содержат один и тот же текст, за исключением некоторых изменений, здесь мы не затрагиваем понятие смысла текста, т.к. в принципе можно перефразировать полность текст, не потеряв смысл, но к сожалению анализ смысловой нарузки машине пок ане по зубам ;)
Хотелось бы верить, но вряд ли дело именно в этом. Дублирование наверняка не единственный критерий, скорее мы имеем дело с каким-то комплексным фильтром контроля качества контента.
Я же писал выше, что есть такие сайт, на которых 100% уникальный контент (копискейп поэтому ничего не находит) и при этом такие сайты попали под вышеназванный фильтр.
Я бы так не сказал, потому как недавно снова сайты под этот фильтр у меня попали. Из старого - ничего не восстановилось.
Да трогать я и не собираюсь ;) Я хотел посмотреть на природу проблемы, особенно интересно, что вы смогли восстановится. У меня нет таких примеров "исцеления", поэтому я так хочу взглянуть на сайт, причем абсолютно "без рук", а в форуме обещаю отписаться о всех наблюдениях, не упоминая никакие "явки-пароли" :)
Т.е. у вас морда не ушла вниз по запросу site? Странно... Кстати, вот недавно новый сайт появился в индексе сразу с "опущенной" мордой (всего 2 страницы в индексе пока что). Я работаю с англоязычными сайтами.
А что у вас за сайт? Тематика, какие техники получения линков использовались (покупка, линкообмен, каталоги), насколько уникальный контент? А еще, если сочтете возможным, адрес сайта в личку ;)
Кроме изменения контента на неуникальных страницах (много таких было?), что-то еще предпринимали для выхода из-под фильтра?
Т.е. вы попали раньше под действие вышеупомянутого фильтра, а 26го сайт вернулся на прежние позиции?
Кстати, очень интересно послушать дорвейщиков по этому вопросу, у них должна быть богатая статистика :)
Постоянно стал сталкиваться с этим фильтром. Причем под раздачу попадают сайты, как со 100% уникальным контентом, так и с дублирующимся (в разной степени). На днях несколько сайтов как раз потеряли морду в выдаче по site: , посещения упали в десятки раз.
Т.е. я считаю, что дело не в контенте, а если совсем уж правильно, то не только в нем. У кого еще какие наблюдения на этот счет? Совместно мы сможем набрать какую-то статистику и понять, как себя вести.
Плох прежде всего тем, что это легко обойти. Оно и не удивительно, т.к. оперирование идет показателем TF, который очень сильно подвержен влиянию onpage факторов. Гораздо разумнее смотреть на IDF:
http://www.ir.iit.edu/publications/downloads/p171-chowdhury.pdf
Но все зависит от того, какие дубли отлавливаются. Если неумышленные дубли - это одно дела, а спам - совершенно другое.
Зависит от контента сайта, прежде всего от языка. Для англоязычного как правило клики из рунета вообще не засчитываются. Но имхо, не стоит рубить посещения. ЭдСэнс не накладывает ограничений на "чистоту" траффика в геотаргетинговом плане, насколько я знаю. Так что бана за это не будет.