Тут не учтено, зачем Яша ищет дубликаты, и как она это делает.
Делается это не для того, чтобы нам жилось нелегко, а для того, чтобы выдача не состояла сплошняком из одинаковых документов. Понятное дело, пересечения в к контенте ищутся именно между документами, а не их частями.
Во-вторых, нет особого смысла штрафовать за одинаковые тексты запроса и вокруг него, так как они чаще всего и будут одинаковые, так как обычно объясняют содержание одного и того же содержания целевой страницы.
Да че-то давно тут все захлогло. Автор наверное вторую версию делает :)
А я кстати так морфологию бы не отбрасывал. На НЧ понятно, не до нее обычно. Но для ВЧ все методы хороши. А вот слова действительно могут разные попасться, у меня было такое пару раз. Например "цветоножка лечение простуды" - слово цветоножка будет мешать. Но это от настроек морфологии не особо зависит, если я правильно понял, как оно работает. Даже не знаю, можно от этого как-то избавляться или нет, пока руками все проверяю.
Насколько я понял, морфология - это тексты не с точным вхождением. Тот еще термин.
Вообще радует число получаемых ссылок - их реально сотни, жаль не все хорошие.
Ждем официального релиза скрипта, буду использовать. Главное, чтобы цены не кусались.