denton

Рейтинг
14
Регистрация
10.10.2008

Тут не учтено, зачем Яша ищет дубликаты, и как она это делает.

Делается это не для того, чтобы нам жилось нелегко, а для того, чтобы выдача не состояла сплошняком из одинаковых документов. Понятное дело, пересечения в к контенте ищутся именно между документами, а не их частями.

Во-вторых, нет особого смысла штрафовать за одинаковые тексты запроса и вокруг него, так как они чаще всего и будут одинаковые, так как обычно объясняют содержание одного и того же содержания целевой страницы.

Да че-то давно тут все захлогло. Автор наверное вторую версию делает :)

А я кстати так морфологию бы не отбрасывал. На НЧ понятно, не до нее обычно. Но для ВЧ все методы хороши. А вот слова действительно могут разные попасться, у меня было такое пару раз. Например "цветоножка лечение простуды" - слово цветоножка будет мешать. Но это от настроек морфологии не особо зависит, если я правильно понял, как оно работает. Даже не знаю, можно от этого как-то избавляться или нет, пока руками все проверяю.

Не очень понял что такое морфология - это другие формы слова или слов запроса?

Насколько я понял, морфология - это тексты не с точным вхождением. Тот еще термин.

Вообще радует число получаемых ссылок - их реально сотни, жаль не все хорошие.

Ждем официального релиза скрипта, буду использовать. Главное, чтобы цены не кусались.

1 23
Всего: 23