В статье главного разработчика Яндекса Ильи Сегаловича описывается метод, при помощи которого Яндекс обнаруживает копии.
- - - -
Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.
...
Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!
Не так давно столкнулся приблизительно с той же проблемой. Поначалу оба сайта были в серпе, через месяц остался только один, второй так и не нашел.
Также заметил, что если существуют незначительные различия в тексте, то один из сайтов пессимизируется. Сказать точный процент различий при котором текст считается уникальным точно не могу.
Было бы не плохо если бы сам сервис Sape, по тем или иным критериям, устанавливал цену на ссылки. :)
Хуиз у ваших сайтов вы планируете тоже разный сделать?😂
При чем тут IP и перелинковка?
Похоже, что с тайтлом разобрались. Если вопросов нету, то можно закрывать тему. :)
regta
Допустим весомость тайтла - 1. Следовательно если тайтл будет состоять из 1 слова -этому слову для поисковика передаётся единица веса.
Если тайтл из 2 слов - значит каждому из них передаётся 0.5 единицы веса, но им двум сразу - вся единица если искомое словосочетание - двухсловное. И так далее.
ИМХО. Поправьте если не прав:)
Возможно стоит подождать, при условии того что вы все делаете правильно.
Как давно вы начали продвигать, ваш сайт? Сайт, новый?;)
Например эта - yazzle
metaContent, разве я что-то не так сказал?
Просто мы с вами не правильно поняли друг друга. Когда я писал про слова, то я хотел сказать, что при индексации Тайтла, Яндексом учитываются слова, а не символы.
Если бы Яндекс оперировал символами, то мы бы видели кучу обрезанных слов в выдаче. Вы это видите?
Еще раз повторю, яндекс оперирует только словами и пассажами.