Botan

Botan
Рейтинг
12
Регистрация
18.09.2007

В статье главного разработчика Яндекса Ильи Сегаловича описывается метод, при помощи которого Яндекс обнаруживает копии.

- - - -

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

...

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Не так давно столкнулся приблизительно с той же проблемой. Поначалу оба сайта были в серпе, через месяц остался только один, второй так и не нашел.

Также заметил, что если существуют незначительные различия в тексте, то один из сайтов пессимизируется. Сказать точный процент различий при котором текст считается уникальным точно не могу.

Было бы не плохо если бы сам сервис Sape, по тем или иным критериям, устанавливал цену на ссылки. :)

superpalych:
А Вы как посоветуете? Понятно, что вариант "один ко всем" неприемлим. Я планирую купить несколько ip адресов, и сайты на одном ip адресе вообще не перелинковывать. А "группы" сайтов перелинковать по принципу кольца.

Хуиз у ваших сайтов вы планируете тоже разный сделать?😂

При чем тут IP и перелинковка?

Похоже, что с тайтлом разобрались. Если вопросов нету, то можно закрывать тему. :)

regta

Допустим весомость тайтла - 1. Следовательно если тайтл будет состоять из 1 слова -этому слову для поисковика передаётся единица веса.

Если тайтл из 2 слов - значит каждому из них передаётся 0.5 единицы веса, но им двум сразу - вся единица если искомое словосочетание - двухсловное. И так далее.

ИМХО. Поправьте если не прав:)

V..:
Здравствуйте,
возник такой вопрос, в гуле по нужному мне ВЧ мой сайт находится в топ 1, а в яндексе даже не в 100, подскажите пожалуйста , что сделать чтобы и в яндексе подняться по этому ВЧ. Контен хороший рерайт.

Возможно стоит подождать, при условии того что вы все делаете правильно.

Как давно вы начали продвигать, ваш сайт? Сайт, новый?;)

joost:
Подскажите программы для автоматического определения проиндексированости страниц (большого количества) в Яндексе и Гугле.
Возможно есть такие, что определяют наличие в Я.Каталоге и тематику по которой сайт в каталоге?

Например эта - yazzle

metaContent, разве я что-то не так сказал?

Просто мы с вами не правильно поняли друг друга. Когда я писал про слова, то я хотел сказать, что при индексации Тайтла, Яндексом учитываются слова, а не символы.

metaContent:
В выдаче - считаем символы.
Или покажите 15 нормальных слов тайтла в выдаче.

15 слов тайтла - учитываются при поиске.

Если бы Яндекс оперировал символами, то мы бы видели кучу обрезанных слов в выдаче. Вы это видите?

Еще раз повторю, яндекс оперирует только словами и пассажами.

Всего: 105