Уникальность текста?

12
Yurecm
На сайте с 25.02.2007
Offline
233
1883

Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?

Заранее благодарю.

R
На сайте с 22.06.2007
Offline
174
#1

Тоже интересует...

Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.

Еще интересно про уникальность ссылки:

например, будут ли клеется ссылки с анкорами

скачать программы, игры, фильмы
скачать игры, программы, фильмы
скачать фильмы, игры, программы
и т.д.

с т.з. алгоритма чешуйки - наверно не должны, но я сомневаюсь

G
На сайте с 10.03.2006
Offline
103
#2

есть софт чтобы проверить на уникальность, на форуме выкладывался.

-S
На сайте с 10.12.2006
Offline
1354
#3

Yurecm, Яндекс, к примеру определяет по методу Шинглов. Уже обсуждалось и даже софт есть специальный.

Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

pchol123
На сайте с 13.05.2007
Offline
239
#4
-= Serafim =-:
Yurecm

Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

использую именно этот софт☝

сеть трастовых сайтов (http://articles.sape.ru/r.5b6641ce4e.php)
IL-86
На сайте с 27.02.2007
Offline
107
#5
Yurecm:
Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?
Заранее благодарю.

Учитывается дата попадания документа в базу, есть видимо алго для сравнения (IMHO), но в ранжировании зависит от ссылочного в большей степени.

Уважай, делись, держи дистанцию.
CRC
На сайте с 04.05.2005
Offline
103
CRC
#6

Почему-то все забыли про Цепи Маркова (http://ru.wikipedia.org/wiki/Цепи_Маркова) - так же на форуме обсуждалось неоднократно.

superpalych
На сайте с 05.02.2008
Offline
129
#7

Вот одна из программ для проверку уникальности.

Какие методы удержания посетителей на своих сайтах используют лучшие SEO компании? (/ru/forum/833979)
Yurecm
На сайте с 25.02.2007
Offline
233
#8

Всем спасибо.

Reise:
Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.

Действительно просто, имхо, наврятли.

-= Serafim =-:
Yurecm, Яндекс, к примеру определяет по методу Шинглов.

Спасибо, почитаю об этом.

-= Serafim =-:
Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

Меня скорее интересует как ПС понимает уник текст на сайте или нет, то есть какие минимальные изменения надо внести, чтобы поисковик копипастную статью начал воспринимать уникальной?

АмаЗонка
На сайте с 21.08.2007
Offline
9
#9

Шинглы - алгоритм шинглов (shingles) - обнаружение нечетких копий и дубликатов текстов (шингл - чешуйка)

Илья Сегалович из Яндекса о шинглах (отрывок из статьи)

Рост базы, кроме технических проблем с дисками и серверами, ограничивается логическими: необходимостью адекватно реагировать на мусор, повторы и т.п. Не могу удержаться, чтобы не описать остроумный алгоритм, применяемый в современных поисковых системах для того, чтобы исключить «очень похожие документы».

Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.

Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.

Кроме того, индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п. Этот изящный алгоритм воплотил давнюю мечту доцентов: отныне мучительный вопрос «у кого студент списывал этот курсовик» можно считать решенным! Легко оценить долю плагиата в любой статье.

Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманый и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертировнного файла (или инвертировнным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.

безлимитные и корпоративные тарифы Билайн, Мегафон, МТС, СкайЛинк (http://www.corporacia.ru/)
Yurecm
На сайте с 25.02.2007
Offline
233
#10

Ап.........

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий