Уникальность текста?

233

Yurecm

20 февраля 2008, 03:00

1895

Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?

Заранее благодарю.

R

174

Reise

20 февраля 2008, 03:16

#1

Тоже интересует...

Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.

Еще интересно про уникальность ссылки:

например, будут ли клеется ссылки с анкорами

скачать программы, игры, фильмы
скачать игры, программы, фильмы
скачать фильмы, игры, программы
и т.д.

с т.з. алгоритма чешуйки - наверно не должны, но я сомневаюсь

G

103

greates

20 февраля 2008, 09:22

#2

есть софт чтобы проверить на уникальность, на форуме выкладывался.

-S

1357

-= Serafim =-

20 февраля 2008, 09:50

#3

Yurecm, Яндекс, к примеру определяет по методу Шинглов. Уже обсуждалось и даже софт есть специальный.

Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

239

pchol123

20 февраля 2008, 09:54

#4

-= Serafim =-:
Yurecm

Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

использую именно этот софт☝

сеть трастовых сайтов (http://articles.sape.ru/r.5b6641ce4e.php)

107

IL-86

20 февраля 2008, 14:26

#5

Yurecm:
Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?
Заранее благодарю.

Учитывается дата попадания документа в базу, есть видимо алго для сравнения (IMHO), но в ранжировании зависит от ссылочного в большей степени.

Уважай, делись, держи дистанцию.

103

CRC

20 февраля 2008, 14:44

#6

Почему-то все забыли про Цепи Маркова (http://ru.wikipedia.org/wiki/Цепи_Маркова) - так же на форуме обсуждалось неоднократно.

129

superpalych

20 февраля 2008, 15:23

#7

Вот одна из программ для проверку уникальности.

Какие методы удержания посетителей на своих сайтах используют лучшие SEO компании? (/ru/forum/833979)

233

Yurecm

20 февраля 2008, 17:24

#8

Всем спасибо.

Reise:
Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.

Действительно просто, имхо, наврятли.

-= Serafim =-:
Yurecm, Яндекс, к примеру определяет по методу Шинглов.

Спасибо, почитаю об этом.

-= Serafim =-:
Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.

Меня скорее интересует как ПС понимает уник текст на сайте или нет, то есть какие минимальные изменения надо внести, чтобы поисковик копипастную статью начал воспринимать уникальной?

Как заставить ПС подвал нужны теги на сайте Нарушения и угрозы безопасности

9

АмаЗонка

21 февраля 2008, 09:02

#9

Шинглы - алгоритм шинглов (shingles) - обнаружение нечетких копий и дубликатов текстов (шингл - чешуйка)

Илья Сегалович из Яндекса о шинглах (отрывок из статьи)

Рост базы, кроме технических проблем с дисками и серверами, ограничивается логическими: необходимостью адекватно реагировать на мусор, повторы и т.п. Не могу удержаться, чтобы не описать остроумный алгоритм, применяемый в современных поисковых системах для того, чтобы исключить «очень похожие документы».

Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.

Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.

Кроме того, индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п. Этот изящный алгоритм воплотил давнюю мечту доцентов: отныне мучительный вопрос «у кого студент списывал этот курсовик» можно считать решенным! Легко оценить долю плагиата в любой статье.

Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманый и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертировнного файла (или инвертировнным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.

безлимитные и корпоративные тарифы Билайн, Мегафон, МТС, СкайЛинк (http://www.corporacia.ru/)

233

Yurecm

3 марта 2008, 04:14

#10

Ап.........

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Open AI тестирует память для ChatGPT