Плагиат и оригинальный контент

H
На сайте с 25.07.2006
Offline
19
813

Есть у кого-нибудь какие либо предположения или знания относительно того как яндекс различает оригинальные тексты и плагиат? Т.е. есть ли строгое разделение: такая-то страничка оригинальная, а такая-то тыренная (по яндексу)? Или же яндекс как-то различает степень оригинальности? Т.е. может ли яндекс думать: этот текст на 50% уникальный? И еще считает ли яндекс за оригинальный текст, который когда-то действительно появился на данном сайте впервые в рунете, но потом был растиражирован на сотню сайтов. И, кстати говоря, имеет ли какое-то значение то нашелся мой текст на 10 сайтах или на ста?

Aspid
На сайте с 10.08.2006
Offline
126
#1
hromoy:
Есть у кого-нибудь какие либо предположения или знания относительно того как яндекс различает оригинальные тексты и плагиат? Т.е. есть ли строгое разделение: такая-то страничка оригинальная, а такая-то тыренная (по яндексу)? Или же яндекс как-то различает степень оригинальности? Т.е. может ли яндекс думать: этот текст на 50% уникальный? И еще считает ли яндекс за оригинальный текст, который когда-то действительно появился на данном сайте впервые в рунете, но потом был растиражирован на сотню сайтов. И, кстати говоря, имеет ли какое-то значение то нашелся мой текст на 10 сайтах или на ста?

Первое что приходит на ум это по дате.

Возможно учитываются ссылающиеся страницы.

Т..е. есть статья, а в конце ссылка на такую же статью, т.е. та оригинальнее.

А вообще это темный лес, вон Гугловцы хоть и орут что у них есть проверка на уникальность контента, но я юзал чужой и индексировалось все как родное.

AVV
На сайте с 31.07.2006
Offline
84
AVV
#2

Алгоритмы определения нечетких дубликатов

/ru/forum/56951

Алексей Радкевич
На сайте с 19.11.2004
Offline
260
#3

что-то многовато тем по этой ТЕМЕ за последние пару дней. ПОищите недавно обсуждалось.

Продвижение сайтов в Новосибирске. (https://www.yalstudio.ru)
K
На сайте с 11.07.2005
Offline
108
#4

http://company.yandex.ru/articles/article10.html "качество индекса" почитайте

С Уважением, Константин
AVV
На сайте с 31.07.2006
Offline
84
AVV
#5

Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.

...

Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.

...

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»).

Илья Сегалович (отрывок из статьи)

H
На сайте с 25.07.2006
Offline
19
#6

Kostyan, AVV, Спасибо, нашел много интересной информации. Перевариваю )

[Удален]
#7

hromoy, в любом случае, советую работать с оригинальным контентом ;)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий