Плагиат и оригинальный контент

19

hromoy

10 августа 2006, 14:55

820

Есть у кого-нибудь какие либо предположения или знания относительно того как яндекс различает оригинальные тексты и плагиат? Т.е. есть ли строгое разделение: такая-то страничка оригинальная, а такая-то тыренная (по яндексу)? Или же яндекс как-то различает степень оригинальности? Т.е. может ли яндекс думать: этот текст на 50% уникальный? И еще считает ли яндекс за оригинальный текст, который когда-то действительно появился на данном сайте впервые в рунете, но потом был растиражирован на сотню сайтов. И, кстати говоря, имеет ли какое-то значение то нашелся мой текст на 10 сайтах или на ста?

126

Aspid

10 августа 2006, 14:56

#1

hromoy:
Есть у кого-нибудь какие либо предположения или знания относительно того как яндекс различает оригинальные тексты и плагиат? Т.е. есть ли строгое разделение: такая-то страничка оригинальная, а такая-то тыренная (по яндексу)? Или же яндекс как-то различает степень оригинальности? Т.е. может ли яндекс думать: этот текст на 50% уникальный? И еще считает ли яндекс за оригинальный текст, который когда-то действительно появился на данном сайте впервые в рунете, но потом был растиражирован на сотню сайтов. И, кстати говоря, имеет ли какое-то значение то нашелся мой текст на 10 сайтах или на ста?

Первое что приходит на ум это по дате.

Возможно учитываются ссылающиеся страницы.

Т..е. есть статья, а в конце ссылка на такую же статью, т.е. та оригинальнее.

А вообще это темный лес, вон Гугловцы хоть и орут что у них есть проверка на уникальность контента, но я юзал чужой и индексировалось все как родное.

84

AVV

10 августа 2006, 14:59

#2

Алгоритмы определения нечетких дубликатов

/ru/forum/56951

260

Алексей Радкевич

10 августа 2006, 14:59

#3

что-то многовато тем по этой ТЕМЕ за последние пару дней. ПОищите недавно обсуждалось.

Продвижение сайтов в Новосибирске. (https://www.yalstudio.ru)

K

108

Kostyan

10 августа 2006, 15:01

#4

http://company.yandex.ru/articles/article10.html "качество индекса" почитайте

С Уважением, Константин

84

AVV

10 августа 2006, 15:03

#5

Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.

...

Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.

...

Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.

Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»).

Илья Сегалович (отрывок из статьи)

H

19

hromoy

10 августа 2006, 15:26

#6

Kostyan, AVV, Спасибо, нашел много интересной информации. Перевариваю )

[Удален]

10 августа 2006, 16:00

#7

hromoy, в любом случае, советую работать с оригинальным контентом ;)

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ