Алгоритм определения первоисточника

123 4
С
На сайте с 21.12.2007
Offline
49
3420

Данная тема обмусоливается давно, масса претензий к Яндексу за неспособность определять первоисточник, нарушение авторских прав и т.д.

А что есть авторские права и их нарушение в интернете? То что человек отсканил книгу и получил уникальный текст для своего сайта не говорит о том, что он автор этого контента, если человек заказал статью копирайтеру, выложил ее в сети и после кражи бьет себя в грудь утверждая, что он автор (владелец) спертого контента, это опять не доказуемо так как никак не подтверждено официально документами на данный контент.

В общем единственно, что можно ждать от поисковой системы это определение первоисточника, а обращаться и требовать от Яндекса соблюдения авторских прав (просьбы воздействовать на сайт вора) бесполезно и глупо.

А как в принципе даже теоретически определить первоисточник?

1. Определять первоисточник по дате индексации документа.

Тут есть трабла, данный метод хорошо подойдет для постоянно обновляемых контентных сайтов, на которых бот Яндекса бывает по нескольку раз в день, дас сайтов визиток, и малообновляемых ресурсов такой метод не подходит по причине не частого посещения их ботами и как следствие большими шансами у воров спереть еще не проиндексированный уникальный контент.

2. Появилась мысль, а что если в панели Яндекса для вебмастеров сделать фишку, в которую можно было бы скармливать новые страницы (точнее их урлы) сразу после их создания и соответственно отправлять Яндексу для обработки. Я не прогер, но думаю для этого понадобится отдельный паук который будет заниматься сбором данной информации сохранять ее, и после индексации сайта (страницы) обычным индексатором, сверить данные из базы с базой индексатора и думаю без труда определить первоисточник.

Готов выслушать критику :)

То, что не все пользуются панелью не аргумент, это уже их проблема.

Качественные ссылки с трастовых сайтов - навсегда! (http://miralinks.ru/users/registration/from:13484)
di_max
На сайте с 27.12.2006
Offline
262
#1
Соло:
Я не прогер, но думаю для этого понадобится отдельный паук который будет заниматься сбором данной информации сохранять ее, и после индексации сайта (страницы) обычным индексатором, сверить данные из базы с базой индексатора и думаю без труда определить первоисточник.

1. Не просто сверить, а проверить на уникальности и не четкий дубляж.

А это уже совсем другое дело.;)

2. Такую фичу тут же, имхо, превратят в адДурилку, пихаяя в нее все подряд и даже чуть больше.;)

// Все наши проблемы от нашего не знания...
hypno
На сайте с 17.07.2006
Offline
110
#2

Проблемой авторов является копирование их контента, а проблемой поисковиков являеся удаление дублей из поиска в первую очередь .. чувствуете разницу ? Авторы ценного контента будут бороться за свою инфу с помощью написания телег провайдеру и пугания судом. А поисковики неспешно работают над релевантностью выдачи и по большому счету проблема авторов остается их проблемой .. хотя


Способы определения авторства контента
Корректная работа данных методов позволяет поисковым системам определять на каком сайте находится оригинальная версия текста в отличие от синдицированной или скопированной. Заметьте что мы неплохо продвинулись в этом направлении судя по тому что этот вопрос обсуждался небольшой группой участников. Однако аудитория была заинтересована в том чтобы аутентификация текстов выступала в роли дополнительной защиты. Некоторые участники предлагали считать оригинальным текстом документ с наиболее ранней датой создания, но он не подходит из за легкости исправление даты документа со стороны нечестных вэб-мастеров. Кто-то даже предлагал регстрировать тексты перед их публикацией, но мы отклонили и этот метод , так как далеко не все авторы текстов будут знать о существовании такого сервиса или кто-нибудь может успеть раньше автора ( например если текст уже давно опубликован ). В настоящее время мы используем несколько факторов таких как авторитет сайта и количество ссылок на страницу с текстом. Если у вашего сайта есть rss-лента мы советуем попросить владельцев тех сайтов которые используют ваш контент заблокировать его от поисковых роботов через robots.txt. Сделайте это условием использования ваших статей.

Сервис с отчетами о дублированном контенте для владельцев сайтов
Большую поддержку у аудитории нашла идея создания сервиса который будет сообщать о дубликатах текстов на вашем и на других сайтах в сети. В добавок мы обсуждали систему оповещения вэбмастера о появившемся дубле. Оповещения могут приходить как по электронной почте так и через rss. Особенно полезным такое оповещение будет при обнаружении роботом ваших материалов на других сайтах.

источник

Фриман
На сайте с 11.11.2005
Offline
50
#3
hypno:
Проблемой авторов является копирование их контента, а проблемой поисковиков являеся удаление дублей из поиска в первую очередь .. чувствуете разницу ? Авторы ценного контента будут бороться за свою инфу с помощью написания телег провайдеру и пугания судом. А поисковики неспешно работают над релевантностью выдачи и по большому счету проблема авторов остается их проблемой ..

Посмотрите на главную страницу яндекса - много там про удаление дублей? Погода, пробки, фотки, шмотки... Так что и до авторства дело дайдет, уверен.

Техническая реализация элементарная - автор подтверждает свое авторсто и его дубль становится единственным.

С
На сайте с 21.12.2007
Offline
49
#4
di_max:
1. Не просто сверить, а проверить на уникальности и не четкий дубляж.
А это уже совсем другое дело.;)
2. Такую фичу тут же, имхо, превратят в адДурилку, пихаяя в нее все подряд и даже чуть больше.;)

1. Проверить на уникальность с их мощностями не так сложно, на дубляж тоже ;)

2. К аддурелке она отношения не имеет, на скорость индексации не влияет, она типа эталона, с которым можно сверять сайт на уникальность контента, принадлежность к определенному сайту ну и времени появления, после индексации сайта (страницы) ботом индексатором. :)

С
На сайте с 21.12.2007
Offline
49
#5
Фриман:
Так что и до авторства дело дайдет, уверен.
Техническая реализация элементарная - автор подтверждает свое авторсто и его дубль становится единственным.

Каким образом? Авторство можно подтвердить только имея на руках соответствующие документы, вы думаете, что Яндекс будет собирать у вебмастеров документы на контент и как судья выносить вердикт об авторском праве?

Не будет такого.

hustle
На сайте с 27.08.2007
Offline
106
#6

А смысл изобретать велосипед? Как борется Гугл, Яху, МСН с дублями?

Добавь свою компанию (http://gmstar.ru) на GMSTAR.RU - Товары, услуги, компании, отзывы по всем сферам деятельности. Бесплатные инструменты для продвижения компании.
С
На сайте с 21.12.2007
Offline
49
#7
hustle:
А смысл изобретать велосипед? Как борется Гугл, Яху, МСН с дублями?

А вы знаете как они борятся?

Или даже взять тот же Гугл который определяет первоисточник по авторитетности сайта, ваши же новые сайты от такого определения и пострадают.

Фриман
На сайте с 11.11.2005
Offline
50
#8
Соло:
Каким образом? Авторство можно подтвердить только имея на руках соответствующие документы, вы думаете, что Яндекс будет собирать у вебмастеров документы на контент и как судья выносить вердикт об авторском праве?
Не будет такого.

С юридической точки зрения - м.б., а с практической - форма "забей текст за собой" решает проблему. Но и тут есть над чем подумать.

Я не вижу дальнейших перспектив в развитие информационно-поисковых технологий в интернете, кроме как использование неявного цитирования, а значит первоисточник так или иначе придется определять. Поэтому авторству на Яндексе - быть.

broken
На сайте с 03.10.2006
Offline
228
#9

возможно и бред напишу, но у меня новостник в яндекс новостях транслируется. контент тырят только в путь, причем через сам яндекс и тянут :). но в поиске по куску текста наш сайт всеравно всегда первый, а внизу идут все воришки. сайту 3 года, обновления каждый день, боты висят постоянно на сайте.

С
На сайте с 21.12.2007
Offline
49
#10
broken:
сайту 3 года, обновления каждый день, боты висят постоянно на сайте.

Я думаю дело в этом, сайт авторитетный :)

Не думаю, что новому сайту так повезет, при тех же равных условиях за исключением возраста.

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий