Алгоритм определения первоисточника - пожелания, замечания...

12
di_max
На сайте с 27.12.2006
Offline
262
#11
Boris Baydenko:
т.е., траст у студ. одинаков, а засчитана работа тому, кто её первым сдаст - даже если она содрана

А если нет? Сдернули с новичка и всунули в сайтиг, у которого трас ашь по самые дальше некуда.

Тогда что?

// Все наши проблемы от нашего не знания...
BB
На сайте с 13.03.2008
Offline
35
#12
TheBat:

Вообще считаю идею не жизнеспособной, так как изначально отрицаю адекватность этого фильтра. Нет способов определить первоисточник, который работал бы без ошибок... да и нужен ли он? Может только, как один из самых несущественных факторов...

Я думаю, Вы знаете такие понятия, как ошибки 1-го и 2-го рода. Цель моего топика - попытаться задаться вопросом дальнейшей минимизации таких ошибок, ведь, судя по постам в этой теме, они ещё достаточно велики. И не похоже, чтобы этот фактор (за который банят и фильтруют!) был несущественным.

di_max:
А если нет? Сдернули с новичка и всунули в сайтиг, у которого трас ашь по самые дальше некуда.
Тогда что?

А это и есть недостаток примера для конкретной формулы. Но есть же и другие оценки, и я предлагаю построить состоятельную оценку первоисточника текста. Хотя... может вы все правы, я тут ..ней страдаю, мне писать надо "классный ап" и "ТЫЦ +10", а не задаваться вопросами авторских прав.

Продвижение сайтов в Украине (http://semantika.com.ua/)
true82
На сайте с 23.08.2007
Offline
18
#13

Давайте по пунктам:

1. База будет расти только до переиндексации страницы, после которой соответствующая запись будет удаляться. Зачем ее хранить, если страница уже кэширована?

2. В случае, если контент меняется, как раз и работает функция "определить первоисточник". Т.е. без этой функции, заявить право на переиндексацию нельзя. Переиндексацию можно потребовать только при добавлении нового текста (или, по крайней мере, заявить права на него, зарегистрировав его принадлежность к данному url'у).

3. Ограничивать доступ или удалять не нужно (я про страницы сайта).

Сделать привязку регистрации контента можно, например, из панели вебмастера, чтобы конкуренты не смогли Вашим сайтом заспамить аддурилку (чтобы Яша санкций не наложил, а каждый вебмастер думал когда стоит регистрировать контент, а когда нужно подумать и подправить).

К тому же, ИМХО, не так много уников появляется в минуту в рунете, которые несут какую-то ценность и которые жалко потерять. При таком раскладе, особенных мощностей и больших объемов (в масштабах корпорации "Яндекс") делать не нужно, а возможность регистрации контента вводить только для новых страниц сайта.

TheBat, через RSS? ну можно и через него... А можно еще в патентное бюро сбегать))))

Я рассматриваю то, что мне кажется удобным и реально подтверждающим правообладание. Хотя, с другой стороны, само определение плагиата - очень сложное и, порой, субъективное дело. Можно слова местами поменять, получится белибирда, но уник!

Продаем хорошие автомобили на сайте (http://autoniks.ru) Покупаю качественный ссылки с качественных сайтов, тематика "авто", "юриспруденция", "безопасность", "флористика", "красота" (/ru/forum/245134)
di_max
На сайте с 27.12.2006
Offline
262
#14
Boris Baydenko:
Хотя... может вы все правы, я тут ..ней страдаю, мне писать надо "классный ап" и "ТЫЦ +10", а не задаваться вопросами авторских прав.

С такой реакцией на конструктивную критику на явные ляпсусы в предложенном Вами алгоритме, мож и лутше... всем.

di_max добавил 09.09.2008 в 13:51

Boris Baydenko:
судя по постам в этой теме

А предыдущие топики по этой теме Вы внимательно изучали?

BB
На сайте с 13.03.2008
Offline
35
#15

http://www.seonews.ru/masterclass/85/ - вот отсюда и брал инфу

По алгоритмической части читал вот это: http://download.yandex.ru/company/paper_65_v1.rtf. Насколько я понял, на данный момент при определении нечётких дублей реализован метод супершинглов с хэш-функцией алгоритма MD5 для подсчёта контрольных сумм шинглов. Или что-то не так?

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий