Алгоритм определения первоисточника - пожелания, замечания... - Яндекс - Поисковые системы - Форум об интернет-маркетинге

Boris Baydenko · 2008-09-08T10:01:28.0000000Z

В данном разделе уже много раз поднималась тема неуникального контента (были жалобы типа "спёрли контент", "отфильтровали" и т.п.) Официальная позиция Яндекса - зеркало Рунета, а не цензоры (но за дубликаты баним/фильтруем/...), т.е., открещиваются от своих же фильтров в некотором роде. В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал". Алгоритм такой: пусть по какому-либо алгоритму поиска дубликатов у нас уже найдено К "дублей" (Яндекс их уже научился определять). Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость. Т.е., если Ф(х,у) - функция определения первоисточника, то первоисточником будет тот сайт, где Ф(х,у) принимает экстремальное значение (минимум/максимум). Здесь:х - параметр оценки времени добавления в индекс контента-"дубля", у - параметр оценки трастовости сайта. Пример функции оценки первоисточника: Ф(х,у)=Ф(х) - "самая ранняя проиндексированность дубля- кто первый попал в индекс с контентом, тот и первоисточник, остальные должны брать с него ссылку при размещении у себя дубля на страницах" (т.е., такие функции существуют; разумеется, могут быть и другие функции) Вопрос: чем плох такой алгоритм? З.Ы. Если интересна тема - могу подкрепить примерами.

262

di_max

9 сентября 2008, 08:14

#11

Boris Baydenko:
т.е., траст у студ. одинаков, а засчитана работа тому, кто её первым сдаст - даже если она содрана

А если нет? Сдернули с новичка и всунули в сайтиг, у которого трас ашь по самые дальше некуда.

Тогда что?

// Все наши проблемы от нашего не знания...

BB

35

Boris Baydenko

9 сентября 2008, 08:35

#12

TheBat:

Вообще считаю идею не жизнеспособной, так как изначально отрицаю адекватность этого фильтра. Нет способов определить первоисточник, который работал бы без ошибок... да и нужен ли он? Может только, как один из самых несущественных факторов...

Я думаю, Вы знаете такие понятия, как ошибки 1-го и 2-го рода. Цель моего топика - попытаться задаться вопросом дальнейшей минимизации таких ошибок, ведь, судя по постам в этой теме, они ещё достаточно велики. И не похоже, чтобы этот фактор (за который банят и фильтруют!) был несущественным.

di_max:
А если нет? Сдернули с новичка и всунули в сайтиг, у которого трас ашь по самые дальше некуда.
Тогда что?

А это и есть недостаток примера для конкретной формулы. Но есть же и другие оценки, и я предлагаю построить состоятельную оценку первоисточника текста. Хотя... может вы все правы, я тут ..ней страдаю, мне писать надо "классный ап" и "ТЫЦ +10", а не задаваться вопросами авторских прав.

Продвижение сайтов в Украине (http://semantika.com.ua/)

Метрика показывает визиты с Планирую запустить два инфосайта Наполнить сайт статьями от

18

true82

9 сентября 2008, 09:10

#13

Давайте по пунктам:

1. База будет расти только до переиндексации страницы, после которой соответствующая запись будет удаляться. Зачем ее хранить, если страница уже кэширована?

2. В случае, если контент меняется, как раз и работает функция "определить первоисточник". Т.е. без этой функции, заявить право на переиндексацию нельзя. Переиндексацию можно потребовать только при добавлении нового текста (или, по крайней мере, заявить права на него, зарегистрировав его принадлежность к данному url'у).

3. Ограничивать доступ или удалять не нужно (я про страницы сайта).

Сделать привязку регистрации контента можно, например, из панели вебмастера, чтобы конкуренты не смогли Вашим сайтом заспамить аддурилку (чтобы Яша санкций не наложил, а каждый вебмастер думал когда стоит регистрировать контент, а когда нужно подумать и подправить).

К тому же, ИМХО, не так много уников появляется в минуту в рунете, которые несут какую-то ценность и которые жалко потерять. При таком раскладе, особенных мощностей и больших объемов (в масштабах корпорации "Яндекс") делать не нужно, а возможность регистрации контента вводить только для новых страниц сайта.

TheBat, через RSS? ну можно и через него... А можно еще в патентное бюро сбегать))))

Я рассматриваю то, что мне кажется удобным и реально подтверждающим правообладание. Хотя, с другой стороны, само определение плагиата - очень сложное и, порой, субъективное дело. Можно слова местами поменять, получится белибирда, но уник!

Продаем хорошие автомобили на сайте (http://autoniks.ru) Покупаю качественный ссылки с качественных сайтов, тематика "авто", "юриспруденция", "безопасность", "флористика", "красота" (/ru/forum/245134)

262

di_max

9 сентября 2008, 09:28

#14

Boris Baydenko:
Хотя... может вы все правы, я тут ..ней страдаю, мне писать надо "классный ап" и "ТЫЦ +10", а не задаваться вопросами авторских прав.

С такой реакцией на конструктивную критику на явные ляпсусы в предложенном Вами алгоритме, мож и лутше... всем.

di_max добавил 09.09.2008 в 13:51

Boris Baydenko:
судя по постам в этой теме

А предыдущие топики по этой теме Вы внимательно изучали?

BB

35

Boris Baydenko

10 сентября 2008, 12:12

#15

http://www.seonews.ru/masterclass/85/ - вот отсюда и брал инфу

По алгоритмической части читал вот это: http://download.yandex.ru/company/paper_65_v1.rtf. Насколько я понял, на данный момент при определении нечётких дублей реализован метод супершинглов с хэш-функцией алгоритма MD5 для подсчёта контрольных сумм шинглов. Или что-то не так?

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Алгоритм определения первоисточника - пожелания, замечания...