Алгоритм определения первоисточника - пожелания, замечания... - Яндекс - Поисковые системы

35

Boris Baydenko

8 сентября 2008, 10:01

3770

В данном разделе уже много раз поднималась тема неуникального контента (были жалобы типа "спёрли контент", "отфильтровали" и т.п.)

Официальная позиция Яндекса - зеркало Рунета, а не цензоры (но за дубликаты баним/фильтруем/...), т.е., открещиваются от своих же фильтров в некотором роде.

В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".

Алгоритм такой: пусть по какому-либо алгоритму поиска дубликатов у нас уже найдено К "дублей" (Яндекс их уже научился определять). Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость. Т.е., если Ф(х,у) - функция определения первоисточника, то первоисточником будет тот сайт, где Ф(х,у) принимает экстремальное значение (минимум/максимум). Здесь:х - параметр оценки времени добавления в индекс контента-"дубля", у - параметр оценки трастовости сайта.

Пример функции оценки первоисточника: Ф(х,у)=Ф(х) - "самая ранняя проиндексированность дубля- кто первый попал в индекс с контентом, тот и первоисточник, остальные должны брать с него ссылку при размещении у себя дубля на страницах" (т.е., такие функции существуют; разумеется, могут быть и другие функции)

Вопрос: чем плох такой алгоритм?

З.Ы. Если интересна тема - могу подкрепить примерами.

Продвижение сайтов в Украине (http://semantika.com.ua/)

N

202

noosfera

8 сентября 2008, 10:11

#1

БД через 10 лет представил? даже если реализовывать лог истории через числовые значения все равно не реал.

и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником.

Одновременно пропал трафик с Перебор с рекламой и Как нас накалывают с

BB

35

Boris Baydenko

8 сентября 2008, 10:33

#2

noosfera:
БД через 10 лет представил? даже если реализовывать лог истории через числовые значения все равно не реал.
и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником.

Отвечу:

1)Возможно, но я указал, что есть ещё второй фактор - трастовость сайта. Мой алгоритм для функции Ф(х,у)=Ф(х) будеть работать как препод, который видит перед собой в первую сессию двух первокурсников с одинаковой работой, но не знает ещё ничего о самих студентах (т.е., траст у студ. одинаков, а засчитана работа тому, кто её первым сдаст - даже если она содрана).

2) "и если я буду тырить по абзацу с n кол-ва сайтов и формировать из них статью, по твоему алгоритму у буду уником" - во-первых, я не предлагаю определять дубликаты (Яндекс это без меня делает с помощью шинглов, а я не берусь обсуждать уязвимые места данного метода) - я предлагаю определять первоисточник, уже имея набор дублей. Кстати, в этом случае (при правильной тырке) сайт может быть распознан как нечёткий дубль, который не так жестоко накажут. Но это скорее недостаток алгоритма шинглов, а не моего.

Замечание. Предложенная мной формула является лишь примером. Разумеется, можно придумать формулу лучше, которая с меньшей вероятностью ошибки определит первоисточник. Или на этом форуме никому не интересно ничего, кроме "классный ап", "сайт - УГ" и тому подобного??

169

Ёхан Палыч

8 сентября 2008, 10:46

#3

Boris Baydenko:
Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость.

Дык, он и сейчас так определяет: если трастовый сай тырит у вас статьи и они, естественно, появляются в индексе первыми, то по вашей формуле будет вечно процветать плагиат, да еще и с санкциями к источнику.

77

mr. Evil

8 сентября 2008, 10:47

#4

Еще бы Яндекс индексил все сайты в один день, тогда да, ваш алгоритм "идеален" 😆

Ну а так, сделал я новый сайтик с интересной инфой, а какой-нить тицастый сайт скоммуниздил сразу все, яша на мой сайт зайдет через фиг знает сколько времени, а тот сайт индексит ежедневно, так кто тут будет первоисточник?

>>В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".

Если вы такой гений, что придумали самое универсальное средство, то что ж вы тут сидите - бегом в яндекс, вам там неплохой гонорар пожизненно предложат.

SJ

78

sokol_jack

8 сентября 2008, 10:49

#5

Boris Baydenko:
Вопрос: чем плох такой алгоритм?

Тем, что воруя статьи с молодняка любой сайт, который прожил немного дольше (и стал более трастовым, соответственно) будет только повышать свою "первоисточность" в глазах ПС и топить молодняк с действительно уник контентом. А уж если вашу статью "перепечатает" какой-то из старейших тематических сайтов - все, сливай воду. Траст этого сайта затмит все "даты первого попадания в индекс".

А если влияние траста делать совсем незначительным, то зачем он вобще?

+ к этому, на старых сайтах робот обычно бывает значительно чаще, чем на молодняке, даже с уник контентом.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?

173

TheBat

8 сентября 2008, 10:50

#6

Ещё конкурс можно сделать по идеям ;) Кто, в этот раз, будет спонсором развития Яндекса?...

Максим

78

Kipwpartner

8 сентября 2008, 14:34

#7

Boris Baydenko:
В данном разделе уже много раз поднималась тема неуникального контента (были жалобы типа "спёрли контент", "отфильтровали" и т.п.)
Официальная позиция Яндекса - зеркало Рунета, а не цензоры (но за дубликаты баним/фильтруем/...), т.е., открещиваются от своих же фильтров в некотором роде.
В связи с этим я хочу предложить алгоритм определения первоисточника, раз и навсегда снимающий все вопросы типа "кто у кого списывал".
Алгоритм такой: пусть по какому-либо алгоритму поиска дубликатов у нас уже найдено К "дублей" (Яндекс их уже научился определять). Тогда: первоисточником следует считать тот сайт, где самая ранняя дата появления текста в индексе + самая высокая трастовость. Т.е., если Ф(х,у) - функция определения первоисточника, то первоисточником будет тот сайт, где Ф(х,у) принимает экстремальное значение (минимум/максимум). Здесь:х - параметр оценки времени добавления в индекс контента-"дубля", у - параметр оценки трастовости сайта.
Пример функции оценки первоисточника: Ф(х,у)=Ф(х) - "самая ранняя проиндексированность дубля- кто первый попал в индекс с контентом, тот и первоисточник, остальные должны брать с него ссылку при размещении у себя дубля на страницах" (т.е., такие функции существуют; разумеется, могут быть и другие функции)
Вопрос: чем плох такой алгоритм?
З.Ы. Если интересна тема - могу подкрепить примерами.

Это что тебе приснилось? В суппорт Яндексу напиши свой вариант и сюда процитируй их ответ....

Не создавайте клонов на этом форуме....

18

true82

9 сентября 2008, 05:37

#8

ИМХО. Может и бред, но...

Яндекс хранит у себя "сохраненную копию" страницы. Почему не сделать addurl'ку с функцией добавления текста привязанного к url'у?

Система:

1. Добавляем url;

2. Ставим галочку на функцию, например "определить первоисточник";

3. Открывается поле "Вставьте текст" - вставляем копипастом;

4. Жмем добавить.

Робот помещает данный текст в БД. Если кто-то что-то еще добавляет, то сравнивает с базой (собственно, как он и делает при определении плагиата). Когда быстробот приходит и кэширует данную страницу, то из БД она удаляется (чтобы не разрасталась). Далее как обычно.

Чтобы не пихали, что непоподя, можно ввести санкции и правила к тем, кто скармливает всякую ерунду, не соответствующую требованиям (вплоть до бана сайта и страницы).

Таким образом Яндекс всегда будет знать, где первоисточник. То есть, своего рода, регистрация контента.

Много уникальных статей, которые жалко потерять, вебмастер не напишет за день, а усложнить аддурилку на 2 клика - это не так страшно...

Конечно не все продумано и описано, но это так... мозговой штурм... наброска идей и не более...

Продаем хорошие автомобили на сайте (http://autoniks.ru) Покупаю качественный ссылки с качественных сайтов, тематика "авто", "юриспруденция", "безопасность", "флористика", "красота" (/ru/forum/245134)

BB

35

Boris Baydenko

9 сентября 2008, 07:23

#9

true82,Неплохая попытка. Но у Вашего алгоритма есть следующие недостатки:

1) Такой способ ведёт к увеличению базы данных (в принципе, не страшно, но надо учитывать и это)

2) Ваш алгоритм действительно отследит при добавлении сайта с контентом, является ли новый сайт первоисточником или нет. Но как быть, если сайт уже создан, и на нём хотят поменять контент? Например, страница со статьёй существует, проиндексирована ПС. В какой-то момент на ней хотят поменять контент (перезалить его с целью, например, поискового продвижения). В выдаче она будет присутствовать с вновь залитым текстом, но когда он проиндексируется - вот вопрос, а за это время его кто-то может стащить. Видимый выход - ограничить к нему доступ (ну, не удалять же страницу, а потом добавлять!), но это чревато тем, что сайт не переиндексируется (робот в момент захода не получит к нему доступа).

Но это уже хорошая мысль по сравнению с тем, что мне пришлось читать в каментах на мой топик.

173

TheBat

9 сентября 2008, 07:45

#10

true82, может проще через RSS отдавать? Сразу дал Яндексу ссылоку на RSS и всё, пусть забирает и проверяет всё сам.

Вообще считаю идею не жизнеспособной, так как изначально отрицаю адекватность этого фильтра. Нет способов определить первоисточник, который работал бы без ошибок... да и нужен ли он? Может только, как один из самых несущественных факторов...

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ

Дзен реализовал для авторов возможность вывода денег через СПБ

Алгоритм определения первоисточника - пожелания, замечания...