Алгоритм поиска дублей статей

1 2345 6
Vanich
На сайте с 10.07.2007
Offline
165
#21
T.R.O.N:
Vanich,
Уподобоваримый текст получить всеравно не получится, а для создания мусора - цепей маркова достаточно на 110%. Нужно только грамотно подходить к первичному материалу и коэффициентам алгоритма.

Метод генерации у меня нестандартный. Синонимами не страдаю. Если я Вам дам 10 сгенеренных статей и оригинал, Вы понять не сможете, где оригинал. Правда, основная работа по генерации происходит в голове программиста, машина лишь строит конечные варианты. Если интересно, пишите в личку, но статьи скинуть смогу не раньше вечера понедельника (все материалы на работе).

Онлайн-консультант для юридических, медицинских, компьютерных, туристических сайтов. Удобно пользователю, прибыльно вебмастеру. (http://webmasters.leadia.ru/?ref=bIoqZIaath) MONKEYWRITE ТЕПЕРЬ БЕСПЛАТНО (https://yadi.sk/d/Hd9mbvyzeMMfp)
[Удален]
#22

T.R.O.N,

уважаемый знаток яндексовских технологий и алгоритмов, уймитесь, пожалуйста.

И прекратите смешить окружающих.

Ещё раз перечитайте сами - Ваши же перлы:

Не научился, он просто некоторые находит.

Вы вообще читали мои посты, вчитывались в них?

В самом начале я лишь привёл цитату из другой темы.

Не более того.

И не собирался никак категорично отвечать на вопросы этой темы.

По той простой причине, что и я, и всякий здравомыслящий человек здесь поостережётся говорить конкретные вещи о таких яндекс-функционалах. О том есть ли они, существуют ли и действуют ли.

А если Вы уж такой тут Знайка, то мотайте прямо сейчас на Самокатную и можете хоть до утра декламировать всем тамошним сотрудникам свои знания. Они, я думаю, оценят. По достоинству.

Бывает, человек просто трепло.

А, бывает, ещё и трепло в том, чего знать конкретно просто не может в силу ряда объективных причин.

И это очень тяжёлый случай. Сочувствую Вам.

T.R.O.N
На сайте с 18.05.2004
Offline
314
#23
Vanich:
Правда, основная работа по генерации происходит в голове программиста, машина лишь строит конечные варианты.

Все верно. Генерация статей таким способом, - это интересная задача для программера, но болшое неувожение к посетителю. (аналогично написания вируса)

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)
N
На сайте с 18.05.2003
Offline
100
#24

Я предполагаю, что в яндексе имеется 2-х (или более) уровневая система определения дубликатов.

Первый уровень - простой (требующий не очень большое количество вычислительных ресурсов), типа тех же шинглов.

Второй уровень существенно более русурсоемкий, но на который передаются только те документы, которые вызвали подозрение на первом уровне.

=======

Так вот первый уровень проскочить можно достаточно легко, в то время как на втором ой как надо сильно поизвращаться.

Соответственно при совпадении половины текста на странице, вероятность, что страница будет считаться дублем (при автоматической генерации) скорее всего превысит 90%.

[Удален]
#25

Я вот в восторге от рассуждений по подобным темам.😆

Нет ни одного - ни проверенного, ни подтверждённого факта, нет даже мало-мальски конкретной пищи для размышлений по поводу действий Яндекса в этой сфере. Зато есть немало комментариев с его стороны него. Немало уже.

А тут всё талдычат - один умней другого. Ну ё-ты-маё...🙄

Когда тут все спорят про регуляцию ссылочного, то это, во-первых, одна из первейших яшиных забот, во-вторых, мы, собственно, с этим имеем дело на каждом шагу - и визуально-оценивающе, и конкретно в работе...

А в подобных темах всё одно да одно... Догадки, догадки, одни догадки...

"Я не знаю как и зачем, но оно точно есть".:D

ИМХО
На сайте с 05.01.2008
Offline
42
#26
(GoodWin):
Как же Вы в этом уверены...😆
Вы 100 раз по разным запросам откройте "Показать все без исключения" и покажите, явите форуму и всему миру эти самые "наглые простые дубликаты". И в чём состоит их "дубликатность".😆

Ребята, идите выспитесь.:D

Являю.

Пример первый, тексты схожие. Так прячет, показывает только при нажатии показать все без исключения.

Пример второй, сайты те же, но со второго взята другая страница с другим текстом. Тексты таким образом уже нисколько не схожи.

Показывает оба.

Тексты совпадают не символ в символ, но любую из предложенных здесь проверок на нечеткие дубли не пройдут.

И это не единичный пример, я наблюдал достаточно большую выборку. Наличие очевидного человеку нечеткого дубля в выдаче было всегда, когда сайты клеились, хотя далеко не все такие дубли были яндексом отловлены. Однажды наблюдал эффект склейки в выдаче без текстового дубля, но там был случай который на форуме окрестили "корпоративным" фильтром.

С уважением, Константин.
[Удален]
#27

Это что, поисковый запрос такой? Типичный пользовательский, да?

Что значит "тексты схожие" для текста этого чудесного стихотворения великого русского поэта?😮

Ну и пример... Я чуть не поперхнулся.

И опять ЯПЗ, опять всякая...

И надо же, второй линк - это откровенная построчная линкопомойка...

Бесподобный пример!;)

Вы, уважаемый, долго его такой искали?😆😆😆

я наблюдал достаточно большую выборку

Во-о-от. Вот её нам приведите, уважаемый знаток яндекс-алгоритмов, напишите к ней толковую аналитику, проаргументируйте как следует, а потом уж и делать выводы можно.

ИМХО
На сайте с 05.01.2008
Offline
42
#28
(GoodWin):
Что значит "тексты схожие" для текста этого чудесного стихотворения великого русского поэта?😮
Ну и пример... Я чуть не поперхнулся.
И опять ЯПЗ, опять всякая...
И надо же, второй линк - это откровенная построчная линкопомойка...

Бесподобный пример!;)
Вы, уважаемый, долго его такой искали?😆😆😆

Первое: алгоритмам яндекса параллельно где стихи а где проза. Стих выбрал, потому что его копию легче найти. Тексты схожие, значит что различия между текстами невелики и их сходство легко обнаруживаются всеми приведенными в этом топике алгоритмами.

Второе: построчную линкопомойку выкидывают из выдачи не за то что это построчная линкопомойка. Иначе во втором примере ее бы не было.

Третье: искал 10 минут. Нашел с первой попытки. Если бы я не был прав совершенно ни в чем, то наверное искал бы дольше.

ИМХО:
я наблюдал достаточно большую выборку
(GoodWin):

Во-о-от. Вот её нам приведите, уважаемый знаток яндекс-алгоритмов, напишите к ней толковую аналитику, проаргументируйте как следует, а потом уж и делать выводы можно.

К сожалению она уже вся в бане.

[Удален]
#29

Уважаемый ИМХО, Вы знаете, есть такое понятие - "репрезентативность"?;)

Вы что-то там на счёт какой-то "выборки" написАли...;)

Вот её такую - выборку - приведите для анализа. И сам анализ сделайте. Квалифицированный, аргументированный.

Разные пользовательские запросы, в разных тематиках, в разных словоколичествах и т.д.

А то что Вы привели практически наобум - это ровным, ровным, абсолютно ровным счётом ни о чём не говорит.

И помните, что мы-то рассуждаем о нечётких дублях...

А не о двух экземплярах фактически одного и тоже текста, вырванного из поисковой базы с помощью откровенно служебно-навигационных запросов.

Или посоветуйте ТС переставить местами строчки этого замечательного стихотворения. В качестве ответа на его вопрос.😆

Были бы Вы моим студентом на экзамене, я Вас выгнал бы с огромным позором до зачётов в следующем семестре.

L
На сайте с 07.12.2005
Offline
105
#30
ИМХО:



Яндекс уже давно применяет какую-то методику поиска нечетких дубликатов, чтобы не показывать все версии одного документа в выдаче.

Тут Вы 100% правы!

Имею сайт, с которго перепечатывают стати. С четким указанием автора. Т.е. стоят нормальные ссылки на первоисточник.

Хотя тематика очень конкурентная, но статьи пишутся так, что клонировать их почти невозможно. (как - секрет :))

Результат: сайты-ретрансляторы выстроенны в топе. Оригинал... ну, там... (надо бы ты-последний рифмованно переименовать ;))

Вот такое "наше все" россейского поискового сегмента.

1 2345 6

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий