Проверка на полную или частичную копию требует небольшой рессурс, при этом имеет эффективность - Яндекс

Алгоритм поиска дублей статей

Vanich · 2008-02-14T16:56:46.0000000Z

Будет ли Яша считать дублем статьи, в которых совпадает 10 предложений из 20??? Что-нибудь про алгоритм определения дублей известно, кроме общих понятий (поиск нечетких дублей, и т.д.). Меня интересует, если он случайно сравнит статьи и именно те предложения, которые одинаковые, станет он дальше разбирать весь текст или забанит за плагиат??? П.С. Я не занимаюсь копипастом, а пишу генератор статей:drink:.

[Удален]

15 февраля 2008, 07:25

#11

T.R.O.N:

Сообщение от (GoodWin)
Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер.

Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.

😮

😆Отконкретизируйте, пожалуйста.

Мне даже не надо про меня именно, а по существу.;)

42

ИМХО

15 февраля 2008, 07:30

#12

T.R.O.N:

WSGU, Вы конечно указали верно, но на фуруме существует традиция, обсуждать все, что хоть как-то касается темы.

А можно меня будут звать не WSGU, а ИМХО ? :D

T.R.O.N:
(GoodWin), Уговорили, беру ту-же травку.

Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.

Со мной поделитесь!

(GoodWin):

Уважаемый, понимаете, - есть просто исследования, а есть их применение. Разницу ощущаете?
Вероятно, какие-то работы по определению текстовых дублей ведутся, но это только пока разработки. И не для "заплагиатчивания", а для ранжирования.

Яндекс уже давно применяет какую-то методику поиска нечетких дубликатов, чтобы не показывать все версии одного документа в выдаче.

С уважением, Константин.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

314

T.R.O.N

15 февраля 2008, 07:46

#13

ИМХО:
Со мной поделитесь!

Смотря о что именно Вы хотите знать.

(GoodWin):
а по существу

- По существу, в этом топике уже все описанно.

Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.

Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.

Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):

- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.

- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)

- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.

От воздержания пока никто не умер. Хотя никто и не родился! Prototype.js был написан теми, кто не знает JavaScript, для тех, кто не знает JavaScript (Richard Cornford)

[Удален]

15 февраля 2008, 08:04

#14

T.R.O.N:
- По существу, в этом топике уже все описанно.
Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.
Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.
Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):
- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.
- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)
- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.

Вот Вы как раз и гадаете. Просто гадаете. Про ПС, про что там у них происходит, как они это делают. Или не делают. Или собираются делать. Или уже придумали, но не знают как прикрутить. Или думают, - не проконсультирует ли их такой величайший специалист в этом деле как г-н ТРОН с четырьмя точками.

Я же написал только лишь про то, что

Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер.

Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.

Вы выспитесь сначала, уважаемый, после 14 февраля, - а потом рассуждайте.😆

42

ИМХО

15 февраля 2008, 08:17

#15

(GoodWin):

Я же написал только лишь про то, что

Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.

Вы выспитесь сначала, уважаемый, после 14 февраля, - а потом рассуждайте.😆

Это алгоритм определения четких дублей. А яндекс ищет также и нечеткие. Плюс нету у него возможности каждые два текста в рунете по буковке сравнить.

314

T.R.O.N

15 февраля 2008, 08:19

#16

(GoodWin):
Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.

Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).

Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".

[Удален]

15 февраля 2008, 08:39

#17

T.R.O.N:
Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).
Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".

Гы, ещё один (а сколько их уже тут) первооткрыватель Америки...😆 Ну ё-маё...

Понимаете, разница наших с Вами рассуждений в том, что никто точно не знает, что именно скрывается за фишкой "Показать все без исключения". И я, в отличие от Вас, не рискую что-либо утверждать в этом отношении. Вы только лишь на основе просто существования этой кнопочки делаете вывод о решении одной из актуальнейших полувековых компьютерных проблем. Какая наивность!

А вот сканер с ФР - он чуть ли не на каждом рабочем столе. И успешно работают и выполняют свои функции много лет. Не нужно сравнивать эти два совершенно разные явления вообще никак.

42

ИМХО

15 февраля 2008, 08:46

#18

(GoodWin):
Гы, ещё один (а сколько их уже тут) первооткрыватель Америки...😆 Ну ё-маё...
Понимаете, разница наших с Вами рассуждений в том, что никто точно не знает, что именно скрывается за фишкой "Показать все без исключения". И я, в отличие от Вас, не рискую что-либо утверждать в этом отношении. Вы только лишь на основе просто существования этой кнопочки делаете вывод о решении одной из актуальнейших полувековых компьютерных проблем. Какая наивность!

Актуальнейшая полувековая компьютерная проблема требует для своего решения алгоритма который будет определять смысловые дубли с высокой точностью. Она так до сих пор и не решена.

Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты, и этим уже значительно улучшил свою выдачу. Речь шла именно о вопросе, как яндекс их отсеивает, эти простые дубликаты.

[Удален]

15 февраля 2008, 08:58

#19

ИМХО:
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты, и этим уже значительно улучшил свою выдачу.

Как же Вы в этом уверены...😆

Вы 100 раз по разным запросам откройте "Показать все без исключения" и покажите, явите форуму и всему миру эти самые "наглые простые дубликаты". И в чём состоит их "дубликатность".😆

Ребята, идите выспитесь.:D

314

T.R.O.N

15 февраля 2008, 13:48

#20

(GoodWin):
"Показать все без исключения"

Уважаемый, кто Вам сказал, что это фишка????? Наконец я понял, ура. Вы не только не порнимаете принцыпов решения подобных проблем, Вы еще и не понимаете саму проблему!

(GoodWin):
Не нужно сравнивать эти два совершенно разные явления вообще никак.

Как сравнить вещи, которые не связаны? Ули у вас ФН умеет искать текстовые дубликаты?(не копии).

ИМХО:
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты

Не научился, он просто некоторые находит.

Давайте начне с начала - для чего яше определять полные дубликаты? На мой взгляд - вариант только один - убрать из поиска "лишнюю" информацию.

Решение проблемы:

1. проверка на полную или частичную копию (требует небольшой рессурс, при этом имеет эффективность - ~5-10%)

2. проверка полного или частичного дубля (огромный рессурс, эффективность 50-60%)

3. отлов текстов, которые находятся на страницах с динамическими URL.

4. некие действия над дубликатами.

Вот в п.4. и вся суть. Если страница автора вдруг станет считаться "тенью" - следует обращение в суд.

Вопрос, накой все это нужно яше?

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Что делать, чтобы попасть в ответы Google Bard

Алгоритм поиска дублей статей