T.R.O.N

T.R.O.N
Рейтинг
314
Регистрация
18.05.2004

Web_issite,

Один Вопрос к Вам - существует ли решение суда, где говорится, что владельцы сайта ...... открыто призывают к тому-то и тому-то.??? Если да - яша, как и другие, через несколько часов все организует. Если нет, то любые действия ПС, могут расцениваться как клевета и даже Ваше сообщение (независимо от того, что Вы говорите все верно).

rokos:
модераторы отказывают в платной регистрации

1. Модеры отказали не в платной регистрации, у ЯК такого просто нет.

2. Деньги платят за ускоренное рассмотрение заявки.

3. Если сайт достоен, чаще всего, он попадает в ЯК даже без заявки.

4. Сайт должен быть интересен не только Вам, но и посетителям.

Vanich:
Правда, основная работа по генерации происходит в голове программиста, машина лишь строит конечные варианты.

Все верно. Генерация статей таким способом, - это интересная задача для программера, но болшое неувожение к посетителю. (аналогично написания вируса)

Megamozg,

Вы платите своей конфеденциальностью за халяву. (мыло и подобные действуют вне рамок лицензии "телематических услуг")

(GoodWin):
"Показать все без исключения"

Уважаемый, кто Вам сказал, что это фишка????? Наконец я понял, ура. Вы не только не порнимаете принцыпов решения подобных проблем, Вы еще и не понимаете саму проблему!

(GoodWin):
Не нужно сравнивать эти два совершенно разные явления вообще никак.

Как сравнить вещи, которые не связаны? Ули у вас ФН умеет искать текстовые дубликаты?(не копии).

ИМХО:
Яндекс научился с некоторой погрешностью отсеивать самые наглые и простые дубликаты
Не научился, он просто некоторые находит.

Давайте начне с начала - для чего яше определять полные дубликаты? На мой взгляд - вариант только один - убрать из поиска "лишнюю" информацию.

Решение проблемы:

1. проверка на полную или частичную копию (требует небольшой рессурс, при этом имеет эффективность - ~5-10%)

2. проверка полного или частичного дубля (огромный рессурс, эффективность 50-60%)

3. отлов текстов, которые находятся на страницах с динамическими URL.

4. некие действия над дубликатами.

Вот в п.4. и вся суть. Если страница автора вдруг станет считаться "тенью" - следует обращение в суд.

Вопрос, накой все это нужно яше?

(GoodWin):
Про, грубо говоря, программно-аппаратный комплекс, который есть сейчас рядом, наверное, с каждым компьютером. И который делает точно то, что делает. С полнейшим успехом. И им пользуются миллионы пользователей на территории Российской Федерации и за её, как говорится, пределами.

Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).

Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".

ИМХО:
Со мной поделитесь!

Смотря о что именно Вы хотите знать.

(GoodWin):
а по существу

- По существу, в этом топике уже все описанно.

Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.

Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.

Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):

- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.

- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)

- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.

(GoodWin), Уговорили, беру ту-же травку.

(GoodWin):
Есть распознавание текстов на уровне алфавита, в котором всего 33 буквы. И есть 5-10 общеупотребительных шрифтов, которые используются в 90-95% случаев подготовки текстов. Всё это с успехом решают такие вещицы, как, например, ФайнРидер.

Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.

WSGU, Вы конечно указали верно, но на фуруме существует традиция, обсуждать все, что хоть как-то касается темы.

egoryich:
вот и весь "алгоритм"

Это высказывание "пионеров", ничего не имеющие общего с реальностью.

Все должны понимать, что решение об асторстве(если есть спор), на данный момент, может решить только суд. И если кто-то решает это без судебного решения, он сам может быть обвинен, по крайней мере в клевите.

Vanich,

Яша не занимается (ИМХО), такой глупостью, как поиском дубликатов. Их определние есть побочное явление.

PS на счет генераторов. Уподобоваримый текст получить всеравно не получится, а для создания мусора - цепей маркова достаточно на 110%. Нужно только грамотно подходить к первичному материалу и коэффициентам алгоритма.

Всего: 4849