Web_issite,
Один Вопрос к Вам - существует ли решение суда, где говорится, что владельцы сайта ...... открыто призывают к тому-то и тому-то.??? Если да - яша, как и другие, через несколько часов все организует. Если нет, то любые действия ПС, могут расцениваться как клевета и даже Ваше сообщение (независимо от того, что Вы говорите все верно).
1. Модеры отказали не в платной регистрации, у ЯК такого просто нет.
2. Деньги платят за ускоренное рассмотрение заявки.
3. Если сайт достоен, чаще всего, он попадает в ЯК даже без заявки.
4. Сайт должен быть интересен не только Вам, но и посетителям.
Все верно. Генерация статей таким способом, - это интересная задача для программера, но болшое неувожение к посетителю. (аналогично написания вируса)
Megamozg,
Вы платите своей конфеденциальностью за халяву. (мыло и подобные действуют вне рамок лицензии "телематических услуг")
Уважаемый, кто Вам сказал, что это фишка????? Наконец я понял, ура. Вы не только не порнимаете принцыпов решения подобных проблем, Вы еще и не понимаете саму проблему!
Как сравнить вещи, которые не связаны? Ули у вас ФН умеет искать текстовые дубликаты?(не копии).
Давайте начне с начала - для чего яше определять полные дубликаты? На мой взгляд - вариант только один - убрать из поиска "лишнюю" информацию.
Решение проблемы:
1. проверка на полную или частичную копию (требует небольшой рессурс, при этом имеет эффективность - ~5-10%)
2. проверка полного или частичного дубля (огромный рессурс, эффективность 50-60%)
3. отлов текстов, которые находятся на страницах с динамическими URL.
4. некие действия над дубликатами.
Вот в п.4. и вся суть. Если страница автора вдруг станет считаться "тенью" - следует обращение в суд.
Вопрос, накой все это нужно яше?
Знаете, я Вам хочу сказать больше, текст с сайта можно взять, даже не используя файнриадер. Там ведь уже буковки (а не их изображение).
Но сей продукт, навенрное это вас удивит, делает только "механическую" работу. Он не может определитьключевые моменты текста, необходимы для формирования понятия "дубль".
Смотря о что именно Вы хотите знать.
- По существу, в этом топике уже все описанно.
Яшини "дубли" и "нечеткие дубли" (ибо нужно понимать, что все это с точки зрения самого Я) - это продукт побочный, выплывший в результате построения основного алгоритма.
Как работет его алгоритм - я конечно не знаю. Ведь достаточного количества данных для анализа нет, а в круг людей, общающихся с "платонами" на подобные темы я не вхожу.
Из того, что я вижу в поиске и то, что делал сам, могу заключить следующее (стараюсь не очень слушать "утечуи информации" из яши):
- Алгоритма поиска дублей просто нет, есть только некоторые эффекты, всплывающие по случаю.
- При данной реализации БД яши, вычленять дубли, практически невозможно, либо будет занимать очень большой рессурс (судя по всему, его уже не хватает)
- Распознование тематики, осмысленности и т.д. для текствов - реализуется просто, НО т.к. яша не собирается вступать в конфликт с действующим законом - делать не будет.
(GoodWin), Уговорили, беру ту-же травку.
Вы подтвердили, что понятия не имеете о том, как работают подобные системы, как распозновательные, так и анализирующие.
WSGU, Вы конечно указали верно, но на фуруме существует традиция, обсуждать все, что хоть как-то касается темы.
Это высказывание "пионеров", ничего не имеющие общего с реальностью.
Все должны понимать, что решение об асторстве(если есть спор), на данный момент, может решить только суд. И если кто-то решает это без судебного решения, он сам может быть обвинен, по крайней мере в клевите.
Vanich,
Яша не занимается (ИМХО), такой глупостью, как поиском дубликатов. Их определние есть побочное явление.
PS на счет генераторов. Уподобоваримый текст получить всеравно не получится, а для создания мусора - цепей маркова достаточно на 110%. Нужно только грамотно подходить к первичному материалу и коэффициентам алгоритма.