Где очень калично звучит - там исправить.
Огласите опыт работы и образование. (лучше пример работы)
Я в расценках не шарю на редактуру - когда работал журналистом меня мало интересовало сколько редакторам платят. Насчет мужчины, то это связано с тематикой текста.
Синомайзер - через месяц (но это только планы)
Генератор - когда накопиться достаточное к-во доработок.
ВОЗОБНОВЛЯЮ ПРОДАЖИ. Гарантирую срок получения 3 дня. Если задержу более чем на трое суток вы получите 25% скидку. Если на неделю 50%. Можите отправлять с КП.Z146746500830цена 65 вмз. Или по курсу ЦБ на R347509836560.
другая программа
технически невозможно выделить больше рансов. 100 статей между собой имеют 10.000 сочетаний врядли вручную можно проверить их все. Программа выводит среднее число как по линейной метрике (среднее арифметическое), так и по квадратичной метрике - на эти результаты необходимо обратить внимание.
Эвклидова метрика (X1*X1+X2*X2+X3*X3) используется, например, в теории вероятностей (среднеквадратичное отклонение) и в геометрии (расстояние между точками). Если выводить из тер. вера, то мы выбираем получаем статьи не только более уникальные, но и с большей стабильностью уникальности. Если выводить из геометрии мы получаем те статьи неуникальность, которых в N-1 мерном пространстве имеет наименьшее абсолютное расстояние от нуля.
Манхетенова метрика (X1+X2+X3) используется, как экзотический пример.
Если говорить по простому например, у нас есть 103 статьи. Нужно исключить одну. И две из этих статей имеют 100% сходство с друг другом, а с другими нулевое сходство. С остальными эти две статьи имеют сходство в 2%. Остальные статьи имеют сходство 5% между собой.
Для этих двух статей линейная метрика будет равна 100 + 2*100 = 300. Для остальных 2*2+100*5=504. Т.е. мы исключим из одну статей "большой группы". Хотя по факту нужно исключить одну из статей малой группы так как они 100% дубли друг-друга. Квадратичная метрика для первых двух статей будет равна 100*100 + 2*2*100 = 10400, остальных 2*2*2+100*25=2508. Т.е. мы исключим одну статью из "малой группы", стопроцентного клона, что нам и нужно было.
У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:
она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.
Теперь про Эвклидову метрику - почему она используется? Потому, что она очень резко растет с возрастанием сходства. Если есть две статьи и процент их сходства 5 то метрика = 25, а если сходство равно 20, то уже 400. Т.е. варианты, когда какае-то пара будет иметь большое сходство, одна из этих статей будет отсеиваться сразу.
У вас демо стоит и вы игрались с настройками часов.
Я выложил преальфа. Если вам интересно, то можите ее использовать. Либо открытый конкурс либо ничего...
Возможность переподключения словарей я бы убрал из конкурса, как возможность изменения опций.
Вот результаты основного словаря. Есть одна движковая ошибка склонения. (понимаете - осозновать). И неудивительно, ведь основной движок морфологии взят из генератора. Счас пишу новый.
Вечером выложу результат.
"права"=>"водительское удостоверение". Не верю! В большинстве случаев замена не корректна. "права граждан были нарушены". Существительное с другой словоформой, т.е есть необходимость спрягать другие слова. Омоморфия 2ой группы (мн им: "права граждан" ед вн:"лишился права"). Из контекста омоморфия не решается.
В тексте еще много такого рода непоняток.