Hkey

Hkey
Рейтинг
222
Регистрация
30.09.2006
Интересы
Java
Константинович:
Что под этим подразумевается?

Где очень калично звучит - там исправить.

Трубадурочка:
о, боже! шовинизм на форуме! =)
я женщина, но могу отредактировать, если вы огласите расценки.
кстати, какая тематика у текста? вдруг это учебник по физике, тогда беру обратно свои слова =)

Трубадурочка добавил 09.04.2009 в 00:17
У Вас же конкретно 100 к, а между 30 и 50 - большая пропасть. Определитесь все-таки, и я готова редактировать. =)
По срокам: будет сделано максимум к вечеру пятницы. Но, скорее всего, завтра.

Огласите опыт работы и образование. (лучше пример работы)

Я в расценках не шарю на редактуру - когда работал журналистом меня мало интересовало сколько редакторам платят. Насчет мужчины, то это связано с тематикой текста.

rulez:
Когда планируется новые версии ваших синонимайзеров?

Синомайзер - через месяц (но это только планы)

Генератор - когда накопиться достаточное к-во доработок.

ВОЗОБНОВЛЯЮ ПРОДАЖИ. Гарантирую срок получения 3 дня. Если задержу более чем на трое суток вы получите 25% скидку. Если на неделю 50%. Можите отправлять с КП.
Z146746500830
цена 65 вмз. Или по курсу ЦБ на R347509836560.

vikuz:
Я прошу прощения, может быть я что-то пропустил, но по адресу seogenerator.ru что находится?
Новая версия или старая?

другая программа

Sticket:
Скажите плиззз, а причем тут может быть шаблон?? Если в результатах генерации 100 вариантов, при ручной проверке, попадаются варианты со схожестью 2% ??? А в выборке их нет?

Шаблон работает. Варианты генерятся. Я беру наугад две статьи из 100 полученных - и получаю схожесть 2%. Но в выборку программы они не попадают. Зато в выборку попадают варианты, где процент схожести значительно выше, например 19%. Как такое может получаться?

2) Может с Эвклидовой метрикой все верно. Вопрос - куда приводит результат. Может неправильно сделаны выводы о необходимости применения Эвклидовой метрики?

У меня, к сожалению закончились RUNs, для версии программы. Выделите плизз неделю еще потестить. Я вам пришлю результаты - и шаблон исходник, и 100 вариантов, и примеры сравнений.

Если неправ все-таки я, и результат программы правильный, с удовольствием ее приобрету, поскольку нуждаюсь очень сильно в подобном инструменте.

технически невозможно выделить больше рансов. 100 статей между собой имеют 10.000 сочетаний врядли вручную можно проверить их все. Программа выводит среднее число как по линейной метрике (среднее арифметическое), так и по квадратичной метрике - на эти результаты необходимо обратить внимание.

Эвклидова метрика (X1*X1+X2*X2+X3*X3) используется, например, в теории вероятностей (среднеквадратичное отклонение) и в геометрии (расстояние между точками). Если выводить из тер. вера, то мы выбираем получаем статьи не только более уникальные, но и с большей стабильностью уникальности. Если выводить из геометрии мы получаем те статьи неуникальность, которых в N-1 мерном пространстве имеет наименьшее абсолютное расстояние от нуля.

Манхетенова метрика (X1+X2+X3) используется, как экзотический пример.

Если говорить по простому например, у нас есть 103 статьи. Нужно исключить одну. И две из этих статей имеют 100% сходство с друг другом, а с другими нулевое сходство. С остальными эти две статьи имеют сходство в 2%. Остальные статьи имеют сходство 5% между собой.

Для этих двух статей линейная метрика будет равна 100 + 2*100 = 300. Для остальных 2*2+100*5=504. Т.е. мы исключим из одну статей "большой группы". Хотя по факту нужно исключить одну из статей малой группы так как они 100% дубли друг-друга. Квадратичная метрика для первых двух статей будет равна 100*100 + 2*2*100 = 10400, остальных 2*2*2+100*25=2508. Т.е. мы исключим одну статью из "малой группы", стопроцентного клона, что нам и нужно было.

Sticket:

Среди вариантов, которые генерятся, по факту есть статьи со схожесть 0-2% между собой. Может другие проги покажут схожесть 3%, может 4%, может 5%, но не 19%. Дело не в абсолютных значениях. Основная проблема - что из 1000 выбираются статьи, которые между собой имеют неприятный процент схожести 19%, только потому что у них средний % ко всей тысяче например 19%. У других может и еще больше. Но среди 1000 есть статьи (допустим их 15 штук) , у которых относительно друг друга процент схожести 1-3%. Так вот зачем мне эта выборка 15 из 1000, с процентом между собой 19% ???? НА мой взгляд просто прога должна фильтровать не по среднеквадратическому от сравнения текста с другими, а как-то по минимальной схожести

У вас проблема с шаблоном. Если вам нужно выбрать из 1000 статей 500 то программа сделает так:

она посчитает Эвклидову метрику для каждой статьи X1*X1 + X2*X2 + ... + XN*XN. Найдет из 500 статей самую худшую, потом исключит ее из выборки. Потом заново пересчитает, потом опять исключит и так 500 раз. Т.е. мы получим минимум по эвклидовой метрике.

Теперь про Эвклидову метрику - почему она используется? Потому, что она очень резко растет с возрастанием сходства. Если есть две статьи и процент их сходства 5 то метрика = 25, а если сходство равно 20, то уже 400. Т.е. варианты, когда какае-то пара будет иметь большое сходство, одна из этих статей будет отсеиваться сразу.

__SPiRiT__:

старая версия проги пишет "date manipulation detected" - очередной бред

У вас демо стоит и вы игрались с настройками часов.

GodFather:
За последние месяцы на улицах мегаполисов возможно видеть машины с плавно раскачивающимся под зеркалом заднего вида СD. Случается это решительно не от всеобщей любви к музыке, а лишь потому, что почти все шоферы простодушно думают, что имеют все шансы следовательно «облапошить» радар сотрудника ДПС. Впрочем это еще одно недоразумение. В первую очередь, Инспекция уже использует оснащенной по всем современным тенденциям техникой, мериющей скорость.

Смотрится это так. За несколько сотен метров от поста вынесена камера, смотрящая за дорогой, а на посту стоит PC, в котром заметно все, что демонстрирует камера. Гаишник ставит лимитирование скорости, и камера начинает искать на магистрали тех, кто перемещается скорее установленного предела.


Этот отрывок текста - результат обработки текста словарем синонимов СинМастер 5.0, поступающим в продажу 20 марта.


Оригинал:

В последнее время на улицах городов можно видеть машины с мерно покачивающимся под зеркалом заднего вида компакт-диском. Происходит это вовсе не от повальной меломании, а из-за того, что многие водители наивно полагают, что могут таким образом «обмануть» радар Гаишника. Однако это очередное заблуждение. Во-первых, ГИБДД уже пользуется оборудованной по последнему слову техники аппаратурой, измеряющей скорость.

Выглядит это следующим образом. За пару километров от поста вынесена камера, наблюдающая за дорогой, а на посту стоит компьютер, на экране которого видно все, что показывает камера. Инспектор ГИБДД ставит ограничение скорости, и камера начинает выискивать на дороге тех, кто движется быстрее заданного предела.

Я выложил преальфа. Если вам интересно, то можите ее использовать. Либо открытый конкурс либо ничего...

GodFather:
Насчет "права|водительское удостоверение поясняю" - у меня есть "тематические" блоки синонимов, которые я подключаю в зависимости от тематики текста. В "основном" словаре синонимов слово "права" не обрабатывается вовсе. Большинство слов имеющие различные значения так же не подвергается обработке, потому что в разном контексте , как вы правильно заметили, не будет смысла.

Возможность переподключения словарей я бы убрал из конкурса, как возможность изменения опций.

Вот результаты основного словаря. Есть одна движковая ошибка склонения. (понимаете - осозновать). И неудивительно, ведь основной движок морфологии взят из генератора. Счас пишу новый.

jpg HAS_SCR2.jpg

Вечером выложу результат.

"права"=>"водительское удостоверение". Не верю! В большинстве случаев замена не корректна. "права граждан были нарушены". Существительное с другой словоформой, т.е есть необходимость спрягать другие слова. Омоморфия 2ой группы (мн им: "права граждан" ед вн:"лишился права"). Из контекста омоморфия не решается.

В тексте еще много такого рода непоняток.

Всего: 2639