Синомайзер Бета версия

123 4
Hkey
На сайте с 30.09.2006
Offline
222
#11
FANTiK123:
Напишите пожалуйста как пользоваться, в программе нет интуитивно интерфейса.
Заметил функцию отмены замены одним кликом, очень правильное решение, мне понравилось

Нажимете кнопку генерете, ждете пару миллисекунд, сверяете тексты, наживаете на маленький крестик, который в поле ввода исходного текста. Затем работаете вручную.

Hkey добавил 08.05.2009 в 12:28

nipler:
Не понимаю смысла в программах-синонимайзерах..Их уже достаточное количество развелось, как платных так и бесплатных..Лучше базу синонимов выпускать по тематикам, чем программы эти писать..По мне так самая функциональная из всех представленных это Смартбайт, остальным до нее далеко, и база синонимов там качественная..а то что вы тут делаете это пустая трата времени..Базы лучше собирайте и продавайте!!!Пользы будет больше..

Первый раз мне бот указывает, что делать.

Hkey добавил 08.05.2009 в 12:31

dkann:
1. а сколько слов в словаре?
dkann добавил 07.05.2009 в 15:57
2. и будет ли она бесплатной, потом.

1. Автоматный словарь до компиляции 10 тыс строк, после 50.

2. Нет будет стоить в районе 80 вмз.

Hkey добавил 08.05.2009 в 12:32

vtomas:
Не нашел как в ручном режиме добавить свой синоним. Грустно :(

Это бета пока...

Hkey добавил 08.05.2009 в 12:36

Videoson:
расскажите, чем она лучше, чем www.perepishem.ru ?

Если кого, то кроме вас интересует это я отвечу.

Hkey добавил 08.05.2009 в 12:41

Zil:
Hkey, интерфейс радует, вот базу бы побольше.

Да забыл сказать база затачивалась в основном под новости.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
SJ
На сайте с 16.03.2008
Offline
78
#12
Hkey:
Если кого, то кроме вас интересует это я отвечу.

Меня интересует тоже.

Как разработчика в том числе ;)

Что умеет, как.

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
OZE
На сайте с 21.05.2006
Offline
152
OZE
#13
Hkey:
Если кого, то кроме вас интересует это я отвечу.

меня интересует:)

что нового в вашей программе? в чем принципиальное отличие от других?

V
На сайте с 10.06.2007
Offline
26
#14
Hkey:


Hkey добавил 08.05.2009 в 12:36

Если кого, то кроме вас интересует это я отвечу.

посмотрите функционал перепишем.ру и скажите, - можете ли сделать лучше?

Вы думаете зря смартбайт-сотоварищи так резко скинул цену? с 28 до 10 долларов?

да потому, что не конкурент и ему все равно за сколько продать свой продукт

не сравнивайте крестьянскую лошадку с трактором 🍻

по производительности хотя бы ;)

Hkey
На сайте с 30.09.2006
Offline
222
#15
Videoson:
посмотрите функционал перепишем.ру и скажите, - можете ли сделать лучше?
Вы думаете зря смартбайт-сотоварищи так резко скинул цену? с 28 до 10 долларов?
да потому, что не конкурент и ему все равно за сколько продать свой продукт
не сравнивайте крестьянскую лошадку с трактором 🍻
по производительности хотя бы ;)

По производительности, то морфология на самом слабом стенде (Аутлон ХП 2500+ (реальная частота 1200), 32 бита, 256 оперы, без дуал ченела): Такие параметры производительности выдает:

Морфология 300 000 слов в секунду. Кстати самая быстрая русская морфология, пишеться под другой проект.

Поиск синонимов 5 000 000 в секунду. Строковый поиск 10 000 000 символов в секунду. Вскрипт (тестовые операторы: 3 граммемных оператора + один сравнения омонимии + один отчистка омонимии + одно склонение с перебором омонемии) 2 000 000 слов в секунду. Задержки, которые вы видите - это тормоза интерфейса. При массовом режиме скорость будет не намного меньше скорости ВинРара, если бы он сжимал в максимальное сжатие эти тексты.

По перепишем.ру - посмотрю.

V
На сайте с 10.06.2007
Offline
26
#16
Hkey:
+ один сравнения омонимии + один отчистка омонимии + одно склонение с перебором омонемии)

вот про это поподробнее плиз

Hkey
На сайте с 30.09.2006
Offline
222
#17

По перепишем.ру:
Для начала начну с мелочей, потом по наростающей:
1. С мылом вместо ника - это глупость. Мыл у тем кто связан с нетом обычно больше одного. Я сегодня минут пять тупил и пытался зайти на сайт вводя Hkey а не мыло.

2. Минут тридцать я ипался, чтобы найти как статью рерайтить. Я уже думал, что меня разводят, поэтому, написал, "если еще кому-то интересно".

3. Ждать 15-20 секунд минимум для рерайта текста не допустимо. В программах хоть полоски загрузки есть, а моя прога за десятые доли секунды делает это.

4. Такое впечатление, что половину автозамен взяли из толкового словаря. "Тельняшка" -> "матросская рубашка". Это автозамена. В принципе это верно (если не придираться к слову рубашка), но текст выглядит идиотским после таких замен. Такого рода замен множество и они все автоматические. Мне ничего не стоить написать прогу которая из толковых словарей берет определения максимум в два слова и фигачит из них синонимы. Более того я это делал, но результат не был достоен даже флага "--- -А". Есть еще множество тем с префиксами глаголов "дорисовать" -> "закончить рисовать" "перерисовать"-> "заново нарисовать". Это очень просто реализуется (20 строк на си, 1 строка на WScript).


if (CurWord.doWS("чр==гл")==WS_TRUE && CurWord.S[0]=='д'&& CurWord.S[1]=='о')
{//если глагол и начинается с ДО
TempWord.LoadFromStr(&CurWord.S[2]);
if(TempWord.doWS("чр==гл")==WS_TRUE)
{//если он без ДО тоже является глаголом
TempWord2.LoadFromStr("закончить");
if (TempWord2.ToForm(CurWord)==WS_SUC)
{// Если удалось склонить в форму и омонемия не перешла на строки
TempWord1.ToBaseForm();
CurWord.SetZ(TempWord2);
CurWord.SetZNext(TempWord1);
ReNewWord(TempWord1);// Перевыделяем память, поскольку мы записали ссылки в результат
ReNewWord(TempWord2);//ReNewWord шаблон
}
}
}

На WScript (интерпретируемом программой языке)

+W1::<Глагол, Стр_Нач=="ДО">  % +W2::<строка="закончить"> W1::<стр=w1, обрезать="2,-1", форма="БФ"> 

+W1::<Глагол, Стр_Нач=="ДО"> это Ищем глагол с началом на "ДО".

+W2::<стр="закончить"> загружаем из слова закончить. И переводим в форму найденного слова.

W1::<стр=w1, обр="2,-1",форма="БФ"> Загружаем из слова-входа, обрезаем с второго символа до конца, переводим в базовую форму (инфинитив). Если слова без "ДО" (например, "ДОмагаться") не существует движок откатит все изменения.

Плюсик показывает, что слово из второй части строки нужно склонить форму найденного слова.

Но такого рода замены это ужас нах. Просто хотел дать вам пример, что такое WScript.

5. Настроек я не нашел, как с флагами у меня. Для этого нужна меченая база.

6. Единственное у них больше ручных синонимов (у меня они малек глючат в демо, их на самом деле больше).

7. Шинглы. Нет проверки, у меня она динамическая с подсветкой.

8. Интерфейс. На вебе не сделаешь такой интерфейс как у меня. Нету удобной опции вывести прошлый текст зачеркнутым. Нет в один клик замены синонимов. Я еще не расписал быстрые клавиши - в интерфейсе у меня больше строк кода, чем в морфологии. На сайте всплывающее меню ограничено не окном браузера, а полем ввода - приходиться как придурку вращать ползунок, когда замен много.

9. Накидайте мне ссылки на материалы, например, новости. Я выложу скрины обработки моей беты и других прог.

V
На сайте с 10.06.2007
Offline
26
#18
Videoson:
вот про это поподробнее плиз

повторно прошу

Videoson добавил 09.05.2009 в 21:10

Hkey:
По перепишем.ру:
Для начала начну с мелочей, потом по наростающей:
1. С мылом вместо ника - это глупость. Мыл у тем кто связан с нетом обычно больше одного. Я сегодня минут пять тупил и пытался зайти на сайт вводя Hkey а не мыло.
2. Минут тридцать я ипался, чтобы найти как статью рерайтить. Я уже думал, что меня разводят, поэтому, написал, "если еще кому-то интересно".
3. Ждать 15-20 секунд минимум для рерайта текста не допустимо. В программах хоть полоски загрузки есть, а моя прога за десятые доли секунды делает это.
4. Такое впечатление, что половину автозамен взяли из толкового словаря. "Тельняшка" -> "матросская рубашка". Это автозамена. В принципе это верно (если не придираться к слову рубашка), но текст выглядит идиотским после таких замен. Такого рода замен множество и они все автоматические. Мне ничего не стоить написать прогу которая из толковых словарей берет определения максимум в два слова и фигачит из них синонимы. Более того я это делал, но результат не был достоен даже флага "--- -А". Есть еще множество тем с префиксами глаголов "дорисовать" -> "закончить рисовать" "перерисовать"-> "заново нарисовать". Это очень просто реализуется (20 строк на си, 1 строка на WScript).

5. Настроек я не нашел, как с флагами у меня. Для этого нужна меченая база.
6. Единственное у них больше ручных синонимов (у меня они малек глючат в демо, их на самом деле больше).
7. Шинглы. Нет проверки, у меня она динамическая с подсветкой.
8. Интерфейс. На вебе не сделаешь такой интерфейс как у меня. Нету удобной опции вывести прошлый текст зачеркнутым. Нет в один клик замены синонимов. Я еще не расписал быстрые клавиши - в интерфейсе у меня больше строк кода, чем в морфологии. На сайте всплывающее меню ограничено не окном браузера, а полем ввода - приходиться как придурку вращать ползунок, когда замен много.
9. Накидайте мне ссылки на материалы, например, новости. Я выложу скрины обработки моей беты и других прог.

1. могу оскорбить и сильно... читайте ФАК сначала

2. для "студентов и школьников", а также "для вебмастеров и..." есть пошаговая инструкция, со страниц, предназначенных для них... простите, что мы не нашли времени пошагово объяснить, как до нее добраться... или Вы посчитали себя поисковой системой, - ну тогда да, оттуда ссылки на инструкцию нет - она автоматически обходит все страницы сайта и сама найдет эту инструкцию...

3. Вы ФАК читали? Вы читали описание того как работает программа? Вам понятие омонимии знакомо?

4. Ваше впечатление ошибочно, в противном случае вместо "Вася" было бы подставлено "имя", а вместо "HKey" - "безапелляционный"

5. Вы ещё не нашли кнопку бабло, которая наверняка есть в ряде программ, не так ли?

6. Это вы про кого?

7. "Шинглы"? А Вы знаете что это такое? Тогда почему так смело утверждаете?

8. Это да, кому какой интерфейс удобнее.

9. www.akunin.ru/azazel - будьте так любезны

OZE
На сайте с 21.05.2006
Offline
152
OZE
#19

1. тут скорее вопрос религии, во многих сервисах используется мыло как логин. Мы посчитали это более удобным.

2. хм, ценное замечания, надо будет исправить (как в винде: "Что начать работу, нажмите кнопку Старт":))

3. скорость - это не самый главный показатель в синонимизаторе, хотя тоже важный. Мы работаем над ускорением работы алгоритмов.

4. так и есть, эти синонимы из общедоступных словарей.

5. настройки - это зло, пользователь сразу хочет получить готовый результат и не думать:). Хотя для продвинутых мы потом сделаем отдельные настройки.

6. да, это так. У нас самая обширная база синонимов, хотя некоторые говорят, что очень маленькая. Это все потому, что очень много мусора отсеивается алгоритмами.

7. тоже очередной холивар. Почему все так уверены, что Яндекс оценивает уникальность по методу шинглов? Это очень грубое приближение. У нас просто выводится процент измененных слов, без всяких усложнений, просто цифры, а пользователь уже сам решает, насколько текст уникальный.

8. да, в вебе сложно сделать нормальный интерфейс, хотя повторить все возможно.

Hkey
На сайте с 30.09.2006
Offline
222
#20
OZE:
7. тоже очередной холивар. Почему все так уверены, что Яндекс оценивает уникальность по методу шинглов? Это очень грубое приближение. У нас просто выводится процент измененных слов, без всяких усложнений, просто цифры, а пользователь уже сам решает, насколько текст уникальный.

Любой известный мне Алгоритм оценки сходства статей основан не на сверки слов каждый с каждым а на сверки кусков текста. Для любого алгоритма вариант изменить 10 слов в разных кусках текста будет уникальнее, чем изменить 10 слов рядом.

Можно наглядно показать это в общем виде. Пусть есть Алгоритм, результаты, которого не зависят от расположения слов. Есть два варианта первый вариант - алгоритм учитывает все слова, кроме стоп-слов, и их плотность. Из-за закона нормального распределения плотность слов в двух текстах будет иметь большую вероятность примерно совпадать. Т.е. в большой выборке текстов (в рунете пару миллиардов) мы будем иметь дофига "левых" дублей.

Если же Алгоритм будет работать не по всем словам, а выбирая менее частотные, то два текста по одной тематики, имеют большой шанс стать "левыми" дублями.

Другими словами я показал, что алгоритмы полностью не базирующие на относительном положении слов дают много ошибочных предположений. Я не уверен, что Яндекс и Гугл используют шинглы, но я уверен, что алгоритм учитывает относительное положение слов.

Hkey добавил 10.05.2009 в 18:46

Videoson:
повторно прошу
Videoson добавил 09.05.2009 в 21:10
3. Вы ФАК читали? Вы читали описание того как работает программа? Вам понятие омонимии знакомо?
4. Ваше впечатление ошибочно, в противном случае вместо "Вася" было бы подставлено "имя", а вместо "HKey" - "безапелляционный"
7. "Шинглы"? А Вы знаете что это такое? Тогда почему так смело утверждаете?
9. www.akunin.ru/azazel - будьте так любезны

3. Если правильно склонять слова, то необходимость снятия омонимии в синомайзинге отпадает. Ну эффект +10% замен. Если расписать... Есть три вида О.

а. Коса (у девушки), Коса (на море) Они склоняются одинаково и решить о.. можно только из контекста. Нет разницы в этом типе О. и разных значениях слов. В словаре оператором контекста решается этот вопрос.

б. Стали (нож из стали), Стали (мы стали единым целым). Когда написания разных слов в некоторых формах не отличается. В базе есть исключения на этот случай.

в. Омоморфия. Города (следующие города: Одесса, Москва и Минск), Города (на окраине города) когда слово в разных формах пишется одинаково. Обычно синоним имеет такую-же омоморфию и нормально склоняется, хотя есть 10% случаев, в которых случая ОММ переходит в строковую неоднозначность. В последующих версиях с помощью WScript я решу этот вопрос, но он не принципиален.

4. Написано было "двухсловные"

7. Я и не знаю, что такое шинглы.

9. 404

123 4

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий