Через пару недель можно поговорить об этом. В принципе, если еще кто-то хочет линукс/юникс версию, то пишите. Условия такие версия за отдельную цену без права создания на ее основе сервисов для третьих лиц.
посмотрите вот этот /ru/forum/359446
Посмотрите во это /ru/forum/359446
Возможно будет сервис. Вообще я планирую сделать фоновый режим, на виндовых серверах будет работать.
Сделаю, когда закончу синомайзер. Думаю завтра же первая публичная версия будет.
Спасибо за отзыв.
Hkey добавил 21.05.2009 в 00:38
Рассмотрю предложения бартерного обмена лицензий на генератор на ссылки с внутряка или морд.
еще действуете?
Скрипты загружаться в программу, как объекты, которые опряделяют, что нужно искать и что с этим делать. Памяти этот вариант требует больше, но производительность в разы быстрее.
3. Лебедь, рак и щука - тоже работали над перевозкой воза. Переход количественных изменений в качественные не всегда происходит. Если движок программировало больше одного человека, это скорее минус проекта.
Вы вообще читать умеете. Я написал, что Омонимия не рождает ошибки, она незначительно снижает процент замен. Движок, пытается склонить одно слово во все гипотетические словоформы другого, при порождении строковой неоднозначности, либо других ошибках откатывает.
9. Про Азазель. Любой нормальный человек бы извинился за битую ссылку и дал бы рабочую, например на либ.ру. Что-то мне подсказывает, что книга выбрана вами неспроста (ни Бориса Акунина ни Азазель в частности вы не любите - это вы показали не выделяя верхним регистром первые буквы этих имен собственных - психология), как я думаю ваш проект обкатывался именно на этой книге. И именно на редакции с сайта Акунина, а не либ.ру, это объясняет почему вы ссылку на либ.ру не дали.
Любой известный мне Алгоритм оценки сходства статей основан не на сверки слов каждый с каждым а на сверки кусков текста. Для любого алгоритма вариант изменить 10 слов в разных кусках текста будет уникальнее, чем изменить 10 слов рядом.
Можно наглядно показать это в общем виде. Пусть есть Алгоритм, результаты, которого не зависят от расположения слов. Есть два варианта первый вариант - алгоритм учитывает все слова, кроме стоп-слов, и их плотность. Из-за закона нормального распределения плотность слов в двух текстах будет иметь большую вероятность примерно совпадать. Т.е. в большой выборке текстов (в рунете пару миллиардов) мы будем иметь дофига "левых" дублей.
Если же Алгоритм будет работать не по всем словам, а выбирая менее частотные, то два текста по одной тематики, имеют большой шанс стать "левыми" дублями.
Другими словами я показал, что алгоритмы полностью не базирующие на относительном положении слов дают много ошибочных предположений. Я не уверен, что Яндекс и Гугл используют шинглы, но я уверен, что алгоритм учитывает относительное положение слов.
Hkey добавил 10.05.2009 в 18:46
3. Если правильно склонять слова, то необходимость снятия омонимии в синомайзинге отпадает. Ну эффект +10% замен. Если расписать... Есть три вида О.
а. Коса (у девушки), Коса (на море) Они склоняются одинаково и решить о.. можно только из контекста. Нет разницы в этом типе О. и разных значениях слов. В словаре оператором контекста решается этот вопрос.
б. Стали (нож из стали), Стали (мы стали единым целым). Когда написания разных слов в некоторых формах не отличается. В базе есть исключения на этот случай.
в. Омоморфия. Города (следующие города: Одесса, Москва и Минск), Города (на окраине города) когда слово в разных формах пишется одинаково. Обычно синоним имеет такую-же омоморфию и нормально склоняется, хотя есть 10% случаев, в которых случая ОММ переходит в строковую неоднозначность. В последующих версиях с помощью WScript я решу этот вопрос, но он не принципиален.
4. Написано было "двухсловные"
7. Я и не знаю, что такое шинглы.
9. 404