Синомайзер Бета версия

1 234
V
На сайте с 10.06.2007
Offline
26
#21
Hkey:
Любой известный мне Алгоритм оценки сходства статей основан не на сверки слов каждый с каждым а на сверки кусков текста. Для любого алгоритма вариант изменить 10 слов в разных кусках текста будет уникальнее, чем изменить 10 слов рядом.
Можно наглядно показать это в общем виде. Пусть есть Алгоритм, результаты, которого не зависят от расположения слов. Есть два варианта первый вариант - алгоритм учитывает все слова, кроме стоп-слов, и их плотность. Из-за закона нормального распределения плотность слов в двух текстах будет иметь большую вероятность примерно совпадать. Т.е. в большой выборке текстов (в рунете пару миллиардов) мы будем иметь дофига "левых" дублей.
Если же Алгоритм будет работать не по всем словам, а выбирая менее частотные, то два текста по одной тематики, имеют большой шанс стать "левыми" дублями.
Другими словами я показал, что алгоритмы полностью не базирующие на относительном положении слов дают много ошибочных предположений. Я не уверен, что Яндекс и Гугл используют шинглы, но я уверен, что алгоритм учитывает относительное положение слов.

Hkey добавил 10.05.2009 в 18:46

3. Если правильно склонять слова, то необходимость снятия омонимии в синомайзинге отпадает. Ну эффект +10% замен. Если расписать... Есть три вида О.
а. Коса (у девушки), Коса (на море) Они склоняются одинаково и решить о.. можно только из контекста. Нет разницы в этом типе О. и разных значениях слов. В словаре оператором контекста решается этот вопрос.
б. Стали (нож из стали), Стали (мы стали единым целым). Когда написания разных слов в некоторых формах не отличается. В базе есть исключения на этот случай.
в. Омоморфия. Города (следующие города: Одесса, Москва и Минск), Города (на окраине города) когда слово в разных формах пишется одинаково. Обычно синоним имеет такую-же омоморфию и нормально склоняется, хотя есть 10% случаев, в которых случая ОММ переходит в строковую неоднозначность. В последующих версиях с помощью WScript я решу этот вопрос, но он не принципиален.
4. Написано было "двухсловные"
7. Я и не знаю, что такое шинглы.
9. 404

3. Вы бы не проявляли подобную самонадеянность, если бы знали, что над проектом работало несколько десятков человек

ваш вариант хорош ровно до тех пор, когда количество ошибок не превысит некий барьер - дальше - фтопку, т.е "в бан"

9 зайдите на сайт акунина и скачайте азазель - без всяких 404 - кто хочет ищет способ, кто не хочет - причину

Hkey
На сайте с 30.09.2006
Offline
222
#22
Videoson:
3. Вы бы не проявляли подобную самонадеянность, если бы знали, что над проектом работало несколько десятков человек
ваш вариант хорош ровно до тех пор, когда количество ошибок не превысит некий барьер - дальше - фтопку, т.е "в бан"
9 зайдите на сайт акунина и скачайте азазель - без всяких 404 - кто хочет ищет способ, кто не хочет - причину

3. Лебедь, рак и щука - тоже работали над перевозкой воза. Переход количественных изменений в качественные не всегда происходит. Если движок программировало больше одного человека, это скорее минус проекта.

Вы вообще читать умеете. Я написал, что Омонимия не рождает ошибки, она незначительно снижает процент замен. Движок, пытается склонить одно слово во все гипотетические словоформы другого, при порождении строковой неоднозначности, либо других ошибках откатывает.

9. Про Азазель. Любой нормальный человек бы извинился за битую ссылку и дал бы рабочую, например на либ.ру. Что-то мне подсказывает, что книга выбрана вами неспроста (ни Бориса Акунина ни Азазель в частности вы не любите - это вы показали не выделяя верхним регистром первые буквы этих имен собственных - психология), как я думаю ваш проект обкатывался именно на этой книге. И именно на редакции с сайта Акунина, а не либ.ру, это объясняет почему вы ссылку на либ.ру не дали.

HTraffic.ru (http://HTraffic.ru/) - удобная система для управления контекстной рекламой. тема на форуме (/ru/forum/810827) HTracer (http://htracer.ru/) - скрипт для автопродвижения сайтов по НЧ и СЧ запросам. Для больших сайтов от 100 страниц. (тема на форуме (/ru/forum/676867))
V
На сайте с 10.06.2007
Offline
26
#23
Hkey:
3. Лебедь, рак и щука - тоже работали над перевозкой воза. Переход количественных изменений в качественные не всегда происходит. Если движок программировало больше одного человека, это скорее минус проекта.
Вы вообще читать умеете. Я написал, что Омонимия не рождает ошибки, она незначительно снижает процент замен. Движок, пытается склонить одно слово во все гипотетические словоформы другого, при порождении строковой неоднозначности, либо других ошибках откатывает.
9. Про Азазель. Любой нормальный человек бы извинился за битую ссылку и дал бы рабочую, например на либ.ру. Что-то мне подсказывает, что книга выбрана вами неспроста (ни Бориса Акунина ни Азазель в частности вы не любите - это вы показали не выделяя верхним регистром первые буквы этих имен собственных - психология), как я думаю ваш проект обкатывался именно на этой книге. И именно на редакции с сайта Акунина, а не либ.ру, это объясняет почему вы ссылку на либ.ру не дали.

мне очень грустно наблюдать за Вашей ленью - http://akunin.ru/ - вполне себе нормальная ссылка - это имя не собственное, а скорее нарицательное и потому позволяет употребление с маленькой буквы, как впрочем и все остальные в прошлом сообщении

работайте себе с миром - это ваше время и ваши деньги

чем больше вы их потратите - тем лучше для конкурентов

SJ
На сайте с 16.03.2008
Offline
78
#24

Хм, а пока не "конкурируют" - вполне разумные люди :)

Давайте я выскажусь, как человек "немного" знакомый с синонимайзером (алгоритмами, правилами русского языка и даже морфологией)?

Синонимизатор от HKEY построен алгоримически правильно. В нем заложен правильный подход с "метаправилами", что позволяет (позволит) выполнять не только "прямые" замены "машина=автомобиль".

Ну, а согласование родов, времен, падежей... В простом виде - это не сложно делается.

А в сложном...

Ау, "мастеры синонимайзинга", у кого софт позволяет делать замены вида:

"Красная машина быстро ехала по дороге" = "Красный автомобиль быстро ехал по шосе" ?

Вот вместо настороженного "обмена любезностями" лучше давайте обсудим алгоримтику синонимизатора.

sokol_jack добавил 11.05.2009 в 13:09

Hkey:
По производительности, то морфология на самом слабом стенде (Аутлон ХП 2500+ (реальная частота 1200), 32 бита, 256 оперы, без дуал ченела): Такие параметры производительности выдает:
Морфология 300 000 слов в секунду. Кстати самая быстрая русская морфология, пишеться под другой проект.
Поиск синонимов 5 000 000 в секунду. Строковый поиск 10 000 000 символов в секунду. Вскрипт (тестовые операторы: 3 граммемных оператора + один сравнения омонимии + один отчистка омонимии + одно склонение с перебором омонемии) 2 000 000 слов в секунду.

Ого, сурово. 🍻

А скрипты таки во что-то компилятся или каждый раз интерпретирируются?

Любимый хостинг (http://beget.ru?id=2902) How can we grow old when the soundtrack of our lives is rock-n-roll?
V
На сайте с 10.06.2007
Offline
26
#25
sokol_jack:

Ау, "мастеры синонимайзинга", у кого софт позволяет делать замены вида:
"Красная машина быстро ехала по дороге" = "Красный автомобиль быстро ехал по шосе" ?
Вот вместо настороженного "обмена любезностями" лучше давайте обсудим алгоримтику синонимизатора.

у нас позволяет, но не полностью снятая омонимия не позволяет выставлять данную опцию в продажу, поскольку допускает ошибки при связывании разных объектов, не имеющих связи типа "глагол-существительное"

пример "Мой радар устойчиво стоял на горе и, при необходимости, обводил своим взглядом горизонт" - пример от фонаря - бессмысленный

если не обращать внимание на связываемую омонимию и менять по принципу "красный автомобиль ехал", то получится "Мой радиолокационная станция устойчиво стояла (допустим, что вы поймаете эту связь) на горе и, при необходимости, обводил своим взглядом горизонт".

Бред?

Бред!

Такая опция УЖЕ введена у нас в том случае, если не встречаются ТАКИЕ заморочки.

пусть пробует - чего ж... вдруг мы имеем дело с гением

SJ
На сайте с 16.03.2008
Offline
78
#26
Videoson:
у нас позволяет, но не полностью снятая омонимия не позволяет выставлять данную опцию в продажу, поскольку допускает ошибки при связывании разных объектов, не имеющих связи типа "глагол-существительное"

пример "Мой радар устойчиво стоял на горе и, при необходимости, обводил своим взглядом горизонт" - пример от фонаря - бессмысленный
если не обращать внимание на связываемую омонимию и менять по принципу "красный автомобиль ехал", то получится "Мой радиолокационная станция устойчиво стояла (допустим, что вы поймаете эту связь) на горе и, при необходимости, обводил своим взглядом горизонт".
Бред?
Бред!

Такая опция УЖЕ введена у нас в том случае, если не встречаются ТАКИЕ заморочки.
пусть пробует - чего ж... вдруг мы имеем дело с гением

Э... Если я скажу, что моя разработка делает именно "МоЯ радиолокационная станция устойчиво стоялА на горе и, при необходимости, обводилА своим взглядом горизонт" - тоже гением назовете?

V
На сайте с 10.06.2007
Offline
26
#27
sokol_jack:
Э... Если я скажу, что моя разработка делает именно "МоЯ радиолокационная станция устойчиво стоялА на горе и, при необходимости, обводилА своим взглядом горизонт" - тоже гением назовете?

это непростая задача

ДА 🍻

SJ
На сайте с 16.03.2008
Offline
78
#28
Videoson:
это непростая задача

Достаточно построить граф связей в предложении 🍻

V
На сайте с 10.06.2007
Offline
26
#29
sokol_jack:
Достаточно построить граф связей в предложении 🍻

умеете? 🙄

да чтобы без ошибок?

SJ
На сайте с 16.03.2008
Offline
78
#30
Videoson:
умеете? 🙄
да чтобы без ошибок?

А вы мне в паблик или в личку предложений накидайте - вот и проверим :)

1 234

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий