Синонимайзеры и закон ципфа.

G00DMAN
На сайте с 19.04.2008
Offline
122
#51
kapow_expert:
G00DMAN, по поводу приведенного Вами примера синонимайза. Давайте обзовем его "перефраз" все таки.
Ида, такой перефраз есть. Дело в том что он мало замен делает, ибо русский язык - могучий язык:) Но в сочетании с классическим синонимайзом дает неплохую уникальность. Правда если N-граммы подключаю к синонимайзу, то и он не много замен делает. Особенно если это 3-граммы.

Ну пусть перефраз, не вопрос. А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(

kapow_expert:
Отсюда к Вам, Илья, вопросец:
Дано:
1. Словарь (знает 90% слов из библиотеки Мошкова)
2. Связи в словаре(тезаурус). Рассмотрим только синонимические связи.
3. База нграмм (возьмем биграммы), накопленная по например 50 Гб текста (книги - не узкотематический текст)

Вопрос:
Как думаете, что повлияет на кол-во замен больше:
а. Увеличение полноты словаря
б. Увеличение кол-ва биграмм
в. Увеличение кол-ва синонимических связей

Будет ли ситуация с 3-граммами такая же?

Я выше уже написал - не понял, как Вы триграммы будете использовать. Может объясните старику? :)

Scaryer:
G00DMAN,
Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.

Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту? :D

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
webpavilion
На сайте с 10.10.2009
Offline
35
#52
G00DMAN:
А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(

алгоритм глуп и не универсален, жестко привязан к имеющейся базе.

Текст обработанный синонимайзером бьется на нграммы, частотность полученных nграмм сверяется с "эталонной" в БД.

Если частота в результирующем тексте близка к нулю полученная нграмма считается неестественной и либо откатывается к исходной либо подбирается другой синоним и все с начала.

прикинь щас лично сам медвед целую пару выносил нам моск в гз универа


# # прикинь 102
# прикинь щас 78
прикинь щас лично 6
щас лично сам 9
сам медвед целую 0
целую пару выносил 0
выносил нам моск 1
нам моск в 0
моск в гз 0
в гз универа 1
kapow_expert:
Будет ли ситуация с 3-граммами такая же?

с увеличением размерности nграм растет объем БД, уменьшается количество замен. с 3-граммами будет еще хуже. по мне так это тупиковая ветвь в технологиях спама.

G00DMAN
На сайте с 19.04.2008
Offline
122
#53
webpavilion:
алгоритм глуп и не универсален, жестко привязан к имеющейся базе.

Ну, я думал, что есть какое-то другое, более элегантное решение. :)

Биграммы чекать нужно, как и триграммы и шинглы. Это уже свершившийся факт. И писать большой тезаурус.

По поводу естественности - я бы копал в сторону синтаксического анализатора, типа того, о котором весной говорили Яндекс с Когнитивом. В то время на сайте Когнитива был выложен работающий скрипт - замечательная штука. Этот анализатор мелькал где-то в МГУ, студентам давали поюзать нахаляву - там нужно концы искать, потому что самому сделать аналогичный сложновато. :)

vitali_y
На сайте с 23.05.2007
Offline
33
#54
G00DMAN:

Scaryer:

G00DMAN:
считает спам в выдаче проблемой

Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.

Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту?

кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.

что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.

что антивирусы нафиг не нужны - при правильном подходе - то же известно.

что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.

что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.

Scaryer:
и убивают всех, кто раскроет эту страшную тайну.

вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅

что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

про постановку задачи, про фигню и про моск... мы тут в обсуждении кидаемся от задачи к задаче. то определение спама для индекса поисковика, то определение спама в почтовых документах, то гененация спама разнообразнами способами - сначала речь шла об использовании синонимов, потом приплели цепи маркова и смешали все в кучу, что уже и текст теряет полный первоначальный смысл. задачи так не ставятся и так не решаются. ну и очевидно что точного решения для задачи не существует, т.е. можно сказать этот документ похоже 90% спам, этот 50% спам - относительно определенного собрания документов.

что кто-то там книги генерит... что кто-то там научные статьи генерит да еще их рецензирует и печатает...

мой ответ такой:

представьте - некоторые люди покупают книги и их не читают! представьте - некоторые люди читают полную туфту - им сгенерированные стихи подсунь - так они их и хвалить будут в зависимости от авторитета подсунувшего и окружающей обстановки...

про научные статьи... незря Перельман отказывается от премии...

процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

как то писсемистично получилось ;)

не, задача конечно актуальное - и решать можно хоть до скончания жизни - ведь НЕТ ПРЕДЕЛА СОВЕРШЕНСТВУ! :)

G00DMAN
На сайте с 19.04.2008
Offline
122
#55
vitali_y:
кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.

Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла. :)

vitali_y:
что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.

Это Вы вирусописателям расскажите, для них будет шутка года. :D

vitali_y:
что антивирусы нафиг не нужны - при правильном подходе - то же известно.

Ну да. И покупают их лохи. Стопудов. :)

vitali_y:
что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.

Да понятно, что все попячились перед vitali_y на белом коне. Покупатели антивирусов и гороскопов - это же одни и те же дурачки, 100% совпадение множеств, ага.

vitali_y:
что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.

Вы не поняли, Ашманов - достаточно серьезный бизнесмен, и хвастаться лоховской поделкой на коленке никогда бы не стал.

vitali_y:
вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅

РОМИП выдает под подпись только коллекции чужих авторских документов, чтобы не иметь потом проблем с законом. Я Вам это уже объяснял.

vitali_y:
что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

Вы сначала покажите свои знания, а потом будете чмарить разработчиков антиспама. :)

vitali_y:
про научные статьи... незря Перельман отказывается от премии...
процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

А за свои слова сможете ответить? ;)

Так как мы на форуме SEO, то можем взять Top authors in Information Retrieval от микрософта. Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных. :D

vitali_y
На сайте с 23.05.2007
Offline
33
#56
G00DMAN:
Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла.

почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.

В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.

что за лексика - по вашим словам достаточно зрелый человек - "чмарить", "дурачки", "лохи" - в маскве все так общаются? :) а ну да - как же бывал - в принципе 50% / 50% так и общаются... большой город сталица, что и говорить... или вы пытаетесь снизойти до моего уровня? не стоит.

вообще я высказываю свою точку зрения, так как считаю, что немного знаком с проблемматикой, ну и как бы собственноручно написанный индексатор-поисковик-классификатор не делает мои слова пустышкой.

G00DMAN:
Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных.

да не хочу я анализировать их работы, в топе у человека 333 публикации - пускай конспект из них сделает странички на 3-5 в чем же его новое слово в науке - я почитаю, мы все почитаем.

333 публикации я не в состоянии оценить - к сожалению. лишь впечатление человека далекого от научной среды - похоже он неплохой писатель, а исследователь ч-о-р-т знает - когда он исследует-то?!

откинуть "введение" и "выведение" "графики" и что останется в итоге.

в общем мы перешли/переходим на личности - чего мне не очень то хочется... базар какой-то :)

ах, да, антивирусы... ну да обхожусь я спокойно без них. я, кстати, и иконок в машине не вешаю и веревочки на руке не кручу и против черных кошек ничего лично у меня нет - ну и подобная дребедень.

кто их покупает - видно считают это необходимым - ведь нужно жертвовать "богам" - иначе боги разгневаются и напишут супер-пупер вирус - что все такие неверующие очень пожалеют.

а вообще у всех покупающих достаточно разные мотивы... есть юзвери что овцы - их беречь надо - вот и берегут - корпоративные заказы опять же...

интересно, каким антивирусом пользуются в микрософте? вы случаем с каким главным разработчиком не пересекались?

G00DMAN:
РОМИП выдает ...

конечно конечно, знаем знаем. и про чистоту эксперимента и про общедоступные данные для проверки научного результата. и про честную конкуренцию.

G00DMAN:
Вы не поняли, Ашманов - достаточно серьезный бизнесмен

я это понял. человек совершил удачную сделку. он сделал продукт и смог продать его. почему же не сообщить о своем успехе и заодно еще раз прорекламировать себя и того кто купил?! имя того кто купил раскрученный бренд. это вообще нормально.

G00DMAN:
Это Вы вирусописателям расскажите, для них будет шутка года

вряд ли. вообще исключения бывают - не все вирусописатели пишут антивирусы. не все антивируса-писатели пишут вирусы. большинство вирусов создано людьми разрабатывающими антивирусы.

G00DMAN:
А за свои слова сможете ответить?

на слабо не берите, смешно. у меня есть собственный полупродукт и времени на него катастрофически не хватает, чтобы сделать продукт. вам ответить на форуме и то времени стоит.

профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...

G00DMAN
На сайте с 19.04.2008
Offline
122
#57
vitali_y:
почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.
В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.

Однако, я могу заметить, что поиск по файлам может любой старшеклассник сделать, если немного научился программировать. ;)

Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.

Вот когда докажете, что Ваш поисковик чего-то стоит - тогда Ваше мнение будет иметь шансы на жизнь, даже если оно и бредовое. Не нравится РОМИП - в мире существует достаточно других независимых конференций, на которых можно оценить свою работу. :)

vitali_y:
да не хочу я анализировать их работы

Не хотите, кто бы сомневался. Боюсь, что банально не хватит знаний для оценки. При этом Вы заявили о том, что 75% работ - мусорные. Не читал, но осуждаю. :D

vitali_y:
профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...

Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов. :)

webpavilion
На сайте с 10.10.2009
Offline
35
#58
G00DMAN:
...потому что самому сделать аналогичный сложновато. :)

ну для настоящего мастера своего дела это не сложнее чем написать классификатор файлов по их расширению, vitali_y уже справился, жаль только что его поделка глубока альфа но все же потенциалом "попахивает" :)

насколько я знаю в МГУ раздавали первую версию анализатора она же была в свободном доступе, яндекс же купил версию 2+ отличаются они (со слов разработчиков) алгоритмом синтаксического разбора и расширенным набором связей в получаемом дереве.

первая версии после плясок с бубном запускается (и работает) в *nux. жаль конечно что исходников не достать...

G00DMAN
На сайте с 19.04.2008
Offline
122
#59

webpavilion, на самом деле что там Яндекс купил - дело темное, не все так просто... :)

vitali_y
На сайте с 23.05.2007
Offline
33
#60
G00DMAN:
Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.

про мошенников и аферистов - ваши слова - перечитайте внимательно, что я написал.

в ваши авторитеты я не набиваюсь - а иметь собственную точку зрения и аргументированно защищать ее может каждый - было бы желание. я высказался - все прочитали, кто хотел понял, кто хотел подискутировать и уточнить что я имел ввиду - подискутировал и уточнил.

G00DMAN:
Вот когда докажете...

ну тогда прикиньте как поднимется авторитет вашего форума :)

впрочем и так, ценю и уважаю :)

G00DMAN:
Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов.

на нет и суда нет.

мою программу, если есть желание, просьба обсуждать в конкретной ветке.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий