вас вообще алгоритм интересует или вышеприведенный линк или как найти оленя с батоном )
про мошенников и аферистов - ваши слова - перечитайте внимательно, что я написал.
в ваши авторитеты я не набиваюсь - а иметь собственную точку зрения и аргументированно защищать ее может каждый - было бы желание. я высказался - все прочитали, кто хотел понял, кто хотел подискутировать и уточнить что я имел ввиду - подискутировал и уточнил.
ну тогда прикиньте как поднимется авторитет вашего форума :)
впрочем и так, ценю и уважаю :)
на нет и суда нет.
мою программу, если есть желание, просьба обсуждать в конкретной ветке.
почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.
В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.
что за лексика - по вашим словам достаточно зрелый человек - "чмарить", "дурачки", "лохи" - в маскве все так общаются? :) а ну да - как же бывал - в принципе 50% / 50% так и общаются... большой город сталица, что и говорить... или вы пытаетесь снизойти до моего уровня? не стоит.
вообще я высказываю свою точку зрения, так как считаю, что немного знаком с проблемматикой, ну и как бы собственноручно написанный индексатор-поисковик-классификатор не делает мои слова пустышкой.
да не хочу я анализировать их работы, в топе у человека 333 публикации - пускай конспект из них сделает странички на 3-5 в чем же его новое слово в науке - я почитаю, мы все почитаем.
333 публикации я не в состоянии оценить - к сожалению. лишь впечатление человека далекого от научной среды - похоже он неплохой писатель, а исследователь ч-о-р-т знает - когда он исследует-то?!
откинуть "введение" и "выведение" "графики" и что останется в итоге.
в общем мы перешли/переходим на личности - чего мне не очень то хочется... базар какой-то :)
ах, да, антивирусы... ну да обхожусь я спокойно без них. я, кстати, и иконок в машине не вешаю и веревочки на руке не кручу и против черных кошек ничего лично у меня нет - ну и подобная дребедень.
кто их покупает - видно считают это необходимым - ведь нужно жертвовать "богам" - иначе боги разгневаются и напишут супер-пупер вирус - что все такие неверующие очень пожалеют.
а вообще у всех покупающих достаточно разные мотивы... есть юзвери что овцы - их беречь надо - вот и берегут - корпоративные заказы опять же...
интересно, каким антивирусом пользуются в микрософте? вы случаем с каким главным разработчиком не пересекались?
конечно конечно, знаем знаем. и про чистоту эксперимента и про общедоступные данные для проверки научного результата. и про честную конкуренцию.
я это понял. человек совершил удачную сделку. он сделал продукт и смог продать его. почему же не сообщить о своем успехе и заодно еще раз прорекламировать себя и того кто купил?! имя того кто купил раскрученный бренд. это вообще нормально.
вряд ли. вообще исключения бывают - не все вирусописатели пишут антивирусы. не все антивируса-писатели пишут вирусы. большинство вирусов создано людьми разрабатывающими антивирусы.
на слабо не берите, смешно. у меня есть собственный полупродукт и времени на него катастрофически не хватает, чтобы сделать продукт. вам ответить на форуме и то времени стоит.
профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...
кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.
что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.
что антивирусы нафиг не нужны - при правильном подходе - то же известно.
что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.
что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.
вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅
что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
про постановку задачи, про фигню и про моск... мы тут в обсуждении кидаемся от задачи к задаче. то определение спама для индекса поисковика, то определение спама в почтовых документах, то гененация спама разнообразнами способами - сначала речь шла об использовании синонимов, потом приплели цепи маркова и смешали все в кучу, что уже и текст теряет полный первоначальный смысл. задачи так не ставятся и так не решаются. ну и очевидно что точного решения для задачи не существует, т.е. можно сказать этот документ похоже 90% спам, этот 50% спам - относительно определенного собрания документов.
что кто-то там книги генерит... что кто-то там научные статьи генерит да еще их рецензирует и печатает...
мой ответ такой:
представьте - некоторые люди покупают книги и их не читают! представьте - некоторые люди читают полную туфту - им сгенерированные стихи подсунь - так они их и хвалить будут в зависимости от авторитета подсунувшего и окружающей обстановки...
про научные статьи... незря Перельман отказывается от премии...
процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
как то писсемистично получилось ;)
не, задача конечно актуальное - и решать можно хоть до скончания жизни - ведь НЕТ ПРЕДЕЛА СОВЕРШЕНСТВУ! :)
не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.
вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.
хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.
Написание оного задача не из легких - это первый аргумент.
нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.
НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.
первый аргумент был.
еще аргументы: тест был изменен настолько что потерял первоначальный смысл.
"Сегодня" не эквивалент "Прикинь, щас"
"президент РФ Д.А.Медведев" не эквивалент "лично сам медвед"
"прочитал полуторачасовую лекцию" не эквивалент "целую пару выносил нам моск"
"в главном здании МГУ им.Ломоносова" не эквивалент "в ГЗ универа"
второй текст явно говорится от первого лица с обращением к конкретному человеку.
первый текст нейтрально и говорится многим.
при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.
если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!
это не помешает НИКОИМ ОБРАЗОМ людям найти нормальное описание факта.
Это не проблемма для поисковой системы.
флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.
с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)
vitali_y добавил 19.11.2010 в 20:50
Согласитесь, как-то по-разному в 60-х годах прошлого века и сейчас воспринимается фраза "Мальчик склеил в клубе модель"... :)
типа подколол :)
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.
несогласен
согласен
:)
а они проиграли?
про ресурсы - я ведь не решаю задачу в железе - я говорю, что задача решаема алгоритмически за разумное время. ваших аргументов - оценки времени я не увидел...
если взять текст и заменить слова на синонимы, кое где поменять порядок слов и абзатцев, даже можно использовать ->
перемешивание букв:
http://www.cherry-design.spb.ru/news/script.php?id=messletters
транслитерация:
http://www.cherry-design.spb.ru/news/script.php?id=translit
т.о. из исходного текста можно сгенерировать его копию достаточно читаемую и примерно сохраняющую смысл исходника.
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.
webpavilion, так просветите невежу... в чем дело?! - небольшой пример, который покажет как я мало знаю проблемму будет кстати.
vitali_y добавил 17.11.2010 в 14:51
я же написал n - подставьте "сотни миллиардов" и не спрашивайте глупые вопросы.
это ваши технологии?! вы надеюсь знаете что представляет собой цепь Маркова на практике?
и вообще что скрывается под этим термином.
vitali_y добавил 17.11.2010 в 14:54
генерировать осмысленные тексты с пом. цепей Маркова, да вы новатор, однако! ;)
:) верьте мне на слово, с "навороченными" технологиями я знаком.
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы. если для вас формулировка задачи другая - сформулируйте пожалуйста о чем речь то идет.
"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!
если для вас написать определитель спама - "высокие технологии"...
это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.
это скорее knowhow... я за правильную терминологию.
vitali_y добавил 17.11.2010 в 14:39
ТС, если не ошибаюсь, в своем блоге обещал раскрыть "технологию" Янекса.