vitali_y

vitali_y
Рейтинг
33
Регистрация
23.05.2007

вас вообще алгоритм интересует или вышеприведенный линк или как найти оленя с батоном )

G00DMAN:
Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.

про мошенников и аферистов - ваши слова - перечитайте внимательно, что я написал.

в ваши авторитеты я не набиваюсь - а иметь собственную точку зрения и аргументированно защищать ее может каждый - было бы желание. я высказался - все прочитали, кто хотел понял, кто хотел подискутировать и уточнить что я имел ввиду - подискутировал и уточнил.

G00DMAN:
Вот когда докажете...

ну тогда прикиньте как поднимется авторитет вашего форума :)

впрочем и так, ценю и уважаю :)

G00DMAN:
Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов.

на нет и суда нет.

мою программу, если есть желание, просьба обсуждать в конкретной ветке.

G00DMAN:
Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла.

почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.

В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.

что за лексика - по вашим словам достаточно зрелый человек - "чмарить", "дурачки", "лохи" - в маскве все так общаются? :) а ну да - как же бывал - в принципе 50% / 50% так и общаются... большой город сталица, что и говорить... или вы пытаетесь снизойти до моего уровня? не стоит.

вообще я высказываю свою точку зрения, так как считаю, что немного знаком с проблемматикой, ну и как бы собственноручно написанный индексатор-поисковик-классификатор не делает мои слова пустышкой.

G00DMAN:
Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных.

да не хочу я анализировать их работы, в топе у человека 333 публикации - пускай конспект из них сделает странички на 3-5 в чем же его новое слово в науке - я почитаю, мы все почитаем.

333 публикации я не в состоянии оценить - к сожалению. лишь впечатление человека далекого от научной среды - похоже он неплохой писатель, а исследователь ч-о-р-т знает - когда он исследует-то?!

откинуть "введение" и "выведение" "графики" и что останется в итоге.

в общем мы перешли/переходим на личности - чего мне не очень то хочется... базар какой-то :)

ах, да, антивирусы... ну да обхожусь я спокойно без них. я, кстати, и иконок в машине не вешаю и веревочки на руке не кручу и против черных кошек ничего лично у меня нет - ну и подобная дребедень.

кто их покупает - видно считают это необходимым - ведь нужно жертвовать "богам" - иначе боги разгневаются и напишут супер-пупер вирус - что все такие неверующие очень пожалеют.

а вообще у всех покупающих достаточно разные мотивы... есть юзвери что овцы - их беречь надо - вот и берегут - корпоративные заказы опять же...

интересно, каким антивирусом пользуются в микрософте? вы случаем с каким главным разработчиком не пересекались?

G00DMAN:
РОМИП выдает ...

конечно конечно, знаем знаем. и про чистоту эксперимента и про общедоступные данные для проверки научного результата. и про честную конкуренцию.

G00DMAN:
Вы не поняли, Ашманов - достаточно серьезный бизнесмен

я это понял. человек совершил удачную сделку. он сделал продукт и смог продать его. почему же не сообщить о своем успехе и заодно еще раз прорекламировать себя и того кто купил?! имя того кто купил раскрученный бренд. это вообще нормально.

G00DMAN:
Это Вы вирусописателям расскажите, для них будет шутка года

вряд ли. вообще исключения бывают - не все вирусописатели пишут антивирусы. не все антивируса-писатели пишут вирусы. большинство вирусов создано людьми разрабатывающими антивирусы.

G00DMAN:
А за свои слова сможете ответить?

на слабо не берите, смешно. у меня есть собственный полупродукт и времени на него катастрофически не хватает, чтобы сделать продукт. вам ответить на форуме и то времени стоит.

профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...

G00DMAN:

Scaryer:

G00DMAN:
считает спам в выдаче проблемой

Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.

Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту?

кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.

что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.

что антивирусы нафиг не нужны - при правильном подходе - то же известно.

что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.

что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.

Scaryer:
и убивают всех, кто раскроет эту страшную тайну.

вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅

что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

про постановку задачи, про фигню и про моск... мы тут в обсуждении кидаемся от задачи к задаче. то определение спама для индекса поисковика, то определение спама в почтовых документах, то гененация спама разнообразнами способами - сначала речь шла об использовании синонимов, потом приплели цепи маркова и смешали все в кучу, что уже и текст теряет полный первоначальный смысл. задачи так не ставятся и так не решаются. ну и очевидно что точного решения для задачи не существует, т.е. можно сказать этот документ похоже 90% спам, этот 50% спам - относительно определенного собрания документов.

что кто-то там книги генерит... что кто-то там научные статьи генерит да еще их рецензирует и печатает...

мой ответ такой:

представьте - некоторые люди покупают книги и их не читают! представьте - некоторые люди читают полную туфту - им сгенерированные стихи подсунь - так они их и хвалить будут в зависимости от авторитета подсунувшего и окружающей обстановки...

про научные статьи... незря Перельман отказывается от премии...

процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...

как то писсемистично получилось ;)

не, задача конечно актуальное - и решать можно хоть до скончания жизни - ведь НЕТ ПРЕДЕЛА СОВЕРШЕНСТВУ! :)

G00DMAN:
Задачу же Вы поставили, или забыли уже?

не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.

G00DMAN:
Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.

вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.

G00DMAN:
Ну и простой пример хитрого синонимайзера:

хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.

Написание оного задача не из легких - это первый аргумент.

G00DMAN:
Такой уровень синонимайзера осилите легко?

нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.

НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.

первый аргумент был.

еще аргументы: тест был изменен настолько что потерял первоначальный смысл.

"Сегодня" не эквивалент "Прикинь, щас"

"президент РФ Д.А.Медведев" не эквивалент "лично сам медвед"

"прочитал полуторачасовую лекцию" не эквивалент "целую пару выносил нам моск"

"в главном здании МГУ им.Ломоносова" не эквивалент "в ГЗ универа"

второй текст явно говорится от первого лица с обращением к конкретному человеку.

первый текст нейтрально и говорится многим.

при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.

если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!

это не помешает НИКОИМ ОБРАЗОМ людям найти нормальное описание факта.

Это не проблемма для поисковой системы.

G00DMAN:
Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход.

флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.

G00DMAN:
Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят.

с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)

vitali_y добавил 19.11.2010 в 20:50

Согласитесь, как-то по-разному в 60-х годах прошлого века и сейчас воспринимается фраза "Мальчик склеил в клубе модель"... :)

G00DMAN:
У меня есть уверенность, что Ваше знакомство "шапочное".
G00DMAN:
Хыыы...

типа подколол :)

G00DMAN:
Т.е. спам побежден окончательно? Кем же?

ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.

G00DMAN:
В общем случае задача безусловно не решаема.

так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.

а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.

G00DMAN:
при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов

несогласен

G00DMAN:
обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам

согласен

G00DMAN:
Потому и борьба между ними фактически вечна

несогласен

:)

Scaryer:
всех бы победили

а они проиграли?

про ресурсы - я ведь не решаю задачу в железе - я говорю, что задача решаема алгоритмически за разумное время. ваших аргументов - оценки времени я не увидел...

Scaryer:
А вы умеете генерировать осмысленные тексты?

если взять текст и заменить слова на синонимы, кое где поменять порядок слов и абзатцев, даже можно использовать ->

перемешивание букв:

http://www.cherry-design.spb.ru/news/script.php?id=messletters

транслитерация:

http://www.cherry-design.spb.ru/news/script.php?id=translit

т.о. из исходного текста можно сгенерировать его копию достаточно читаемую и примерно сохраняющую смысл исходника.

Scaryer:
сходных текстов "сотни миллиардов", а не производных.

ну так яснее задача будет звучать так:

есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.

алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...

можно подсократить время используя разбиение текстов на классы...

можно подсократить время используя трастовость сайтов...

в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.

т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.

webpavilion, так просветите невежу... в чем дело?! - небольшой пример, который покажет как я мало знаю проблемму будет кстати.

vitali_y добавил 17.11.2010 в 14:51

Scaryer:
А если этих текстов десятки тысяч?

я же написал n - подставьте "сотни миллиардов" и не спрашивайте глупые вопросы.

Scaryer:
Цепи Маркова, насколько я понимаю, это совсем другой принцип.

это ваши технологии?! вы надеюсь знаете что представляет собой цепь Маркова на практике?

и вообще что скрывается под этим термином.

vitali_y добавил 17.11.2010 в 14:54

генерировать осмысленные тексты с пом. цепей Маркова, да вы новатор, однако! ;)

G00DMAN:
Это Вам так кажется, потому что опыта борьбы с текстовым спамом нет. На самом деле все гораздо сложнее, поисковики применяют достаточно навороченные технологии, но окончательно победить не смогут еще много лет. Те же дорвейщики успешно обходят алгоритмы всех поисковиков, спам-технологии развиваются параллельно с антиспамом.

:) верьте мне на слово, с "навороченными" технологиями я знаком.

задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.

я решу легко ввиде программы. если для вас формулировка задачи другая - сформулируйте пожалуйста о чем речь то идет.

"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!

если для вас написать определитель спама - "высокие технологии"...

это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.

это скорее knowhow... я за правильную терминологию.

vitali_y добавил 17.11.2010 в 14:39

ТС, если не ошибаюсь, в своем блоге обещал раскрыть "технологию" Янекса.

Всего: 92