- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
G00DMAN, по поводу приведенного Вами примера синонимайза. Давайте обзовем его "перефраз" все таки.
Ида, такой перефраз есть. Дело в том что он мало замен делает, ибо русский язык - могучий язык:) Но в сочетании с классическим синонимайзом дает неплохую уникальность. Правда если N-граммы подключаю к синонимайзу, то и он не много замен делает. Особенно если это 3-граммы.
Ну пусть перефраз, не вопрос. А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(
Отсюда к Вам, Илья, вопросец:
Дано:
1. Словарь (знает 90% слов из библиотеки Мошкова)
2. Связи в словаре(тезаурус). Рассмотрим только синонимические связи.
3. База нграмм (возьмем биграммы), накопленная по например 50 Гб текста (книги - не узкотематический текст)
Вопрос:
Как думаете, что повлияет на кол-во замен больше:
а. Увеличение полноты словаря
б. Увеличение кол-ва биграмм
в. Увеличение кол-ва синонимических связей
Будет ли ситуация с 3-граммами такая же?
Я выше уже написал - не понял, как Вы триграммы будете использовать. Может объясните старику? :)
G00DMAN,
Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.
Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту? :D
А как Вы подключаете n-граммы? Что-то я не могу догнать даже на уровне идеи. :(
алгоритм глуп и не универсален, жестко привязан к имеющейся базе.
Текст обработанный синонимайзером бьется на нграммы, частотность полученных nграмм сверяется с "эталонной" в БД.
Если частота в результирующем тексте близка к нулю полученная нграмма считается неестественной и либо откатывается к исходной либо подбирается другой синоним и все с начала.
Будет ли ситуация с 3-граммами такая же?
с увеличением размерности nграм растет объем БД, уменьшается количество замен. с 3-граммами будет еще хуже. по мне так это тупиковая ветвь в технологиях спама.
алгоритм глуп и не универсален, жестко привязан к имеющейся базе.
Ну, я думал, что есть какое-то другое, более элегантное решение. :)
Биграммы чекать нужно, как и триграммы и шинглы. Это уже свершившийся факт. И писать большой тезаурус.
По поводу естественности - я бы копал в сторону синтаксического анализатора, типа того, о котором весной говорили Яндекс с Когнитивом. В то время на сайте Когнитива был выложен работающий скрипт - замечательная штука. Этот анализатор мелькал где-то в МГУ, студентам давали поюзать нахаляву - там нужно концы искать, потому что самому сделать аналогичный сложновато. :)
считает спам в выдаче проблемой
Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.
Вот Ашманов на всех своих конфах хвастается, что продал антиспам Касперскому. Значит Игорь Женю конкретно наколол и впарил туфту?
кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.
что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.
что антивирусы нафиг не нужны - при правильном подходе - то же известно.
что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.
что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.
и убивают всех, кто раскроет эту страшную тайну.
вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅
что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
про постановку задачи, про фигню и про моск... мы тут в обсуждении кидаемся от задачи к задаче. то определение спама для индекса поисковика, то определение спама в почтовых документах, то гененация спама разнообразнами способами - сначала речь шла об использовании синонимов, потом приплели цепи маркова и смешали все в кучу, что уже и текст теряет полный первоначальный смысл. задачи так не ставятся и так не решаются. ну и очевидно что точного решения для задачи не существует, т.е. можно сказать этот документ похоже 90% спам, этот 50% спам - относительно определенного собрания документов.
что кто-то там книги генерит... что кто-то там научные статьи генерит да еще их рецензирует и печатает...
мой ответ такой:
представьте - некоторые люди покупают книги и их не читают! представьте - некоторые люди читают полную туфту - им сгенерированные стихи подсунь - так они их и хвалить будут в зависимости от авторитета подсунувшего и окружающей обстановки...
про научные статьи... незря Перельман отказывается от премии...
процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
как то писсемистично получилось ;)
не, задача конечно актуальное - и решать можно хоть до скончания жизни - ведь НЕТ ПРЕДЕЛА СОВЕРШЕНСТВУ! :)
кто их знает кто там что кому впарил... то что я утверждаю, что антиспам делается легко думающим человеком - это не значит, что он делается за 2 дня с обязательным перерывон на обед.
Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла. :)
что вирусы и антивирусы пишут те же люди - этот факт почти общеизвестен.
Это Вы вирусописателям расскажите, для них будет шутка года. :D
что антивирусы нафиг не нужны - при правильном подходе - то же известно.
Ну да. И покупают их лохи. Стопудов. :)
что их покупают - ну люди готовы как дети малые - платить за талисманы и гороскопы - если не знаешь как работает - то без магических заклинаний - ну никак.
Да понятно, что все попячились перед vitali_y на белом коне. Покупатели антивирусов и гороскопов - это же одни и те же дурачки, 100% совпадение множеств, ага.
что Ашманов хвастается - сам себя не похвалишь - никто не похвалит, а вскоре и забудут. Правильно в общем делает.
Вы не поняли, Ашманов - достаточно серьезный бизнесмен, и хвастаться лоховской поделкой на коленке никогда бы не стал.
вы думаете почему РОМИТ выдает тесты под личную подпись? :) то-то! 🙅
РОМИП выдает под подпись только коллекции чужих авторских документов, чтобы не иметь потом проблем с законом. Я Вам это уже объяснял.
что спам и антиспам придумывают в соседних отделах - это же очевидно - я лишь могу сказать что Владимир Офицеров грамотный менеджер. на настоящий момент это не проблемма для поисковиков - повторюсь. движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
Вы сначала покажите свои знания, а потом будете чмарить разработчиков антиспама. :)
про научные статьи... незря Перельман отказывается от премии...
процентов 75 от написанного - место в мусорной корзине - не пишешь, нет индекса цицирование - ты не ученый... чтобы что-то оценить и рецензировать нужно быть в теме - а журнальчик не может выйти с пустыми страницами -> движение - жизнь. остановился на месте - умер. закрыли отдел за ненадобностью, свернули финансирование и т.д. и т.п. - а у людей дети малые, расходы...
А за свои слова сможете ответить? ;)
Так как мы на форуме SEO, то можем взять Top authors in Information Retrieval от микрософта. Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных. :D
Утверждение о том, что антиспам - это легко, вообще-то требует доказательств. Или хотя бы каких-то сложных продуктов, разработанных лично. У Вас этого нет - только бла-бла.
почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.
В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.
что за лексика - по вашим словам достаточно зрелый человек - "чмарить", "дурачки", "лохи" - в маскве все так общаются? :) а ну да - как же бывал - в принципе 50% / 50% так и общаются... большой город сталица, что и говорить... или вы пытаетесь снизойти до моего уровня? не стоит.
вообще я высказываю свою точку зрения, так как считаю, что немного знаком с проблемматикой, ну и как бы собственноручно написанный индексатор-поисковик-классификатор не делает мои слова пустышкой.
Давайте возьмем топ-5 списка главных накрутчиков ИЦ - покажите у них 75% мусорных работ. Ну или хотя бы по 1-2 мусорных.
да не хочу я анализировать их работы, в топе у человека 333 публикации - пускай конспект из них сделает странички на 3-5 в чем же его новое слово в науке - я почитаю, мы все почитаем.
333 публикации я не в состоянии оценить - к сожалению. лишь впечатление человека далекого от научной среды - похоже он неплохой писатель, а исследователь ч-о-р-т знает - когда он исследует-то?!
откинуть "введение" и "выведение" "графики" и что останется в итоге.
в общем мы перешли/переходим на личности - чего мне не очень то хочется... базар какой-то :)
ах, да, антивирусы... ну да обхожусь я спокойно без них. я, кстати, и иконок в машине не вешаю и веревочки на руке не кручу и против черных кошек ничего лично у меня нет - ну и подобная дребедень.
кто их покупает - видно считают это необходимым - ведь нужно жертвовать "богам" - иначе боги разгневаются и напишут супер-пупер вирус - что все такие неверующие очень пожалеют.
а вообще у всех покупающих достаточно разные мотивы... есть юзвери что овцы - их беречь надо - вот и берегут - корпоративные заказы опять же...
интересно, каким антивирусом пользуются в микрософте? вы случаем с каким главным разработчиком не пересекались?
РОМИП выдает ...
конечно конечно, знаем знаем. и про чистоту эксперимента и про общедоступные данные для проверки научного результата. и про честную конкуренцию.
Вы не поняли, Ашманов - достаточно серьезный бизнесмен
я это понял. человек совершил удачную сделку. он сделал продукт и смог продать его. почему же не сообщить о своем успехе и заодно еще раз прорекламировать себя и того кто купил?! имя того кто купил раскрученный бренд. это вообще нормально.
Это Вы вирусописателям расскажите, для них будет шутка года
вряд ли. вообще исключения бывают - не все вирусописатели пишут антивирусы. не все антивируса-писатели пишут вирусы. большинство вирусов создано людьми разрабатывающими антивирусы.
А за свои слова сможете ответить?
на слабо не берите, смешно. у меня есть собственный полупродукт и времени на него катастрофически не хватает, чтобы сделать продукт. вам ответить на форуме и то времени стоит.
профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...
почему же - есть Стопка - развивается потихоньку, к сожалению не супер быстро - информирую я общественность о релизах, будет и следующий релиз. Правда в Стопке нету спам фильтра - это скорее поисковик-индексатор для документов на локальном диске компьтера, файловый менеджер.
В общем пока достаточно сырой - пока прога не юзабельна, годна лишь для демонстрационных целей. Выйдет в недалеком будущем новая версия - сообщу.
Однако, я могу заметить, что поиск по файлам может любой старшеклассник сделать, если немного научился программировать. ;)
Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.
Вот когда докажете, что Ваш поисковик чего-то стоит - тогда Ваше мнение будет иметь шансы на жизнь, даже если оно и бредовое. Не нравится РОМИП - в мире существует достаточно других независимых конференций, на которых можно оценить свою работу. :)
да не хочу я анализировать их работы
Не хотите, кто бы сомневался. Боюсь, что банально не хватит знаний для оценки. При этом Вы заявили о том, что 75% работ - мусорные. Не читал, но осуждаю. :D
профинансировать мое время готовы? нет проблемм напишу вам спам фильтр, готов за 50% от суммы сделки между Игорем Женей - если это не была сделка с нулевой суммой и хватит к примеру на туарег...
Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов. :)
...потому что самому сделать аналогичный сложновато. :)
ну для настоящего мастера своего дела это не сложнее чем написать классификатор файлов по их расширению, vitali_y уже справился, жаль только что его поделка глубока альфа но все же потенциалом "попахивает" :)
насколько я знаю в МГУ раздавали первую версию анализатора она же была в свободном доступе, яндекс же купил версию 2+ отличаются они (со слов разработчиков) алгоритмом синтаксического разбора и расширенным набором связей в получаемом дереве.
первая версии после плясок с бубном запускается (и работает) в *nux. жаль конечно что исходников не достать...
webpavilion, на самом деле что там Яндекс купил - дело темное, не все так просто... :)
Вы в этой ветке сделали кучу заявлений о том, что в поисковой отрасли собрались мошенники и аферисты, которые раздувают несуществующую проблему спама, пишут мусорные работы и вообще видимо менеджеры, а не ученые. Такие утверждения нужно либо жестко аргументировать, либо быть авторитетом в тематике, приколы которого все с улыбкой терпят. Аргументов от Вас было ровно ноль, на авторитета Вы не тянете, точнее - даже на разбирающегося хотя бы немного никак не тянете.
про мошенников и аферистов - ваши слова - перечитайте внимательно, что я написал.
в ваши авторитеты я не набиваюсь - а иметь собственную точку зрения и аргументированно защищать ее может каждый - было бы желание. я высказался - все прочитали, кто хотел понял, кто хотел подискутировать и уточнить что я имел ввиду - подискутировал и уточнил.
Вот когда докажете...
ну тогда прикиньте как поднимется авторитет вашего форума :)
впрочем и так, ценю и уважаю :)
Я не финансирую балаболов и непрофессионалов. Даже если им хочется туарегов.
на нет и суда нет.
мою программу, если есть желание, просьба обсуждать в конкретной ветке.