- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Задачу же Вы поставили, или забыли уже?
не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.
Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.
вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.
Ну и простой пример хитрого синонимайзера:
хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.
Написание оного задача не из легких - это первый аргумент.
Такой уровень синонимайзера осилите легко?
нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.
НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.
первый аргумент был.
еще аргументы: тест был изменен настолько что потерял первоначальный смысл.
"Сегодня" не эквивалент "Прикинь, щас"
"президент РФ Д.А.Медведев" не эквивалент "лично сам медвед"
"прочитал полуторачасовую лекцию" не эквивалент "целую пару выносил нам моск"
"в главном здании МГУ им.Ломоносова" не эквивалент "в ГЗ универа"
второй текст явно говорится от первого лица с обращением к конкретному человеку.
первый текст нейтрально и говорится многим.
при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.
если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!
это не помешает НИКОИМ ОБРАЗОМ людям найти нормальное описание факта.
Это не проблемма для поисковой системы.
Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход.
флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.
Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят.
с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)
vitali_y добавил 19.11.2010 в 20:50
Согласитесь, как-то по-разному в 60-х годах прошлого века и сейчас воспринимается фраза "Мальчик склеил в клубе модель"... :)
vitali_y, как я думаю, то генерированный текст строится не только путем подбора синонимов. Читал как-то про вариант генератора, когда генерированный текст выслали комиссии, как докторскую работу.(извините но ссылки нет) И ее приняли на рассмотрение. Только внимательно изучив ее, поняли, что это мусор.
(https://topuser.pro/) Увеличить доход от РСЯ и AdSense (https://topuser.pro/uvelichit-dohod-adsense/)
Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen
Top for the good, всё-таки, генерировать тексты на научную тему, да еще на английском, не очень сложно - можно оперировать массой заранее заготовленных типовых фраз, по ходу меняя слова "метод" на "алгоритм" и наоборот.
не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.
Ага, Вы уточнили, когда поняли, что написали фигню. Хотя даже после уточнения задача не становится легкой нигде, кроме как в Вашем не опытном моске.
вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.
Это и делается, один из методов для отслеживания новых спам-алгоритмов. Но только один из, все ведь гораздо сложнее. :)
хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.
Мне бы тоже хотелось, да.
Написание оного задача не из легких - это первый аргумент.
Ну так у спамера нынче жизнь такая - не из легких. Однако, в гугле.юс они рубят сотни тысяч американских денег в месяц. И гугл не может искоренить их окончательно, хотя очень старается. :)
нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.
Не, сложность будет слегка выше, чем у синонимайзера.
НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.
Да я понял, что Вы не считаете. А поисковики - считают, видимо в поисковиках недалекие люди рулят процессами, Вы бы объяснили им, чтоле. Если бы они забили на антиспам и часть из бюджета на него переводили Вам - Вы и все Ваши родственники смогли бы не работать и жить в монаке. :D
еще аргументы: тест был изменен настолько что потерял первоначальный смысл.
Ну не совсем потерял, хотя конечно я немного переборщил. Но суть моего "синонимайза" надеюсь понята? ;)
при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.
А вот и нет - обратное как раз верно, "универ" Яндекс переколдовывает, как "университет". :)
если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!
Ну про "универ" я выше написал, "ГЗ" не переколдовывается временно, а "медвед" - по политическим причинам. Хотя здесь Яндекс не совсем последователен, т.к. у него есть пресс-портрет Дмитр Медвед. :D
флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.
Автор приведенного мной выше патента генерит все на автомате, даже названия книг. И продает их на Амазоне - когда-то писали, что там почти 100К его разнообразных "трудов" в продаже, многие вполне себе раскупаются. :)
с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)
Я уверен, что Ваша "боязнь" происходит от нежелания вдуматься в проблему. Из той же серии:
выделили бы мне маааленикий грантик и я бы:
- легко написал самый крутой антивирус, это же легко: увидел вирус - и удалил его. И аргУмент есть весомый - мой бывший программер на днях выпустил релиз Kaspersky Security 8.0 для Microsoft Exchange Servers. Если подчиненный смог, то я то - тем более.
- легко написал бы самый крутой поисковик, и аргУмент есть - я же выиграл РОМИП-2010 в поиске, а там и Яндекс участвовал.
- легко написал бы самую крутую ОС. И аргУмент есть - когда-то лет 20+ назад я был Великим Программистом, в т.ч. и написал с нуля полноценную ДОС для Агат-9.
:D
Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen
Да, это были крутые отжиги. :)
G00DMAN добавил 20.11.2010 в 01:19
Scaryer, так там и перевод на русский схавали наши псевдоученые.
vitali_y, ну вот и подтверждение практически "из первых рук". Владимир Офицеров, специалист отдела качества поиска гугла, на прошлой неделе ответил на несколько вопросов.
Среди вопросов был и такой:
— Проблем существует достаточно много, но одной из самых серьезных, я считаю, является спам в поисковых результатах. По крайней мере, для Российского рынка это один из ключевых факторов и мы будем стараться фильтровать эту информацию.
Офицеров - ведущий спец с именем, причем абсолютно в теме (я с ним общался за день до интервью по поводу совместных исследований с гуглом), считает спам в выдаче проблемой. Похоже, что только для Вас такой проблемы нет. ;)
G00DMAN, по поводу приведенного Вами примера синонимайза. Давайте обзовем его "перефраз" все таки.
Ида, такой перефраз есть. Дело в том что он мало замен делает, ибо русский язык - могучий язык:) Но в сочетании с классическим синонимайзом дает неплохую уникальность. Правда если N-граммы подключаю к синонимайзу, то и он не много замен делает. Особенно если это 3-граммы.
Отсюда к Вам, Илья, вопросец:
Дано:
1. Словарь (знает 90% слов из библиотеки Мошкова)
2. Связи в словаре(тезаурус). Рассмотрим только синонимические связи.
3. База нграмм (возьмем биграммы), накопленная по например 50 Гб текста (книги - не узкотематический текст)
Вопрос:
Как думаете, что повлияет на кол-во замен больше:
а. Увеличение полноты словаря
б. Увеличение кол-ва биграмм
в. Увеличение кол-ва синонимических связей
Будет ли ситуация с 3-граммами такая же?
G00DMAN,
Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.
kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.
kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.
Алгоритм понятен из вопроса. Как раз таки н-граммы для человечности и используются. Но вопрос не в этом вовсе.