- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
vitali_y, исходных текстов "сотни миллиардов", а не производных.
А вы умеете генерировать осмысленные тексты?
А вы умеете генерировать осмысленные тексты?
если взять текст и заменить слова на синонимы, кое где поменять порядок слов и абзатцев, даже можно использовать ->
перемешивание букв:
http://www.cherry-design.spb.ru/news/script.php?id=messletters
транслитерация:
http://www.cherry-design.spb.ru/news/script.php?id=translit
т.о. из исходного текста можно сгенерировать его копию достаточно читаемую и примерно сохраняющую смысл исходника.
сходных текстов "сотни миллиардов", а не производных.
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.
vitali_y, в итоге всё упирается в потребные ресурсы, потому что при увеличении ресурсов, количество "нерешаемых проблем" резко сокращается;-) Если бы на практике всё было так просто, то яндексоиды (да и гуглоиды) всех бы победили.
всех бы победили
а они проиграли?
про ресурсы - я ведь не решаю задачу в железе - я говорю, что задача решаема алгоритмически за разумное время. ваших аргументов - оценки времени я не увидел...
они борются.
О чем мы "спорим"-то? Вроде бы никто не сомневался, что теоретически поисковики могут отсекать копии, синонимизированные тексты и т.п. Вопрос почему они этого не делают практически.
:) верьте мне на слово, с "навороченными" технологиями я знаком.
У меня есть уверенность, что Ваше знакомство "шапочное".
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.
Хыыы... :D
"спам-технологии" - я смеялсо :) тут столько же технологий как и технологий в молотке для современного механика. замена слов и перестановка абзатцев - это технологии?!
если для вас написать определитель спама - "высокие технологии"...
это достаточно тривиальная задача - уверяю вас - любому думающему человеку умеющему программировать и немного знакомого с математикой и алгоритмами это под силу.
это скорее knowhow... я за правильную терминологию.
Т.е. спам побежден окончательно? Кем же? :D
ну так яснее задача будет звучать так:
есть текст A и есть набор текстов {A1, ..., An} определить текст Ax из которого был получен автоматически текст A при условии что текст Ax имеет смысл и A сохраняет этот смысл.
алгоритмически задача решается за линейное время относительно n - это, соглашусь, при полной индексации в конечном итоге все-таки потребует значительных ресурсов...
можно подсократить время используя разбиение текстов на классы...
можно подсократить время используя трастовость сайтов...
в общем случае при индексации задача решаема - я не вижу в упор нерешаемой проблеммы.
т.е. по моему в конечном итоге время на скачку страницы будет больше времени затраченного на проверку и на добавление в индекс.
В общем случае задача безусловно не решаема. Более того - при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов. Странно, почему такой очевидный факт не доступен Вашему пониманию. :)
Кстати - обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам. Потому и борьба между ними фактически вечна.
Я понял: G00DMAN это Wolf в молодости :) Просто один в один.
Костя, ты ошибся. :)
Ну и в отличие от Сергея я тут скорее всего проездом. :D
У меня есть уверенность, что Ваше знакомство "шапочное".
Хыыы...
типа подколол :)
Т.е. спам побежден окончательно? Кем же?
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.
В общем случае задача безусловно не решаема.
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.
при знании текущих антиспамовых алгоритмов грамотному спамеру не составит труда их обойти с помощью значительно меньших ресурсов
несогласен
обратная задача аналогично имеет решение, на любой алгоритм спамера можно написать антиспам
согласен
Потому и борьба между ними фактически вечна
несогласен
:)
ну про окончательно никто и не говорил - есть база для обучение - программу обучил и она будет помечать как спам похожие сообщения.
Безусловно. Если есть база, т.е. понятен принцип спама.
так никто и не утверждал что решаема автоматически. и вообще, вы сначала сформулируйте задачу, которую вы собираетесь решать - а затем что то утверждайте.
а то похоже тут 90% философы и с точными формулировками и у точняющими вопросами не привыкли иметь дело.
Задачу же Вы поставили, или забыли уже? :)
задачу ввиде: есть текст A и есть набор текстов {A1, ..., An} определить текст Ax который был получен автоматически из текста A при условии что текст A имеет смысл и Ax сохраняет этот смысл.
я решу легко ввиде программы.
Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.
Ну и простой пример хитрого синонимайзера:
Было:
Стало:
Такой уровень синонимайзера осилите легко? ;)
несогласен
Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят. :)
Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход. :)