Синонимайзеры и закон ципфа.

vitali_y
На сайте с 23.05.2007
Offline
33
#41
G00DMAN:
Задачу же Вы поставили, или забыли уже?

не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.

G00DMAN:
Вы и вручную такую задачу не решите, если n будет достаточно большим. Чисто физически - глаз замылится, а текст А забудется.

вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.

G00DMAN:
Ну и простой пример хитрого синонимайзера:

хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.

Написание оного задача не из легких - это первый аргумент.

G00DMAN:
Такой уровень синонимайзера осилите легко?

нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.

НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.

первый аргумент был.

еще аргументы: тест был изменен настолько что потерял первоначальный смысл.

"Сегодня" не эквивалент "Прикинь, щас"

"президент РФ Д.А.Медведев" не эквивалент "лично сам медвед"

"прочитал полуторачасовую лекцию" не эквивалент "целую пару выносил нам моск"

"в главном здании МГУ им.Ломоносова" не эквивалент "в ГЗ универа"

второй текст явно говорится от первого лица с обращением к конкретному человеку.

первый текст нейтрально и говорится многим.

при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.

если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!

это не помешает НИКОИМ ОБРАЗОМ людям найти нормальное описание факта.

Это не проблемма для поисковой системы.

G00DMAN:
Кстати, некоторые спамеры даже патенты получают. И издают сотни тысяч разнообразных книг, изготовленных спам-методами. Имеют многомиллионный официальный доход.

флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.

G00DMAN:
Потому что никогда не думали об этом. Проблема ведь не такая тупая, как Вам кажется. Антиспамом занимается много коллективов, выделяются большие гранты по всему миру. Толк есть, но спамеры тоже на месте не стоят.

с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)

vitali_y добавил 19.11.2010 в 20:50

Согласитесь, как-то по-разному в 60-х годах прошлого века и сейчас воспринимается фраза "Мальчик склеил в клубе модель"... :)

Top for the good
На сайте с 16.02.2008
Offline
322
#42

vitali_y, как я думаю, то генерированный текст строится не только путем подбора синонимов. Читал как-то про вариант генератора, когда генерированный текст выслали комиссии, как докторскую работу.(извините но ссылки нет) И ее приняли на рассмотрение. Только внимательно изучив ее, поняли, что это мусор.

Чем вам помочь в SEO продвижении или юзабилити сайтов?
(https://topuser.pro/) Увеличить доход от РСЯ и AdSense (https://topuser.pro/uvelichit-dohod-adsense/)
webpavilion
На сайте с 10.10.2009
Offline
35
#43

Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen

S
На сайте с 29.01.2006
Offline
404
#44

Top for the good, всё-таки, генерировать тексты на научную тему, да еще на английском, не очень сложно - можно оперировать массой заранее заготовленных типовых фраз, по ходу меняя слова "метод" на "алгоритм" и наоборот.

G00DMAN
На сайте с 19.04.2008
Offline
122
#45
vitali_y:
не совсем верно - не вдаваясь в детали - я уточнял задачу - вел речь о некотором подклассне задач - вы перешли на еще более общую задачу определения спама ну и т.п.

Ага, Вы уточнили, когда поняли, что написали фигню. Хотя даже после уточнения задача не становится легкой нигде, кроме как в Вашем не опытном моске.

vitali_y:
вручную когда текст A забудется такие задачи никто не решает - можно для решения вручную определять подозрительные тексты.

Это и делается, один из методов для отслеживания новых спам-алгоритмов. Но только один из, все ведь гораздо сложнее. :)

vitali_y:
хотелось бы увидеть код или на худой конец exe файл для подобного синонимайзера.

Мне бы тоже хотелось, да.

vitali_y:
Написание оного задача не из легких - это первый аргумент.

Ну так у спамера нынче жизнь такая - не из легких. Однако, в гугле.юс они рубят сотни тысяч американских денег в месяц. И гугл не может искоренить их окончательно, хотя очень старается. :)

vitali_y:
нет не легко - здесь - да сложность сравнима с написанием самого синонимайзера.

Не, сложность будет слегка выше, чем у синонимайзера.

vitali_y:
НО повторюсь - Я НЕСЧИТАЮ ЧТО ДЛЯ ПОИСКОВИКА ИМЕЕТ СМЫСЛ БОРОТЬСЯ С ПОДОБНЫМ.

Да я понял, что Вы не считаете. А поисковики - считают, видимо в поисковиках недалекие люди рулят процессами, Вы бы объяснили им, чтоле. Если бы они забили на антиспам и часть из бюджета на него переводили Вам - Вы и все Ваши родственники смогли бы не работать и жить в монаке. :D

vitali_y:
еще аргументы: тест был изменен настолько что потерял первоначальный смысл.

Ну не совсем потерял, хотя конечно я немного переборщил. Но суть моего "синонимайза" надеюсь понята? ;)

vitali_y:
при поиске я не вижу ни одного запроса к тексту 1 где второй текст стал бы в выдаче рядом с первым. верно и обратное.

А вот и нет - обратное как раз верно, "универ" Яндекс переколдовывает, как "университет". :)

vitali_y:
если второй текст генерится с целью получить трафик от определенной аудитории - говорящей и читающей на "наречии" и понимающей о чем речь когда говорится "медвед", "в ГЗ универа", "целую пару", "выносил моск" - то флаг таким спамерам в руки! пускай получают свой трафик!

Ну про "универ" я выше написал, "ГЗ" не переколдовывается временно, а "медвед" - по политическим причинам. Хотя здесь Яндекс не совсем последователен, т.к. у него есть пресс-портрет Дмитр Медвед. :D

vitali_y:
флаг им в руки - если их спам переработан настолько умело - они ищут и находят свою аудиторию. не может выйти одной исчерпывающей книги по теме - можно написать собственную книгу либо статью достаточно переработав материал и подавая его в другом виде - это реально не спам - если же этот процесс автоматизировать - подойти формально - то исходник будет заметно хуже оригинала - книга есть такая "Гедель Эшер Бах" - там эта тема затрагивается.

Автор приведенного мной выше патента генерит все на автомате, даже названия книг. И продает их на Амазоне - когда-то писали, что там почти 100К его разнообразных "трудов" в продаже, многие вполне себе раскупаются. :)

vitali_y:
с моей точки зрения - проблемма надумана. я завидую "коллективам" и их "грантам" - выделили бы мне маааленикий грантик и я бы то же сочинил бы что нибудь на тему -> подозреваю что в той среде все свои -> подозреваю что мне не позволят решать подобные задачи - вероятно "рылом не вышел" что б в "вступить в колашный ряд" :)

Я уверен, что Ваша "боязнь" происходит от нежелания вдуматься в проблему. Из той же серии:

выделили бы мне маааленикий грантик и я бы:

- легко написал самый крутой антивирус, это же легко: увидел вирус - и удалил его. И аргУмент есть весомый - мой бывший программер на днях выпустил релиз Kaspersky Security 8.0 для Microsoft Exchange Servers. Если подчиненный смог, то я то - тем более.

- легко написал бы самый крутой поисковик, и аргУмент есть - я же выиграл РОМИП-2010 в поиске, а там и Яндекс участвовал.

- легко написал бы самую крутую ОС. И аргУмент есть - когда-то лет 20+ назад я был Великим Программистом, в т.ч. и написал с нуля полноценную ДОС для Агат-9.

:D

webpavilion:
Top for the good, наверное вот это имелось ввиду: http://ru.wikipedia.org/wiki/Scigen

Да, это были крутые отжиги. :)

G00DMAN добавил 20.11.2010 в 01:19

Scaryer, так там и перевод на русский схавали наши псевдоученые.

Илья Зябрев, AlterTrader Research Ltd. Последние статьи: Об отмене ссылок в Яндексе. (www.altertrader.com/publications38.html)|Поведенческие факторы (формулы) (www.altertrader.com/publications36.html) Жадные алгоритмы Яндекса. (www.altertrader.com/publications20.html)|MatrixNet для «чайников». (www.altertrader.com/publications19.html)
G00DMAN
На сайте с 19.04.2008
Offline
122
#46

vitali_y, ну вот и подтверждение практически "из первых рук". Владимир Офицеров, специалист отдела качества поиска гугла, на прошлой неделе ответил на несколько вопросов.

Среди вопросов был и такой:

— Какие еще существуют проблемы в современном поиске? Что вас лично на данный момент не устраивает и что бы вы хотели как можно скорее исправить?

— Проблем существует достаточно много, но одной из самых серьезных, я считаю, является спам в поисковых результатах. По крайней мере, для Российского рынка это один из ключевых факторов и мы будем стараться фильтровать эту информацию.

Офицеров - ведущий спец с именем, причем абсолютно в теме (я с ним общался за день до интервью по поводу совместных исследований с гуглом), считает спам в выдаче проблемой. Похоже, что только для Вас такой проблемы нет. ;)

[Удален]
#47

G00DMAN, по поводу приведенного Вами примера синонимайза. Давайте обзовем его "перефраз" все таки.

Ида, такой перефраз есть. Дело в том что он мало замен делает, ибо русский язык - могучий язык:) Но в сочетании с классическим синонимайзом дает неплохую уникальность. Правда если N-граммы подключаю к синонимайзу, то и он не много замен делает. Особенно если это 3-граммы.

Отсюда к Вам, Илья, вопросец:

Дано:

1. Словарь (знает 90% слов из библиотеки Мошкова)

2. Связи в словаре(тезаурус). Рассмотрим только синонимические связи.

3. База нграмм (возьмем биграммы), накопленная по например 50 Гб текста (книги - не узкотематический текст)

Вопрос:

Как думаете, что повлияет на кол-во замен больше:

а. Увеличение полноты словаря

б. Увеличение кол-ва биграмм

в. Увеличение кол-ва синонимических связей

Будет ли ситуация с 3-граммами такая же?

S
На сайте с 29.01.2006
Offline
404
#48

G00DMAN,

считает спам в выдаче проблемой

Притворяется. Спам и антиспам придумывают в соседних отделах и убивают всех, кто раскроет эту страшную тайну.

webpavilion
На сайте с 10.10.2009
Offline
35
#49

kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.

[Удален]
#50
webpavilion:
kapow_expert, дело не в объеме словарей или размерности нграмм, на качество в первую очередь влияет используемый алгоритм. под качеством подразумевается не количество замен а "человечность" получаемого текста.

Алгоритм понятен из вопроса. Как раз таки н-граммы для человечности и используются. Но вопрос не в этом вовсе.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий