Zerber ver.2

rasiell
На сайте с 16.02.2008
Offline
224
#51

Ключевик пеленгатор в каждом 2-м предложении:

Безвкусно драпирующая доказательность опосредованно утилизовывает, пеленгатор, но случается, что закоренелый меховщик пригнулся. Блиндирующий бондарь в паре с абстрактной расставленностью это выпускник, но случается, что взор зацеловывает. Возможно, пеленгатор, охотницы непредсказуемо едва - лишь будут надкатывать кроме скрытой стремительности, в случае когда клоачный золотарь растеряет. Еле подготавливающее оттаскивание спутывает про пешком блиндирующую и дезориентированную беглянку, только когда звоны натужно натужно стерилизуют промежду выплывавшей и несоответствующей радиобиологии. Сидящие плескания усекают, пеленгатор, но иногда ласточка благоустроенно благоустроенно радуется предо автотрансформатором.
Стоящий ифрит покупает согласно равнозначности, пеленгатор, но случается, что многотиражки хрипят об резво жующее горнило. Подготавливающие пыльца конечности психологически психологически могут подстраховаться между кабалистического или безобразно стоящего чикаго, но случается, что засекречивающий видоискатель раскалывает вместо властьимущего зазывалы. Уверяющие непредвиденности вперед вперед умеют перекинуться предо уклонением, пеленгатор, только когда замечательно видящий орешник чрезвычайно отдаленно расплывается. Завопившие фантазии удалятся, но случается, что вересковый экспорт толкнет. Выпеченная или несказанно жующая барби стучит на атональную демилитаризацию, пеленгатор, и фрагментировано гранулирующая космогония изобразит.

Немного приоткрою завесу над тем что планируется добавить в ближайших обновлениях доргена. Во первых будут добавлены n-граммы, что позволит генерировать текст на определенную тематику, также будут генерироваться различные предложения, сейчас пока только сложные повествовательные, появятся вопросительные, восклицательные. Что касается вставки ключевиков, то тут планируется провести большую работу, чтобы можно было перефразировать ключевики, менять падежи и т.д. Также будет добавлен синонимайзер и другие методы генерации и граббинга. Ну и конечно же будут добавлены другие языки!

Все это ожидайте в последующих версиях, работа идет постоянно, добавляются новые фичи, исправляются старые глюки. Enjoy!

W
На сайте с 10.05.2009
Offline
114
#52

Что то меня берут сомнения по поводу жизни доров с такими текстовками, палится будут на раз.

Морковка, со всеми своими недостатками, будет выглдеть в разы лучше.

Для примера, выбираем любую пару слов стоящей рядом из вышестоящей текстовки, и ищем в гугле например. Вероятность что такая пара встретится на каком либо сайте практически меньше 10%. Перебрав десяток пар, нашол только одну нормальную, тоесть используемую в речи, а три из них выдали доры построенные скорее всего этой прогой.

Для сравнения выберите пару слов из любого нормального предложения и поищите в поиске, вы найдете как минимум 3-4 точных совпадения на других сайтах.

В итоге, если на такой гавнотекст нету сейчас фильтра, то он появится в кратчайшие сроки, путем сбора сотни стоп-словосочетаний с одного такого дора, и по ним спалятся все остальные.

rasiell
На сайте с 16.02.2008
Offline
224
#53
Морковка, со всеми своими недостатками, будет выглдеть в разы лучше.

Каким местом она будет выглядеть лучше?

Для примера, выбираем любую пару слов стоящей рядом из вышестоящей текстовки, и ищем в гугле например. Вероятность что такая пара встретится на каком либо сайте практически меньше 10%. Перебрав десяток пар, нашол только одну нормальную, тоесть используемую в речи, а три из них выдали доры построенные скорее всего этой прогой.

Вы сами себе противоречите, говоря, что генерация по цепям Маркова читабельнее. Т.е. если взять любые пару слов из текста сгенерированного по цепям Маркова, то это будут часто употребляемые в речи обороты?

H
На сайте с 17.04.2009
Offline
63
#54

Марков давно неактуален. Обычный копипаст и то дольше маркова живет.

Вот интересно, возьмется ли кто-нибудь за деревья Гилберта?

/ru/forum/175379

Халявный трафик! (http://nagon.net)
W
На сайте с 10.05.2009
Offline
114
#55
Вы сами себе противоречите, говоря, что генерация по цепям Маркова читабельнее.

Похоже вы меня не поняли, при использовании морковки, два стоящих рядом слова всегда встречаются в нормальном предложении, так как это есть основа алгоритма, и морковка ловится по совсем другим признакам, а не по морфологии и бредовсти текста...

Ваш вариант недотягивает даже до морковки.

rasiell
На сайте с 16.02.2008
Offline
224
#56
wolfston:
Похоже вы меня не поняли, при использовании морковки, два стоящих рядом слова всегда встречаются в нормальном предложении, так как это есть основа алгоритма, и морковка ловится по совсем другим признакам, а не по морфологии и бредовсти текста...
Ваш вариант недотягивает даже до морковки.

Он превосходит марковку на голову а то и две.

Я вас понял прекрасно, похоже это вы не разу не генерировали ничего, а так, просто рассуждаете. Вот скажите, при генерации по цепям Маркова, вы что используете текстовку из одного предложения, что у вас эти "два стоящих рядом слова" всегда будут встречаться в живом языке? Это одно, а второе, это то, что чтобы по настоящему определить смысл текста это как минимум нужен ИИ, а вы говорите фильтр...

L!mur
На сайте с 26.06.2006
Offline
176
#57

rasiell да не отвлекайтесь вы на этот пустой треп)) время покажет кто был прав, а точней Яша покажет. Не нужно ничего никому доказывать. Не будет текстовка рулить - тогда уже и нужно будет думать)

10'000 руб/сутки на SEDv4 «MobyDick»! (/ru/forum/comment/12653555) Нужен трафик? Купи «SED» (http://www.sedv4.ru) 5'000 руб/сутки на SEDv3 (/ru/forum/comment/11641425) Для работы с Twitter только TwiFarmv3! (/ru/forum/839117)
W
На сайте с 10.05.2009
Offline
114
#58
Я вас понял прекрасно, похоже это вы не разу не генерировали ничего, а так, просто рассуждаете.

Небольшой офтоп. Алгоритм маркова рабоатет так.

Берется текстовка, желательно тематическая, написанная человеком, в большенстве случаев уже имеется в индексе. Далее она разбивается на словосочетания из двух слов, из них делается как бы цепочка, например такая -

Я вас

вас понял

понял прекрасно,

прекрасно, похоже

похоже это

это вы

вы не

не разу

разу не

не генерировали

генерировали ничего

и т.д.

Затем берется любая пара слов и нчинает строится цепочка нового предложения, два слова добавляется в текст, затем первое выбрасывется, ищиется в базе цепочка начинающеся на второе слово (а если текстовка большая то возможно много разных таких цепочек) выбирается случайная и добавляется еще слово и так по кругу.

В итоге в таком тексте два рядом стоящих слова всегда будут встречатся в исходной текстовке, потому как на этом основан алгоритм.

Морковка обычно палится по тому что у нее очень часто встречаются слова паразиты, или стоп слова, не несущие какогото смысла типа - и, вот, или, так, а и т.д.

Кроме того там бывают дубли текста и прочее недостатки, вылавливающиеся по определенным алгоритмам, обычно как правило из-за маленькой начальной текстовки, ведь из одного мегабайта генерят 50 мегабайт текста а то и больше...

Теперь к теме.

Вот скажите, при генерации по цепям Маркова, вы что используете текстовку из одного предложения, что у вас эти "два стоящих рядом слова" всегда будут встречаться в живом языке?

Это высказывание говрит что вы вобще не знаете алгоритм генерации по цепям Маркова.

Это одно, а второе, это то, что чтобы по настоящему определить смысл текста это как минимум нужен ИИ, а вы говорите фильтр...

Опеределять смысл текста не надо, помоему фильтры, борящиеся с бредогенераторами есть уже давно, там алгоритм елементарный, выкидываем стоп слова, разбиваем предложения на шинглы из двух слов, и далее сравниваем по поисковой базе. Если в текстовке присутствует очень большое количество уникальных шинглов, то это первый звоночек что текст нагенерен бредогенератором.

rasiell
На сайте с 16.02.2008
Offline
224
#59
первое выбрасывется ищиется в исходной текстовке потому как правило из-за маленькой начальной текстовки ведь, из.

Вот такой текст сгенерировал генератор по цепям Маркова из ваших слов.

Я могу из своего опыта сказать, что морфологически правильный текст, пусть и полный бред хорошо сидит в индексе.

W
На сайте с 10.05.2009
Offline
114
#60

rasiell Ладно, не будем спорить, алгоритм генерации еще не опробыван в боях с поисковиками, давайте просто подождем результатов, посмотрем как он себя поведет. Возможно я ошибаюсь, возможно и нет, время покажет.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий