response

response
Рейтинг
324
Регистрация
01.12.2004
shikari:
Хм... Я мог бы научить как делать тиц 100 и PR 4 за месяц для белого сайта.

научи лучше для дора.

MiRaj:
response, по сабжу - солидарен с Авелоном.
Обратитесь к лингвистам, на кафедры проблем перевода - не изобретайте велосипед.

я подумаю над этим.

ёгурт:
дерзайте, только научить скрипт писать осмысленный текс, тянет Нобелевскую премию, а не использования разработки для генерации сайтов.
Да, и потом в сети столько контента, юзай не хочу...

да речи об осмысленном тексте не идет. Суть в возможности генерировать дофига контента, не скатываясь при этом к "шлюхи питера был красивым" :)

mih4:
Вспомнил еще одну штучку.Когда-то при союзе купил книгу по занимательной всячине(уже и не вспомню).Так вот, там была большая таблица по генерации псевдо текста очень умного.Несколько колонок в которых отражена структура предложения.Ниже в колонках собраны слова.Поочередно беря из каждой колонки из случайных строк слово,мы получаем цельное предложение каждый раз разное.Можно составить словари для разных тем(имеется ввиду существительные),для адалта можно тоже довавить отдельные глаголы:).Сделать допустим штук 5-10 шаблонов-структур предложений, которые будут случайным образом менятся.И соответственно если в каждой колонке будет глаголов и существительных,прилагательных по 100, то вариации лежат в огромных пределах.
Проще написать что либо с математическим алгоритмом.Можно навводить разных условий,типа с если берем глагол такой-то, то случайным образом с ним всегда идет существительное такое-то-50%,такие-то 20%,остальные -3%.

ну вот я как раз в таком направлении и смотрю. так или иначе, необходимо создавать какую-то, пусть примитивную нотацию вариантов развития предложения, вот и зацепился за то, что уже создано.

Если хочешь, можно сообразить че-нить на двоих, реализовав систему собственных условий и создав словариков. Один не скоро забацаю, если ваще осилю 😂

mih4:
Тут надо брать во внимание кроме структуры предложения еще частоту уподребления слова в определенном языке.Чем больше по обьему не спецефический текст, тем более он будет включать в себя наиболеее употребляемые слова.Для этого можно поискать частотные словари.Допустим в английском наиболее употребляемые 1000 слов занимает 65% текста. В свете этого если тупо использовать алгоритм "весны" то бан тебе обеспечен.:)
доправил сейчас, в гугле по запросу частотный словарь по русскому языку очень много релевантной инфы,

я думаю подобная тема будет обеспечена как минимум использованием стандартных оборотов и скудностью используемых словарей (особенно учитвая такие места, как например предлоги - их мало, встречаться будут наверняка во многих правилах, за счет этого и пойдет рост значений частоты использования маленькой группы слов).

кстати, в процессе кравлинга нашел вот такой сайтег: http://aot.ru .

там можно слить их софтину, которая инсталлит свои ком-объекты. я пока не разобрался со всеми интерфейсами, ибо документирована только парочка, но с помощью документированных уже есть возможность получать нормальную форму слова, а так же (как я понял) другие всякие атрибуты, вроде времени, рода и пр. (хотя с этим еще до конца не разобрался и работоспособность не проверил).

Как минимум упрощается задача грамотной подстановки кеев в имеющиеся тексты.

кстати, есть еще интересная софтина, может кто не видел еще, от яндекса: http://company.yandex.ru/technology/products/mystem/mystem.xml

VipRaskrutka:
Ту некоторых товарищей уже за личный идиотизм банить надо 🙅

предлагаю выкатить список, чего томить

claygod:
Если возможно, примеры описанных выше систем, дабы посмотреть, о чём речь

я знаю только одну удовлетворяющую, да и то это моя собственная разработко, так что сорри, но ничем не помогу. скажу лишь, что это дико удобно, когда можно "отпочковывать" акки, привязанные к контенту акка-донора.

Mad Cat:

Т.е. описать таким образом генерацию осмысленного текста - задача имхо за пределами реальности.

гм, ну почему? само собой, охватить целиком естественный язык не получится (да и не каждый искусственный выйдет, как я понял), но все-таки..

имея набор правил построения корректного предложения, мы отсекаем заведомо некорректные предложения.

Например, имея одно правило <предложение> := <сущ><прил>., мы строим, к примеру, предложение "Кошка серая.", но при этом избегаем построения варианта "Кошка на.", ибо правило <предложение> := <сущ><предлог>. у нас не определено, соотв. запрещено.

Я думаю яндекс в своей весне (рефераты) пользуется чем-то подобным.

Mad Cat:
Нам это в универе на втором курсе читали :)

в моей жизни было три универа, и ни один не влюбил в себя настолько, чтобы перевестись на второй курс, бугага )) так что теперь коллекционирую красные гос. дипломы о проф. переподготовке, но там подобного не читают )

Mad Cat:

Рекомендую поискать учебники или методички по "теории программирования" или "основам программирования", там БНФ и нормализованные БНФ должны быть описаны.

а почему программирования? я сколько в разрезе программирования не смотрел, нашел лишь для искуственных языков, плюс пару интересных доков от яндекса, но там тема не раскрыта.

Mad Cat:

Я попробую поискать у себя, может в цифре что-то найду, поделюсь.

ага, спасибо. но это хотя бы то, что мне нужно по постановке задачи? )

mtishetsky:
Очень плохая была идея про 9М страниц, оно по расчётам будет генериться две недели с такими скоростями. Пристрелил процесс, теперь два часа вычищаю результаты.

распределенные вычисления рулят ☝

Всего: 3770