response

response
Рейтинг
324
Регистрация
01.12.2004
MiRaj:
response, по сабжу - солидарен с Авелоном.
Обратитесь к лингвистам, на кафедры проблем перевода - не изобретайте велосипед.

я подумаю над этим.

ёгурт:
дерзайте, только научить скрипт писать осмысленный текс, тянет Нобелевскую премию, а не использования разработки для генерации сайтов.
Да, и потом в сети столько контента, юзай не хочу...

да речи об осмысленном тексте не идет. Суть в возможности генерировать дофига контента, не скатываясь при этом к "шлюхи питера был красивым" :)

mih4:
Вспомнил еще одну штучку.Когда-то при союзе купил книгу по занимательной всячине(уже и не вспомню).Так вот, там была большая таблица по генерации псевдо текста очень умного.Несколько колонок в которых отражена структура предложения.Ниже в колонках собраны слова.Поочередно беря из каждой колонки из случайных строк слово,мы получаем цельное предложение каждый раз разное.Можно составить словари для разных тем(имеется ввиду существительные),для адалта можно тоже довавить отдельные глаголы:).Сделать допустим штук 5-10 шаблонов-структур предложений, которые будут случайным образом менятся.И соответственно если в каждой колонке будет глаголов и существительных,прилагательных по 100, то вариации лежат в огромных пределах.
Проще написать что либо с математическим алгоритмом.Можно навводить разных условий,типа с если берем глагол такой-то, то случайным образом с ним всегда идет существительное такое-то-50%,такие-то 20%,остальные -3%.

ну вот я как раз в таком направлении и смотрю. так или иначе, необходимо создавать какую-то, пусть примитивную нотацию вариантов развития предложения, вот и зацепился за то, что уже создано.

Если хочешь, можно сообразить че-нить на двоих, реализовав систему собственных условий и создав словариков. Один не скоро забацаю, если ваще осилю 😂

mih4:
Тут надо брать во внимание кроме структуры предложения еще частоту уподребления слова в определенном языке.Чем больше по обьему не спецефический текст, тем более он будет включать в себя наиболеее употребляемые слова.Для этого можно поискать частотные словари.Допустим в английском наиболее употребляемые 1000 слов занимает 65% текста. В свете этого если тупо использовать алгоритм "весны" то бан тебе обеспечен.:)
доправил сейчас, в гугле по запросу частотный словарь по русскому языку очень много релевантной инфы,

я думаю подобная тема будет обеспечена как минимум использованием стандартных оборотов и скудностью используемых словарей (особенно учитвая такие места, как например предлоги - их мало, встречаться будут наверняка во многих правилах, за счет этого и пойдет рост значений частоты использования маленькой группы слов).

кстати, в процессе кравлинга нашел вот такой сайтег: http://aot.ru .

там можно слить их софтину, которая инсталлит свои ком-объекты. я пока не разобрался со всеми интерфейсами, ибо документирована только парочка, но с помощью документированных уже есть возможность получать нормальную форму слова, а так же (как я понял) другие всякие атрибуты, вроде времени, рода и пр. (хотя с этим еще до конца не разобрался и работоспособность не проверил).

Как минимум упрощается задача грамотной подстановки кеев в имеющиеся тексты.

кстати, есть еще интересная софтина, может кто не видел еще, от яндекса: http://company.yandex.ru/technology/products/mystem/mystem.xml

VipRaskrutka:
Ту некоторых товарищей уже за личный идиотизм банить надо 🙅

предлагаю выкатить список, чего томить

claygod:
Если возможно, примеры описанных выше систем, дабы посмотреть, о чём речь

я знаю только одну удовлетворяющую, да и то это моя собственная разработко, так что сорри, но ничем не помогу. скажу лишь, что это дико удобно, когда можно "отпочковывать" акки, привязанные к контенту акка-донора.

Mad Cat:

Т.е. описать таким образом генерацию осмысленного текста - задача имхо за пределами реальности.

гм, ну почему? само собой, охватить целиком естественный язык не получится (да и не каждый искусственный выйдет, как я понял), но все-таки..

имея набор правил построения корректного предложения, мы отсекаем заведомо некорректные предложения.

Например, имея одно правило <предложение> := <сущ><прил>., мы строим, к примеру, предложение "Кошка серая.", но при этом избегаем построения варианта "Кошка на.", ибо правило <предложение> := <сущ><предлог>. у нас не определено, соотв. запрещено.

Я думаю яндекс в своей весне (рефераты) пользуется чем-то подобным.

Mad Cat:
Нам это в универе на втором курсе читали :)

в моей жизни было три универа, и ни один не влюбил в себя настолько, чтобы перевестись на второй курс, бугага )) так что теперь коллекционирую красные гос. дипломы о проф. переподготовке, но там подобного не читают )

Mad Cat:

Рекомендую поискать учебники или методички по "теории программирования" или "основам программирования", там БНФ и нормализованные БНФ должны быть описаны.

а почему программирования? я сколько в разрезе программирования не смотрел, нашел лишь для искуственных языков, плюс пару интересных доков от яндекса, но там тема не раскрыта.

Mad Cat:

Я попробую поискать у себя, может в цифре что-то найду, поделюсь.

ага, спасибо. но это хотя бы то, что мне нужно по постановке задачи? )

mtishetsky:
Очень плохая была идея про 9М страниц, оно по расчётам будет генериться две недели с такими скоростями. Пристрелил процесс, теперь два часа вычищаю результаты.

распределенные вычисления рулят ☝

Qvent:
А можно поподробней? Что за expert pages?

я сразу предупреждаю, что в гугле не шарю, и возможно что-то непрально понял или недочитал, но вот, эта тема поднималась во время знаменитого апдейта Флорида: http://www.webworkshop.net/florida-update.html

Hilltop employs an 'expert' system to rank pages. It compiles an index of expert web pages - these are pages that contain multiple links to other pages on the web of the same subject matter. The pages that end up in the rankings are those that the expert pages link to. Of course, there's much more to it than that, but it gives the general idea. Hilltop was written in 1999 and, if Google have implemented it, they have undoubtedly developed it since then. Even so, every effect that the Florida update has caused can be attributed to a Hilltop-type, expert-based system. An important thing to note is that the 'expert' system cannot create a set of results for all search queries. It can only create a set for queries of a more general nature.

Экспертные веб-страницы - страницы, которые содержат относительно большое количество исходящих ссылок на другие страницы по той же теме.

Сейчас док не перечитывал, но в свое время скачал и вчиталсо в хиллтоповский алгоритм, и чего-то в голове засело, что гугля его заюзала (или блин в патенте был отсылк хиллтопу - не помню откуда у меня такое мнение, что для гугли это все актуально).

Всего: 3769