Как вам такая уникальная генерёнка?

XPraptor
На сайте с 15.10.2004
Offline
333
#61
JakoKruzo:
вебмастере метка дорвей и малополезный контент.

Не спеши. Сегодня дорвей, завтра снова все войдут в индекс и траф, и метка исчезнет, постоянно такая х..я у яши.

Но по твоему тексту, конечно может и не случиться такого, но может и повезет, все-равно жди.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#62

XPraptor, я их пока не удаляю, подожду, что с гуглом будет.

200Online
На сайте с 22.01.2017
Offline
86
#63
MO $$$:

размер для более морской ткани

Рекомендую добавить пост-фильтр по 4-граммам и автозамену Марковым в сгенерированном тексте.

То есть (для) (более)(ХХХ)(ткани)

Если 4-грамма не существует, то лучше заменить XXX на один из взвешанных вариантов слова.

Все 4-граммы русского языка с составным индексом по трем словам потянет почти любая СУБД.

Тем же способом можно делать рерайт: нашли 4-грамму по трем любым словам и варианты одного из слов, выбрали новое, если его вес устраивает и норм.

И sorry за непрошенные советы ;)

JakoKruzo
На сайте с 04.06.2008
Offline
158
#64

200Online, я делал алгоритм генерирования по n-граммам, тот же результат.

200Online
На сайте с 22.01.2017
Offline
86
#65
JakoKruzo:
200Online, я делал алгоритм генерирования по n-граммам, тот же результат.

Все правильно, одно без другого не работает.

Но если уже готовый нейротекст пропустить через фильтр и заменить каждое третье слово в несуществующих 4-граммах на подходящее по весу из Маркова или базы n-грамм, то текст получается более "причесанным".

Минус тоже есть. Увеличивается время генерации и нагрузка на железо.

Например, поискал "для более морской ткани", нет такого,

смотрим какие есть

"для более плотной ткани" - вес ХХ

"для более легкой ткани" - вес ХХХ

"для более прочной ткани" - вес ХХХХ

И выбираем один из них, заменяя третье слово в исходной фразе.

Либо, если есть хорошо сделанный быстрый марков и нет весов в базе n-грамм и лень ее пересобирать,

то марковым по первым двум словам (а лучше по трем, захватывая одно слово до этой 4-граммы) до тех пор, пока не попадем в существующую 4-грамму.

JakoKruzo
На сайте с 04.06.2008
Offline
158
#66

200Online, я думал об этом. Время генерации будет зашкаливать за все возможные пределы.

200Online
На сайте с 22.01.2017
Offline
86
#67
JakoKruzo:
200Online, я думал об этом. Время генерации будет зашкаливать за все возможные пределы.

Согласен. Сервис с таким подходом будет делать невыгодно.

По результатам старых экспериментов можно ориентироваться на 0.5с на каждую тысячу символов без пробелов.

Анабой Янсур
На сайте с 12.04.2011
Offline
114
#68
200Online:
Рекомендую добавить пост-фильтр по 4-граммам и автозамену Марковым в сгенерированном тексте.
То есть (для) (более)(ХХХ)(ткани)
Если 4-грамма не существует, то лучше заменить XXX на один из взвешанных вариантов слова.

Все 4-граммы русского языка с составным индексом по трем словам потянет почти любая СУБД.

Тем же способом можно делать рерайт: нашли 4-грамму по трем любым словам и варианты одного из слов, выбрали новое, если его вес устраивает и норм.

И sorry за непрошенные советы ;)

Ток индекс лучше использовать не составной ☝

200Online
На сайте с 22.01.2017
Offline
86
#69
V_G:
Ток индекс лучше использовать не составной ☝

Знать бы мне это год назад :)

Еще по идее должна быть разница между hash и B-tree индексами, но тоже не догадался потестировать тогда.

O
На сайте с 26.07.2015
Offline
65
#70

К изготовлению магазина айвори или нюдовых обувей лучше подходят мужские столетия и вообще искусственные мокасины желтого читателя.

Это точно нейро?

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий