Небольшой опрос. Идеальный дорген/генератор сайтов/лендингов etc

AESCBC192
На сайте с 11.06.2016
Offline
51
#181
tanir23:
так вот тут на этих снипетах и надо применить то что хотели делать с нейронной сетью.
исправить снипеты до презентабельного вида

не тот объем, второй момент - кодировку не нейро правят. думаю важен результат а сниппеты или нет - вопрос вторичный. оставлю сниппеты значит, это уже что-то вроде классики в подобного рода софтах))

T2
На сайте с 24.02.2008
Offline
117
#182
AESCBC192:
не тот объем, второй момент - кодировку не нейро правят. думаю важен результат а сниппеты или нет - вопрос вторичный. оставлю сниппеты значит, это уже что-то вроде классики в подобного рода софтах))

так и предлогается брать объём с сайтов по снипету и подправить снипеты,

например тупо перемешать снипеты по запятым, и союзам а уже потом исправить морфологию

Ташкент кафельщик (https://remontmontaj.ru/)
AESCBC192
На сайте с 11.06.2016
Offline
51
#183

Проще сгенерировать свой сниппет, перейдя по ссылке из выдачи, но без ненужных элементов, я об этом. А из этих кусочков уже клеить текст, плюс немного можно морфозаменой перемешать для уникализации.

A
На сайте с 13.08.2015
Offline
63
#184

Сниппеты можно оставить, но не мешать их между собой в портянки.

T2
На сайте с 24.02.2008
Offline
117
#185
AESCBC192:
Проще сгенерировать свой сниппет, перейдя по ссылке из выдачи, но без ненужных элементов, я об этом. А из этих кусочков уже клеить текст, плюс немного можно морфозаменой перемешать для уникализации.

снипет составлен алгоритмами поисковиков не просто так а с использованием кучи фильтров и условий , полученный результат (снипет) по версии поисковика соответствует запросу пользователя,

по этим же алгоритмам будет ранжироваться и текст с дора.

как минимум необходимо использовать все словосочетания из снипета

AESCBC192
На сайте с 11.06.2016
Offline
51
#186
tanir23:
по версии поисковика соответствует запросу пользователя

можно попробовать лему вытащить из текста, что-то вроде смыслообразующего центра.

---------- Добавлено 15.09.2016 в 10:12 ----------

Нашел интересный пример

function detect_encoding($text, $short = 1) {

/*
returns:
none - encoding not detected
w - windows-1251
k - KOI8-R
i - ISO
a - DOS 866
*/

setlocale(LC_CTYPE, 'ru_RU');

$x_win = array('а'=>'0.07890365448505', 'б'=>'0.013981173864895', 'в'=>'0.043050941306755', 'г'=>'0.018687707641196', 'д'=>'0.027685492801772', 'е'=>'0.089285714285714', 'ж'=>'0.0094130675526024', 'з'=>'0.01578073089701', 'и'=>'0.071151716500554', 'й'=>'0.013427464008859', 'к'=>'0.038898117386489', 'л'=>'0.044435215946844', 'м'=>'0.032392026578073', 'н'=>'0.072120708748616', 'о'=>'0.11600221483942', 'п'=>'0.024363233665559', 'р'=>'0.040420819490587', 'с'=>'0.054817275747508', 'т'=>'0.063538205980066', 'у'=>'0.024363233665559', 'ф'=>'0.0016611295681063', 'х'=>'0.0080287929125138', 'ц'=>'0.0038759689922481', 'ч'=>'0.017303433001107', 'ш'=>'0.008859357696567', 'щ'=>'0.0024916943521595', 'ъ'=>'0.00027685492801772', 'ы'=>'0.018410852713178', 'ь'=>'0.017995570321152', 'э'=>'0.002906976744186', 'ю'=>'0.0065060908084164', 'я'=>'0.018964562569214');
$x_koi = array('б'=>'0.07890365448505', 'в'=>'0.013981173864895', 'Ч'=>'0.043050941306755', 'з'=>'0.018687707641196', 'д'=>'0.027685492801772', 'е'=>'0.089285714285714', 'Ц'=>'0.0094130675526024', 'Ъ'=>'0.01578073089701', 'й'=>'0.071151716500554', 'к'=>'0.013427464008859', 'л'=>'0.038898117386489', 'м'=>'0.044435215946844', 'н'=>'0.032392026578073', 'о'=>'0.072120708748616', 'п'=>'0.11600221483942', 'Р'=>'0.024363233665559', 'Т'=>'0.040420819490587', 'У'=>'0.054817275747508', 'Ф'=>'0.063538205980066', 'Х'=>'0.024363233665559', 'ж'=>'0.0016611295681063', 'и'=>'0.0080287929125138', 'г'=>'0.0038759689922481', 'Ю'=>'0.017303433001107', 'Ы'=>'0.008859357696567', 'Э'=>'0.0024916943521595', 'Я'=>'0.00027685492801772', 'Щ'=>'0.018410852713178', 'Ш'=>'0.017995570321152', 'Ь'=>'0.002906976744186', 'а'=>'0.0065060908084164', 'С'=>'0.018964562569214');
$x_iso = array('Р'=>'0.07890365448505', 'С'=>'0.013981173864895', 'Т'=>'0.043050941306755', 'У'=>'0.018687707641196', 'Ф'=>'0.027685492801772', 'Х'=>'0.089285714285714', 'Ц'=>'0.0094130675526024', 'Ч'=>'0.01578073089701', 'Ш'=>'0.071151716500554', 'Щ'=>'0.013427464008859', 'Ъ'=>'0.038898117386489', 'Ы'=>'0.044435215946844', 'Ь'=>'0.032392026578073', 'Э'=>'0.072120708748616', 'Ю'=>'0.11600221483942', 'Я'=>'0.024363233665559', 'а'=>'0.040420819490587', 'б'=>'0.054817275747508', 'в'=>'0.063538205980066', 'г'=>'0.024363233665559', 'д'=>'0.0016611295681063', 'е'=>'0.0080287929125138', 'ж'=>'0.0038759689922481', 'з'=>'0.017303433001107', 'и'=>'0.008859357696567', 'й'=>'0.0024916943521595', 'к'=>'0.00027685492801772', 'л'=>'0.018410852713178', 'м'=>'0.017995570321152', 'н'=>'0.002906976744186', 'о'=>'0.0065060908084164', 'п'=>'0.018964562569214');
$x_dos = array(' '=>'0.07890365448505', 'с'=>'0.013981173864895', 'т'=>'0.043050941306755', 'у'=>'0.018687707641196', 'ф'=>'0.027685492801772', 'х'=>'0.089285714285714', 'ц'=>'0.0094130675526024', 'ч'=>'0.01578073089701', 'ш'=>'0.071151716500554', 'щ'=>'0.013427464008859', 'ъ'=>'0.038898117386489', 'ы'=>'0.044435215946844', 'ь'=>'0.032392026578073', '_'=>'0.072120708748616', 'ю'=>'0.11600221483942', 'я'=>'0.024363233665559', 'а'=>'0.040420819490587', 'б'=>'0.054817275747508', 'в'=>'0.063538205980066', 'г'=>'0.024363233665559', 'д'=>'0.0016611295681063', 'е'=>'0.0080287929125138', 'ж'=>'0.0038759689922481', 'з'=>'0.017303433001107', 'и'=>'0.008859357696567', 'й'=>'0.0024916943521595', 'к'=>'0.00027685492801772', 'л'=>'0.018410852713178', 'м'=>'0.017995570321152', 'н'=>'0.002906976744186', 'о'=>'0.0065060908084164', 'п'=>'0.018964562569214');

if ($short) $text = substr($text, 0, 200);

$len = strlen($text);
for ($i = 0;$i < $len;$i++) {
$let = strtolower($text[$i]);
$t[$let]++;
}

if (is_array($t))
foreach($t as $k => $v) {
$t_win += $v * $x_win[$k];
$t_koi += $v * $x_koi[$k];
$t_iso += $v * $x_iso[$k];
$t_dos += $v * $x_dos[$k];
}

$r = 'none';
$tmp = max($t_win, $t_koi, $t_iso, $t_dos);
if ($t_win == $tmp) $r = 'w';
if ($t_koi == $tmp) $r = 'k';
if ($t_iso == $tmp) $r = 'i';
if ($t_dos == $tmp) $r = 'a';

return $r;
}
?>

Это нейронка, в массиве весовые коэффициенты, упрощенная конечно, но принцип тот же.

T2
На сайте с 24.02.2008
Offline
117
#187
AESCBC192:
можно попробовать лему вытащить из текста, что-то вроде смыслообразующего центра.

типа того, наверное можно ципфу прикрутить к делу вытаскивания смыслообразующего центра.

если новые снипеты будут соответствовать по ципфе с ципфой снипетов.

+ уникализация(не поверхностная) +объём будет круто.

AESCBC192
На сайте с 11.06.2016
Offline
51
#188

Ципф - это статистическое распределение, можно взвесить запрос в сниппете и вытащить конструкцию с тем же весом из предложений, обычно этим занимается нейронка. У решения есть миннус - долго обучать, сложно настраивать, можно пойти более простым путем, аппроксимировать и по косвенным признакам вытащить.

T2
На сайте с 24.02.2008
Offline
117
#189
AESCBC192:
аппроксимировать и по косвенным признакам вытащить.

если б перевёл на простой язык было бы не плохо, а то это не говорит мне не ничего

---------- Добавлено 15.09.2016 в 10:38 ----------

а чем тебе статистика не подходит

AESCBC192
На сайте с 11.06.2016
Offline
51
#190

если очень приближенно то в готовом виде алго для сниппета - берем запрос, переводим в нормальную форму - ед число, им. падеж итд, лему берем и ищем ее в лематезированном тексте, далее по номеру позиций забираем предложения. две строки и пару циклов.

статистика - круто, но на обучение нужна выборка более 10к подобных блоков, это долго и неэкономно, хотя это лучший вариант конечно, но на непроммасштабе приходится изощраться с оптимизациями и всякими кастыльными решениями вроде того что привел выше.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий