http://eclipse234565-001-site1.ftempurl.com/shtory_foto/shtory_svoimi_rukami_foto
На стадии багфикса.. В последний момент обнаружилась проблема "кубиков с вопросами", а касательно сниппетов, имхо вообще контент никакой с них, лучше идти по ссылкам с поисковиков и надергивать по предложению. ---------- Добавлено 15.09.2016 в 09:12 ---------- Плюсуйте кто за то чтобы выпилить метку сниппетов вообще и сделать мозаику из предложений текстов по ссылкам на сниппетах? Потому что после чистки снипов от телефонов и смайликов от них остается решето непрезентабельное.
Попробовал разны алгоритмы синтеза контента. Получается неплохо, единственный минус - много поисковых запросов уходит на создание текста, задачу обхода бана решил распределением запросов между поисковыми системами, но с другой стороны, если контент не банится так уж ли важен вопрос скорости его создания? Постепенно буду внедрять в софт алгоритмы, в первой версии скорее всго будет только генератор с псевдоморфологией, пример котрого выкладывал.
Генератор с конкатенацией спаршенных предложений в генераторе нужен? Можно релаизовать примерно такой алгоритм: берется целевой ключ, по нему берется 1 предложение, далее из этого предложения выбирается шингл 2-3 слова в состав котрого входит целевой кей в одной из морфологических форм, далее по цепочке набираются предложения по таким шинглам предыдущих. Кто за включение данного алго пишите в тему.
потому что не проходят частотный анализ, если составить качественную частотную базу, отражающую естественное распредление то в для ПС будет естественный контент. Частотная база это и есть нейронка, правда упрощенная и одноуровневая.---------- Добавлено 12.09.2016 в 21:00 ----------PS распределение в тесте по Ципфу не отражает распределний естественного контента, для каждой тематики эти распределения разные.
это не на ключ а обычный текст модифицированный базой на основе текста про нейронную сеть. Можно считать что под кей "нейронная сеть".
Lastwarrior, ты лучше по текстовке скажи мнение. Софт еще дописывать.
Можно снизить процент замен, но тогда уникальность снижается, и потом я ставлю задачу научить алгоритм делать полностью уникальный текст, чтобы он при этом был еще и читабельным.---------- Добавлено 11.09.2016 в 05:04 ----------Добавил помимо кея еще 1-2 блока на основе случайных слов из базового блока с высокой частотностью в тексте - получилось лучше, но время парсинга возрасло соответственно в 3 раза.
Лучше базу накапливать и в нее добавлять, с другой стороны если контент не будет банится то параметр времени создания страницы отходит на второй план.
Взял за основу этот текст http://host45.altmoney24.ru/
Дальше прогнал базой составленной на основе контента 30 сайтов из выдачи по запросу "нейронная сеть".
На данном этапе улучшение качества упирается в подключение частотной базы. Понимаю что пример мягко говоря курьезный но хотелось бы услышать мнение по применимости такого контента и если его необходимо улучшить то до какого уровня?
у кого-нибудь есть ссылки на DVD с книгами в txt? нужен материал для снятия частотной базы.---------- Добавлено 10.09.2016 в 21:43 ----------
не жалко, но на ПМ нет времени, в icq могу скинуть.
bolyk, по частотным характреистикам я уже проверил 70-85% по алгоритму Ципфа, мне интересно субъективное мнение по поводу текста.