как говорится смотрю в книгу вижу фигу
надо удалить из предлож всё между запятых, для уникализации , создать предлож с запятыми.
чтоб не было переспама достаточно контролировать число вхождений слов из ключа,
на вскидку- кол-во слова ключа =половине кол-ва всех уникальных слов в тексте,
тогда получится на грани переспама, если меньше то не будет трафика по конкурентным ключам.
насчёт ципфы- я просил, без морфологиии
разбить на слова (слова обрезать до 4 знаков, меньше 3 не принимать во внимание)
подсчитать сколько раз появляется в тексте каждое слово
и отсортировать по количеству вхождений слова в тексте, 20( можно и первых двух) самых часто появляющиеся слова сохранить вместе с числом количества вхождений этого слова в тексте
Идеальный дорген/генератор сайтов/лендингов etc
Гениальный дорген/генератор сайтов/лендингов etc
Все гениальное - просто!
поэтому первым делом надо и про производительность не забывать
динамический дор-закинул ключи и всё.
может накатаеш готовый код для определения ципфы текста на рнр (думаю всем интересно будет)
только не надо phpMorphy использовать---------- Добавлено 15.09.2016 в 16:26 ----------
типа того, можно упростить в части (переводим в нормальную форму - ед число, им. падеж итд,)
так как поисковик уже отсортировал сайты по ключу думаю можно просто брать первые 4-5 знаков из слов запроса---------- Добавлено 15.09.2016 в 10:56 ----------сам пробую делать по схеме /ru/forum/comment/14676530
только проверку на соответствие ципф ещё не сделал,
ищю простой код для получения ципфы на пхп
если б перевёл на простой язык было бы не плохо, а то это не говорит мне не ничего---------- Добавлено 15.09.2016 в 10:38 ----------а чем тебе статистика не подходит
типа того, наверное можно ципфу прикрутить к делу вытаскивания смыслообразующего центра.
если новые снипеты будут соответствовать по ципфе с ципфой снипетов.
+ уникализация(не поверхностная) +объём будет круто.
снипет составлен алгоритмами поисковиков не просто так а с использованием кучи фильтров и условий , полученный результат (снипет) по версии поисковика соответствует запросу пользователя,
по этим же алгоритмам будет ранжироваться и текст с дора.
как минимум необходимо использовать все словосочетания из снипета
так и предлогается брать объём с сайтов по снипету и подправить снипеты,
например тупо перемешать снипеты по запятым, и союзам а уже потом исправить морфологию
так вот тут на этих снипетах и надо применить то что хотели делать с нейронной сетью.
исправить снипеты до презентабельного вида