Сниппеты рип ?

R
На сайте с 02.02.2014
Offline
83
#31

JakoKruzo, После перефразирования стало понятно мнение.

JakoKruzo:
Практика показывает, что ПС сразу делают комплексный анализ, и распознавание генерёнки не занимает много времени.

И уникальность вроде как тоже чекают. Вот сейчас про Яндекс скажу - еще неделю назад делал только на копипасте. Потом решил немного повозиться с уником - обычный марков 3 словный, только чищенный от неправильной морфологии. Эффект заметен - индекс быстроботный на следующий день + трафа насыпало больше обычного. Копипастные тоже лезут активно, но заметно похуже. Но это пока. Как дальше будет - будем посмотреть.

sidorka
На сайте с 17.08.2012
Offline
211
#32

Кому интересен генератор - https://mega.nz/#!tW4nUYZB!hG4ZVPlKJYrGFdG88aVsCGMd8q1JtR_0XOmrZgRTB1Y

В архиве класс генератора и две базы к нему - шаблоны предложений и тематические словоформы. С ходу откопал только одну тематику. Были еще несколько тематик, но искать надо в помойке. Будет интересно кому - поищу и выложу.

Требует chdb - yum install php-pecl-chdb

На 7-й версии пхп такого пакета нет, только для пхп-5.

Дешевые домены для дорвеев и не только - от 55р (https://goo.gl/Wtnwqp)
M
На сайте с 18.10.2006
Offline
185
#33

Анализ текста по закону Ципфа: Естественность вашего текста: 98%.

Я так понимаю это хорошо?

Кому-то - асерет-а-диброт, а кому-то - хатуль мадан. Вам выбирать!
XPraptor
На сайте с 15.10.2004
Offline
333
#34
MO $$$:
Анализ текста по закону Ципфа: Естественность вашего текста: 98%.

Я так понимаю это хорошо?

Если без стоп слов - то отлично. Если со стоп словами, то не очень, должно 100 быть.

M
На сайте с 18.10.2006
Offline
185
#35
XPraptor:
Если без стоп слов - то отлично. Если со стоп словами, то не очень, должно 100 быть.

Ну пишет, что стоп-слова отфильтрованы.

twiprogon
На сайте с 22.07.2013
Offline
189
#36
sidorka:
Кому интересен генератор - https://mega.nz/#!tW4nUYZB!hG4ZVPlKJ...R_0XOmrZgRTB1Y

В архиве класс генератора и две базы к нему - шаблоны предложений и тематические словоформы. С ходу откопал только одну тематику. Были еще несколько тематик, но искать надо в помойке. Будет интересно кому - поищу и выложу.

Требует chdb - yum install php-pecl-chdb

На 7-й версии пхп такого пакета нет, только для пхп-5.

Я что то пропустил, а что за генератор, по какому алго генерит ?

LimonBucks.com (http://limonbucks.com) - Лучшие условия для конверта мобильного трафика
sidorka
На сайте с 17.08.2012
Offline
211
#37
twiprogon:
по какому алго генерит

По шаблонам. С помощью стеммера были разобраны на составляющие предложения, в основном из сборника диктантов, и тематический текст с сохранением частотностей встречающихся словоформ и группировкой слов с одинаковыми синтаксическими признаками,. Получены 2 базы - шаблоны и словоформы. Дальше все просто. Рандомно дергаем шаблон и заполняем его такими же случайными вхождениями из базы словоформ с нужными характеристиками, например, существительное одушевленное женского рода единственное число дательный падеж.

Основная сложность - это снятие омонимии. Не каждый стеммер дает хороший результат. Морфи мне не понравился вообще - с ним омонимию не поборешь точно. Наиболее вменяемой для разбора оказалась связка из я-стеммера и еще одной приблуды в виде виндового сервера, автора уже не помню.

---------- Добавлено 08.02.2018 в 10:23 ----------

На дешевом серваке с оверселлом от зомро за 3 бакса этот генератор нормально держал полсотни потоков одновременно. Т.е. реально генерить на лету без сохранения результата, при увеличении нагрузки время конечно растет и на нагруженном сервере 20мс на 100 предложений не получить, но до 400мс вполне реально.

twiprogon
На сайте с 22.07.2013
Offline
189
#38

sidorka, так на дорах текстились эти текста, какие результаты ?)

sidorka
На сайте с 17.08.2012
Offline
211
#39

twiprogon, хуже сниппетов, честно говоря.

twiprogon
На сайте с 22.07.2013
Offline
189
#40
sidorka:
хуже сниппетов,

ну ожидаемо.

Сниппеты все же релевантный текст + захватывает хвосты НЧ по ключу

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий