Нужен синонимайзер

XPraptor
На сайте с 15.10.2004
Offline
333
#41

Badmaestro, Вы свой текст хотя бы на коэффициент Зипфа пробивали? :)

У него исходного естественность 59% - какого синонимайза вы ждете от этого УГ?

Вам кто то уже синонимайз видимо впарил уг-шный, а вы его еще хотите синонимизнуть?

Возьмите за правило себе, парсите серп, выбираете группы абзацев между 400-500 слов, проверяете естеcтвенность, в пределах отклонения 0.05 от нормали для конкретного языка - забираете этот текст, всё, что хуже - не берёте.

При генерации сборок из забранного текста - проверяете финальную сборку на естесственность, если отклонение от нормали в пределах 0.09 - оставляете, иначе пересобираете другую, пока не будет укладываться в нужное отклоенение.

billypelegrini
На сайте с 20.02.2019
Offline
47
#42

Ципфом чекать бред, просто предложения с сайтов не ниже 15й позиции.

XPraptor
На сайте с 15.10.2004
Offline
333
#43
billypelegrini:
Ципфом чекать бред, просто предложения с сайтов не ниже 15й позиции.

Это вы ПС-ам расскажите, они именно так естественность в алго определяют.

А мысль с 15-ой позиции - да, верна, оттуда начинаются не накрученные, нормальные тексты.

Но, лучше все-таки проверять, а не брать с 15-ой и далее всё подряд, скорость работы с текстом в 500 слов, на любом языке не займет более 0.005 сек для анализа, потеря времени совсем незначительная на парсинге.

billypelegrini
На сайте с 20.02.2019
Offline
47
#44

Не с 15й а до 15й. Это первое, потому что дальше откровенный трэш идёт. Второе, частотный алго определения естественности слишком примитивен чтобы представлять из себя правдоподобную причину банов и тем более реальный механизм ранжирования или фактор, я объяснял уже что механизмы сейчас комплексные, это не означает что поиск использует нейронку реалтайм, но прототипируются мехнизмы нейронкой и далее получанные правила отжимаются до лаконичных нересурсоёмких эвристик, и единственный способ их обойти это косить под сайты с этих то15 позиций, думать как такое сделать, как сделать генерированный сайт хотябы немного полезным, включать последний технологический стэк и так далее. Частотка это лет 15 назад. Сейчс ципф показал бы тошноту моему комменту))) Ну это каменный век реально.

Badmaestro
На сайте с 11.07.2008
Offline
213
#45
XPraptor:
Badmaestro, Вы свой текст хотя бы на коэффициент Зипфа пробивали? :)
У него исходного естественность 59% - какого синонимайза вы ждете от этого УГ?
Вам кто то уже синонимайз видимо впарил уг-шный, а вы его еще хотите синонимизнуть?

Пардон, а откуда вы, не представляя, что у меня за текст, взяли цифру в 59%? )

Вот реальные данные по тесту Ципфа (хотя я эту хрень не юзаю, но ради такого случая использовал):

SEO без воды ( http://kupit-slona.ru ) Продвижение сайтов от 15000 в мес (https://searchengines.guru/ru/forum/1038146)
XPraptor
На сайте с 15.10.2004
Offline
333
#46

Badmaestro, Я тот отрезок который вы тестировали проанализировал, и именно по нему вы ругаетесь, что плохо вас синонимизнулось - оно и должно плохо с таким текстом.

---------- Добавлено 29.02.2020 в 09:26 ----------

billypelegrini:
частотный алго определения естественности слишком примитивен

Это закон, который вывел чувак - он верен для всех языков, примитивности тут никакой нет, он единственный параметр, который определяет естественность языка, любого языка.

billypelegrini
На сайте с 20.02.2019
Offline
47
#47
XPraptor:
Это закон, который вывел чувак - он верен для всех языков,

Я знаю что такое Ципф это статистически аппроксимирующее правило для множеств с определенной степенью разнообразия элементов, точнее коэффициентом. Писал даже ему алгоритм на собесе за полторы минуты. Тебе объясняю что современные поисковики не использзуют ципф, они прогоняют текст нейронкой а потом из нее вытаскивают эвристические правила (для оптимизаци потребления аппаратных ресурсов, то есть прототипируется на фазе исследования множества текстов нейронкой, а в продакшне используются оптимизированные эвристики), каждое такое правило это система неравенств описывающаая определенную область пространства значений из множества, является инструментом прикладной области математики под названием нечеткая логика (Fuzzy Logic), качаешь матлаб, там есть набор компонентов (fuzzy logic toolbox), оцифровуешь текст в матрицу с присвоением каждому слову индекса, прогоняешь, смотришь. Я тебя очень прошу не пытайся казаться мне таким умным или как-то со мной спорить по данной теме, потому что в итоге это даже не смешно.

PS потрудись напиши парсер, вытащи все свои комменты или чьи-то и прогони ципфом)) Увидишь.

N0
На сайте с 11.09.2010
Offline
126
#48

Для google bert синонимайз точно не подойдёт )

https://pro100blogger.com/2020/01/google-bert.html

billypelegrini
На сайте с 20.02.2019
Offline
47
#49

Да, на берт нужно из кусочков текст деать, предлоежения из кусочков. Что дико впиливает по ресурсам.

Но в самом берте нейро уже нет, там эвристики, как сделано -- постом выше.

---------- Добавлено 29.02.2020 в 15:22 ----------

Таким образом, модели BERT могут учитывать полный контекст слова, рассматривая слова, которые идут до и после него, что особенно полезно для понимания цели поисковых запросов.

Да, именно так мой алго генерации делает, по контексту ищет и добавляет текст.

XPraptor
На сайте с 15.10.2004
Offline
333
#50

billypelegrini, эта нейронка построена у обеих ПС на w2v, там берутся всего 3 предложения на абзац в обучении, плюс потом генетика на тематики по ключевым словам и фразам для определения темы, а естественность никакой нейронкой не проверяется - только зипфом, и уже достаточно давно ПС-ы это делают.

Если текст не войдет в зипфа, то его дальше в отдельную нишу сразу скинут и на минимальный анализ, а не станут прогонять по обучению полному. Вытащить из этой .опы его можно будет только внешними сигналами потом. Это еще в 2015 корпусе яша описывал в докладе.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий