Комментарии - billypelegrini - Профиль вебмастера - Форум об интернет-маркетинге

Нужен синонимайзер

29 февраля 2020, 16:00

Даже Ньютон не всегда работает в замкнутых системах, про Ципф это вообще молчёк)))

Нужен синонимайзер

29 февраля 2020, 15:15

Зипф это статитстические распределния, а это нейронка одноуровневая, не работает зипф сейчас.

Возможно лучший в мире дорген

29 февраля 2020, 15:10

Базу очень большая получается. Я хотел далеть базу но для доргена сильно овер.

Я беру просто верх поиска и замешиваю, тупо спин. Все выкладки по тексту больше эксперимент, тупо нерентабельно. И гонять всем подряд, через дни отчек, дальше забаненные убираются а остальные дальше прогон и допостинг.

---------- Добавлено 29.02.2020 в 18:13 ----------

Dos3:
я еще у себя сравнение фраз в % делал

не помню как называется алго, тоже делал

---------- Добавлено 29.02.2020 в 18:16 ----------

Dos3:
как быть с другими языками, тот же арабский ?

тот алго что описал выше с любыми языками катит.

Возможно лучший в мире дорген

29 февраля 2020, 13:58

ты просто не вникал в суть))

Возможно лучший в мире дорген

29 февраля 2020, 13:43

Neo00007:
Если это действительно работает (даёт траф и деньги), то по шагам я бы не показывал в паблике. Иначе, что помешает конкурентам или любому прогеру это повторить? (ну кроме сложности).

Это слишком сложно чтобы воспроизвести в продакшне без мегаскилов. Потому публикую, и потмо гугл все равно перебанит половину, то есть там и рикменеджмент и эконимуку включать.. без скилов это просто набор букв, потому делюсь не стесняясь.

---------- Добавлено 29.02.2020 в 16:45 ----------

Neo00007:
"И так шаг за шагом текст по опорным точкам предложений." - крайне затратно парсить постоянно гугл. И прокси нужны крутые. Или есть своя технология парсинга без проксей?

Я паршу кажись 7-9 поисковиков, этого хватает чтобы не попасть на прокси.

Добавим оптимизацию. Итого --предложжение из 3-4 кусков по мофологии. И там ещё много чего можно убрать, так вкратце получается рабочий интрумент, не лабораторный.

Возможно лучший в мире дорген

29 февраля 2020, 12:51

Neo00007:
- Генерируем новый текст, где каждое следующее предложение, связано с предыдущим/предыдущими (чего и хочет BERT).
Типа того?

Не совсем, это надо показыать пошагово. Поверь, реально не так просто надеть на него юзабельный интерфейс.

Давай целевой запрос, типа там как ищут "сделать то-то" и я покажу по шагам как собирается такой текст. Этого алго нет в продакшне Сайлента сечас но он готовится. А потом попробуешь прогнать текст всеми фильтрами, доступными в паблике.

---------- Добавлено 29.02.2020 в 16:07 ----------

Ты берешь текст, необходимо выбрать этлонный текст, например текст с 3й позициии гугла, но не меньше например 2500 символов. Дальше берём предложедение, и разбиваем на 5-7 словники позапятым, а если нет запятых то по поворотным частям речи, таким как прилагательные, предлоги, наречия. Разбили. Дальше мы в том же гугле ищем ищем зпрос + фраза из разбиения. Профильровываем по близости к предваряющему словосочетанию. Как правило 1-5я позиция по такому запросу. Дотачиваем... Повторяем пока предложение не вырастет до предопределенного диаппазона длинны. И так шаг за шагом текст по опорным точкам предложений. Рерайт по сути.

Возможно лучший в мире дорген

29 февраля 2020, 12:32

Слуш, кто ты такой что припирать меня подобными вопросами. У меня не партнерки, я свои цели двигаю, выворачивать своё бельё тут наружу не собираюсь, ты аграссивен, то есть поработай над собой, своей цивилизованностью, вот всё чего могу пожелать.

---------- Добавлено 29.02.2020 в 15:40 ----------

Neo00007:
Уже прошло 9 месяцев с момента открытия этой темы и ты всё никак родить не можешь и ответить на эти простые вопросы.

Да, долго, я хотел быстрее выпустить, но софт не простой получается, пока был без базы данных для внутренного использованя было проще. То есть выпустить сейчас актуальный софт по теме генерации сайтов очень не просто.

---------- Добавлено 29.02.2020 в 15:41 ----------

Neo00007:
Метод генерации текста?

По методу генерации в теме про синонимайз писал отрывки.

Впринципе берт был предсказан ещё в 2011, я параллельно пилю поиск потому там нашел эту тему там же понял как её обойти, впринципе что такое речь.

Нужен синонимайзер

29 февраля 2020, 12:10

Да, на берт нужно из кусочков текст деать, предлоежения из кусочков. Что дико впиливает по ресурсам.

Но в самом берте нейро уже нет, там эвристики, как сделано -- постом выше.

---------- Добавлено 29.02.2020 в 15:22 ----------

Таким образом, модели BERT могут учитывать полный контекст слова, рассматривая слова, которые идут до и после него, что особенно полезно для понимания цели поисковых запросов.

Да, именно так мой алго генерации делает, по контексту ищет и добавляет текст.

Нужен синонимайзер

29 февраля 2020, 10:06

XPraptor:
Это закон, который вывел чувак - он верен для всех языков,

Я знаю что такое Ципф это статистически аппроксимирующее правило для множеств с определенной степенью разнообразия элементов, точнее коэффициентом. Писал даже ему алгоритм на собесе за полторы минуты. Тебе объясняю что современные поисковики не использзуют ципф, они прогоняют текст нейронкой а потом из нее вытаскивают эвристические правила (для оптимизаци потребления аппаратных ресурсов, то есть прототипируется на фазе исследования множества текстов нейронкой, а в продакшне используются оптимизированные эвристики), каждое такое правило это система неравенств описывающаая определенную область пространства значений из множества, является инструментом прикладной области математики под названием нечеткая логика (Fuzzy Logic), качаешь матлаб, там есть набор компонентов (fuzzy logic toolbox), оцифровуешь текст в матрицу с присвоением каждому слову индекса, прогоняешь, смотришь. Я тебя очень прошу не пытайся казаться мне таким умным или как-то со мной спорить по данной теме, потому что в итоге это даже не смешно.

PS потрудись напиши парсер, вытащи все свои комменты или чьи-то и прогони ципфом)) Увидишь.

Нужен синонимайзер

28 февраля 2020, 19:06

Не с 15й а до 15й. Это первое, потому что дальше откровенный трэш идёт. Второе, частотный алго определения естественности слишком примитивен чтобы представлять из себя правдоподобную причину банов и тем более реальный механизм ранжирования или фактор, я объяснял уже что механизмы сейчас комплексные, это не означает что поиск использует нейронку реалтайм, но прототипируются мехнизмы нейронкой и далее получанные правила отжимаются до лаконичных нересурсоёмких эвристик, и единственный способ их обойти это косить под сайты с этих то15 позиций, думать как такое сделать, как сделать генерированный сайт хотябы немного полезным, включать последний технологический стэк и так далее. Частотка это лет 15 назад. Сейчс ципф показал бы тошноту моему комменту))) Ну это каменный век реально.

Все что нужно знать о DDоS-атаках грамотному менеджеру

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи

billypelegrini