Даже Ньютон не всегда работает в замкнутых системах, про Ципф это вообще молчёк)))
Зипф это статитстические распределния, а это нейронка одноуровневая, не работает зипф сейчас.
Базу очень большая получается. Я хотел далеть базу но для доргена сильно овер.
Я беру просто верх поиска и замешиваю, тупо спин. Все выкладки по тексту больше эксперимент, тупо нерентабельно. И гонять всем подряд, через дни отчек, дальше забаненные убираются а остальные дальше прогон и допостинг.---------- Добавлено 29.02.2020 в 18:13 ----------
не помню как называется алго, тоже делал---------- Добавлено 29.02.2020 в 18:16 ----------
тот алго что описал выше с любыми языками катит.
ты просто не вникал в суть))
Это слишком сложно чтобы воспроизвести в продакшне без мегаскилов. Потому публикую, и потмо гугл все равно перебанит половину, то есть там и рикменеджмент и эконимуку включать.. без скилов это просто набор букв, потому делюсь не стесняясь.---------- Добавлено 29.02.2020 в 16:45 ----------
Я паршу кажись 7-9 поисковиков, этого хватает чтобы не попасть на прокси.
Добавим оптимизацию. Итого --предложжение из 3-4 кусков по мофологии. И там ещё много чего можно убрать, так вкратце получается рабочий интрумент, не лабораторный.
Не совсем, это надо показыать пошагово. Поверь, реально не так просто надеть на него юзабельный интерфейс.
Давай целевой запрос, типа там как ищут "сделать то-то" и я покажу по шагам как собирается такой текст. Этого алго нет в продакшне Сайлента сечас но он готовится. А потом попробуешь прогнать текст всеми фильтрами, доступными в паблике.---------- Добавлено 29.02.2020 в 16:07 ----------Ты берешь текст, необходимо выбрать этлонный текст, например текст с 3й позициии гугла, но не меньше например 2500 символов. Дальше берём предложедение, и разбиваем на 5-7 словники позапятым, а если нет запятых то по поворотным частям речи, таким как прилагательные, предлоги, наречия. Разбили. Дальше мы в том же гугле ищем ищем зпрос + фраза из разбиения. Профильровываем по близости к предваряющему словосочетанию. Как правило 1-5я позиция по такому запросу. Дотачиваем... Повторяем пока предложение не вырастет до предопределенного диаппазона длинны. И так шаг за шагом текст по опорным точкам предложений. Рерайт по сути.
Слуш, кто ты такой что припирать меня подобными вопросами. У меня не партнерки, я свои цели двигаю, выворачивать своё бельё тут наружу не собираюсь, ты аграссивен, то есть поработай над собой, своей цивилизованностью, вот всё чего могу пожелать. ---------- Добавлено 29.02.2020 в 15:40 ----------
Да, долго, я хотел быстрее выпустить, но софт не простой получается, пока был без базы данных для внутренного использованя было проще. То есть выпустить сейчас актуальный софт по теме генерации сайтов очень не просто. ---------- Добавлено 29.02.2020 в 15:41 ----------
По методу генерации в теме про синонимайз писал отрывки.
Впринципе берт был предсказан ещё в 2011, я параллельно пилю поиск потому там нашел эту тему там же понял как её обойти, впринципе что такое речь.
Да, на берт нужно из кусочков текст деать, предлоежения из кусочков. Что дико впиливает по ресурсам.
Но в самом берте нейро уже нет, там эвристики, как сделано -- постом выше.---------- Добавлено 29.02.2020 в 15:22 ----------
Таким образом, модели BERT могут учитывать полный контекст слова, рассматривая слова, которые идут до и после него, что особенно полезно для понимания цели поисковых запросов.
Да, именно так мой алго генерации делает, по контексту ищет и добавляет текст.
Я знаю что такое Ципф это статистически аппроксимирующее правило для множеств с определенной степенью разнообразия элементов, точнее коэффициентом. Писал даже ему алгоритм на собесе за полторы минуты. Тебе объясняю что современные поисковики не использзуют ципф, они прогоняют текст нейронкой а потом из нее вытаскивают эвристические правила (для оптимизаци потребления аппаратных ресурсов, то есть прототипируется на фазе исследования множества текстов нейронкой, а в продакшне используются оптимизированные эвристики), каждое такое правило это система неравенств описывающаая определенную область пространства значений из множества, является инструментом прикладной области математики под названием нечеткая логика (Fuzzy Logic), качаешь матлаб, там есть набор компонентов (fuzzy logic toolbox), оцифровуешь текст в матрицу с присвоением каждому слову индекса, прогоняешь, смотришь. Я тебя очень прошу не пытайся казаться мне таким умным или как-то со мной спорить по данной теме, потому что в итоге это даже не смешно.
PS потрудись напиши парсер, вытащи все свои комменты или чьи-то и прогони ципфом)) Увидишь.
Не с 15й а до 15й. Это первое, потому что дальше откровенный трэш идёт. Второе, частотный алго определения естественности слишком примитивен чтобы представлять из себя правдоподобную причину банов и тем более реальный механизм ранжирования или фактор, я объяснял уже что механизмы сейчас комплексные, это не означает что поиск использует нейронку реалтайм, но прототипируются мехнизмы нейронкой и далее получанные правила отжимаются до лаконичных нересурсоёмких эвристик, и единственный способ их обойти это косить под сайты с этих то15 позиций, думать как такое сделать, как сделать генерированный сайт хотябы немного полезным, включать последний технологический стэк и так далее. Частотка это лет 15 назад. Сейчс ципф показал бы тошноту моему комменту))) Ну это каменный век реально.