Тс, как вы себе представляет отжатие у вас сайтов? :)
Вы нс-ы доменам сменили на другой хостинг, и там ваши сайты поднялись на новом месте, а тут просто кучей мусора лежать останутся файлы у хостера.
Проблемы у них с панелью, это явно же.
Наиболее частые вопросы выдает просто.
50 на 50 - сейчас народ пытается понять, что влияет. Если кластер, то видимо устраняют сбой, если нет, то надо искать дальше.
billypelegrini, эта нейронка построена у обеих ПС на w2v, там берутся всего 3 предложения на абзац в обучении, плюс потом генетика на тематики по ключевым словам и фразам для определения темы, а естественность никакой нейронкой не проверяется - только зипфом, и уже достаточно давно ПС-ы это делают.
Если текст не войдет в зипфа, то его дальше в отдельную нишу сразу скинут и на минимальный анализ, а не станут прогонять по обучению полному. Вытащить из этой .опы его можно будет только внешними сигналами потом. Это еще в 2015 корпусе яша описывал в докладе.
Badmaestro, Я тот отрезок который вы тестировали проанализировал, и именно по нему вы ругаетесь, что плохо вас синонимизнулось - оно и должно плохо с таким текстом.---------- Добавлено 29.02.2020 в 09:26 ----------
Это закон, который вывел чувак - он верен для всех языков, примитивности тут никакой нет, он единственный параметр, который определяет естественность языка, любого языка.
Это не особо опасно, наоборот, при норм текстах и структуре - плюс. Вы подготовили крупный сайт, не выкладывали сырые куски, всё сделали глобально и правильно, всё по рекомендациям, и выкатили базу здоровенную - гуглу нравится.
А вот если с текстами проблема - то да, лучше не рисковать массово загонять, плавнее будет меньше шансов получить по башке за спам.
P.S.
Гугла вроде к вечеру починился в некоторых кластерах - пошел бродить уже в штатном режиме по сайтам.
Это вы ПС-ам расскажите, они именно так естественность в алго определяют.
А мысль с 15-ой позиции - да, верна, оттуда начинаются не накрученные, нормальные тексты.
Но, лучше все-таки проверять, а не брать с 15-ой и далее всё подряд, скорость работы с текстом в 500 слов, на любом языке не займет более 0.005 сек для анализа, потеря времени совсем незначительная на парсинге.
Для теста кинул 1000 с новорега - 20 часов, 300+- в индексе. Не так, чтобы очень, но и не в пустоту целиком.
Lastwarrior, не к дорам, у него там глобальный кластерный кризис, пока всё плохо сканит, и белых тоже. Чинят, возможно поправят скоро. Пока работают только массовые сигналы с траста и соцов, только их он орабатывает без ограничений и вне очереди.
Badmaestro, Вы свой текст хотя бы на коэффициент Зипфа пробивали? :)
У него исходного естественность 59% - какого синонимайза вы ждете от этого УГ?
Вам кто то уже синонимайз видимо впарил уг-шный, а вы его еще хотите синонимизнуть?
Возьмите за правило себе, парсите серп, выбираете группы абзацев между 400-500 слов, проверяете естеcтвенность, в пределах отклонения 0.05 от нормали для конкретного языка - забираете этот текст, всё, что хуже - не берёте.
При генерации сборок из забранного текста - проверяете финальную сборку на естесственность, если отклонение от нормали в пределах 0.09 - оставляете, иначе пересобираете другую, пока не будет укладываться в нужное отклоенение.