XPraptor

XPraptor
Рейтинг
333
Регистрация
15.10.2004
Должность
Web Soft Developer
Интересы
Programming

Тс, как вы себе представляет отжатие у вас сайтов? :)

Вы нс-ы доменам сменили на другой хостинг, и там ваши сайты поднялись на новом месте, а тут просто кучей мусора лежать останутся файлы у хостера.

Проблемы у них с панелью, это явно же.

Наиболее частые вопросы выдает просто.

prena:
Интересно другое, кто через бота закидывал sitemap или морды, они так и висят по одной странице или сайт растёт после аддурла?

50 на 50 - сейчас народ пытается понять, что влияет. Если кластер, то видимо устраняют сбой, если нет, то надо искать дальше.

billypelegrini, эта нейронка построена у обеих ПС на w2v, там берутся всего 3 предложения на абзац в обучении, плюс потом генетика на тематики по ключевым словам и фразам для определения темы, а естественность никакой нейронкой не проверяется - только зипфом, и уже достаточно давно ПС-ы это делают.

Если текст не войдет в зипфа, то его дальше в отдельную нишу сразу скинут и на минимальный анализ, а не станут прогонять по обучению полному. Вытащить из этой .опы его можно будет только внешними сигналами потом. Это еще в 2015 корпусе яша описывал в докладе.

Badmaestro, Я тот отрезок который вы тестировали проанализировал, и именно по нему вы ругаетесь, что плохо вас синонимизнулось - оно и должно плохо с таким текстом.

---------- Добавлено 29.02.2020 в 09:26 ----------

billypelegrini:
частотный алго определения естественности слишком примитивен

Это закон, который вывел чувак - он верен для всех языков, примитивности тут никакой нет, он единственный параметр, который определяет естественность языка, любого языка.

Бумеранг777:
меня всегда стремала быстрая индексация тысячи за день.

Это не особо опасно, наоборот, при норм текстах и структуре - плюс. Вы подготовили крупный сайт, не выкладывали сырые куски, всё сделали глобально и правильно, всё по рекомендациям, и выкатили базу здоровенную - гуглу нравится.

А вот если с текстами проблема - то да, лучше не рисковать массово загонять, плавнее будет меньше шансов получить по башке за спам.

P.S.

Гугла вроде к вечеру починился в некоторых кластерах - пошел бродить уже в штатном режиме по сайтам.

billypelegrini:
Ципфом чекать бред, просто предложения с сайтов не ниже 15й позиции.

Это вы ПС-ам расскажите, они именно так естественность в алго определяют.

А мысль с 15-ой позиции - да, верна, оттуда начинаются не накрученные, нормальные тексты.

Но, лучше все-таки проверять, а не брать с 15-ой и далее всё подряд, скорость работы с текстом в 500 слов, на любом языке не займет более 0.005 сек для анализа, потеря времени совсем незначительная на парсинге.

Для теста кинул 1000 с новорега - 20 часов, 300+- в индексе. Не так, чтобы очень, но и не в пустоту целиком.

Lastwarrior, не к дорам, у него там глобальный кластерный кризис, пока всё плохо сканит, и белых тоже. Чинят, возможно поправят скоро. Пока работают только массовые сигналы с траста и соцов, только их он орабатывает без ограничений и вне очереди.

Badmaestro, Вы свой текст хотя бы на коэффициент Зипфа пробивали? :)

У него исходного естественность 59% - какого синонимайза вы ждете от этого УГ?

Вам кто то уже синонимайз видимо впарил уг-шный, а вы его еще хотите синонимизнуть?

Возьмите за правило себе, парсите серп, выбираете группы абзацев между 400-500 слов, проверяете естеcтвенность, в пределах отклонения 0.05 от нормали для конкретного языка - забираете этот текст, всё, что хуже - не берёте.

При генерации сборок из забранного текста - проверяете финальную сборку на естесственность, если отклонение от нормали в пределах 0.09 - оставляете, иначе пересобираете другую, пока не будет укладываться в нужное отклоенение.

Всего: 3335