manderson

Рейтинг
38
Регистрация
16.12.2021

Действительно, есть элементы близкие к нарушению правил Google. Допустим, я попробовал выделить текст, и при первом же клике меня перегоняет через 2 окна рекламы. Фактически я не нажимал на неё, это сделал за меня сайт втайне.

И кратко про уникальность, но тут не поймёшь кто у кого скопировал.


Не зная ресурса, сложно сказать, что там происходит. AI-ответы вряд ли виноваты в спаде поискового трафика вашего сайта из-за отсутствия доступа к Gemini у российской аудитории (если у вас таковая).

Судя по графику, ресурс просел после HCU в сентябре 2023. Но чтобы судить о проблемах, надо их видеть, так что мы можем только гадать или обсуждать теории применяемых на сайтах практик.

deeusq #:
open source
Векторное сходство — лишь часть задачи. Мы используем более комплексный подход, включая семантику, частотный анализ и ключевые слова, чтобы учитывать нюансы текста. Готовые решения часто требуют серьёзной адаптации, поэтому инструмент разработан под специфические задачи.
Pliny #:
это уже на самописное решение а просто точная настройка чужой модели fine-tune

У вас нет достаточных данных о данном решении, чтобы так утверждать.

Pliny #:
Я сильно сомневаюсь что вы тренили свою модель для этого.

Ваши сомнения излишни, так как я нигде не утверждал, что тренировал свою модель для этого.

Pliny #:
это дергать AI детекторы по API

Верно, но используется не один сервис. Логика комбинированного результата выстроена именно так, чтобы минимизировать недостатки отдельных сервисов, поскольку они всё равно не идеальны.

vvovvo #:
Не могли бы вы пояснить, какие используются категории, как определяются и что такое комбинированный результат, чтобы было понятно, как трактовать то, что на вашей картинке.

Конечно. Используется частотный и семантический анализы, а также выделение и сравнение по ключевым словам. Комбинированный результат формируется путём взвешенного объединения данных из каждого метода по заранее рассчитанной формуле. Частотный анализ оценивает совпадение часто встречающихся слов, семантический — смысловое сходство текстов с использованием предобученной модели, а ключевые слова — это автоматически выделенные значимые термины.

Итоговый показатель (например, 0–100%) отражает общий уровень сходства: высокий результат указывает на схожесть содержания и смысла, низкий — на минимальное пересечение.

Фактически инструмент разработан для выявления дублирования контента, когда авторы пишут два-три раза об одном и том же в рамках одного сайта. Он менее применим к анализу рерайтов, поскольку фокусируется на смысловом содержании. Например, издание "A" опубликовало новость, а издания "Б" и "В" сделали её рерайт, добавив собственные факты и ракурсы (фактически это разные тексты, но об одном и том же). В стандартной логике антиплагиата мы бы сравнивали тексты "А" с "Б" и "А" с "В". Но наша задача — выявить сходство между "Б" и "В", чтобы понять, как тексты одного события различаются в подаче информации.  Мы фактически определяем степень сходства текстов, написанных по-разному, включая различия в конструкции предложений, хода мыслей, добавленных фактах и степени погружения.

Скрипт автоматически сравнивает новый текст с уже имеющимися в специальной таблице базы данных сайта.

Appassionato #:
Буду признателен за анализ любого из свежих событий.

Анализ новости МК «В России массово закрываются медучреждения с лицензией на роды: персонал в шоке», которую переписали другие издания.

Инструмент для анализа текстов, определяющий степень их сходства на основе частотного, семантического и ключевого анализа (самописное решение на основе предобученной модели). Первоначальное предназначение – выявление дубликатов одной и той же темы в рамках одного издания, поэтому анализ сходства очень притязателен.


Vladimir SEO #:
вы хотите найти инфу о багах раздела эффективности в консоли за прошлые года ? верно ?

Хотя бы краткую справку о случаях.

Могу кратко резюмировать то, что было проведено в работе над сайтом:

– удалены все пресс-релизы, которые имели низкую уникальность (примерно 700 статей из 40 000 за 3 года);
– увеличен объём самого материала до 300+ слов, глубина разбора темы;
– удалены нерелевантные тематики для сайта;
– введена автоматическая проверка текстов на элементы ИИ;
– исправлены все мелкие ошибки в GSC.

Core Web Vitals абсолютно в зелёной зоне.

Vladimir SEO #:
это может быть не скачек позиций.  Апы то тут при чем?
manderson #:
Я не утверждал, что это апы. Если это баг, то на каждый такой баг нужно подтверждение, что это действительно он.

Были ли какие-то ссылки касаемо частых багов GSC, чтобы я смог сопоставить характерность бага с данными по падению?

Vladimir SEO #:
не соглашайтесь, я не против

Вот тут честно не понял вашего "не против", так как в целом наши позиции относительно "не апдейт" достаточно схожи.

Чиж-пыж #:
У обоих синхронно упали позиции 5 января. Один прокашлялся и вернулся к своему, а второй приболел. Кажется, серьезно.

Очень схожая картина


Всего: 184