- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
speedre13, вы слишком не дооцениваете поисковики. Имеются достаточно точные технологии поиска дублей, не так уж и много ресурсов требующие, эта тема уже обсуждалась
Угу.😆
Только они при этом все их показывают. Что отдельные строки, что абзацы, статьи, пресс-релизы новостей и целые произведения.
speedre13, думаю, здесь вы найдёте ответы на свои вопросы:
http://company.yandex.ru/grant/2005/07_Kuznetsov_102820.pdf
Да и остальным интересно будет почитать :)
Freestyler, да в этой статье есть описания основных методов, но вот меня интересует метод I-Match. Короче говоря нужно выбрать из всего множества слов около 2000 слов, которыми можно описать все статьи в интернете. Понятное дело, что поисковым системам это легко сделать, так как у них есть статистика, а вот как быть простым людям? Хотел бы добавить этот метод в свой сервис, но пока в затруднении с выбором слов.
...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...
Молодой человек, откуда все эти цифры? Это бред, а не "исследование". Разберитесь сначала.
WSGU, может быть стоит сделать выборку по весам слов?
Freestyler, а собственно в статье на которую дана ссылка есть и такое. =))
База с весами по крайней мере существует в природе. Вот только критерии "значимости" того или иного слова принятые в самой ПС все равно придется на кофейной гуще гадать.
ИМХО там не только частотность (веса по сути из нее вытекают) влияет.
WSGU, может быть стоит сделать выборку по весам слов?
Можно, но это немного другое. Слова должны выбираться следующим способом: берется статистика использования слов в инвертированной базе, отбрасываются стоп слова, прилагательные, узкоспециализированные слова. Затем необходимо взять 2000 слов со средними количествами использования.
Полученную базу слов можно использовать для создания хеш-значения исследуемых на уникальность текстов (получаем цифровую подпись). Затем устанавливаем % схожести, при котором надо бить тревогу.
Вот еще советую почитать http://elar.usu.ru/bitstream/1234.56789/1404/1/IMAT_2007_24.pdf, там про то что можно оценивать дубликаты и во время выдачи результатов. (там в защиту speedre13 есть по поводу "сменить заголовок статьи (полностью)")
Абсолютно согласен с тем, что Важен ресурс. Если Вы стабильно обновляетесь и на сайте присутствует уникальный контент - Вы категория B, Говносайты категория С, ну а самое золото партии А, такие как yandex. Это понятие есть. Правда есть ещё некоторые разветвления...
Сообщение от speedre13
...убивает 10-20% неуникальности...
...главное что не на .... 70%...
...изменить самый 1 абзац статьи...
...первые 200 знаков или 10%...
...но не меньше 200....
...сканит первые 1000-1500 символов...
...Google сканит до 1000 символов (от 500-1000)...
серьезный инсайд :D
Freestyler, WSGU, большое спасибо, получил настоящее удовольствие от прочтения обеих статей.
Что бы хотелось сказать:
1. В первой статье очень понравились две идеи: первая - брать в шинглы весь документ:
,
а затем выбирать для "отпечатка" только случайно, но фиксированно отобранный (когнитивный диссонанс?! =))) набор этих шинглов. Должно очень существенно экономить ресурсы.
Вторая: построение по сути "инвертированного файла" шинглов. Просто и со вкусом.
2. по поводу выборки из 2000 слов - имхо маловато, т.к. во-первых, это словарный запас четырехлетнего ребенка, во-вторых, если опираться на частотные характеристики (будь они неладны) и выбирая "средние" по значимости слова в этот набор, мы просто обязаны получить шлак "ни-о-чем" =))
Хотя, учитывая, что в этой статье речь идет о фильтрации сниппетов, но никак не коллекции документов всей сети - может и хватить.