- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Задача: найти похожие страницы.
Например, есть множество сайтов, на которые стоят ссылки типа:
...com/
...com/?id=1
...com/?p=2
и т.д.
При этом контент совершенно не различается.
Каким образом (по каким признакам) отбирать данные страницы для дальнейшей проверки на схожесть? Сам алгоритм этой проверки хорошо описан во множестве источников, но ведь не брать же все страницы и проверять...
Какие есть мысли?
Какие есть мысли?
Контент страницы один и тот же, поэтому вполне достаточно взять от него хеш-сумму вроде MD5.
Контент - да, но сама страница весьма незначительно меняется.
Отличие в один символ - уже проблема.
Как вариант, брать только от текста (исключая все остальное). Но что-то мне подсказывает, что это не совсем верно...
Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...
Кстати по поводу PROext рейтинга так ко мне от него почему то не приходят письма про регистрацию в рейтинге причем уже давно, ...
Шинглы например можно попробовать применить, почитайте тексты на Yandex корпоративном сайте, но это тоже не всегда помогает, ...
Как проверить - это я знаю. Вопрос в другом - что проверить :)
Т.е. каким образом отбирать страницы, которые подлежат проверке.
Если же проверять все подряд - никаких мощностей не хватит :)
Т.е.?
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?
Мыло всое в личку бросьте - проверим отлупы.
Вы регистрируете ресурсы постоянно, а письма о регистрации не доходят?
Не так чтобы постоянно но время от времени разные сайты на разные почтовые адреса, а письма о регистрации не приходят, и в итоге регистрация которая в этом рейтинге жестко привязана к почте вообще не получается. Сейчас попробую зарегистрировать сайт и пришлю все что есть по этому поводу.
Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.
Тогда при добавлении нового документа в индекс, для него вычисляются эти хеш значения, которые ищутся среди хеш значений уже существующих в индексе документов. В результате поиска получается ограниченный набор документов "вероятно похожих" на искомый. Наверно это не сильно ресурсоемкий способ.
На последнем этапе, для каждого документа из полученного списка "вероятно похожих" можно вычислить редакционное расстояние, например методом Левенштейна.
Вообще не обязательно проверять все шинглы (так действительно никаких мощностей не хватит). Но так как распределение контрольных сумм (хешей шинглов) равномерное, то мы можем использовать значения шинглов кратных какому-нибудь числу (10-30). Критерий выборки, в данном случае, получается не привязанным к особенностям текста, так как значения контрольных сумм для разных документов распределены равномерно. И получается что количество сравниваемых шинглов приблизительно равно 1/10-1/30 от общего объема текста (если мерять его в словах). Хотя в принципе думаю Вы это и так прекрасно знаете.
Как проверить - это я знаю. Вопрос в другом - что проверить :)
Т.е. каким образом отбирать страницы, которые подлежат проверке.
Если же проверять все подряд - никаких мощностей не хватит :)
Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.
Можно все проверять, на что есть ссылки извне. Если какая-то страница признана дублем - ссылки с нее не рассматривать. Тогда таких страниц будет не так много.
А подробнее можно?
Представьте себе ситуацию, когда рейтинг, раздающий кнопочки, "дает" код, котором ссылка вида .../?id=123
Около 10 тыс. ресурсов данный код поставили.
Согласно вашему совету, "Если какая-то страница признана дублем" - для начала нужно эти страницы "отловить".
Если я правильно понимаю, то метод шинглов позволяет получить одно или несколько хеш значений для каждого документа характеризующих часть документа.
не "одно или несколько хеш значений для каждого документа", а набор хеш-значений, который зависит от "величины" страницы.
В большинстве случае величина этого набора - от 200 штук.