- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта
Применяем отклонение ссылок
Сервис Rookee
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?
Заранее благодарю.
Тоже интересует...
Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.
Еще интересно про уникальность ссылки:
например, будут ли клеется ссылки с анкорами
скачать игры, программы, фильмы
скачать фильмы, игры, программы
и т.д.
с т.з. алгоритма чешуйки - наверно не должны, но я сомневаюсь
есть софт чтобы проверить на уникальность, на форуме выкладывался.
Yurecm, Яндекс, к примеру определяет по методу Шинглов. Уже обсуждалось и даже софт есть специальный.
Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.
Yurecm
Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.
использую именно этот софт☝
Как поисковик определяет уникальность текста на сайте, то есть интересно узнать по какому алгоритму и каким образом ПС определяет статья копипастная или уникальная?
Заранее благодарю.
Учитывается дата попадания документа в базу, есть видимо алго для сравнения (IMHO), но в ранжировании зависит от ссылочного в большей степени.
Почему-то все забыли про Цепи Маркова (http://ru.wikipedia.org/wiki/Цепи_Маркова) - так же на форуме обсуждалось неоднократно.
Вот одна из программ для проверку уникальности.
Всем спасибо.
Есть предположение, что действует стандартный алгоритм чешуйки (на основе контрольных сумм). Но кажется тогда было бы слишком просто - достаточно изменить кажется каждое 8-ое слово.
Действительно просто, имхо, наврятли.
Yurecm, Яндекс, к примеру определяет по методу Шинглов.
Спасибо, почитаю об этом.
Самый лучший метод проверки - это вбить фразу из текста в поиск. И так несколько раз, выборочно по сему тексту.
Меня скорее интересует как ПС понимает уник текст на сайте или нет, то есть какие минимальные изменения надо внести, чтобы поисковик копипастную статью начал воспринимать уникальной?
Шинглы - алгоритм шинглов (shingles) - обнаружение нечетких копий и дубликатов текстов (шингл - чешуйка)
Илья Сегалович из Яндекса о шинглах (отрывок из статьи)
Рост базы, кроме технических проблем с дисками и серверами, ограничивается логическими: необходимостью адекватно реагировать на мусор, повторы и т.п. Не могу удержаться, чтобы не описать остроумный алгоритм, применяемый в современных поисковых системах для того, чтобы исключить «очень похожие документы».
Происхождение копий документов в Интернете может быть различным. Один и тот же документ на одном и том же сервере может отличаться по техническим причинам: быть представлен в разных кодировках и форматах; может содержать переменные вставки – рекламу или текущую дату.
Широкий класс документов в вебе активно копируется и редактируется – ленты новостных агентств, документация и юридические документы, прейскуранты магазинов, ответы на часто задаваемые вопросы и т.д. Популярные типы изменений: корректура, реорганизация, ревизия, реферирование, раскрытие темы и т.д. Наконец, публикации могут быть скопированы с нарушением авторских прав и изменены злонамеренно с целью затруднить их обнаружение.
Кроме того, индексация поисковыми машинами страниц, генерируемых из баз данных, порождает еще один распространенных класс внешне мало отличающихся документов: анкеты, форумы, страницы товаров в электронных магазинах
Очевидно, что с полными повторами проблем особых нет, достаточно сохранять в индексе контрольную сумму текста и игнорировать все остальные тексты с такой же контрольной суммой. Однако этот метод не работает для выявления хотя бы чуть-чуть измененных документов.
Для решения этой задачи Udi Manber (Уди Манбер) (автор известной программы приближенного прямого поиска agrep) в 1994 году предложил идею [manber1994], а Andrei Broder (Андрей Бродер) в 1997 [broder] придумал название и довел до ума алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Вот его примерное описание.
Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!
Очевидно, что так можно определять процент перекрытия текстов, выявлять все его источники и т.п. Этот изящный алгоритм воплотил давнюю мечту доцентов: отныне мучительный вопрос «у кого студент списывал этот курсовик» можно считать решенным! Легко оценить долю плагиата в любой статье.
Чтобы у читателя не создалось впечатление, что информационный поиск исключительно западная наука, упомяну про альтернативный алгоритм определения почти-дубликатов, придуманый и воплощенный у нас в Яндексе [ilyinsky]. В нем используется тот факт, что большинство поисковых систем уже обладают индексом в виде инвертировнного файла (или инвертировнным индексом) и этот факт удобно использовать в процедуре нахождения почти-дубликатов.
Ап.........