- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Что делать, если ваша email-рассылка попала в спам
10 распространенных причин и решений
Екатерина Ткаченко
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
До сих пор не понимаю, ну как можно определить что контент уникальный? Понятно, что существуют мощные алгоритмы, типа по проценту совпадения слов или подобные, но как ПС могут проверять ВСЕ САЙТЫ, которых МИЛЛИОНЫ, учитывая что число страниц....
Т.е. нужно одну страницу, добавляемую в индексацию сверить со ВСЕМИ другими страницами. Даже примерно не понимаю, сколько на это надо вычислительных ресурсов!:confused:
Или на конкурентов стучат, мол у посмотрите они воруют контент!:bl:
Бытует мнение, что по алгоритму шинглов.
А оригиналом признается более авторитетный документ (с бОльшим вИЦ).
До сих пор не понимаю, ну как можно определить что контент уникальный?
сказать честно - криво!!!
а вообще как правильно сказали - сам алгоритм и его обсуждения были в темах с ключевым словом ШИНГЛЫ... была также выложена мини-программка (от Hkey если не ошибаюсь) с примерным внедрением данного алгоритма
Бытует мнение, что по алгоритму шинглов.
Именно, так и есть. Хотя, судя по результатам, алгоритм слабенький...🚬
Спорное утверждение (кстати и для Гугла). Есть много примеров, показывающих обратное.
Очень интересно, нужно посмотреть алгоритм шинглов. Но ведь факт, что по многим запросам выдаются сайты все-таки с одинаковым содержанием, при чем множество!
При чем, если учесть, что ПС не может определить где начинается контент сайта, также в текст идет менюшки, другим ссылки, шапка сайта и проч. проч. Т.е. очень затруднительно ИМХО...🚬
На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.
Думаю поисковики тоже понимают что это неразумно :)
Поэтому они добавляют страницу не глядя.
Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.
Я думаю навигацию (меню) от контента ПС в состоянии отличить, а текст скорее всего не целиком определяется на уникальность, а сравниваются пассажи по алгоритму ШИНГЛЫ.
На этапе индексации сравнивать одну страницу со всеми, что находятся в базе, действительно неразумно.
Думаю поисковики тоже понимают что это неразумно :)
Поэтому они добавляют страницу не глядя.
Но уже на этапе ранжирования документов, после получения запроса, они получает очень мало документов (в сравнении с количеством всех существующих) - вот здесь и вступает в бой алгоритм определения дубликатов.
мудро...;) Возможно и так, но если все-таки учесть что на страницу сразу можно выдать 50 документов... И их сравнивать между собой, да и скорее всего больше!!! А люди то делают запросы ежесекундно!! Тоже затратно:)
Возможно выделенно несколько серверов под это дело, чем они постоянно и занимаются:)
на запрос а не на страницу? Можно выдать миллионы документов, да. Но поисковые системы знают больше одного алгоритма ранжирования-определения дубликатов. И разные алгоритмы по разному затратны. А уж комбинировать разные алгоритмы для получения удовлетворительного коефициента точность-затратность поисковики умеют. Потому что если работают - значит точно умеют :)
Просто индексация всех сайтов - такая затратная вещь... Даже домашняя индексация всех com-морд для своих нужд - немеряно затратная вещь оказывается...
Но не надо сравнивать наши домашние мощности и мощности поисковиков.
посмотреть алгоритм шинглов
http://www.yandex.ru/yandsearch?date=&text=%D1%88%D0%B8%D0%BD%D0%B3%D0%BB%D0%B0%D0%BC%D0%B8&spcctx=notfar&zone=all&wordforms=all&lang=all&within=0&from_day=&from_month=&from_year=&to_day=23&to_month=1&to_year=2008&mime=all&site=http%3A%2F%2Fcompany.yandex.ru%2F&rstr=&ds=&numdoc=10
А люди то делают запросы ежесекундно!! Тоже затратно
Данные кешируются, чтобы снизить нагрузку на сервера.