- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Да и зачем им все сравнивать?
Первых 100 позиций более чем достаточно. Кто нибудь получал реальный траф с Гугла, находясь на 11 странице в выдаче :) ?
Ну да. Именно так они и делают. Находят дубль, и отдыхай на 10-й.
В серпе спокойно лежат по определенным запросам десятки копий одного и того же интернет-магазина, где разное только название и домено - уже несколько месяцев как минимум. А все потому, что на них стоят уникальные ссылки.
почему на лету ?
Понятно, что ничего не понятно...
Варианта два:
1. Гугл проверяет уникальность документа на этапе индексации. Тогда запрос здесь совершенно не при чем. Гугл сравнивает документ с n-миллиардов документов в базе и, в случае DP, выставляет документу соответствующую пометку, на которую ориентируется при выдаче на запрос.
Вообщем, как я уже говорил, данная сложность гуглу просто не под силу.
2. Гугл, получая запрос, сравнивает документы на лету. Вообщем та же фигня, для гугла это непосильная задача.
Комментирую так же реплику насчет 11 страницы. Понятно дело, что люди не ходят дальше 11 страницы. Но чтобы сформировать эти 11 страниц гугл делает выборку из всей базы в 13 миллиардов документов. Итак, ему бы требовалось:
1. Сделать выборку.
2. Сравнить полученные N миллионов документов.
3. Отранжировать полученные N миллионов документов.
Вообщем-то такая постановка вопроса кажется фантастической.
Вариант другой.
1. Гугл делает выборку.
2. Ранжирует документы исходя из основных критериев.
3. Делает на лету сравнение первых 100, к примеру, документов и выкидывает неуникальные.
Увы, у меня сейчас нет под рукой программиста, чтобы спросить о реалистичности данного варианта.
2greenwood: а есть другие варианты?
Понятно, что ничего не понятно...
Может стоит почитать http://www.i2r.ru/static/215/out_13150.shtml чтобы стало что-то понятно :) Позволю обратить внимание на следующие слова
.....
Далее читаем про построение инвертированных индексов и понимаем, что Sorter достаточно лишь просмотреть N соседних от текущей позиции в индексе в обе стороны, чтобы найти "идентичные документы". Далее судя по всему принимается решение об идентичности с учетом PR, Link Popularity.....
[offtopic]
С начала апреля Google перешел на более продвинутую технологию ранжирования сайтов, разработанную с учетом последних достижений в области биофизики, — PigeonRank (подробнее об этом можно прочитать здесь). http://www.google.com/technology/pigeonrank.html
:D :D :D
[/offtopic]
Смотрит по кэшу своему, имхо.
На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.
Интересно, у вас на практике такое было? На мой взгляд, пеналить за совпадение одного абзаца - чистый нонсенс. Могу дать примеры куч сайтов, где идет сплошное дублирование контента, и причем в данном случае нельзя сказать, что "материалы одного сайта заимствованы с другого" - это например сайты с текстами песен. У одной и той же песни один и тот же текст, и существует куча сайтов, где это все можно найти. Или, например, сайты с табами для гитары, или сайты с нормативными актами (законами) - такая же ситуация. По каким критериям тогда должны отбираться сайты для выдачи?
Смотрит по кэшу своему, имхо.
На практике - достаточно полного совпадения одного абзаца, чтобы вся страница пенализировалась.
Подскажите, а как это проявляется? Просто понижается в результатах поиска или вообще выпадает из кэша и даже не ищется по запросу содержащему УРЛ?