Все таки нашел.
/ru/forum/56951
Хм. По логике так и должно происходить - во время конкретного запроса делать анализ. Т.к. выборка все равно происходит при запросе и она в некоторой степени оригинальна. Рассуждения по поводу дальнейшего использования инфы из конкретного серпа приводить не буду - много их.
Кстати, иногда по запросу "хостинг" дальше второй страницы нет сайтов. Не во время апов.
Вот фильрует ведь дубли:)
Не стоит доверять этим цифрам.
И не стоить путать зеркала и дубли.
Дубли в выдаче есть и будут, их ну никак нельзя убирать.
Максимум - опускать дубли вниз.
Кол-во страниц не должно при этом изменятся в серпе, было бы странно.
И почему именно на второй-трейтьей-пятой странице серпа?
Могу предположить, что в целях экономии ресурсов конечно... но скорее это может объясняться структурой поискового движка и конкретным механизмом кластеризации.
+ могут оказывать влияние механизмы кеширования серпов.
Все ес-но мое имхо и не сфера моеё деятельности.
Если кто-то что-то знает по теме - сообщите.
Интересно, для общего развития.
У меня много было опыта подобных разработок, некоторые схожи с вашим предложением.
У яндекса есть одно НО - размер базы.
Нужен какой-то быстрый алгоритм выборки.
Искать по предложению или абзацу - немного не правильно, очень долго, и не рационально.
Для документа должно быть посчитано несколько значений - слепков.
Слепок делается например по частоте слов, буквам, оригинальным словам и их комбинациям и т.д.
И уже по ним нужно делайть поиск и последующее сразвнение.
Как вы правильно сказали - процесс поэтапный.
Функция soundex.
Soundex-ключи имеют то свойство, что слова, произнесённые одинаково, дают тот же самый soundex-ключ и могут, таким образом, быть использованы для упрощения поиска в БД, где вы знаете произношение но не написание. Эта soundex-функция возвращает строку длиной в 4 символа, начиная с буквы.
К делу отношения не имеет.
Какой алгоритм я знаю и применяю...
Каждое слово в словаре для всех документов имеет свой индекс.
Берем документ и вычисялем частоту каждого слова в документе.
Для каждого документа имее скромную табличку типа
[индекс слова]:[колв-л слов]
Еще делаются слепки из такой таблицы, но это уже для удобства и скорости. + Порядок слов влияет конечно, там тоже свой метод, но загружать не буду.
Ищем по базе другие документы по определенной маске и при совпадении каких-то ключевых параметров и схожести текста по приведенной выше таблице процентов на 95%(все завсисит от обьема текста и логики) - поределяем документы как похожие.
С помощью нехитрых алгоримов можно достаточно точно определить похожесть страниц.
Другое дело, что возможны нежелательные погрешности и посему процент совпадения(исключаем доп. ключевые факторы) очень высок для признания документа похожим. С увеличением кол-ва документов в сети будут понижать эти проценты. // Это все образно было сказано.
Все конечно утрировано, но мне примерно такой алгоритм помогает фильтровать дубли.
Я не специалист по обработке больших обьемов данных( я по разработке комп. игр), это просто мое имхо. Строго не судить:) Интересно другие мнения услышать, сейчас как раз cms пишу для доски объявлений.
Ну не так уж страшно все. Вроде как люди делают, алгоритмы пишут.
ban
1. сущ.
1) запрещение
- under a ban
2) церковное проклятие, анафема
3) приговор об изгнании; объявление вне закона
2. гл.
1) налагать запрет; запрещать
2) уст. проклинать, налагать проклятие
В целом вы правы.
Бан - проклятие, насланное на сайт модератором:)
Просто сайтов в выдаче нет, робот жрет по черному.
назовем это "страшный бан". Т.е. "страшное проклятие".
Кто-то говорил что два года жрет уже сайт.
Контент с забаненого сайта где-то еще лежит? Не было случаев бана других сайтов? На сайте причины сносились?
Вот и я думаю - зачем яндексу тратить столько ресурсов на это?
Трафик тоже исчисляется гигабайтами - по 100-300 метров в неделю бывает с одного сайта. А сайтов забаненых сотни... Жуть.
Хотя с той позиции, которую я ранее озвучил это ничколько не противоречит.
И еще, зачем бы asessor.yandex.ru заходить на забаненый сайт?
Кто-нибудь откликнулся и написал бы свои наблюдения...
Может он заходит до поры до времени?
Возможно, что у кого-то были ситуации массового бана каталогов на одной базе или скрипте после бана одного из них по стуку?
Deni, посмотри по логам, был ли asessor.yandex.ru на сайте после бана.
На 5 моих катах и одном авто-сайте были.
Согласен, о чем и написал.Ссылки пофигу.
"Похожесть" страниц - вот об этом можно подумать.
Алгоритм работы роботов продуман.
Все, что касается корректного ранжирования страниц в серпе - это уже на порядок более сложные вещи в разработке.
Да я даже простенькие поисковики делал по сеткам городским - "черный список" робот не трогал при индексации.
Но это простое решение, для элементарного поисковика.
Для более сложного - грех не воспользоваться готовым "черным списком" и не проанализировать его.
Т.е. механизм анализа есть - вопрос какой.
Неужели никто закономерноестей не выявил? Хотя бы намек...
Вы думаете механизм яндекса так плохо продуман, что жрет кучу трафика за зря? Думается, что нет.
Вносят домен в черный список и все - все роботы знают об этом.
По этому поводу даже вопросов не возникает.
Тут мне кажется дело в другом.
Страницы индексируются для опознания других сайтов для бана и определения "хорошести" похожих сайтов.
По идее, забаненый сайт - "плохой сайт".
Ссылки и похожие страницы с плохого сайта - вариант для определения других "плохих сайтов". Насчет ссылок это конечно вероятнее всего не верно, но вот содержание страниц - очень может быть.
Просто вариант только один у меня остается - индексирует для анализа.
Что это за анализ и для чего делается - вот в чем вопрос.
И еще один факт - через 3 недели после бана был заход с asessor.yandex.ru. Может все это для TrustRank?
Никто не принуждает население планеты выбирать в качестве ОС Windows. Однако, в результате судебных исков, Microsoft раз от раза накладывает на себя ограничения для разрешения конфликтов.
Государство должно бороться с монополиями - они ценообразователи и давят конкуренцию своими мускулами.
Демпинг и слив конкурентов со стороны предприятия-лидера - это нарушение закона.
Но вот с yandex вроде странно звучит все это... не продает он свои услуги - он бесплатен. Он продает директ. Но, разве там он монополист?
Их много.
Основные пострадавшие - обычные каталоги. Хотя, есть и другие.
На катах были нарушения - h1, спамные описания.
Короче говоря - перенаправление трафика.
Понимаю за что забанили и каков будет ответ Я.
До того момента, как начинаешь смотреть логи все понятно.
Вопрос я уже выше озвучил. Мне его логика не понятна : после бана месяц уже жрет в разы больше, чем до бана.