SeaBreeze, упрощал до понятного языка.
Индексаторы имеют каждый раз какой-то заданный лимит индексирования от начала сессии. И если к вам по ссылке отправился один из клонов, то лимит индексирования все равно будет в основном потрачен на сайт откуда он пришел, так лучше? Изучено его поведение по логам кстати.
Видимо надо делать новый слоган "ТИЦ НА ИНДЕКСАЦИЮ НЕ ВЛИЯЕТ" :D
Сомневающимся в этом товарищам поясню. Частота индексации зависит в основном от двух факторов, частоты обновления контента и количества внешних ссылок.
Поисковый бот отправляясь в дежурный обход, выбирает сайт из своей базы. Чаще выбираются часто обновляемые сайты. Заходит на морду, индексирует, собирает все ссылки и внутренние и внешние, подсчитывает оставшиеся ресурсы, плодит какое-то количество своих копий и рассылает по части найденных им ссылок исходя из того сколько ресурсов в наличии. Каждая из копий уже на своей странице находит ссылки, подсчитывает ресурсы, и так далее, пока последней клон не оборвет свое существование. Поскольку клоны рассылаются и по внешним ссылкам тоже, то бот начав свое путешествие на другом сайте может "перепрыгнуть" на ваш по ссылке. Таким образом количество ссылок влияет на скорость переиндексации. И сайты с большим количеством ссылок переиндексируются чаще. А еще у сайтов с большим количеством ссылок обычно тИЦ больше чем у сайтов с маленьким. Вот и кажется что тИЦ влияет на переиндексацию.
Совет. Будете покупать ссылки для ускорения индексации берите:
1) по возможности ближе к морде, чтобы бот не "потухал" до того как до вас доберется
2) с часто обновляющихся ресурсов, на них бот чаще заглядывает
3) на разные страницы вашего сайта не только на морду, если не хотите чтобы часто переиндексировалась только она. Потому что бот зашедший к вам с другого сайта, уже исчерпал часть ресурсов и имеет значительно меньшую глубину индексирования.
webcat, ты не отвечаешь на мой ответ!!! :D
Ветку форума не читал, но прослушал запись и не могу не отписаться. Живу в замкадье, и стрим с его "инцидентом" в 4 разрыва на пасху, это такая красота и удобство которые нам тут и не снились.
Обрывы связи дело будничное и происходят они далеко не всегда на секундочку. Рекорд у меня лично, пока пытался заниматься срочной работой в интернете, за срок около 3-х часов было десятков 6 разрывов. и это еще провайдер имеющий славу самого стабильного в городе. И суппорты у него не такие вежливые и терпеливые.
А мы тут еще и платим больше за наши услуги. Но народ намного спокойнее, как мне сказал один знакомый суппорт послушав запись, хоть недовольство и проявляют и уходят в крайнем случае, но таких сцен нет. Так что это не качество связи или суппорта, это просто такой индвидуум сам по себе. не было бы разрывов, по другому поводу позвонил бы.
Люди спорят зависит оно или нет от запроса. Внесу еще раз свое мнение.
Процесс отбора на этапе прюнинга зависит только от статических факторов, следовательно от запроса не зависит. Это известно из официального заявления. Однако планка отбора зависит от получившейся первоначальной выборки, а эта выборка в свою очередь состоит из прошедших кворум документов. Прохождение документом кворума разумеется зависит от запроса.
Таким образом запрос прямо не влияет на прохождение документом прюнинга, он лишь косвенно влияет на планку которую этот прюнинг задает.
ИМХО добавил 22.05.2008 в 18:09
Не думаю что тут просто выключатель прюнинг есть/прюнинга нет. Ниже написанное это ИМХО, код прюнинга я не писал и не читал.
Мне кажется, что проходное значение для прюнинга задается статическими величинами тех сайтов которые лидируют. То есть потом другим сайтам предлагается побить планку равную их статическим величинам поделить на некоторую вычисленную яндексоидами константу, достаточно большую чтобы быть уверенным что у сайтов меньше этой планки нет шансов обогнать любого из лидеров при любом стечении обстоятельств.
ИМХО добавил 22.05.2008 в 18:15
orphelin, пассаж по моему мнению это часть документа соответствующая запросу.
Документ состоит из текста, анкор-листа и с недавних пор еще включает в себя в какой-то форме url и его перевод/транслитерацию плюс общие статические факторы документа. Пассаж может быть найден в чем угодно кроме статических факторов. Таким образом в выдаче и появляются "найден по ссылке" и найденные по url документы.
Я это понимаю. Просто скомкал "более понятным языком", чтобы объяснить назначение алгоритма прюнинга, вот и вышла погрешность. Развернутое мое мнение несколькими постами выше, на первой странице.
Согласен, я поспешил все свести к привычному.
Не согласен. Назначение кворума и методы отбора пассажей было официально выложено на Ромип. Потом экспериментально с помощью методики Миныча (пока она еще нормально работала), показано что документ не имеющий ни одного пассажа проходящего кворум в выдаче по запросу не появляется. Следовательно если документ прошел этот этап и появится в выдаче, у него есть как минимум один пассаж.
Размышления как обычно широкой огласке не подлежат? :(
10 невнимательных forseman-ов.
ИМХО добавил 21.05.2008 в 22:04
Отсев происходит до подсчета или даже прикидки релевантности для экономии ресурсов.
Более понятным языком. Если кворум прошло news.ru, auto.ru и еще 8 подобных сайтиков, хомячки Васи Пупкина могут сразу идти лесом. Сколько бы ссылок на них не стояло, какой бы у них качественный текст не был шансов оказаться в топ-10 у них уже нет. Ведь то что news.ru и компания прошли кворум значит что у них есть хоть один минимальный пассаж. и этот пассаж зашибет все Васяпупкиновские анкор-листы.
PS: это не значит что теперь в топах будут только тяжелые ресурсы. Отсеиваются только те сайты у которых не было ни одного шанса, исходя даже из самых благоприятных для них условий.
10 прюнингов.
Где заметить? Я исходил из того что статические параметры документа - параметры не зависящие от запроса.
А понял о чем вы. Контент может входить - он от запроса не зависит. Релевантность нет - она зависит от запроса. И опять возвращаемся что контент от запроса не зависит и выкинет один и тот же набор документов если предположить ваш вариант.
ИМХО добавил 21.05.2008 в 21:43
PS: про траст я сам писал, как про один из факторов на которых основывается прюнинг. Но назначение прюнинга отнюдь не в отработке алгоритма траста.
Статические факторы, это видимо те которые не зависят от запроса.
Что у нас есть известного? вИЦ, траст, тошнота текста, санкции, свойства анкор-листа сходные с текстовой тошнотой, названия которым четкого по-моему еще нет.
Чтобы сократить количество документов участвующих в обработке основываясь только на них, нужно выкинуть сайты с "низкими параметрами" относительно всей выборки. До первичной отборки документов по базе это делать глупо, тогда будут отсеиваться одни и те же документы независимо от запроса, что сильно обрежет базу по которой ведется поиск. Хотели бы, почистили один раз, а не делали это каждый незакешированный запрос.
Следовательно перед прюнингом уже имеется какая-то стартовая выборка. Это могут быть как обычно страницы прошедшие кворум, так и более ранний этап. более ранний этап это все страницы где нашлось хоть одно слово из запроса, те в которых уже потом обычно идет поиск пассажей для проверки кворумом. Поэтому прюнинг может быть как постпроцессинг так и препроцессинг кворума. Я больше склоняюсь к постпроцессингу, иначе по запросу "мебель в черниголовке на развес" останется одна мебель без всякой черниголовки и развеса.
PS: На траст похожим не кажется. Траст по определению не зависит от запроса и пересчитывать его каждый запрос нет нужды.
ИМХО добавил 21.05.2008 в 21:24
PPS: На выдачу сильно повлиять не должно. Об этом они как сами пишут, так и само вроде очевидно, если отсеиваются документы которые по мнению алгоритма прюнинга и так в топ скорее всего не попали бы.