ИМХО

Рейтинг

Регистрация

05.01.2008

От чего зависит частота захода бота Яндекса?

24 мая 2008, 03:30

SeaBreeze, упрощал до понятного языка.

Индексаторы имеют каждый раз какой-то заданный лимит индексирования от начала сессии. И если к вам по ссылке отправился один из клонов, то лимит индексирования все равно будет в основном потрачен на сайт откуда он пришел, так лучше? Изучено его поведение по логам кстати.

От чего зависит частота захода бота Яндекса?

23 мая 2008, 19:49

Видимо надо делать новый слоган "ТИЦ НА ИНДЕКСАЦИЮ НЕ ВЛИЯЕТ" :D

Сомневающимся в этом товарищам поясню. Частота индексации зависит в основном от двух факторов, частоты обновления контента и количества внешних ссылок.

Поисковый бот отправляясь в дежурный обход, выбирает сайт из своей базы. Чаще выбираются часто обновляемые сайты. Заходит на морду, индексирует, собирает все ссылки и внутренние и внешние, подсчитывает оставшиеся ресурсы, плодит какое-то количество своих копий и рассылает по части найденных им ссылок исходя из того сколько ресурсов в наличии. Каждая из копий уже на своей странице находит ссылки, подсчитывает ресурсы, и так далее, пока последней клон не оборвет свое существование. Поскольку клоны рассылаются и по внешним ссылкам тоже, то бот начав свое путешествие на другом сайте может "перепрыгнуть" на ваш по ссылке. Таким образом количество ссылок влияет на скорость переиндексации. И сайты с большим количеством ссылок переиндексируются чаще. А еще у сайтов с большим количеством ссылок обычно тИЦ больше чем у сайтов с маленьким. Вот и кажется что тИЦ влияет на переиндексацию.

Совет. Будете покупать ссылки для ускорения индексации берите:

1) по возможности ближе к морде, чтобы бот не "потухал" до того как до вас доберется

2) с часто обновляющихся ресурсов, на них бот чаще заглядывает

3) на разные страницы вашего сайта не только на морду, если не хотите чтобы часто переиндексировалась только она. Потому что бот зашедший к вам с другого сайта, уже исчерпал часть ресурсов и имеет значительно меньшую глубину индексирования.

Истеричный клиент vs саппорт Стрима

23 мая 2008, 19:15

webcat:
ИМХО - дело то не в разрывах ....

webcat, ты не отвечаешь на мой ответ!!! :D

Истеричный клиент vs саппорт Стрима

23 мая 2008, 18:15

Ветку форума не читал, но прослушал запись и не могу не отписаться. Живу в замкадье, и стрим с его "инцидентом" в 4 разрыва на пасху, это такая красота и удобство которые нам тут и не снились.

Обрывы связи дело будничное и происходят они далеко не всегда на секундочку. Рекорд у меня лично, пока пытался заниматься срочной работой в интернете, за срок около 3-х часов было десятков 6 разрывов. и это еще провайдер имеющий славу самого стабильного в городе. И суппорты у него не такие вежливые и терпеливые.

А мы тут еще и платим больше за наши услуги. Но народ намного спокойнее, как мне сказал один знакомый суппорт послушав запись, хоть недовольство и проявляют и уходят в крайнем случае, но таких сцен нет. Так что это не качество связи или суппорта, это просто такой индвидуум сам по себе. не было бы разрывов, по другому поводу позвонил бы.

Прюнинг Яндекса

22 мая 2008, 14:02

Люди спорят зависит оно или нет от запроса. Внесу еще раз свое мнение.

Процесс отбора на этапе прюнинга зависит только от статических факторов, следовательно от запроса не зависит. Это известно из официального заявления. Однако планка отбора зависит от получившейся первоначальной выборки, а эта выборка в свою очередь состоит из прошедших кворум документов. Прохождение документом кворума разумеется зависит от запроса.

Таким образом запрос прямо не влияет на прохождение документом прюнинга, он лишь косвенно влияет на планку которую этот прюнинг задает.

ИМХО добавил 22.05.2008 в 18:09

Kolyaj:

3. Если документов мало, то в 5-й пункт, много - в 4-й
4. Выкидываем документы со слабыми статическими параметрами.
5. Высчитываем релевантность и сортируем.

Не думаю что тут просто выключатель прюнинг есть/прюнинга нет. Ниже написанное это ИМХО, код прюнинга я не писал и не читал.

Мне кажется, что проходное значение для прюнинга задается статическими величинами тех сайтов которые лидируют. То есть потом другим сайтам предлагается побить планку равную их статическим величинам поделить на некоторую вычисленную яндексоидами константу, достаточно большую чтобы быть уверенным что у сайтов меньше этой планки нет шансов обогнать любого из лидеров при любом стечении обстоятельств.

ИМХО добавил 22.05.2008 в 18:15

orphelin, пассаж по моему мнению это часть документа соответствующая запросу.

Документ состоит из текста, анкор-листа и с недавних пор еще включает в себя в какой-то форме url и его перевод/транслитерацию плюс общие статические факторы документа. Пассаж может быть найден в чем угодно кроме статических факторов. Таким образом в выдаче и появляются "найден по ссылке" и найденные по url документы.

Прюнинг Яндекса

21 мая 2008, 21:26

юни:
Предпосылок к такому выводу в исходном тексте нет: в нём не обсуждается сама пресловутая "формула ранжирования", а говорится лишь о новой части её, внесённой для ускорения поиска.

Я это понимаю. Просто скомкал "более понятным языком", чтобы объяснить назначение алгоритма прюнинга, вот и вышла погрешность. Развернутое мое мнение несколькими постами выше, на первой странице.

юни:
Т.е., вывод "если кворум прошло news.ru, auto.ru и еще 8 подобных сайтиков, хомячки Васи Пупкина могут сразу идти лесом" вполне может быть и обратным (ставящим "тяжелые ресурсы" ниже любых хомячков), в случае специфического (да и обычного тоже) запроса: речь шла лишь о вероятности релевантности, а не о факторах, эту релевантность образующих,

Согласен, я поспешил все свести к привычному.

юни:
фраза "то, что news.ru и компания прошли кворум значит, что у них есть хоть один минимальный пассаж" по прежнему является вопросом, а не утверждением.

Не согласен. Назначение кворума и методы отбора пассажей было официально выложено на Ромип. Потом экспериментально с помощью методики Миныча (пока она еще нормально работала), показано что документ не имеющий ни одного пассажа проходящего кворум в выдаче по запросу не появляется. Следовательно если документ прошел этот этап и появится в выдаче, у него есть как минимум один пассаж.

юни:
Следовательно, кстати, к трасту (к его анонсу или точным определениям) новость отношения не имеет (хотя размышления о предполагаемой знатным тульчанином простоте (и практической изощрённости) алгоритма ранжирования, могут оказаться весьма занятными :)).

Размышления как обычно широкой огласке не подлежат? :(

Прюнинг Яндекса

21 мая 2008, 17:59

forseman:
ИМХО, я читаю исходный текст так: прюнинг обсчитывает вероятность того, что документ релевантен запросу (а эта вероятность меняется в зависимости от запроса, то есть и конечная выдача, зависящая от этой вероятности, тоже зависит от запроса)

webmaster.ya.ru:
Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется.

10 невнимательных forseman-ов.

ИМХО добавил 21.05.2008 в 22:04

Отсев происходит до подсчета или даже прикидки релевантности для экономии ресурсов.

Более понятным языком. Если кворум прошло news.ru, auto.ru и еще 8 подобных сайтиков, хомячки Васи Пупкина могут сразу идти лесом. Сколько бы ссылок на них не стояло, какой бы у них качественный текст не был шансов оказаться в топ-10 у них уже нет. Ведь то что news.ru и компания прошли кворум значит что у них есть хоть один минимальный пассаж. и этот пассаж зашибет все Васяпупкиновские анкор-листы.

PS: это не значит что теперь в топах будут только тяжелые ресурсы. Отсеиваются только те сайты у которых не было ни одного шанса, исходя даже из самых благоприятных для них условий.

Прюнинг Яндекса

21 мая 2008, 17:52

Как это происходит? В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос"). На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу. Если вероятность низкая, документ дальше не анализируется.

10 прюнингов.

Прюнинг Яндекса

21 мая 2008, 17:38

forseman:
это неверно, смотрим первоисточник

"На стадии прюнинга на основе всех статических факторов для каждого документа оценивается вероятность того, что он окажется релевантным запросу."

заметьте, что в статические параметры страницы входит контент (тобишь релевантность)

Где заметить? Я исходил из того что статические параметры документа - параметры не зависящие от запроса.

В формулу ранжирования, которая определяет релевантность страниц, входит множество факторов, как зависящих от запроса, так и статических по отношению к нему (они характеризут страницу или сайт, а не пару "страница-запрос").

А понял о чем вы. Контент может входить - он от запроса не зависит. Релевантность нет - она зависит от запроса. И опять возвращаемся что контент от запроса не зависит и выкинет один и тот же набор документов если предположить ваш вариант.

ИМХО добавил 21.05.2008 в 21:43

PS: про траст я сам писал, как про один из факторов на которых основывается прюнинг. Но назначение прюнинга отнюдь не в отработке алгоритма траста.

Прюнинг Яндекса

21 мая 2008, 17:18

Статические факторы, это видимо те которые не зависят от запроса.

Что у нас есть известного? вИЦ, траст, тошнота текста, санкции, свойства анкор-листа сходные с текстовой тошнотой, названия которым четкого по-моему еще нет.

Чтобы сократить количество документов участвующих в обработке основываясь только на них, нужно выкинуть сайты с "низкими параметрами" относительно всей выборки. До первичной отборки документов по базе это делать глупо, тогда будут отсеиваться одни и те же документы независимо от запроса, что сильно обрежет базу по которой ведется поиск. Хотели бы, почистили один раз, а не делали это каждый незакешированный запрос.

Следовательно перед прюнингом уже имеется какая-то стартовая выборка. Это могут быть как обычно страницы прошедшие кворум, так и более ранний этап. более ранний этап это все страницы где нашлось хоть одно слово из запроса, те в которых уже потом обычно идет поиск пассажей для проверки кворумом. Поэтому прюнинг может быть как постпроцессинг так и препроцессинг кворума. Я больше склоняюсь к постпроцессингу, иначе по запросу "мебель в черниголовке на развес" останется одна мебель без всякой черниголовки и развеса.

PS: На траст похожим не кажется. Траст по определению не зависит от запроса и пересчитывать его каждый запрос нет нужды.

ИМХО добавил 21.05.2008 в 21:24

PPS: На выдачу сильно повлиять не должно. Об этом они как сами пишут, так и само вроде очевидно, если отсеиваются документы которые по мнению алгоритма прюнинга и так в топ скорее всего не попали бы.

1 ... 12 13 14 15 16 17 18 19 20 ...47

Всего: 468

Open AI тестирует память для ChatGPT

Маркетинг для шоколадной фабрики. На 34% выше средний чек

ИМХО