Ох. Для любителей тошнот даю простую задачку.
Есть три сайта в серпе. Все они продвигаются по запросам A, AB и AC. B и С - побочные запросы, но по ним тоже приличные позиции, в пределах топ20. Вот такие параметры у первых двух сайтов:
Сайт 1
Повторы
А – 27
B – 4
C –1
Total =439
Позиции
A –2
B-1
C-2
AB-1
Сайт 2
А – 29
B – 1
C –4
Total =258
A –1
B -10
C - 9
AC-11
Требуется для первого сайта угадать позицию по запросу AC, а для второго по запросу AB с точностью до десятки. Морфология почти не влияет, ВИЦ для одной и той же морды один и тот же. Вклад ссылочного очевиден из позиций по однословным запросам. Угадать очень не сложно :)
А теперь задачка посложнее. Данные третьего сайта такие:
для -54
A – 34
B- 7
C- 5
Total =1287
A – 9
B - 7
C-14
Здесь требуется угадать с точностью до десятки позиции уже по обоим двусловным запросам. На самом деле, при правильном определении позиций первых двух сайтов, с третьим сложностей уже не возникнет. Я не изверг, пользоваться Яндексом разрешаю :)
В сухом остатке у вас останется понимание (без точных значений до 7-го знака) как влияют внутренние факторы на позиции при прочих равных и насколько мешают предлоги продвижению. По двусловным запросам :)
Прорыва нет, и не может быть по определению. В соседнем топике несколько раз употреблялся термин "интегральный". Для не математиков напомню, что интеграл - это банальная сумма (в данном случае совокупности всех факторов, влияющих на ранжирование). Именно благодаря интегральности можно добиваться невероятно стабильных результатов. Есть у меня конкурент, из раздела Я.К. "инженерные системы", т.е. в не самой сложной, но и далеко не самой простой теме. Для продвижения используются: морды, сателлиты, линкаторы, линкообмен, каталоги, спам гостевух и форумов, и даже XSS (наверное это то, что дорвейщики за спам не считают, намекая про плохо закрытые двери :D). За год из десятки вылетал максимум пару раз на время "недоапдейтов". И считанное количество раз его выбивали с первого места сайты-выскочки, более удачно вписавшиеся по какой-то части параметров. Интегрально этот сайт занимает лучшие позиции (к слову, далеко не по одному запросу), потому что использует не 1-2 параметра, оказывающие наибольшее влияние в данный момент времени, а совокупность всех или почти всех параметров. Brute force? Безусловно. Но работает. Да и экономия достигается за счёт того, что используется далеко не только покупка морд...
Риторические вопросы как-то и формулировать не хочется.
Полагаю, что на этом стоит прекратить коллекционировать высокосодержательные, глубокомысленные и безусловно филосовские ответы на вопрос топикстартера. Тему закрываю.
Угу. И это говорит человек, измеряющий ВИЦ в попугаях :) Между тем, ВИЦ и PR измеряются по очень похожим формулам, поэтому корреляция между этими значениями есть. тИЦ без учёта тематики является ВИЦем, а значит есть корреляция и между тИЦем и PR. Я этой корреляцией, определённой "наглазок", пользуюсь не первый день. Наверное, потому что шарлатан :) Однако, недавно Алексей Тутубалин опубликовал точные значения. Разумеется, расхождения между моими "потолочными" значениями и точновычесленными есть, но не критичные - не больше сотни единиц тИЦ. Т.о. существование этой корреляции доказано математически. Как её можно использовать, надеюсь, объяснять умным людям не нужно.
Что-то я не понял реплики. Неужели вы с Минычем под анализом топа подразумеваете исключительно количество документов в индексе и порядковый номер документа? Не верю!
Мой анализ топа - это попытка найти ответ на вопрос, почему данный документ занял именно такое, а не иное место. Впрочем, и я лукавлю - всю десятку по одному единственному запросу я не анализирую, т.к. в этом нет никакой необходимости.
Ай, как нехорошо с теорией информации-то получилось.
Даже если не анализировать тексты входящих ссылок, то получаем по каждой входящей ссылке:
3 бита на PR (PR < 8)
13 бит на тИЦ (PR <8192)
1 бит признака морда/внутренняя
8 бит на количество исходящих ссылок (<256)
Итого минимум 25 бит на ссылку. А ссылок таких в средней паршивости тематиках будет штучек по 100 на конкурента. Итого, около 3Кбайт на топ10 по одному запросу. К слову - полторы странички машинописного текста.
А если добавить хотя бы 32 байта на текст кажой ссылки?
Да, конечно, если медитировать только над средними или суммарными значениями всех вхдящих ссылок или только морд, то ничего путного не выйдет. Да и инфы поболе, чем 4 бита на конкурента всё равно будет :) К слову, при полном игнорировании внутридокументных параметров...
Vyacheslav Tikhonov, я бы не сказал, что там одни форумы. Я вижу как минимум msn, yahoo и International Herald Tribune. Более, чем авторитетные сайты. На форуме applenova - просто самая релевантная страница.
А два дня назад там были сплошные блоги. Видимо по принципу кто первым встал, того и тапки.
Вячеслав, предлагаю отмониторить выдачу не по неизвестному широкой общественности Литвиненко, а по какому-нибудь популярному спортсмену. Попробуйте определить победителя только что завершившегося соревнования...
Вячеслав, вот очень странно слышать от Вас такие утверждения. Я за политикой не слежу, но очень сильно подозреваю, что пару недель назад словосочетание litvinenko killed в природе не существовало. Собственно и сейчас существует всего навсего 56 сайтов, имеющих в заголовке эти два слова. Не много, правда? :) Так что нет ничего удивительного в том, что сначала выползают в топ те, кого заиндексировали первым и у кого релевантность получше, потом туда добавляются страницы с высокоавторитетных сайтов, а потом потихоньку выползают те, на кого больше ссылок. На всяк случай напомню,что Гугль не показывает новые ссылки реалтайм.
И ничего нового в этом нет. Я ещё в 2003-м, кажется, читал интервью иностранного дядечки, который рубил капусту на смертях известных личностей (хотя лично для меня Литвиненко известен только тем, что его чем-то радиактивным якобы траванули). Технология была простая: мониторились новости по престарелым звёздам, попавшим в больницу. Дальше регистрировался домен xxxisdead.com и на него ставились ссылки с других сайтов. Если звезда в больнице помирала, то на следующий день после смерти мужик получал кучу траффика нахаляву. Если не помирала, то домен ещё жил некоторое время... Было это всё соответственно до появления sandbox. Теперь он видимо рубит капусту на старых доменах :)
Разумеется, при наличии поиска по новостям и аггрегатора RSS фидов, Гугль получает свежие страницы и информацию по ссылкам гораздо быстрее. Да вот только выдачу формирует скорее всего по общим критериям. Разве что новостные ресурсы кучкует до общего SERP'а
ostmaster, мы потихоньку скатываемся в обсуждение директа.
Давай, я упрощу задачу, признав, что я ошибался :)
Итого, есть два варианта: в первом случае, документу приписывается один тэг, эквивалентный названию рубрике 2-го уровня из Я.Каталога. Во-втором случае, документу приписывается набор тэгов, эквивалентных названиям "секретных" групп слов. А вот бонус, как я и предполагал, выдаётся за совпадение по каждому из тэгов.
Но бонусы очень слабенькие, т.е. ссылка с тематической статьи не сможет перебить ссылку с нетематической сильной морды. Более того, этими бонусами достаточно легко манипулировать.
Вывод же из всего этого простой - невычисляемые сателлиты будут рулить как никогда :)
Кто б на русский перевёл?
Т.е. если определили тематику, то она оказалось верной чуть более, чем в половине случаев (или встречу динозавра на Невском или не встречу)
Т.е. чуть более, чем в половине случаев тематику определить не удалось. Так что ли? Если так, то тематика определяется правильно примерно для четверти документов...
А спасение в разделе 3, третий абзац:
А вот это в переводе на русский означает, что если на любом сайте будет не одна ссылка на левый коммерческий ресурс, а, скажем, на 10 левых, но одной тематики (ок, с пересекающимся набором ключевиков), то все эти ссылки будут сочтены тематичными :)
Кстати, о том, что тематику умеют определять Саша говорил ещё два года назад на семинаре у Сергея.