AiK

AiK
Рейтинг
257
Регистрация
27.10.2000
Должность
SEO consultant
Интересы
Astronomy

Ох. Для любителей тошнот даю простую задачку.

Есть три сайта в серпе. Все они продвигаются по запросам A, AB и AC. B и С - побочные запросы, но по ним тоже приличные позиции, в пределах топ20. Вот такие параметры у первых двух сайтов:

Сайт 1

Повторы

А – 27

B – 4

C –1

Total =439

Позиции

A –2

B-1

C-2

AB-1

Сайт 2

Повторы

А – 29

B – 1

C –4

Total =258

Позиции

A –1

B -10

C - 9

AC-11

Требуется для первого сайта угадать позицию по запросу AC, а для второго по запросу AB с точностью до десятки. Морфология почти не влияет, ВИЦ для одной и той же морды один и тот же. Вклад ссылочного очевиден из позиций по однословным запросам. Угадать очень не сложно :)

А теперь задачка посложнее. Данные третьего сайта такие:

Повторы

для -54

A – 34

B- 7

C- 5

Total =1287

Позиции

A – 9

B - 7

C-14

Здесь требуется угадать с точностью до десятки позиции уже по обоим двусловным запросам. На самом деле, при правильном определении позиций первых двух сайтов, с третьим сложностей уже не возникнет. Я не изверг, пользоваться Яндексом разрешаю :)

В сухом остатке у вас останется понимание (без точных значений до 7-го знака) как влияют внутренние факторы на позиции при прочих равных и насколько мешают предлоги продвижению. По двусловным запросам :)

oiL-k:
Прорыв одной команды вперед, вызывает неудержимое желание другой не упасть в грязь лицом

Прорыва нет, и не может быть по определению. В соседнем топике несколько раз употреблялся термин "интегральный". Для не математиков напомню, что интеграл - это банальная сумма (в данном случае совокупности всех факторов, влияющих на ранжирование). Именно благодаря интегральности можно добиваться невероятно стабильных результатов. Есть у меня конкурент, из раздела Я.К. "инженерные системы", т.е. в не самой сложной, но и далеко не самой простой теме. Для продвижения используются: морды, сателлиты, линкаторы, линкообмен, каталоги, спам гостевух и форумов, и даже XSS (наверное это то, что дорвейщики за спам не считают, намекая про плохо закрытые двери :D). За год из десятки вылетал максимум пару раз на время "недоапдейтов". И считанное количество раз его выбивали с первого места сайты-выскочки, более удачно вписавшиеся по какой-то части параметров. Интегрально этот сайт занимает лучшие позиции (к слову, далеко не по одному запросу), потому что использует не 1-2 параметра, оказывающие наибольшее влияние в данный момент времени, а совокупность всех или почти всех параметров. Brute force? Безусловно. Но работает. Да и экономия достигается за счёт того, что используется далеко не только покупка морд...

Риторические вопросы как-то и формулировать не хочется.

Полагаю, что на этом стоит прекратить коллекционировать высокосодержательные, глубокомысленные и безусловно филосовские ответы на вопрос топикстартера. Тему закрываю.

ХренРедькиНеСлаще:
Вот ведь и ПР добавили, на всякий случай, вдруг ВИЦ яндекс по Гуглю считает?

Угу. И это говорит человек, измеряющий ВИЦ в попугаях :) Между тем, ВИЦ и PR измеряются по очень похожим формулам, поэтому корреляция между этими значениями есть. тИЦ без учёта тематики является ВИЦем, а значит есть корреляция и между тИЦем и PR. Я этой корреляцией, определённой "наглазок", пользуюсь не первый день. Наверное, потому что шарлатан :) Однако, недавно Алексей Тутубалин опубликовал точные значения. Разумеется, расхождения между моими "потолочными" значениями и точновычесленными есть, но не критичные - не больше сотни единиц тИЦ. Т.о. существование этой корреляции доказано математически. Как её можно использовать, надеюсь, объяснять умным людям не нужно.

ХренРедькиНеСлаще:
Мой подсчет основан на числе документов в индексе Яндекса и номерах документов, выдаваемых в топе. Если топ Вам сразу беки выдает и ПР (не вижу беков почемуто в выдаче топа и ПРа также), тогда надо точнее выражаться, примерно так:

Что-то я не понял реплики. Неужели вы с Минычем под анализом топа подразумеваете исключительно количество документов в индексе и порядковый номер документа? Не верю!

Мой анализ топа - это попытка найти ответ на вопрос, почему данный документ занял именно такое, а не иное место. Впрочем, и я лукавлю - всю десятку по одному единственному запросу я не анализирую, т.к. в этом нет никакой необходимости.

ХренРедькиНеСлаще:
из теории информации один топ 10 серп дает 4бита * 10= 40 бит информации

Ай, как нехорошо с теорией информации-то получилось.

Даже если не анализировать тексты входящих ссылок, то получаем по каждой входящей ссылке:

3 бита на PR (PR < 8)

13 бит на тИЦ (PR <8192)

1 бит признака морда/внутренняя

8 бит на количество исходящих ссылок (<256)

Итого минимум 25 бит на ссылку. А ссылок таких в средней паршивости тематиках будет штучек по 100 на конкурента. Итого, около 3Кбайт на топ10 по одному запросу. К слову - полторы странички машинописного текста.

А если добавить хотя бы 32 байта на текст кажой ссылки?

Да, конечно, если медитировать только над средними или суммарными значениями всех вхдящих ссылок или только морд, то ничего путного не выйдет. Да и инфы поболе, чем 4 бита на конкурента всё равно будет :) К слову, при полном игнорировании внутридокументных параметров...

Vyacheslav Tikhonov, я бы не сказал, что там одни форумы. Я вижу как минимум msn, yahoo и International Herald Tribune. Более, чем авторитетные сайты. На форуме applenova - просто самая релевантная страница.

А два дня назад там были сплошные блоги. Видимо по принципу кто первым встал, того и тапки.

Вячеслав, предлагаю отмониторить выдачу не по неизвестному широкой общественности Литвиненко, а по какому-нибудь популярному спортсмену. Попробуйте определить победителя только что завершившегося соревнования...

Vyacheslav Tikhonov:
Я же в статье говорю о новостных страницах, которые обычным образом не могут оказаться в top'е выдачи.

Вячеслав, вот очень странно слышать от Вас такие утверждения. Я за политикой не слежу, но очень сильно подозреваю, что пару недель назад словосочетание litvinenko killed в природе не существовало. Собственно и сейчас существует всего навсего 56 сайтов, имеющих в заголовке эти два слова. Не много, правда? :) Так что нет ничего удивительного в том, что сначала выползают в топ те, кого заиндексировали первым и у кого релевантность получше, потом туда добавляются страницы с высокоавторитетных сайтов, а потом потихоньку выползают те, на кого больше ссылок. На всяк случай напомню,что Гугль не показывает новые ссылки реалтайм.

И ничего нового в этом нет. Я ещё в 2003-м, кажется, читал интервью иностранного дядечки, который рубил капусту на смертях известных личностей (хотя лично для меня Литвиненко известен только тем, что его чем-то радиактивным якобы траванули). Технология была простая: мониторились новости по престарелым звёздам, попавшим в больницу. Дальше регистрировался домен xxxisdead.com и на него ставились ссылки с других сайтов. Если звезда в больнице помирала, то на следующий день после смерти мужик получал кучу траффика нахаляву. Если не помирала, то домен ещё жил некоторое время... Было это всё соответственно до появления sandbox. Теперь он видимо рубит капусту на старых доменах :)

Разумеется, при наличии поиска по новостям и аггрегатора RSS фидов, Гугль получает свежие страницы и информацию по ссылкам гораздо быстрее. Да вот только выдачу формирует скорее всего по общим критериям. Разве что новостные ресурсы кучкует до общего SERP'а

ostmaster, мы потихоньку скатываемся в обсуждение директа.

Давай, я упрощу задачу, признав, что я ошибался :)

Итого, есть два варианта: в первом случае, документу приписывается один тэг, эквивалентный названию рубрике 2-го уровня из Я.Каталога. Во-втором случае, документу приписывается набор тэгов, эквивалентных названиям "секретных" групп слов. А вот бонус, как я и предполагал, выдаётся за совпадение по каждому из тэгов.

Но бонусы очень слабенькие, т.е. ссылка с тематической статьи не сможет перебить ссылку с нетематической сильной морды. Более того, этими бонусами достаточно легко манипулировать.

Вывод же из всего этого простой - невычисляемые сателлиты будут рулить как никогда :)

Кто б на русский перевёл?

pro-maker:
Точность алгоритма – 63%

Т.е. если определили тематику, то она оказалось верной чуть более, чем в половине случаев (или встречу динозавра на Невском или не встречу)

pro-maker:
полнота – 46%

Т.е. чуть более, чем в половине случаев тематику определить не удалось. Так что ли? Если так, то тематика определяется правильно примерно для четверти документов...

А спасение в разделе 3, третий абзац:


Был получен результат, говорящий, видимо, о том, что описанная
система способна отличать релевантные документы от нерелевантных, но существенно хуже различает сильно релевантные документы от слаборелевантных.

А вот это в переводе на русский означает, что если на любом сайте будет не одна ссылка на левый коммерческий ресурс, а, скажем, на 10 левых, но одной тематики (ок, с пересекающимся набором ключевиков), то все эти ссылки будут сочтены тематичными :)

minaton:
что они умеют автоматом определять тематику и сайта, и отедльной страницы.

Кстати, о том, что тематику умеют определять Саша говорил ещё два года назад на семинаре у Сергея.

Всего: 3256