Удивляет, почему многие так свято уверовали, что борьба идет именно с каталогами? ИМХО наблюдается дальнейшее расхождение вИЦ и ТИЦ алгоритмов. В качестве образца скажу, что имею в данный момент перед глазами картину: 110->70, 50->40, 10->0, 30->10 для сайтов, которые вообще не раскручивались, а имеют вполне себе естественные бэки.
Что уже неоднократно замечалось, что ТИЦ теперь для оценки стоимости ссылки стал еще более неадекватен. Я бы отметил, что PR выглядит куда более адекватной характеристикой, хотя и менее точной (мал диапазон видимых значений).
Для особо "дорогих" ссылок имеет смысл наверное потребовать и более-менее подробную статистику посещаемости (тоже уже поминалось как оценка по трафику).
Т.е. вы думаете, чистоту исследования не обеспечит?
Вообще подумывал по байесу считать статистику букв для обеспечения более "человечных" слов. А так - цель не ставится максимально приблизить к естественному тексту, цель - изолировать ключевик от сторонних факторов.
Если вдруг кому-то пригодится - http://test.pavlovo.org/s/nongen.php - генератор случайных текстов. Исходник прилагается. Сделал в ходе подготовки к экспериментам.
Вдоль и поперек. Но про пассаж там не нашел - да, есть фраза "оперирование только позициями слов, удовлетворяющих ограничениям контекста" - но это очень размыто, на мой взгляд. Смущает, что монстры SEO вроде Wolf-а и Euhenio спорят об этом.
Цитирую документ:
Вроде как выходит, что при поиске (в т.ч. и при ранжировании) пассажем обзывают именно найденные слова запроса (и ничего более)?
:) Михаил, спасибо конечно, только выдачу грамотно я смотреть не умею :( Боюсь налажать и сделать неверные выводы.
Хочется для начала разобраться с текстом/тэгами, проверить про пассажи информацию.
Потом перейти к ссылочному ранжированию. В общих-то чертах картина ясна, хочется формальной точности. Правда со смертью просмотра колдунщика этого добиться станет тяжелее.
Я так предполагаю, что могут быть помехи со стороны алгоритмов, определяющих связность текста, где один из текстов получит приоритет (в случае с несуществующими словами такое исключается)? Лучше наверное перестраховаться.
Насколько я могу видеть, Google подсвечивает слова в адресе тоже - т.е. вероятно, и адрес рассматривается как фактор для ранжирования. Правда актуально только для английских слов. Яндекс в таком не замечен.
А что говорят экспериментальные данные? В смысле "тяжелые" слова вносят вклад в ранжирование, если укладываются в пассаж (который по предложениям)?
Да, Сергей, а не ответите про пассаж? Как он все-таки считается - как предложение (с выкидыванием длинных при запросах вида АА && BB) или все-таки как фрагмент документа?
Тогда, если первое, то в расчете релевантности будут участвовать все слова из пассажа, выходит, не только то, что оговаривает запрос??
Аааа!!! Блин. Ну надо ж так попасть. Как раз когда отлаживал - все работало. Думал, сегодня пообрабатываю данные... :(
Нескромно так: мож из-за утилитки и убрали?
PS Подсветка вроде на месте.