Блин, не понятно я выражаюсь :( Например, можно взять вес слова "арбуз" в ссылочном ранжировании, как отношение "число всех слов во всех анкор-файлах"/ "число слов "арбуз" во всех анкор-файлах " и исходя из этого веса, учитывая переколдовку, рассчитывать релевантность анкор-файла запросу. Расстояние между нужными словами ПС учитывает, почему бы это расстояние не учитывать внутри одного пассажа. То есть я имел ввиду не рассчет веса слова исходя из того, как оно встречается в пассаже, а учет расстояний и позиций, которые могут влиять на коэффициенты при весах слов(также как алгоритме релевантности контента, насколько я его понимаю)
Да, вы правы, я просто не правильно выразился, совсем не правильно. 😒 Конечно это разные пассажи. Я имел ввиду каким образом оценить вклад пассажа "на нашем сайте вы найдете много качественных зеленых арбузов" в релевантность анкор-файла запросу "зеленые арбузы"? Про суммирование весов таких пассажей в анкор-файле - это ,конечно, глупость :)
Как насчет того, чтобы перейти от веса пассажа(т.е. в вашей интерперетации-вес обрезанного анкор-текста), к весу каждого отдельного слова в пассаже, ибо каким образом добавлять вес пассажу "на нашем сайте вы найдете много качественных зеленых арбузов" при добавлении пассажа "зеленый арбуз" ,например. Если перейти к весу слов в пассаже, то можно рассчитать долю словосочетания "зеленый арбуз" в первом пассаже и к ней уже прибавить вес пассажа "зеленый арбуз". Кстати, в этом смысле подходит и версия, о том что слова стоящие в начале ссылки имеют выше вес, то есть таким макаром можно контролировать вес слов стоящих в начале ссылки(увеличением коэффициентов при этих словах). Также нормировку нужно выполнять по количеству слов, встречающихся в анкор-файле, а не количеству пассажей.
На первый взгляд, все это кажется через чур сложным, но ведь Я применяет похожий алгоритм для оценки релевантности контента страницы. Почему бы ему не применять тот же самый алгоритм, только с другими весами, для оценки релевантности анкор-файла.
так же как нет и доказательств ее использования Яндексом,
Здесь Миныч вскользь упоминал первоисточник своего коэффициента /ru/forum/53634
что это связано с "полнотекстовыми базами данных" и "ГПНТБ". После поисков в инете пришел к выводу, что имеется ввиду алгоритм системы "Ирбис", а вот на сам документ, с таинственным коэффициентом, наткнуться не могу. Если вы обладаете такой информацией, не могли бы вы дать ссылку на подобную статью.
Где-то тут на форуме проскакивало, что чем ближе слова запроса находятся к "началу" ссылки, тем больший вес приобретают при ссылочном. Так что можно еще посоветовать ставить почаще "продажа картин" в начале ссылки. Кроме того, анкоры "продажа картин" и просто "картины" оказывают очень различное влияние на запрос "продажа картин", используйте ниболее точное вхождение слов запроса в тексты ссылок, ну и побольше вариантов. ;)
Вот, еще наткнулся на кое-какую информацию.
http://www.gpntb.ru/win/elbib/trud2/08_1999.html
Правда, для поисковых систем с их индексом, все это не годится.
Да, все это выглядит довольно правдоподобно. Спасибо за разъяснения. Вот жаль, что нет ресурсов для того, чтобы поставить эксперимент. :(
Статьи
http://www.metric.ru/publications.asp?ob_no=308
http://www.seotools.ru/biblioteka-optimizatora/avtoritety-rekomenduyut/an/ostap-bender.html
По теме, думаю,что адекватные алгоритмы определения тематичности уже давным-давно существуют, что видно из первой статьи, но вот как эти алгоритмы заточить под ПС , с учетом ограниченности ресурсов поисковой машины и огромного количества материала, вот это вопрос, который имеет наибольший приоритет в данный момент.
Что-то я запутался читая этот топик, не могли бы вы разъяснить. Вопрос "тошноты" - очень интересный. То есть, что вы называете "тошнотой"? Вот, например, если в ссылках на сайт много раз встречается слово "ганобобель", то он перетошнен по этому слову? То есть оказывает ли это негативное влияние на выдачу сайта по запросу "ганобобель"?
Или, правильно, как я понял из топика, что по запросу "ганобоблель" это влияет положительно, а по остальным запросам, напр. "чебурашка зеленый" это будет влиять отрицательно? И с другой стороны если увеличить кол-во ссылок, по запросу "чебурашка зеленый" - это отрицательно скажется на запросе "ганобобель", но положительно на запросе "чебурашка зеленый"?
В таком случае, в формуле тошноты, должны участвовать и частотности других запросов. И о "тошноте" корректнее было бы говорить, как о явлении относительном. То есть, например, ссылки "перетошнены" "ганобобелем" относительно "чебурашки зеленого", а относительно "новохудоносора" все ок, так как частотности "ганобобеля" и "новохудоносора" почти совпадают.
:)