Имхо при использовании каталога сейчас только по прямому назначению - еще один источник достоверной структурированной информации - он может быть действительно невыгоден поисковику именно по указанной вами причине. Здесь, имхо, есть коммерческая составляющая, выражающаяся не только в том, участие в каталоге Яндекса для коммерческих сайтов платное, но и в том, что это должно давать какую-то выгоду. Яндекс сейчас - хороший поисковик по товарам, но не по информации другого рода. Это личный опыт, конечно, не обобщение. Но за информацией в последнее время хожу в Рамблер и Гугл. Поэтому почему бы за участие в каталоге не премировать сайт хорошим весом ссылки? В данном случае, морду. Не факт, но вариант.
Мне кажется сейчас гораздо реже, нежели раньше, люди пользуются каталогом как источником информации. Чаще всего вводят запрос в строку поиска. Поисковым машинам можно получать пользу от хорошей коллекции отобранных сайтов. Например, давать больший вес ссылкам с сайтов, участвующих в каталоге, потому что это проверенные сайты.
Думаю, то, что на нее ссылаются. Иначе будет совсем беспредел, т.е. перекос морды. Правда, здесь сами по себе ссылки не всегда верны и людям проще давать ссылки на сайты, чем на конкретные страницы. Тонкий момент.
Разумно. Тогда стоит определиться с целями и задачами каталога сайтов у поисковой машины. Кроме работы каталога в чистом виде - структуры, по которой пользователь ищет интересующую его информацию. У кого есть предложения?
Я о таком случае и говорю.
Ссылаются всегда больше на сайт. Главная страница всегда имеет больший вес.
Безусловно, это так. Но кроме ссылки из каталога поисковика есть еще множество других ссылок с других сайтов.
Кстати, с каталогом, практически так и делал Рамблер, когда подмешивал результаты из топ100. Конечно, можно было просто давать существенный коэффициент исходя из посещаемости ресурса, опираясь на релевантность его страниц. А можно использовать описание из каталога. У Рамблера имхо, это до сих пор осталось - влияние описания из каталога топ100. Другое дело, что смешиваясь с остальными факторами, его вес не так велик.
Это да. Такой вот механизм ранжирования у Яндекса. Но может, и имеет место взвешенность ссылок. Хотя, имхо накладно каждый раз налету анализировать разницу текстов ссылок. А делать это заранее, в индексе, для ссылок на каждый сайт, может получиться еще накладнее. Хотя, может, Я так и делает. Все зависит от мощностей. Сделать-то можно все. Тут как обычно - прирост качества каждых следующих 5-ти процентов требует удвоение мощностей оборудования.
Это один из возможных вариантов. Описание сайта в каталоге может выступать в качестве текста ссылки с соответствующим весом. Мне кажется, что в основном присутствующие здесь пытаются угадать как и что, а разумнее имхо встать на место разработчиков поисковика и подумать как и что можно сделать. Например, пользователь делает запрос. Вам нужно выдать список релевантных сайтов. А у вас уже есть некоторое их количество, отобранное вручную и совершенно точно соответствующих запросу (описание сайтов соответствует запросу). Строго говоря, можно вообще выводить только сайты из каталога. Потому что это не мусор. Но так будет неправильно, т.к. игнорируются остальные. Тогда можно сделать так: дать ссылке (тексту ссылки) с каталога существенный вес и складывать этот вес с весами остальных ссылок.
Вообще, конечно, разговоры о вИЦ Яндекса - как разговоры о корабле Мария Селеста, команда которого пропала в Бермудском треугольнике. Даже разговоры о самих пропавших людях. Вроде, все они были, жили, но стали фантомами. И все пытаются угадать свойства этих фантомов. Говорить о конкретной реализации, наверное, не имеет смысла. Речь может идти об обычных разумных мерах, которые способствуют улучшению качества поиска.
Не факт. То есть возможны варианты.
В любом случае, еще надо умножить на коэффициент ссылочного ранжирования.
Р=Р1*Д(Р2)*К1(текст ссылок, взятый по tf*idf, то бишь сумма ссылок, каждая со своим весом)*K2(Значимость сайта)
К2 - вИЦ или PageRank
Отдельной песней в К1 можно сделать присутствие в каталоге. Сказать, что вес ссылки из каталога - PR=6(это PR yaca), или вИЦ=большому числу
В этом случае формула может быть такая: Р=Р1*P2,
где Р1 - релевантость самой релевантной страницы на сайте
Р2 - некий средний вес по релевантности остальных страниц.
Поскольку на больших сайтах страниц, относящихся к теме, может быть много, но их средняя релевантность существенно меньше самой релевантной, итоговая релевантность занижается. Но при именно такой формуле чем больше страниц, тем меньше итоговая релевантность, что неправильно. т.к. большое количество страниц по теме означает явное соответствие сайта запросу. Значит, надо уменьшить влияние Р2 и, например, брать дисперсию от этих других многих страниц (но именно хоть сколько релевантных запросу). Т.е. Р=Р1*Д(Р2). И дальше уточняем формулу. Вариантов можно придумать много. Это один из них.
Яндекс и Рамблер тоже оценивают страницы по-отдельности. Другое дело, что можно учитывать релевантность на уровне 95%страниц+5% релевантности страниц сайта. Из чего следует, что Гугл дает "чистые" результаты для конкретных страниц, совсем не учитывая вес других страниц на этом же сайте. А Я и Р чуть добавляют/уменьшают общий вес, смотря на другие, релевантные страницы этого же сайта (не все, а именно релевантные). Получается так.