statev

Рейтинг
17
Регистрация
17.10.2005
Dm:
Если каталог есть и его _можно использовать, это не означает что его _нужно использовать. Есть ведь не только видимые на первый взгляд плюсы, есть и минусы. Интернет стремительно растет, количество сайтов тоже очень быстро растет. Штат модераторов должен расти пропорционально росту количества сайтов. Представляете это?

Имхо при использовании каталога сейчас только по прямому назначению - еще один источник достоверной структурированной информации - он может быть действительно невыгоден поисковику именно по указанной вами причине. Здесь, имхо, есть коммерческая составляющая, выражающаяся не только в том, участие в каталоге Яндекса для коммерческих сайтов платное, но и в том, что это должно давать какую-то выгоду. Яндекс сейчас - хороший поисковик по товарам, но не по информации другого рода. Это личный опыт, конечно, не обобщение. Но за информацией в последнее время хожу в Рамблер и Гугл. Поэтому почему бы за участие в каталоге не премировать сайт хорошим весом ссылки? В данном случае, морду. Не факт, но вариант.

Angelika:
Почему "кроме" ? В этом и есть основной смысл каталога.

Мне кажется сейчас гораздо реже, нежели раньше, люди пользуются каталогом как источником информации. Чаще всего вводят запрос в строку поиска. Поисковым машинам можно получать пользу от хорошей коллекции отобранных сайтов. Например, давать больший вес ссылкам с сайтов, участвующих в каталоге, потому что это проверенные сайты.

greenwood:
стоп !
а вот тут можно уйти и не по неверному пути.
морда имеет вес за счет чего : ?
1. то что на ее все ссылаются
2. просто за то что это морда

дело в том что к примеру гугля похоже ушла от практики давать высокий статус морде только за то что она морда ( как это было раньше )

Думаю, то, что на нее ссылаются. Иначе будет совсем беспредел, т.е. перекос морды. Правда, здесь сами по себе ссылки не всегда верны и людям проще давать ссылки на сайты, чем на конкретные страницы. Тонкий момент.

Angelika:
Мне кажется - ошибка здесь. Не сайтов, а документов.

Разумно. Тогда стоит определиться с целями и задачами каталога сайтов у поисковой машины. Кроме работы каталога в чистом виде - структуры, по которой пользователь ищет интересующую его информацию. У кого есть предложения?

Dm:

В этом случае (раз уж мы о частностях) проще назначить такому каталогу искусственный вИЦ.

Я о таком случае и говорю.

Dm:

Тут тебе и вИЦевая ссылка на сайт будет и ссылочное ранжирование по тексту ссылки. Но есть огромное НО. Поисковики стремятся дать пользователю нужную _страницу_, а не сайт. А в каталогах в большинстве случаев ссылка на _сайт_. А сайт бывает из нескольких тематик.

Ссылаются всегда больше на сайт. Главная страница всегда имеет больший вес.

Dm:

Не факт, что страница на тематическом сайте лучше страницы на нетематическом.

Безусловно, это так. Но кроме ссылки из каталога поисковика есть еще множество других ссылок с других сайтов.

Кстати, с каталогом, практически так и делал Рамблер, когда подмешивал результаты из топ100. Конечно, можно было просто давать существенный коэффициент исходя из посещаемости ресурса, опираясь на релевантность его страниц. А можно использовать описание из каталога. У Рамблера имхо, это до сих пор осталось - влияние описания из каталога топ100. Другое дело, что смешиваясь с остальными факторами, его вес не так велик.

fj23:
Да, но к сожалению пользователи любят искать так: сначала "лучший бегемот", а потом приписать "москва", т.е. поисковая строка "лучший бегемот москва". Ну и все в нижнем регистре конечно. Лениво большинству набирать предлоги и в верхнем регистре буквы. Т.е. в выдаче вверху будет тот, на кого ссылки именно "лучший бегемот москва" (при прочих равных условиях).

Это да. Такой вот механизм ранжирования у Яндекса. Но может, и имеет место взвешенность ссылок. Хотя, имхо накладно каждый раз налету анализировать разницу текстов ссылок. А делать это заранее, в индексе, для ссылок на каждый сайт, может получиться еще накладнее. Хотя, может, Я так и делает. Все зависит от мощностей. Сделать-то можно все. Тут как обычно - прирост качества каждых следующих 5-ти процентов требует удвоение мощностей оборудования.

Dm:
А я бы не стал запариваться. Формула все равно не получится, а времени можно потерять очень много. Лучше давайте попробуем условия эксперимента сформулировать.


А Вы уверены, что ссылка из Каталога Яндекса привносит виц на сайт?

Это один из возможных вариантов. Описание сайта в каталоге может выступать в качестве текста ссылки с соответствующим весом. Мне кажется, что в основном присутствующие здесь пытаются угадать как и что, а разумнее имхо встать на место разработчиков поисковика и подумать как и что можно сделать. Например, пользователь делает запрос. Вам нужно выдать список релевантных сайтов. А у вас уже есть некоторое их количество, отобранное вручную и совершенно точно соответствующих запросу (описание сайтов соответствует запросу). Строго говоря, можно вообще выводить только сайты из каталога. Потому что это не мусор. Но так будет неправильно, т.к. игнорируются остальные. Тогда можно сделать так: дать ссылке (тексту ссылки) с каталога существенный вес и складывать этот вес с весами остальных ссылок.

Вообще, конечно, разговоры о вИЦ Яндекса - как разговоры о корабле Мария Селеста, команда которого пропала в Бермудском треугольнике. Даже разговоры о самих пропавших людях. Вроде, все они были, жили, но стали фантомами. И все пытаются угадать свойства этих фантомов. Говорить о конкретной реализации, наверное, не имеет смысла. Речь может идти об обычных разумных мерах, которые способствуют улучшению качества поиска.

wolf:
Тогда должны рулить одностраничные сайты :)

Не факт. То есть возможны варианты.

В любом случае, еще надо умножить на коэффициент ссылочного ранжирования.

Р=Р1*Д(Р2)*К1(текст ссылок, взятый по tf*idf, то бишь сумма ссылок, каждая со своим весом)*K2(Значимость сайта)

К2 - вИЦ или PageRank

Отдельной песней в К1 можно сделать присутствие в каталоге. Сказать, что вес ссылки из каталога - PR=6(это PR yaca), или вИЦ=большому числу

Angelika:
Есть подозрение - что никак. Знаю такой пример - есть очень объемный сайт, Яндекс знает около 150К страниц.
На каждой станице есть навигационная ссылка на морду с тестовым названием сайта. Понятно, что как ссылки эта навигация смысла не имеет, но текст ссылки является текстом страницы, во всяком случае он есть в "сохраненной копии".
Вполне возможно, что наличие ключевой фразы и не делает страницу очень уж релевантной, но их количество - 150К!
Если бы Яндекс учитывал релевантность страниц окружения - просто количеством можно было бы задавить все остальные сайты, но этого не происходит.

В этом случае формула может быть такая: Р=Р1*P2,

где Р1 - релевантость самой релевантной страницы на сайте

Р2 - некий средний вес по релевантности остальных страниц.

Поскольку на больших сайтах страниц, относящихся к теме, может быть много, но их средняя релевантность существенно меньше самой релевантной, итоговая релевантность занижается. Но при именно такой формуле чем больше страниц, тем меньше итоговая релевантность, что неправильно. т.к. большое количество страниц по теме означает явное соответствие сайта запросу. Значит, надо уменьшить влияние Р2 и, например, брать дисперсию от этих других многих страниц (но именно хоть сколько релевантных запросу). Т.е. Р=Р1*Д(Р2). И дальше уточняем формулу. Вариантов можно придумать много. Это один из них.

K. Ermakov:
Есть мнение, что Google не знает понятия сайт* и каждую страницу оценивает по отдельности. Потому и page rank считается для каждой страницы, и имеет место положительный эффект от т.н. "внутренней" перелинковки.

* - для группировки-то он может "узнавать" его...

Яндекс и Рамблер тоже оценивают страницы по-отдельности. Другое дело, что можно учитывать релевантность на уровне 95%страниц+5% релевантности страниц сайта. Из чего следует, что Гугл дает "чистые" результаты для конкретных страниц, совсем не учитывая вес других страниц на этом же сайте. А Я и Р чуть добавляют/уменьшают общий вес, смотря на другие, релевантные страницы этого же сайта (не все, а именно релевантные). Получается так.

Всего: 81