1. Если будут известны алгоритмы (доступен исходный код), я гаранитирую, что в течение месяца-двух появятся тысячи страниц, которые без труда обманут поисковик и попадут на первые места в результатах поиска. Релевантность упадет до нуля. Пользователи покинут поисковик. Что дальше?
2. Проекты Open Source хороши, когда речь идет о программе для одного пользователя. Яндекс работает с миллионами пользователей, база распределена по десяткам машин, ежедневно обрабатываются гигабайты трафика. Как, подскажите мне, может один программист улучшить работу поисковика, если у него нет такой базы для экспериментов (а собрать ее -- это сотни тысяч долларов)? Или этот программист надеется, что Яндекс предоставит ему все свои ресурсы для бесплатных экспериментов? Может, тогда и ПО для шаттлов и спутников разрабатывать на основе Open Source?
Нет, никакого раскрытия алгоритмов, уверен, не будет, равно как и Open Source. Поисковики -- не место для самодеятельности.
С уважением,
Александр Садовский.
[This message has been edited by funsad (edited 25-11-2001).]
Сайт еще не проиндексирован Яндексом, но уже найден по ссылкам. Так как его заголовок (title) не дает никакой информации (в данном случае особенно -- это только имя домена), то Яндекс пытается сам составить заголовок из текста ссылок на сайт. Результат не идеален, но, на мой взгляд, это лучше, чем бессмысленное "eygeny.com".
У меня все-таки такое впечатление, что делов в алгоритмах. Потому что по отслеживаемым мною запросам я вижу наверху то сайт Х, то сайт, Y, то сайт Z, и практически никогда другие из top-10. По моим прикидкам у X хороший вес по PageRank, на Y очень много страниц с ключевым словом, а Z удачно работает с текстом страницы. Я немножко поэкспериментировал на основании этих данных, и теперь остальные сайты скачут, а мой упорно держится за 2-м месте уже недели две. Наверное, ему там понравилось.
Артем, это не совсем так. В этой ветке форума мы обсуждали обмен ссылками, а в статье говориться про внешние ссылки куда-либо. Да, в случае обмена можно подобрать такие сайты X и Y, что вес обоих после обмена увеличится. Но если ссылка с X уже указывает на Y, то обратная ссылка всегда уменьшает вес Y. Я не буду клясться, что ситуации, когда PR возрастет, не бывает, но я еще ни разу не встречал случая увеличения PR от простановки внешней ссылки.
Страницы каталогов "вытягивают" свой вес за счет веса главной страницы. Совсем несложно проверить это на сайтах СМИ, где есть старые и новые статьи, например, "Нетоскопе". У главной страницы PageRank по Google равен 6/10, но у новой статьи (еще не проиндексированной) он равен 1/10. В то же время, старый раздел о рекламе на сайте имет PR 5/10 -- я не очень верю, чтобы на него активно ссылались.
В то же время, в каталоге DMOZ главная страница имеет PR 9/10, раздел первого уровня -- уже PR 8/10, раздел третьего уровня -- PR 7/10, четвертого уровня -- 6/10, пятого уровня -- PR 5/10, шестого уровня -- PR 4/10 и т.д.
Если бы не большое число ссылок на страницах, PR этих страниц был бы значительно выше. Так что, если мое мнение учитывается, я против поправки в статье.
Oops! Процесс идет полным ходом. Яндекс предлагает на Кубке вопрос о коктейлях без смешивания, а Чип мешает и колдует над рецептом.
P.S. Буду благодарен за предпоследний вариант.
[This message has been edited by funsad (edited 22-11-2001).]
Да. Но так как 0,15 -- минимум, то он ни капли не увеличивает вес страницы. Думаю, что при расчете релевантности в Google может использоваться множитель вроде (PR - 0,15).
Ссылки, присутствующие на странице X -- для нее это out-links. Для страниц, на которые эти ссылки ссылаются, они in-links.
Ответы на эти вопросы зависят от конкретного поисковика. Для Google, например, оба ответа "да".
Одна страница, она не сыграет роли. Но если таких страниц наберется 10-20%, то действительно их лучше помещать отдельно.
Результат зависит от качества описаний тематик. Современные алгоритмы позволяют определить тему довольно качественно и надежно.
Это SE, которые, кроме обычных методов вычисления релевантности, стараются выяснить тему сайта. Определяется она, как правило, на основании анализа частот слов в тексте и сравнения с заранее построенными (на основе "образцовых" документов) описаниями тематик.
В описании тематики используется, как правило, от 10 до 30 терминов. Чтобы выяснить, какие слова документов включать в описание, для каждого из них определяется значимость его для конкретной тематики, основанная на частоте встречаемости слова в данной теме (чем больше, тем лучше) и в других темах (чем меньше, тем лучше).
Документ может относиться к нескольким темам сразу, если в нем доминируют слова из описаний нескольких тематик.
Существуют методы классификации по темам на основе анализа ссылок из тематически однородной группы образцовых страниц (например, из раздела каталога), но гораздо качественней работают смешанные методы, использующие как текстовое содержимое, так и авторитетность в ссылках среди данной тематики (Hilltop, алгоритм тематической дистилляции Клейнберга и др.).
Результаты классификации могут отображаются пользователю, чтобы он мог сузить тематику поиска. Мне неизвестно, работает ли с темами сайтов Northern Light (в их Custom Folders), но алгоритм отображения категорий каталога Яндекса, похоже, использует не темы сайтов, а простой подсчет, сколько сайтов из результатов поиска, присутствующих в каталоге Яндекса, оказалось в той или иной категории.
Автоматическая классификация возможна также без предварительного описания тематик, лишь на основе статистистического профиля релеватных документов данной группы с исключением тех, кто не попадает в этот профиль. Но данный метод хотя и проще в реализации, больше подвержен шумам и не дает пользователю возможности сузить категорию поиска, поэтому он используется редко.
С точки зрения оптимизации сайтов необходимо, чтобы сайт был классифицирован должным образом. Если SE не использует информацию о ссылках, то в общем случае достаточно, чтобы самые распространенные слова нужной темы (и мало использующиеся в других темах) часто встречались в тексте страниц сайта.
[This message has been edited by funsad (edited 17-11-2001).]
Прямых данных о посещаемости у меня нет, но по моим собственным оценкам через Лайкос.Ру ежедневно проходят 3-5 тысяч хостов, что совсем немного для поисковика.