funsad

Рейтинг
116
Регистрация
15.11.2000

1. Если будут известны алгоритмы (доступен исходный код), я гаранитирую, что в течение месяца-двух появятся тысячи страниц, которые без труда обманут поисковик и попадут на первые места в результатах поиска. Релевантность упадет до нуля. Пользователи покинут поисковик. Что дальше?

2. Проекты Open Source хороши, когда речь идет о программе для одного пользователя. Яндекс работает с миллионами пользователей, база распределена по десяткам машин, ежедневно обрабатываются гигабайты трафика. Как, подскажите мне, может один программист улучшить работу поисковика, если у него нет такой базы для экспериментов (а собрать ее -- это сотни тысяч долларов)? Или этот программист надеется, что Яндекс предоставит ему все свои ресурсы для бесплатных экспериментов? Может, тогда и ПО для шаттлов и спутников разрабатывать на основе Open Source?

Нет, никакого раскрытия алгоритмов, уверен, не будет, равно как и Open Source. Поисковики -- не место для самодеятельности.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 25-11-2001).]

1. Если будут известны алгоритмы (доступен исходный код), я гаранитирую, что в течение месяца-двух появятся тысячи страниц, которые без труда обманут поисковик и попадут на первые места в результатах поиска. Релевантность упадет до нуля. Пользователи покинут поисковик. Что дальше?

2. Проекты Open Source хороши, когда речь идет о программе для одного пользователя. Яндекс работает с миллионами пользователей, база распределена по десяткам машин, ежедневно обрабатываются гигабайты трафика. Как, подскажите мне, может один программист улучшить работу поисковика, если у него нет такой базы для экспериментов (а собрать ее -- это сотни тысяч долларов)? Или этот программист надеется, что Яндекс предоставит ему все свои ресурсы для бесплатных экспериментов? Может, тогда и ПО для шаттлов и спутников разрабатывать на основе Open Source?

Нет, никакого раскрытия алгоритмов, уверен, не будет, равно как и Open Source. Поисковики -- не место для самодеятельности.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 25-11-2001).]

<font face="Verdana" size="2">Originally posted by Razor:
почему он выдает какой-то странный тайтл.</font>

Сайт еще не проиндексирован Яндексом, но уже найден по ссылкам. Так как его заголовок (title) не дает никакой информации (в данном случае особенно -- это только имя домена), то Яндекс пытается сам составить заголовок из текста ссылок на сайт. Результат не идеален, но, на мой взгляд, это лучше, чем бессмысленное "eygeny.com".

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Storm:
Любопытно, что эта "пип" творится регулярно.</font>

У меня все-таки такое впечатление, что делов в алгоритмах. Потому что по отслеживаемым мною запросам я вижу наверху то сайт Х, то сайт, Y, то сайт Z, и практически никогда другие из top-10. По моим прикидкам у X хороший вес по PageRank, на Y очень много страниц с ключевым словом, а Z удачно работает с текстом страницы. Я немножко поэкспериментировал на основании этих данных, и теперь остальные сайты скачут, а мой упорно держится за 2-м месте уже недели две. Наверное, ему там понравилось.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by AiK:
Не хорошо получается, мы вроде бы договорились, а фраза почти в неизмененном варианте перешла в печатное издание.</font>

Артем, это не совсем так. В этой ветке форума мы обсуждали обмен ссылками, а в статье говориться про внешние ссылки куда-либо. Да, в случае обмена можно подобрать такие сайты X и Y, что вес обоих после обмена увеличится. Но если ссылка с X уже указывает на Y, то обратная ссылка всегда уменьшает вес Y. Я не буду клясться, что ситуации, когда PR возрастет, не бывает, но я еще ни разу не встречал случая увеличения PR от простановки внешней ссылки.

<font face="Verdana" size="2">Если данное утверждение было бы верным, то страницы каталогов имели бы очень низкий вес, чего на самом деле не наблюдается.</font>

Страницы каталогов "вытягивают" свой вес за счет веса главной страницы. Совсем несложно проверить это на сайтах СМИ, где есть старые и новые статьи, например, "Нетоскопе". У главной страницы PageRank по Google равен 6/10, но у новой статьи (еще не проиндексированной) он равен 1/10. В то же время, старый раздел о рекламе на сайте имет PR 5/10 -- я не очень верю, чтобы на него активно ссылались.

В то же время, в каталоге DMOZ главная страница имеет PR 9/10, раздел первого уровня -- уже PR 8/10, раздел третьего уровня -- PR 7/10, четвертого уровня -- 6/10, пятого уровня -- PR 5/10, шестого уровня -- PR 4/10 и т.д.

Если бы не большое число ссылок на страницах, PR этих страниц был бы значительно выше. Так что, если мое мнение учитывается, я против поправки в статье.

<font face="Verdana" size="2">З.Ы: если есть желание, могу переслать предпоследний вариант микса наших статей. </font>

Oops! Процесс идет полным ходом. Яндекс предлагает на Кубке вопрос о коктейлях без смешивания, а Чип мешает и колдует над рецептом.

С уважением,

Александр Садовский.

P.S. Буду благодарен за предпоследний вариант.

[This message has been edited by funsad (edited 22-11-2001).]

<font face="Verdana" size="2">Originally posted by hungry:
Неужели у каждой страници LP больше или равен 0.15 по умолчанию???</font>

Да. Но так как 0,15 -- минимум, то он ни капли не увеличивает вес страницы. Думаю, что при расчете релевантности в Google может использоваться множитель вроде (PR - 0,15).

<font face="Verdana" size="2">Что понимать под out-links.</font>

Ссылки, присутствующие на странице X -- для нее это out-links. Для страниц, на которые эти ссылки ссылаются, они in-links.

<font face="Verdana" size="2">Ссылки на страницы того же самого ресурса считаются таковыми??? На LP влияет не одна страница сайта с одного сайта, а все ссылающиеся страницы с этого сайта?</font>

Ответы на эти вопросы зависят от конкретного поисковика. Для Google, например, оба ответа "да".

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by JuriC:
Другими словами - если страница не вписывается в тему других страниц сайта - то ее лучше разместить на другом сервере чтобы не засорять тематику этого сайта. Так что ли?</font>

Одна страница, она не сыграет роли. Но если таких страниц наберется 10-20%, то действительно их лучше помещать отдельно.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by Gray:
Правда, сомневаюсь, чтобы это работало более-менее надежно.</font>

Результат зависит от качества описаний тематик. Современные алгоритмы позволяют определить тему довольно качественно и надежно.

С уважением,

Александр Садовский.

<font face="Verdana" size="2">Originally posted by JuriC:
что такое тематические SE?</font>

Это SE, которые, кроме обычных методов вычисления релевантности, стараются выяснить тему сайта. Определяется она, как правило, на основании анализа частот слов в тексте и сравнения с заранее построенными (на основе "образцовых" документов) описаниями тематик.

В описании тематики используется, как правило, от 10 до 30 терминов. Чтобы выяснить, какие слова документов включать в описание, для каждого из них определяется значимость его для конкретной тематики, основанная на частоте встречаемости слова в данной теме (чем больше, тем лучше) и в других темах (чем меньше, тем лучше).

Документ может относиться к нескольким темам сразу, если в нем доминируют слова из описаний нескольких тематик.

Существуют методы классификации по темам на основе анализа ссылок из тематически однородной группы образцовых страниц (например, из раздела каталога), но гораздо качественней работают смешанные методы, использующие как текстовое содержимое, так и авторитетность в ссылках среди данной тематики (Hilltop, алгоритм тематической дистилляции Клейнберга и др.).

Результаты классификации могут отображаются пользователю, чтобы он мог сузить тематику поиска. Мне неизвестно, работает ли с темами сайтов Northern Light (в их Custom Folders), но алгоритм отображения категорий каталога Яндекса, похоже, использует не темы сайтов, а простой подсчет, сколько сайтов из результатов поиска, присутствующих в каталоге Яндекса, оказалось в той или иной категории.

Автоматическая классификация возможна также без предварительного описания тематик, лишь на основе статистистического профиля релеватных документов данной группы с исключением тех, кто не попадает в этот профиль. Но данный метод хотя и проще в реализации, больше подвержен шумам и не дает пользователю возможности сузить категорию поиска, поэтому он используется редко.

С точки зрения оптимизации сайтов необходимо, чтобы сайт был классифицирован должным образом. Если SE не использует информацию о ссылках, то в общем случае достаточно, чтобы самые распространенные слова нужной темы (и мало использующиеся в других темах) часто встречались в тексте страниц сайта.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 17-11-2001).]

<font face="Verdana" size="2">Originally posted by NightWing:
1) Не могут ли уважаемые коллеги поделится своими данными о посещаемости с лайкоса?</font>

Прямых данных о посещаемости у меня нет, но по моим собственным оценкам через Лайкос.Ру ежедневно проходят 3-5 тысяч хостов, что совсем немного для поисковика.

С уважением,

Александр Садовский.

Всего: 1503