Что такое тематические SE?

JC
На сайте с 13.09.2001
Offline
44
897

Вот такая перспектива намечается - прочитал я, что появляются тематические SE и у кого на сайте сплошной супермаркет - тому не попасть даже в десятую сотку результатов поиска. Выживут только узкотематики. И вроде бы АлтаВиста этим делом занимается. Короче не знаю - может что не так понял, но общий смысл ясен - технологии поиска меняются. Так это и есть мой вопрос - что такое тематические SE?

F
На сайте с 15.11.2000
Offline
116
#1

<font face="Verdana" size="2">Originally posted by JuriC:
что такое тематические SE?</font>

Это SE, которые, кроме обычных методов вычисления релевантности, стараются выяснить тему сайта. Определяется она, как правило, на основании анализа частот слов в тексте и сравнения с заранее построенными (на основе "образцовых" документов) описаниями тематик.

В описании тематики используется, как правило, от 10 до 30 терминов. Чтобы выяснить, какие слова документов включать в описание, для каждого из них определяется значимость его для конкретной тематики, основанная на частоте встречаемости слова в данной теме (чем больше, тем лучше) и в других темах (чем меньше, тем лучше).

Документ может относиться к нескольким темам сразу, если в нем доминируют слова из описаний нескольких тематик.

Существуют методы классификации по темам на основе анализа ссылок из тематически однородной группы образцовых страниц (например, из раздела каталога), но гораздо качественней работают смешанные методы, использующие как текстовое содержимое, так и авторитетность в ссылках среди данной тематики (Hilltop, алгоритм тематической дистилляции Клейнберга и др.).

Результаты классификации могут отображаются пользователю, чтобы он мог сузить тематику поиска. Мне неизвестно, работает ли с темами сайтов Northern Light (в их Custom Folders), но алгоритм отображения категорий каталога Яндекса, похоже, использует не темы сайтов, а простой подсчет, сколько сайтов из результатов поиска, присутствующих в каталоге Яндекса, оказалось в той или иной категории.

Автоматическая классификация возможна также без предварительного описания тематик, лишь на основе статистистического профиля релеватных документов данной группы с исключением тех, кто не попадает в этот профиль. Но данный метод хотя и проще в реализации, больше подвержен шумам и не дает пользователю возможности сузить категорию поиска, поэтому он используется редко.

С точки зрения оптимизации сайтов необходимо, чтобы сайт был классифицирован должным образом. Если SE не использует информацию о ссылках, то в общем случае достаточно, чтобы самые распространенные слова нужной темы (и мало использующиеся в других темах) часто встречались в тексте страниц сайта.

С уважением,

Александр Садовский.

[This message has been edited by funsad (edited 17-11-2001).]

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#2

Добавлю, что, в основном, эту технологию использует Альтависта, о чем сильно шумели в прошлом году. Не думаю, что тебе сильно повредит это - идея состоит в том, чтобы уменьшить шум в результатах - убрать релевантные, но не тематические страницы. Правда, сомневаюсь, чтобы это работало более-менее надежно.

F
На сайте с 15.11.2000
Offline
116
#3

<font face="Verdana" size="2">Originally posted by Gray:
Правда, сомневаюсь, чтобы это работало более-менее надежно.</font>

Результат зависит от качества описаний тематик. Современные алгоритмы позволяют определить тему довольно качественно и надежно.

С уважением,

Александр Садовский.

JC
На сайте с 13.09.2001
Offline
44
#4

Другими словами - если страница не вписывается в тему других страниц сайта - то ее лучше разместить на другом сервере чтобы не засорять тематику этого сайта. Так что ли?

F
На сайте с 15.11.2000
Offline
116
#5

<font face="Verdana" size="2">Originally posted by JuriC:
Другими словами - если страница не вписывается в тему других страниц сайта - то ее лучше разместить на другом сервере чтобы не засорять тематику этого сайта. Так что ли?</font>

Одна страница, она не сыграет роли. Но если таких страниц наберется 10-20%, то действительно их лучше помещать отдельно.

С уважением,

Александр Садовский.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий