Идея умного каталога сайтов

12 3
S
На сайте с 16.05.2005
Offline
107
1645

Уже больше месяца вынашиваю идею создания так сказать интеллектуального каталога :) , интеллектуальность которого, заключается в том, что он сам будет рубрицировать сайты (опционально). Т.е. человек добавляет сайт, спустя некоторое время (индексация), система сама распределит сайт в соответствующие контенту рубрики. Безусловно, человек может и отключить автоматическое рубрицирование и вручную указать нужные рубрики, но в любом случае, позиция сайта в списке будет вычисляться по стандартной формуле + значение принадлежности контента сайта к рубрике. Конечно, в данном случае, сами рубрики (темы) будут несколько своеобразны. Рубрики ВСЕ ДЛЯ ДОМА и тд. не будет. Будут специфические (прим. верхние рубрики): МЕДИЦИНА, АВИАЦИЯ, ТЕХНИКА, РЫБОВОДСТВО и тд... причем рубрицироваться будут страницы сайта! У каталога два режима будет, вывод сайтов в рубриках или страниц. Безусловно релевантней к рубрике будут страницы...

Что скажите? Нужен ли такой каталог?

PoMka
На сайте с 22.07.2007
Offline
55
#1
snark:
Уже больше месяца вынашиваю идею создания так сказать интеллектуального каталога :) , интеллектуальность которого, заключается в том, что он сам будет рубрицировать сайты (опционально). Т.е. человек добавляет сайт, спустя некоторое время (индексация), система сама распределит сайт в соответствующие контенту рубрики. Безусловно, человек может и отключить автоматическое рубрицирование и вручную указать нужные рубрики, но в любом случае, позиция сайта в списке будет вычисляться по стандартной формуле + значение принадлежности контента сайта к рубрике. Конечно, в данном случае, сами рубрики (темы) будут несколько своеобразны. Рубрики ВСЕ ДЛЯ ДОМА и тд. не будет. Будут специфические (прим. верхние рубрики): МЕДИЦИНА, АВИАЦИЯ, ТЕХНИКА, РЫБОВОДСТВО и тд... причем рубрицироваться будут страницы сайта! У каталога два режима будет, вывод сайтов в рубриках или страниц. Безусловно релевантней к рубрике будут страницы...


Что скажите? Нужен ли такой каталог?

А как Вы определите рубрику (тематику) контента?

WebSeizeTool (http://webseizetool.com) - Инструмент для работы с cPanel, ISPmanager, Plesk - через один интерфейс!
S
На сайте с 16.05.2005
Offline
107
#2

PoMka, у меня есть большая база для статистической обработки текста. Т.е. привязка слов к рубрикам с процентом принадлежности.

Например:

Слово "Морфин": Наркотики 95%, Медицина 5%

Причем слово "сайт" система относит к: Иммунология 50% (какие-то там активные участки белка сайтом называются), Генетика 19%, Вычеслительная техника: 11%, Microsoft 10%

T
На сайте с 30.01.2006
Offline
109
#3
snark:

Что скажите? Нужен ли такой каталог?

я тоже самое подумал, а смысл?

Гугл учит терпению!
S
На сайте с 16.05.2005
Offline
107
#4

tutonhamon_, а вы понимаете вообще сам смысл каталогов?

LiteCat
На сайте с 03.05.2007
Offline
240
#5

Вопрос другой - а будет ли оно кому полезно - ведь каталоги в принципе не используются рядовыми пользователями - а те, кто добавляет в них свои сайты - им удобнее указать топик чем ждать ответа робота (будет ли он верен) :)

SubAqua
На сайте с 21.10.2005
Offline
199
#6

snark, давайте от теории к практике. Берем документ, смотрим на результат.

Автоматическая рубрикация - это доля погрешности. И чем глубже Вы сделаете рубрикатор

Медицина > Хирургия

Медицина > Стоматология

Медицина > Стоматология > По регионам

Медицина > ...

тем больше будет погрешность.

Таким образом, можно сделать предварительный вывод: для корректной работы (читай минимум погрешности), рубрикатор должен быть достаточно поверхностный. Аналог скажем Rambler-Top 100.

S
На сайте с 16.05.2005
Offline
107
#7

Еще раз повторюсь, что на данный момент релевантность страницы высчитывается стандартным способом, т.е. там PR тИЦ ну еще там что-нить. Уникальность данного каталога будет еще в том, что в рубрике к стандартной формуле, будет также приплюсоваться еще и процент принадлежности. И соответственно, релевантность будет еще точнее. Автоматический режим, будет полезен, для того, чтобы именно страницы сайта были разбросаны по соответствующим рубрикам. Тоже самое и с размещением статей.

SubAqua, в базе рубрика МЕДИЦИНА и СТОМАТОЛОГИЯ равнозначны. Это я уже в ручную буду строить дерево.

SubAqua
На сайте с 21.10.2005
Offline
199
#8
snark:
в базе рубрика МЕДИЦИНА и СТОМАТОЛОГИЯ равнозначны

Равнозначны при определении тематики? Или в каталоге равны как соседние категории?

snark:
Это я уже в ручную буду строить дерево.

Не совсем понял.

[Удален]
#9

а зачем все это?

в таком случае подразумевается отсутствие ручной модерации, ведь в этом же суть?

не считаете ли вы, что в таком случае каталог просто будет кучей мусора?

ведь главное - это не распределение сайтов по рубрикам, а само качество этих сайтов.

[Удален]
#10
Что скажите?

Скажу что диавол в реализации: если твой каталог будет правда очень "умным" ты на этой технологии озолотишься, а если нет, то будет еще одна странная мусорка. :)

12 3

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий