В основе всего этого, лежит не авторубрицирование, а лучшая релевантность вывода! Ручная модерация безусловно будет!
Ну как это оочень умным? Тут исскуственного интеллекта нет, просто огромная БД соответствий по 650 рубрикам! Все четко! Правда БД эту я, мягко сказать, зе@#ся собирать...
С удовольствием бы выслушал предложения! На данном этапе есть робот, который сейчас пыхтит над анализов ВСЕГО интернета. Выделения главных рубрик сети! :) Ну это так, на фоне, чтобы сервер не простаивал, пусть вкалывает!
Еще раз повторюсь, что на данный момент релевантность страницы высчитывается стандартным способом, т.е. там PR тИЦ ну еще там что-нить. Уникальность данного каталога будет еще в том, что в рубрике к стандартной формуле, будет также приплюсоваться еще и процент принадлежности. И соответственно, релевантность будет еще точнее. Автоматический режим, будет полезен, для того, чтобы именно страницы сайта были разбросаны по соответствующим рубрикам. Тоже самое и с размещением статей.
SubAqua, в базе рубрика МЕДИЦИНА и СТОМАТОЛОГИЯ равнозначны. Это я уже в ручную буду строить дерево.
tutonhamon_, а вы понимаете вообще сам смысл каталогов?
PoMka, у меня есть большая база для статистической обработки текста. Т.е. привязка слов к рубрикам с процентом принадлежности.
Например:
Слово "Морфин": Наркотики 95%, Медицина 5%
Причем слово "сайт" система относит к: Иммунология 50% (какие-то там активные участки белка сайтом называются), Генетика 19%, Вычеслительная техника: 11%, Microsoft 10%
rypy, ааааа... ))) сколько не говорил себе, что никогда этого делать ну буду - не получилось! Прошу прощения!
В гугле я на второй странице, а в яндексе меня вообще по этому запросу нет... в title и описаниях "короткие рассказы" есть, но в выдаче нет... (
snark добавил 01.09.2008 в 18:47
Щас посмотрел, что этот запрос всего 1200 людей ищут в месяц. Блин, не могу я с анкорами определится...
Аналогичная тема, тырят сайт уже около месяца (большая очень база) ! Задолбался я IP банить, кроме как ограничить время между запросами до 5 секунд, выхода не нашел...
Top for the good, алгоритм вычисления ассоциаций самый сложный в этом проекте! Но на мой взляд, достаточно удачный...
Тогда может и не стоит размещать те старые статьи, которых думаю полно везде? Может лучше из 500 не уникальный статей, сделать 20-30 уникальных, а не те забить или пусть болтается?
snark добавил 19.08.2008 в 18:56
Яндекс ведь берет в свою РСЯ сайты (если я не ошибаюсь) только от 500 уников в день! А их набрать сначало надо...
Что-то я совсем запутался...
На сайте около 500 статей, включая отсканированные из книг материалы. Энциклопедия рыб, растений и болезней, модуль поиска болезней по симптомам. Дело в том, что я не очень понимаю, что значит заниматься сайтом, сайты делать я умею, с дизайном тоже дружу. Контент будет пополнятся. Вы это называете заниматься сайтом? Вопрос в другом, вы конечно понимаете, сколько нужно на это тратить сил, и конечно также хотите получать прибыль за проделанную работу. Вот и я тоже хочу и поэтому и пишу здесь, сможет ли такой сайт приносить прибыль? А под "таким сайтом" подразумевается наличие конкурентов сильных, 90% не уникального текста. Но есть и плюсы, сайт для людей, хороший, удобный и красивый! )
PoMka, безоны точно есть... например: http://www.aqa.ru/
Если 50-60 в мес тратить, и если будет трафа на 300-500 уников в день, то окупится затраты даже контекстной рекламой?