Спасибо всем за теплые слова!
А поисковики обязательно запустим, много-много и хорошие-хорошие. :) Причем, я надеюсь, как в России, так и на Украине.
Мне, конечно, сложно судить, но, возможно, мое мнение кому-то покажется интересным :)
Похоже, что многие понимают, что поисковые системы в том виде, в котором они сейчас существуют, уже явно изжили себя. Основная проблема тут даже не в том, что объем Сети огромен, а в том, что поисковики не умеют выделять новую информацию из общего потока документов, не говоря уже о том, чтобы каким-то образом ее структурировать.
Достаточно посмотреть поисковую выдачу любой поисковой системы - здесь перемешаны документы разных годов, разных тематик, часто дублирующие друг друга или уже давно утратившие актуальность. Причем пользователям приходится каждый раз, чертыхаясь, ее разгребать.
Поэтому очевидно, что менять нужно сам подход, а не алгоритмы определения формальной релевантности. Мы же, к сожалению, пока видим только соперничество искалок в духе кто больше выкачает. И никого не интересует, что 95% выкачанной информации - просто мусор или повторы.
А ведь нужная информация сама должна находить человека, причем всегда доставляться своевременно и оперативно. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - мониторинговые системы.
В таких системах пользователю нужно будет лишь определить свой круг интересов и машина будет исправно снабжать его нужной информацией.
Можно посмотреть Search and Ranking Algorithms for Locating Resources on the World Wide Web, здесь на уровне идеи рассмотрены базовые алгоритмы ранжирования, применяемые в сети.
Поисковые стратегии неплохо описаны в Information Retrieval by C. J. van RIJSBERGEN (книге 1979 года), разделе 5.
Там же можно посмотреть все формулы из теории вероятностей.
А вообще читайте труды Сэлтона.
А что за университет и факультет, если не секрет? Случайно не Факультет Информатики и Вычислительной Техники (ФИВТ) КПИ? :)
Да нет, просто если делать поиск с помощью СУБД, то на таких объемах информации, как у UaPortal'a, нормально работать он вообще не будет. Не годятся они для этого.
А что ж с поиском по каталогу, закрыли?
Вообще странно он как-то ищет, очень долго (почти минуту). Используете какую-то СУБД?
Существует два подхода определения близости двух документов - на основе статистической модели (мера косинуса - LSA/LSI/PLSA и т.д.) и технологии, основанные на знаниях.
Стандартный алгоритм определения близости - можно рассчитать меру косинуса угла между двумя документами:
http://citeseer.nj.nec.com/ding99similaritybased.html
Обзор всех возможных методов можно почитать на
http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm
Также можно посмотреть http://www.ksl.stanford.edu/people/stolle/Papers/brants-lrec.pdf , здесь неплохое введение в тему.
А в чем заключались эти "неимоверные усилия"? Яндексоиды не умеют пользоваться RIPE?
Ок, перевожу на русский :)
Еду сегодня в киевском метро, увлеченно читаю книжку по сетевым приложениям в Linux. Рядом сидит старушка, интеллигентная такая бабулька лет 70.
Через некоторое время бабулька не выдерживает и спрашивает:
- Извините, а вы еще учитесь или уже работаете?
Ну, думаю, вот попал - сейчас начнется лекция о благотворном влиянии
бога на человека или что-то в этом духе. Не, говорю, бабуль, я уже свое отучился и продолжаю читать книгу.
Проходит еще немного времени, и бабушка снова задает вопрос:
- Извините, а они, эти зомби, страшные?
Я сначала не врубился в суть вопроса, потом смотрю, а у меня в книге
раздел как раз называется "Уничтожение зомби". Нет, говорю, не волнуйтесь, зомби - это компьютерные программы, они не страшные. Бабулька понятливо кивает головой, а потом выдает:
- А они сильно действуют на психику?
Тут я заулыбался во весь рот и начинал объяснять, что есть такая вот
ШТУКА, компьютер называется, и все зомби водятся в нем. Следующий
вопрос чуть не поверг меня в панику:
- Извините, так этому семейству ничего не угрожает?
- Какому семейству?
Тут я опускаю глаза и вижу, что следующая глава называется "Функции семейства exec".
Вот такие вот бывают любознательные бабульки :)
Посещаемость Punto в 30-40 тыс. человек в день выглядит как-то странно. Согласитесь, что при такой аудитории нет никакого смысла показывать контекстную рекламу бесплатно.
Если не секрет, по какой методике можно примерно оценить посещаемость ресурса, если на нем нет счетчиков?