Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science

Спасибо всем за теплые слова!

А поисковики обязательно запустим, много-много и хорошие-хорошие. :) Причем, я надеюсь, как в России, так и на Украине.

Мне, конечно, сложно судить, но, возможно, мое мнение кому-то покажется интересным :)

Похоже, что многие понимают, что поисковые системы в том виде, в котором они сейчас существуют, уже явно изжили себя. Основная проблема тут даже не в том, что объем Сети огромен, а в том, что поисковики не умеют выделять новую информацию из общего потока документов, не говоря уже о том, чтобы каким-то образом ее структурировать.

Достаточно посмотреть поисковую выдачу любой поисковой системы - здесь перемешаны документы разных годов, разных тематик, часто дублирующие друг друга или уже давно утратившие актуальность. Причем пользователям приходится каждый раз, чертыхаясь, ее разгребать.

Поэтому очевидно, что менять нужно сам подход, а не алгоритмы определения формальной релевантности. Мы же, к сожалению, пока видим только соперничество искалок в духе кто больше выкачает. И никого не интересует, что 95% выкачанной информации - просто мусор или повторы.

А ведь нужная информация сама должна находить человека, причем всегда доставляться своевременно и оперативно. Поэтому, вероятнее всего, вскоре большое распространение могут получить системы, обладающие всеми поисковыми свойствами, но по-другому обрабатывающими собираемую информацию - мониторинговые системы.

В таких системах пользователю нужно будет лишь определить свой круг интересов и машина будет исправно снабжать его нужной информацией.

Можно посмотреть Search and Ranking Algorithms for Locating Resources on the World Wide Web, здесь на уровне идеи рассмотрены базовые алгоритмы ранжирования, применяемые в сети.

Поисковые стратегии неплохо описаны в Information Retrieval by C. J. van RIJSBERGEN (книге 1979 года), разделе 5.

Там же можно посмотреть все формулы из теории вероятностей.

А вообще читайте труды Сэлтона.

Пытаюсь сделать что то умное по этому поводу но пока ничего не получается
Откуда взялась такая тема -- диплом в университете
Я нахожусь в Киеве

А что за университет и факультет, если не секрет? Случайно не Факультет Информатики и Вычислительной Техники (ФИВТ) КПИ? :)

А что поиск с использованием СУБД будет медленнее работать, чем если сделать доступ к хранимым индексам с помощью своего какого-то компонента?

Да нет, просто если делать поиск с помощью СУБД, то на таких объемах информации, как у UaPortal'a, нормально работать он вообще не будет. Не годятся они для этого.

Я занимаюсь посковиком Uaportal.com

А что ж с поиском по каталогу, закрыли?

Вообще странно он как-то ищет, очень долго (почти минуту). Используете какую-то СУБД?

А что еще используется, какие другие алгоритмы?

Существует два подхода определения близости двух документов - на основе статистической модели (мера косинуса - LSA/LSI/PLSA и т.д.) и технологии, основанные на знаниях.

Стандартный алгоритм определения близости - можно рассчитать меру косинуса угла между двумя документами:

http://citeseer.nj.nec.com/ding99similaritybased.html

Обзор всех возможных методов можно почитать на

http://www.dialog-21.ru/Archive/2001/volume2/2_26.htm

Также можно посмотреть http://www.ksl.stanford.edu/people/stolle/Papers/brants-lrec.pdf , здесь неплохое введение в тему.

Благодаря неимоверным усилиям программистов Яндекса (и моей ма-а-аленькой помощи) запущен геотаргетинг по нескольким городам Украины

А в чем заключались эти "неимоверные усилия"? Яндексоиды не умеют пользоваться RIPE?

Ок, перевожу на русский :)

Еду сегодня в киевском метро, увлеченно читаю книжку по сетевым приложениям в Linux. Рядом сидит старушка, интеллигентная такая бабулька лет 70.

Через некоторое время бабулька не выдерживает и спрашивает:

- Извините, а вы еще учитесь или уже работаете?

Ну, думаю, вот попал - сейчас начнется лекция о благотворном влиянии

бога на человека или что-то в этом духе. Не, говорю, бабуль, я уже свое отучился и продолжаю читать книгу.

Проходит еще немного времени, и бабушка снова задает вопрос:

- Извините, а они, эти зомби, страшные?

Я сначала не врубился в суть вопроса, потом смотрю, а у меня в книге

раздел как раз называется "Уничтожение зомби". Нет, говорю, не волнуйтесь, зомби - это компьютерные программы, они не страшные. Бабулька понятливо кивает головой, а потом выдает:

- А они сильно действуют на психику?

Тут я заулыбался во весь рот и начинал объяснять, что есть такая вот

ШТУКА, компьютер называется, и все зомби водятся в нем. Следующий

вопрос чуть не поверг меня в панику:

- Извините, так этому семейству ничего не угрожает?

- Какому семейству?

Тут я опускаю глаза и вижу, что следующая глава называется "Функции семейства exec".

Вот такие вот бывают любознательные бабульки :)

Во-первых, там есть СпайЛог. Во-вторых, посещемость сайта (тем более поисковика) можно оценить и без счетчиков -- год назад я достаточно точно оценил посещаемость Lycos.ru (у них не было счетчиков), которая подвердилась потом официальными данными.

Посещаемость Punto в 30-40 тыс. человек в день выглядит как-то странно. Согласитесь, что при такой аудитории нет никакого смысла показывать контекстную рекламу бесплатно.

Если не секрет, по какой методике можно примерно оценить посещаемость ресурса, если на нем нет счетчиков?

Всего: 847