Vyacheslav Tikhonov

Рейтинг
130
Регистрация
27.01.2001
Должность
Developer
Интересы
search engines, bots, information retrieval, data mining
Master's Degree in Computer Science


А это две большие разницы - есть еще ключевые слова, по которым сайт могли бы находить, но не находят, потому что таких ключевых слов на нем нет (или потому что формулировки сложных запросов не соответствуют).

В принципе, если анализировать содержимое каждой страницы хотя бы из первой десятки результатов поиска, то такие слова найти можно. Но черт его знает, сколько нужно ресурсов, чтобы на ходу выкачивать страницы и обрабатывать в режиме реального времени.

Originally posted by AiK:
Хорошо, я могу написать аддон, который не будет пускать посетителей с анонимных проксей и проверять реальный IP c обычных.

Ну, ребята, вы уже начинаете рассуждать примерно также, как и в Яндексе Только введение каких-либо ограничений будет наоборот способствовать поиску путей их обхода.

[This message has been edited by Vyacheslav Tikhonov (edited 27-03-2002).]

Originally posted by iseg:
Я все-таки не понял о каких компонентах метапоисковой технологии из вашего письма

идет речь в случае с vivsimo? Где можно почитать о реализации метапоиска в vivsimo?

С уважением,
Илья

vivisimo я привел как пример удачной системы кластеризации. Как они умудряются на ходу собирать эти кластеры, с центроидами или без, неизвестно, да и не суть важно. Не важно даже, кластеры собираются на полнотекстовом поиске или метапоиске.

Насколько я понимаю, с кластерной технологией можно не только организовать query routing, но и отслеживать самые обновляющиеся документы внутри одной СТРУКТУРИРОВАННОЙ коллекции и тем самым эффективно эту коллекцию обновлять. Кроме этого, похоже, можно неплохо отслеживать "похожие" документы, которые будут лежать рядом.

Видимо, сейчас в Яндексе из семантики максимум используется смартовская "функция косинуса" для нахождения похожих документов?

Originally posted by iseg:
То есть вы хотите сказать, что vivisimo часть запросов шлет на альтависту, а часть на fast?

Такого эффекта не наблюдал

Ну Вы же просили ссылку на ПОДОБНУЮ технологию.

Или технология vivisimo собирает кластера недостаточно хорошо, чтобы можно было организовать маршрутизацию запросов?

Originally posted by iseg:
Вячеслав, а Вы знаете примеры _работающей_ технологии, подобной описанной Вами? Не поделитесь ссылкой?

С уважением,
Илья

http://vivisimo.com ,например

Originally posted by andrey frolov:
с террабайтом поздравить можно.
Яндекс дает посетителя это факт, но как поисковик он очень далек от совершенства.
Индексирует долго, глючит, непонятно рейтингует... чего ура не понятно...
Оно (яндекс) такое индексирует иной раз что диву даешься...

Судя по тому, что они пишут, сейчас в Яндексе все свалено в одну кучу - коллекции документов вообще формируются случайным образом. Я думал у них там все давно на кластерах, рассчитывают центроиды и по-научному собирают коллекции похожих документов, после чего отправляют запросы в нужные коллекции

А так оказывается все просто.

Originally posted by NightWing:
Вячеслав, вы позновато зашли помнится. А 403 у меня тоже появилось, в 18.00.

То есть я просто опоздал на форум?

Возможно, у нас в Киеве время сдвинуто относительно Москвы на час назад...

Originally posted by funsad:
Как уже написал в новостях Gray , Яндекс в честь первого терабайта организует форум с разработчиками поисковика . Уникальная возможность задать вопросы всей команде: Бровкину, Ильинскому, Маслову, Сегаловичу и Тейблюму. Ответы начнутся сегодня в 16:00, задавать вопросы уже можно сейчас.

С уважением,
Александр Садовский.

Странный какой-то получился форум. Задал несколько вполне нормальных вопросов о маршрутизации запросов, за что тут же получил ошибку 403, после чего вопросы просто "отстреляли". Честно говоря не понял за что, видимо, за прошлые "заслуги".

Или у кого-то тоже было подобное?

Originally posted by Kopiy:
У меня во всех результатах выдавалось такое:

Abort trap (no core dumped)
Bus error (core mailed)

- найден по ссылке
Похожие документы | Еще с сервера не менее 0 док.

Копий Дмитрий

core dumped - нормальная реакция любой бинарной программы с глюками, запущенной под UNIX.

Обычно в образе (core) идут куски памяти и кода, которые помогут с помощью отладчика определить места, в которых прервалось выполнение программы. Понятное дело, что Яндекс такой образ не создает, чтобы не забивать лишнее место (no core dumped).

Originally posted by wolf:
iseg
Что значит tf idf? Нельзя ли попроще и поподробнее объяснить?

tf*idf- это схема взвешивания, предложенная, по-моему, еще Солтоном где-то в начале 70-х для классических библиотечных систем:

tf - term frequency - частота термина в документе

idf - inverted document frequency - обратная частота термина в документе - обычно берут двоичный логарифм log(N/n),

где

N- общее количество документов в коллекции,

n - количество документов, в которых встречается термин.

То есть Яндекс пытается исключить из результатов поиска элемент случайности.

Всего: 847