В принципе, если анализировать содержимое каждой страницы хотя бы из первой десятки результатов поиска, то такие слова найти можно. Но черт его знает, сколько нужно ресурсов, чтобы на ходу выкачивать страницы и обрабатывать в режиме реального времени.
Ну, ребята, вы уже начинаете рассуждать примерно также, как и в Яндексе Только введение каких-либо ограничений будет наоборот способствовать поиску путей их обхода.
[This message has been edited by Vyacheslav Tikhonov (edited 27-03-2002).]
vivisimo я привел как пример удачной системы кластеризации. Как они умудряются на ходу собирать эти кластеры, с центроидами или без, неизвестно, да и не суть важно. Не важно даже, кластеры собираются на полнотекстовом поиске или метапоиске.
Насколько я понимаю, с кластерной технологией можно не только организовать query routing, но и отслеживать самые обновляющиеся документы внутри одной СТРУКТУРИРОВАННОЙ коллекции и тем самым эффективно эту коллекцию обновлять. Кроме этого, похоже, можно неплохо отслеживать "похожие" документы, которые будут лежать рядом.
Видимо, сейчас в Яндексе из семантики максимум используется смартовская "функция косинуса" для нахождения похожих документов?
Ну Вы же просили ссылку на ПОДОБНУЮ технологию.
Или технология vivisimo собирает кластера недостаточно хорошо, чтобы можно было организовать маршрутизацию запросов?
http://vivisimo.com ,например
Судя по тому, что они пишут, сейчас в Яндексе все свалено в одну кучу - коллекции документов вообще формируются случайным образом. Я думал у них там все давно на кластерах, рассчитывают центроиды и по-научному собирают коллекции похожих документов, после чего отправляют запросы в нужные коллекции
А так оказывается все просто.
То есть я просто опоздал на форум?
Возможно, у нас в Киеве время сдвинуто относительно Москвы на час назад...
Странный какой-то получился форум. Задал несколько вполне нормальных вопросов о маршрутизации запросов, за что тут же получил ошибку 403, после чего вопросы просто "отстреляли". Честно говоря не понял за что, видимо, за прошлые "заслуги".
Или у кого-то тоже было подобное?
core dumped - нормальная реакция любой бинарной программы с глюками, запущенной под UNIX.
Обычно в образе (core) идут куски памяти и кода, которые помогут с помощью отладчика определить места, в которых прервалось выполнение программы. Понятное дело, что Яндекс такой образ не создает, чтобы не забивать лишнее место (no core dumped).
tf*idf- это схема взвешивания, предложенная, по-моему, еще Солтоном где-то в начале 70-х для классических библиотечных систем:
tf - term frequency - частота термина в документе
idf - inverted document frequency - обратная частота термина в документе - обычно берут двоичный логарифм log(N/n),
где
N- общее количество документов в коллекции,
n - количество документов, в которых встречается термин.
То есть Яндекс пытается исключить из результатов поиска элемент случайности.