xlex

Рейтинг
16
Регистрация
15.05.2004

Leom, Вы меня, конечно, простите, но, по-моему:

- upgade, computerworld - вряд ли можно назвать "ведущими" журналами;

- этот форум вроде мало похож на место для announce-ов новых версий;

- и последнее, но не менее раздражающее: а Вы собственно сами читали то, что Вы написали? Орфография, грамотность...?

Спасибо за справку!

Правильно.

Вопрос в том, по какому принципу получить диапазон подходящих слов (если слова могут быть на разных языках и методы описанные на http://linguist.nm.ru/ и заточенные под один язык не подходят)?

Как я понимаю, в данном случае это возможно только полным перебором, который, впрочем, в оперативной памяти не так уж и дорог.

Мне кажется, что для этих задач также можно использовать суффиксные деревья...

Если кто-то будет задаваться таким же дурацким вопросом (как и я), то ответ на него можно найти в "классике" (документе об архитектуре Гугла): все (/большинство) имеющихся слов словаря держатся в оперативной памяти, доступ к которой не так уж и дорог даже при условии полного перебора.

Пробовал, конечно.

Просто было интересно услышать мнение профессионалов на этот счёт в приложении к поисковым технологиям.

Какие-же тогда должны быть вычислительные/дисковые мощности для того, чтобы такое позволять делать... Ведь как-то же реализуется такое, или именно поэтому крупных поисковиков разрешающих такие запросы и нет?

Как писал Zute


Не регистрирует:

Software error:

Can't open sendmail at Bugzilla/BugMail.pm line 870.

Вроде пофиксил (интересное у багзиллы представление о нахождении sendmail-а...).

Кстати, есть предложение все проблемы скидывать форум проекта.

Первую страничку http://aspseek.itmag.ru/ сделал с тремя ссылками на три основные секции, чтобы не путаться.

А куда на aspseek.itmag.ru сообщения о багах постить, там ведь только форум ?

http://aspseek.itmag.ru/bugzilla/

"(В стадии разработки)".

На aspseek.itmag.ru также расположена Bugzillа и есть возможность самостоятельно загружать файлы.

Впрочем, я не настаиваю... =)

"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.

Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.

Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.

Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...

Собственно именно это и интересует...

123 4
Всего: 36