Leom, Вы меня, конечно, простите, но, по-моему:
- upgade, computerworld - вряд ли можно назвать "ведущими" журналами;
- этот форум вроде мало похож на место для announce-ов новых версий;
- и последнее, но не менее раздражающее: а Вы собственно сами читали то, что Вы написали? Орфография, грамотность...?
Спасибо за справку!
Правильно.
Вопрос в том, по какому принципу получить диапазон подходящих слов (если слова могут быть на разных языках и методы описанные на http://linguist.nm.ru/ и заточенные под один язык не подходят)?
Как я понимаю, в данном случае это возможно только полным перебором, который, впрочем, в оперативной памяти не так уж и дорог.
Мне кажется, что для этих задач также можно использовать суффиксные деревья...
Если кто-то будет задаваться таким же дурацким вопросом (как и я), то ответ на него можно найти в "классике" (документе об архитектуре Гугла): все (/большинство) имеющихся слов словаря держатся в оперативной памяти, доступ к которой не так уж и дорог даже при условии полного перебора.
Пробовал, конечно.
Просто было интересно услышать мнение профессионалов на этот счёт в приложении к поисковым технологиям.
Какие-же тогда должны быть вычислительные/дисковые мощности для того, чтобы такое позволять делать... Ведь как-то же реализуется такое, или именно поэтому крупных поисковиков разрешающих такие запросы и нет?
Вроде пофиксил (интересное у багзиллы представление о нахождении sendmail-а...).
Кстати, есть предложение все проблемы скидывать форум проекта.
Первую страничку http://aspseek.itmag.ru/ сделал с тремя ссылками на три основные секции, чтобы не путаться.
http://aspseek.itmag.ru/bugzilla/
"(В стадии разработки)".
На aspseek.itmag.ru также расположена Bugzillа и есть возможность самостоятельно загружать файлы.
Впрочем, я не настаиваю... =)
"Задача" выглядит примерно следующим образом: пусть есть некоторая база с документами. Задача - сгруппировать документы в некоторые, чтоли "кусты" - то есть наиболее близкие и похожие.
Как я понял, кластеризация, во-первых, очень дорогое (ресурсы, время) занятие, а во-вторых, не очень понятно по какому принципу можно собирать такие кусты. Как мне кажется, в отношении (осмысленного) текста наиболее адекватен подход применяемый, в частности, в новостях яндекса.
Опять же, как я понял, Яндекс использует TDT, которое, если можно назвать частным приложением кластеризации, но не в общем случае, а учитывая, что текст можеть иметь много смыслов, много сюжетов/кустов/топиков (в терминологии Яндекса/моей/исследовательской соответственно) и т.д.
Вот именно это мне и интересно. Прочитав этот раздел форума понял, что разкластеризовать всё (например, весь интернет, невозможно), но хоть немного приблизиться - очень хочется...
Собственно именно это и интересует...