Поскольку штука эта работает на данных Меты (www.meta.ua) - каталог, лингвистика, поисковый индекс, то, в принципе, для сайтов из нашего индекса это можно учитывать.
Для других сайтов можно делать выкачки пачек (не менее 5-7 страниц для устойчивой работы алгоритма), на них распознавать навигационную разметку и не учитывать потом слова из неё.
Мне кажется, "Флексум" - интересный и оправданный выбор. Хотя бы потому, что его не надо администрить, равно как и выделять на него ресурсы: всё делается за вас, снаружи.
Правда, я могу быть несколько необъективным: под "Флексум" снизу подложен мой индексирующий и поисковый код.
Подвесил определение тематики вместо cgi-приложения - демоном.
word_id1 resource_id1 pages.index1 resource_id2 pages.index2 ... word_id2 resource_id1 pages.index1 ... ...
Сначала, мне кажется, надо зарыть то, что уже выкопано. А потом сложить всё в один или несколько файлов. А к ним сделать оглавление. Типа "с позиции такой-то по такую-то лежат номера документов, содержащих слово <жопа>, в порядке возрастания".
Это решит массу твоих проблем.
Добавил поддержку utf-8. Работает автоматически, т. е., если поданная строка в utf-8, то и построенные строки будут в utf-8.
У жены интернет-магазин там хостился - переехала на Агаву. Среднее время загрузки страницы "уехало" за 5 секунд, сразу сайт разлюбил Яндекс... В общем, недели две она звонила, ругалась-жаловалась, потом перехостилась. Сейчас ситуация выправляется.
Правда, похоже, у Агавы скоро тоже могут возникнуть проблемы :) Как Анька где разместится - хостинг начинает глючить :) Сначала РБК, потом Мастерхост... :)
Честно говоря, формулировки задачи я в заголовочном сообщении не вижу. Вероятно, Вы её себе хорошо представляете, а потому предполагаете, что и читатель настроен на ту же волну.
Мне же задача непонятна. Что Вы делаете? Организуете поиск по русскоязычному форуму?
Вероятно, не буду оргинальным, если скажу, что все слова длиной менее 3 символов можно с высокой вероятностью отнести к стоп-словам.
Вообще же понятие стоп-слова - не абсолютное, и может быть определено только в условиях поставленной задачи.
А дайте ссылочку. Можно в личку. Будем крутить и улучшать :)
Исходники морфологии - да, конечно, закрытые, словари - тем более :)
Исходники встройки в PHP - открытые. Это вообще старый коммерческий продукт, просто я прикрутил к нему еще и PHP API.