Keva

Рейтинг
80
Регистрация
27.11.2000
Интересы
Software development, linguistics, BMW, dogs, girls ;-)

Поскольку штука эта работает на данных Меты (www.meta.ua) - каталог, лингвистика, поисковый индекс, то, в принципе, для сайтов из нашего индекса это можно учитывать.

Для других сайтов можно делать выкачки пачек (не менее 5-7 страниц для устойчивой работы алгоритма), на них распознавать навигационную разметку и не учитывать потом слова из неё.

GreenBee:
Имеется каталог сайтов. Необходимо организовать поиск по сайтам в этом каталоге ...

Ещё любопытный вариант - flexum.ru - там как раз получается каталог сайтов и поиск по нему. Мож кто юзал? Какие впечатления?

Мне кажется, "Флексум" - интересный и оправданный выбор. Хотя бы потому, что его не надо администрить, равно как и выделять на него ресурсы: всё делается за вас, снаружи.

Правда, я могу быть несколько необъективным: под "Флексум" снизу подложен мой индексирующий и поисковый код.

Подвесил определение тематики вместо cgi-приложения - демоном.

Golden Wolf:
Здравствуйте
Пишу поисковую систему, есть пара вопросов :)
Как вариант сейчас тестирую такой:
создаём файловую структуру:


word_id1
resource_id1
pages.index1
resource_id2
pages.index2
...

word_id2
resource_id1
pages.index1
...
...


Подскажите, в какую сторону копать, что делать, и имеет ли право на жизнь такая структура индекса ?

Сначала, мне кажется, надо зарыть то, что уже выкопано. А потом сложить всё в один или несколько файлов. А к ним сделать оглавление. Типа "с позиции такой-то по такую-то лежат номера документов, содержащих слово <жопа>, в порядке возрастания".

Это решит массу твоих проблем.

Добавил поддержку utf-8. Работает автоматически, т. е., если поданная строка в utf-8, то и построенные строки будут в utf-8.

Ord:
Есть кто с Мастерхостом виртуальным хостингом? как у вас?

У жены интернет-магазин там хостился - переехала на Агаву. Среднее время загрузки страницы "уехало" за 5 секунд, сразу сайт разлюбил Яндекс... В общем, недели две она звонила, ругалась-жаловалась, потом перехостилась. Сейчас ситуация выправляется.

Правда, похоже, у Агавы скоро тоже могут возникнуть проблемы :) Как Анька где разместится - хостинг начинает глючить :) Сначала РБК, потом Мастерхост... :)

FladeX:
Спасибо за ответ.
Поставленная задача описана в первом сообщении. Или вы другое имели в виду?

Честно говоря, формулировки задачи я в заголовочном сообщении не вижу. Вероятно, Вы её себе хорошо представляете, а потому предполагаете, что и читатель настроен на ту же волну.

Мне же задача непонятна. Что Вы делаете? Организуете поиск по русскоязычному форуму?

Вероятно, не буду оргинальным, если скажу, что все слова длиной менее 3 символов можно с высокой вероятностью отнести к стоп-словам.

Вообще же понятие стоп-слова - не абсолютное, и может быть определено только в условиях поставленной задачи.

Айси:
А у меня по двум сайтам тема странно определилась. По сайту про работу - Недвижимость пишет; по порталу по коммерческой недвижимости - Супермаркеты. По второму ещё понятно, а вот по первому крайне удивлена...

А дайте ссылочку. Можно в личку. Будем крутить и улучшать :)

Alek$:
Keva, как я понимаю, исходники закрыты?

Исходники морфологии - да, конечно, закрытые, словари - тем более :)

Исходники встройки в PHP - открытые. Это вообще старый коммерческий продукт, просто я прикрутил к нему еще и PHP API.

Всего: 238