Система солярис (posix), а вот кодировка страниц у апача 2 - windows-1251
Так я и не нашел патча для htdig, чтоб он искал по всем буквам...
Вот на opennet.ru буква "Р" при запросе обрабатывается, а у меня - если в слове она есть - ничего не найдено.
Может дело в кодировках - у меня стоит виндоус.
Кто нить может знает - как научить htdig работать с русской буквой "Р"?
И если для него словари синонимов?
Оказывается это просто, ненужные места просто осекаются такими метками (по дефолту):
<!--htdig_noindex--> <!--/htdig_noindex-->
Сайт индексирую локальный, но по абсолютному урлу.
А как это можно победить? Слов с буквой "р" дофига и больше.
Ну, сервак сам мощный (2-у процессорный, на оптеронах, 64 битная юниксовая ось, памяти вагон) и пока совсем не нагруженный...
Может из-за длинный урлов? Пока они у меня не обрабатываются - сплошная динамика.
В директории db есть:
db.docdb
db.docs.index
db.log
db.wordlist
db.words.db
Я так понял, что просту тех слов, что я искал нет в словаре и соответственно их нет и в индексе.
Вот ищу "тарифы" - пишет не найдено.
Ищу "Для населения тарифы" - тоже не найдено
Делаю так "Для населения" - ок, результаты...
А еще, че-то долго индексирует - у меня ушло где-то около часа, а сайт то тестовый, ну там от силы 100-200 страничек.
А интересно, HTDIG можно настроить так, чтоб он индексировал только определенный кусок текста на странице, помеченный тегом каким-нить? А то же, ссылочное ранжирование внутри сайта мне совсем ни к чему.
Такое возможно?
Лана, ща попробуем Яндекс.сервер
сейчас как раз мне делать нечего, че без дела сидеть :-)
Понятно, ну так если сравнивать поиск на htdig & aspseek - где алгоритм реализован лучше (результат выдачи соответствует строке запроса)?
Я имел в виду Яndex.Server Standart (5100 руб; под Sun Solaris 9 и выше)
Не, проблемы там не в этом. Основные траблы в самих старых прогах (в данном случае в aspseek). Что такое правильный синтаксис c++ они видать не знают. Править, как бы готовые исходники - по мойму это бред.
Я столько прог перекомпилил на sunos, преодолел кучу трабл...
Но с таким, чтоб надо было в готовых исходниках копаться/ковыряться сталкиваюсь впервые :-) это не опенсорс 🙅