POLL

Рейтинг
75
Регистрация
04.10.2003
Interitus:
Как виндоус? соляра ж была?
На FreeBSD и на Linux он ищет с буквой "р" без каких либо патчей.

Система солярис (posix), а вот кодировка страниц у апача 2 - windows-1251

Так я и не нашел патча для htdig, чтоб он искал по всем буквам...

Вот на opennet.ru буква "Р" при запросе обрабатывается, а у меня - если в слове она есть - ничего не найдено.

Может дело в кодировках - у меня стоит виндоус.

Кто нить может знает - как научить htdig работать с русской буквой "Р"?

И если для него словари синонимов?

POLL:

А интересно, HTDIG можно настроить так, чтоб он индексировал только определенный кусок текста на странице, помеченный тегом каким-нить? А то же, ссылочное ранжирование внутри сайта мне совсем ни к чему.
Такое возможно?

Оказывается это просто, ненужные места просто осекаются такими метками (по дефолту):

<!--htdig_noindex--> <!--/htdig_noindex-->

Interitus:
А ты им локальные сайты индексируешь или внешние? Если локальные - то как быстро они отвечают, если локально же например через ab потестить?

Сайт индексирую локальный, но по абсолютному урлу.

Interitus:
А, все-таки есть результаты! Для слов, в которых не встречается русская буква "р", правильно?

А как это можно победить? Слов с буквой "р" дофига и больше.

Interitus:
Очень странно, страниц 50 в секунду на средней силы процессоре он пережевывает без проблем у меня.

Ну, сервак сам мощный (2-у процессорный, на оптеронах, 64 битная юниксовая ось, памяти вагон) и пока совсем не нагруженный...

Может из-за длинный урлов? Пока они у меня не обрабатываются - сплошная динамика.

Interitus:
Значит скорее всего сайт не проиндексировался. В логах все ожидаемые были? Физически файлы с индексом - создал он?

В директории db есть:

db.docdb

db.docs.index

db.log

db.wordlist

db.words.db

Я так понял, что просту тех слов, что я искал нет в словаре и соответственно их нет и в индексе.

Вот ищу "тарифы" - пишет не найдено.

Ищу "Для населения тарифы" - тоже не найдено

Делаю так "Для населения" - ок, результаты...

А еще, че-то долго индексирует - у меня ушло где-то около часа, а сайт то тестовый, ну там от силы 100-200 страничек.

А интересно, HTDIG можно настроить так, чтоб он индексировал только определенный кусок текста на странице, помеченный тегом каким-нить? А то же, ссылочное ранжирование внутри сайта мне совсем ни к чему.

Такое возможно?

itman:
сорри, но это я не смотрел. в Яндекс.сервер, уверен, алгоритм сделан хорошо :)

Лана, ща попробуем Яндекс.сервер

сейчас как раз мне делать нечего, че без дела сидеть :-)

Понятно, ну так если сравнивать поиск на htdig & aspseek - где алгоритм реализован лучше (результат выдачи соответствует строке запроса)?

itman:
не уверен опять-таки, что за 500 баксов - это будет поисковка под солярку. под солярку вроде как все достаточно дорого, хотя быть может я и ошибаюсь.

Я имел в виду Яndex.Server Standart (5100 руб; под Sun Solaris 9 и выше)

itman:
А какие проблемы с 10-ой соляркой? она, вроде как достаточно стандартная и всякие там новомодные функции вроде snprintf и прочая там есть. основные проблемы там должны быть с версией компилятора и mysql api. если честно, то я думаю, что это возможно, но бесплатно я бы заниматься этим не стал.

Не, проблемы там не в этом. Основные траблы в самих старых прогах (в данном случае в aspseek). Что такое правильный синтаксис c++ они видать не знают. Править, как бы готовые исходники - по мойму это бред.

Я столько прог перекомпилил на sunos, преодолел кучу трабл...

Но с таким, чтоб надо было в готовых исходниках копаться/ковыряться сталкиваюсь впервые :-) это не опенсорс 🙅

Всего: 285