HTDIG: настройка поиска

12
PL
На сайте с 04.10.2003
Offline
75
2006

Скомпилировал на сервере htdig.

Поставил словарь русского языка Лебедева, скопировал его в системную папку htdig.

Отредактировал, конфигурационный файл htdig.conf

Стартую ./rundig

Пытаюсь через соответствующую форму искать – результат нулевой: ничего не найдено.

Не понимаю, сайт не проиндексировался или я что-то не так настроил?

[Удален]
#1

По англоязычным словам - ищет?

В сниппетах буквы русские или вопросики?

ОС какая?

PL
На сайте с 04.10.2003
Offline
75
#2
Interitus:
По англоязычным словам - ищет?
В сниппетах буквы русские или вопросики?
ОС какая?

Поиск по тексту на русском языке.

Насчет, сниппетов - я не вкурсе, это где смотреть? :)

ОС - юникс (солярис)

P.S. Тут в другом топе шло как-бы сравнение поисковых движков. Если сравнивать htdig & aspseek - где алгоритм поиска реализован более продуманно? - тобишь, результат поиска совпадает с результатом выдачи. Интересует поиск исключительно на русском и в особенности поиск словосочетания.

[Удален]
#3

Вот после индексации если вводишь английское слово (которое встречается на страницах) - выдает результаты? И если да - русские буквы в сниппетах нормально ли отображаются?

PL
На сайте с 04.10.2003
Offline
75
#4
Interitus:
Вот после индексации если вводишь английское слово (которое встречается на страницах) - выдает результаты? И если да - русские буквы в сниппетах нормально ли отображаются?

Я ж говорю - совсем ничего не найдено, ни на английскойм ни на русском.

[Удален]
#5

Значит скорее всего сайт не проиндексировался. В логах все ожидаемые были? Физически файлы с индексом - создал он?

PL
На сайте с 04.10.2003
Offline
75
#6
Interitus:
Значит скорее всего сайт не проиндексировался. В логах все ожидаемые были? Физически файлы с индексом - создал он?

В директории db есть:

db.docdb

db.docs.index

db.log

db.wordlist

db.words.db

Я так понял, что просту тех слов, что я искал нет в словаре и соответственно их нет и в индексе.

Вот ищу "тарифы" - пишет не найдено.

Ищу "Для населения тарифы" - тоже не найдено

Делаю так "Для населения" - ок, результаты...

А еще, че-то долго индексирует - у меня ушло где-то около часа, а сайт то тестовый, ну там от силы 100-200 страничек.

А интересно, HTDIG можно настроить так, чтоб он индексировал только определенный кусок текста на странице, помеченный тегом каким-нить? А то же, ссылочное ранжирование внутри сайта мне совсем ни к чему.

Такое возможно?

[Удален]
#7

А, все-таки есть результаты! Для слов, в которых не встречается русская буква "р", правильно?


А еще, че-то долго индексирует - у меня ушло где-то около часа, а сайт то тестовый, ну там от силы 100-200 страничек.

Очень странно, страниц 50 в секунду на средней силы процессоре он пережевывает без проблем у меня.

А интересно, HTDIG можно настроить так, чтоб он индексировал только определенный кусок текста на странице, помеченный тегом каким-нить? А то же, ссылочное ранжирование внутри сайта мне совсем ни к чему.
Такое возможно?

Не знаю, это мануал читать надо.

PL
На сайте с 04.10.2003
Offline
75
#8
Interitus:
А, все-таки есть результаты! Для слов, в которых не встречается русская буква "р", правильно?

А как это можно победить? Слов с буквой "р" дофига и больше.

Interitus:
Очень странно, страниц 50 в секунду на средней силы процессоре он пережевывает без проблем у меня.

Ну, сервак сам мощный (2-у процессорный, на оптеронах, 64 битная юниксовая ось, памяти вагон) и пока совсем не нагруженный...

Может из-за длинный урлов? Пока они у меня не обрабатываются - сплошная динамика.

[Удален]
#9
А как это можно победить? Слов с буквой "р" дофига и больше.

Я в солярке ничего не понимаю. На более народных ОС это лечилось установкой локали и определением переменных окружения типа LANG. Правда с этой проблемой сталкивался давно, сейчас уже и не упомню, что именно было.

Ну, сервак сам мощный (2-у процессорный, на оптеронах, 64 битная юниксовая ось, памяти вагон) и пока совсем не нагруженный...
Может из-за длинный урлов? Пока они у меня не обрабатываются - сплошная динамика.

А ты им локальные сайты индексируешь или внешние? Если локальные - то как быстро они отвечают, если локально же например через ab потестить?

PL
На сайте с 04.10.2003
Offline
75
#10
Interitus:
А ты им локальные сайты индексируешь или внешние? Если локальные - то как быстро они отвечают, если локально же например через ab потестить?

Сайт индексирую локальный, но по абсолютному урлу.

12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий