htdig и русский (снова)

J
На сайте с 21.05.2006
Offline
10
1322

тут ответить не получилось, поэтому создаю новый топик.

Interitus:
По англоязычным словам - ищет?
В сниппетах буквы русские или вопросики?
ОС какая?

ситуация:

ASPLinux 10, локаль ru_RU.CP1251, ядро 2.6.9 от асп, родное из дистра

htdig-3.2.0b6

в конфиге хтдига стоит locale: ru_RU.CP1251

русский словарь от лебедева. английский родной от дистра дига. собрал сначала английский, потом добавил русский. веса баз 18 и 78 метров (есть они там, вобщем)

индексируем полностью англоязычный сайт - всё замечательно, всё ищется, сниппеты (слово какое хорошее, новое :)) выводятся.

индексируем русскоязычный сайт (кодировка его 1251), индексируется, индексы создаются.

и дальше грабли:

ищем что-нибудь по-английски - какой-нибудь бред - выдаёт что-то типа

Нет ничего похожего на 'aas'

пытаемся искать что-нибудь русскоe:

Search results for '(ýòèêåò or ýòèêåòà or ýòèêåòó or ýòèêåòîì or ýòèêåòå or ýòèêåòû or ýòèêåòîâ or ýòèêåòàì or ýòèêåòàìè or ýòèêåòàõ)'

---cut---
Ýòèêåò çà ñòîëîì, ñòîëîâûé ýòèêåò. ïðàâèëà ñòîëîâîãî ýòèêåòà è èñêóññòâî ñòîëîâîãî ýòèêåòà
... «ONLINE» - ñàéò ãîðîäà Êîðÿæìà Àðõàíãåëüñêîé îáëàñòè - íà ãëàâíóþ ñòðàíèöó Î ïðîåêòå Îáðàòíàÿ ñâÿçü Êàðòà ñàéòà ãëàâíàÿ ñòðàíèöà > còàòüè > ýòèêåò > Ýòèêåò çà ñòîëîì * Còîëîâûé ýòèêåò, ïðàâèëà ñòîëîâîãî ýòèêåòà * ×òî è êàê ïüþò íà Ðóñè CÒÎËÎÂÛÉ ÝÒÈÊÅÒ, ÏÐÀÂÈËÀ ÑÒÎËÎÂÎÃÎ ÝÒÈÊÅÒÀ Çäåñü âû íàéäåòå ìíîãî ...

---cut---

урлы правильные, идёшь по ним - всё в порядке. а сниппеты :) косячные

насколько косячные - видно из исходников страницы поиска

<h2><img src="/htdig/htdig.gif" alt="ht://Dig">

Search results for '(&yacute;&ograve;&egrave;&ecirc;&aring;&ograve; or &yacute;&ograve;&egrave;&ecirc;&aring;&ograve;&agrave; or ...

и сниппеты в таком же виде: всё что русское - всё в кодах. а в заголвке окна - как раз вопросики

бился-бился, читал тут, патчил, как там сказано, пересобирывал хтсёрч... потом пришёл к выводу (может, неправильному), что сёрч тут ни при чём, что это хтдиг при индексировании криво в базу пишет русские буквы... пытался разобраться в исходниках - не сильно пытался - нашёл какую-то функцию, которая получает строку, как-то энкодит её, сказал ей не делать ничего... пересобрал хтдиг - не помогло.

так вот к чему это я... раз был настолько точный, подходящий под мою ситуацию наводящий вопрос - может есть и ответ? только вот товарищ Interitus два месяца не писал ничего на форуме - появляется ли? может кто ещё знает, как решить?

ЗЫ: в данный момент качаю MySQL 5.0.18 для последующей установки DataparkSearch'а. там вроде всё без одевания штанов через голову - по крайней мере в доках так пишут. посмотрим... но вопрос всё равно актуален.

I
На сайте с 26.05.2001
Offline
64
#1

А как насчет небольшой ловли жучков? :-)

Приходите завтра, завтра будет! (http://itman666.livejournal.com)
J
На сайте с 21.05.2006
Offline
10
#2
itman:
А как насчет небольшой ловли жучков? :-)

каких именно?

распространите мысль. я не могу угадать, что вы подумали.

по существу есть что?

а жуков ловить некогда, увы... неделя до дедлайна. пятый курс, лето...

I
На сайте с 26.05.2001
Offline
64
#3
june:
каких именно?
распространите мысль. я не могу угадать, что вы подумали.
по существу есть что?
а жуков ловить некогда, увы... неделя до дедлайна. пятый курс, лето...

если неделя до дедлайна, то можно и не успеть, но шанс есть. я предлагал посидеть пару дней (или меньше под отладчиком) к отладчику присовокупить утилиту просмотра исходинков а-ля sourcenavigator (чтоб примерно как визуал си было) или сам визуал си, если этот htdig есть под виндоуз. ИМХО, должно помочь. Если уж ищется нормально. В параллели можно гуглить

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий