кривой заголовок при индексации PDF'ов в mnogosearch

MS
На сайте с 16.08.2006
Offline
8
1483

системная локаль ru_RU.KOI8-R, все html-файлы в CP1251, и такая штука в indexer.conf:

LocalCharset windows-1251

Mime application/pdf text/html "/usr/bin/pdftohtml -enc KOI8-R -stdout -opw PASSWORD $1 2>/dev/null"

тока одна проблема,- в результатах поиска заголовок PDF'а выводится криво, типа:

1. рХР. КХЯР Й яро 1.011 [5.387% Популярность: 0.00000]

... Правовой акт, издаваемый ... для внутренних документов (Приложение А, Б); 2)...

* http://site/11.pdf.. - 631899 bytes [application/pdf] - Tue, 04 Apr 2006, 09:47:27 SAMST [Копия из кэша]

mnogosearch-3.2.33-mysql

snoopckuu
На сайте с 26.02.2006
Offline
34
#1

Mark Silinio, смотрите сайт из подписи если не поможет

Mime application/pdf text/html "/usr/bin/pdftohtml -enc windows-1251 -stdout -opw PASSWORD $1 2>/dev/null"
Разработчик поисковых систем и алгоритмов. Я умнее яндекса. Мой синонимайзер. (http://se.o0o.ru)
MS
На сайте с 16.08.2006
Offline
8
#2

не всё так просто,- для CP1251 нужен соответствующий файл CP1251.unicodeMap

KOI8-R.unicodeMap есть в поставке

snoopckuu
На сайте с 26.02.2006
Offline
34
#3

Mark Silinio, что вам мешает его найти?

MS
На сайте с 16.08.2006
Offline
8
#4

CP1251.unicodeMap днём с огнём не найти, ну да это и неважно,-

делаем в indexer.conf:

Mime application/pdf text/html "/usr/bin/pdftohtml -enc KOI8-R -stdout -opw EnCobuc8 $1 2>/dev/null | /usr/local/bin/titlefix.pl"

titlefix.pl:

#!/usr/bin/perl

use Text::Iconv;

$converter = Text::Iconv->new("cp1251","koi8-r");

while(<>){

$_ = $converter->convert($_) if $_ =~ /^\<TITLE\>/;

print;

}

всё работает!

M
На сайте с 29.03.2003
Offline
65
#5

Хм, а зачем так извращаться ? :)

Ставьте -enc UTF-8, mnogosearch его вполне понимает :)

Проверь свои запросы: Вершки Рунета (http://www.43n39e.ru/)
MS
На сайте с 16.08.2006
Offline
8
#6
Maxime:
Хм, а зачем так извращаться ? :)
Ставьте -enc UTF-8, mnogosearch его вполне понимает :)

понимает

но тогда(без titlefix.pl) в заголовке одни вопросительные знаки

тут проблема с самим pdftohtml

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий