Конвертация windows-1252 в 1251

TerminalHead
На сайте с 29.03.2006
Offline
11
10649

Есть много страниц в хтмле - кодировка windows-1252 надо конвертировать в 1251. Есть ли для этого какой-либо софт ?

И как поисковики относятся к кодировке 1252 ?

Все будет ! http://selivanov.biz (http://selivanov.biz) icq: 10408 mail: mail (а) selivanov.biz
cheboor
На сайте с 13.12.2005
Offline
123
#1

скорее всего с этой проблемой замечательно справится "Штирлиц", ссылки под рукой нет, но программка распространенная, найти ее вероятно труда не составит. у нее есть режим пакетной обработки файлов.

мне кажется, что большинство поисковиков должны адекватно отреагировать на эту кодировку, главное в хедерах пропишите какая кодировка используется. но все равно наверно лучше перекодировать, не поисковики, так некоторые пользователи обязательно споткнутся о малоизвестный набор символов.

TerminalHead
На сайте с 29.03.2006
Offline
11
#2

Нашел эту прогу, но она не умеет работать с 1252 :(

TVA
На сайте с 05.06.2005
Offline
35
TVA
#3

Насколько я понимаю 1252 центральноевропейская кодировка. Предназначена для отображения всякой диактрики (чешской, немецкой ...).

Что значит перевести в 1251 в даном случае не совсем понятно. Получится каша.

Вообще самый простой способ задать кодировку или указав это в настройкай сервера или на странице тегом <META http-equiv=Content-Type content="text/html; charset=Windows-1251">

Ну в РНР еще есть функция iconv ( string in_charset, string out_charset, string str )

TerminalHead
На сайте с 29.03.2006
Offline
11
#4
TVA:
Насколько я понимаю 1252 центральноевропейская кодировка. Предназначена для отображения всякой диактрики (чешской, немецкой ...).

Что значит перевести в 1251 в даном случае не совсем понятно. Получится каша.

Вообще самый простой способ задать кодировку или указав это в настройкай сервера или на странице тегом <META http-equiv=Content-Type content="text/html; charset=Windows-1251">

Ну в РНР еще есть функция iconv ( string in_charset, string out_charset, string str )

в кодировке 1252 весь текст - тоесть вместо слова РОССИЯ там такой набор знаков: &#1056 &#1054 &#1057 &#1057 &#1048 &#1071 итд

TVA
На сайте с 05.06.2005
Offline
35
TVA
#5

Если в русском виндовсе в блокноте смотреть сырцы как выглядят символы?

1) Как ESC последовательности (&ETH;&Icirc;&Ntilde;&Ntilde;&Egrave;&szlig;)

2) Как &#208;&#206;&#209;&#209;&#200;&#223;

3) или как РОССИЯ

...ага увидил поправку про ESC

в данном случае используя вот это

string html_entity_decode ( string string [, int quote_style [, string charset]] )

легко накатать пакетник который быстро все перегонит в нормальные символы.

а так если несколько HTML страниц нормальное содержимое можно увидеть любой нашлепкой для браузера которая показывает сгенереный код (в нем entities заменяются обычными символами) Вот например для Лисы вариант http://chrispederick.com/work/webdeveloper/

JK
На сайте с 29.07.2005
Offline
20
#6
в кодировке 1252 весь текст - тоесть вместо слова РОССИЯ там такой набор знаков: &#1056 &#1054 &#1057 &#1057 &#1048 &#1071 итд

$text=html_entity_decode($text,0,"cp1251");

:no: :smoke: :eek:

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий