Предпочтительные кодировки. Win or Koi?

O
На сайте с 08.01.2002
Offline
157
og
1512

Ситуация:

На сервере русский апач.

Есть возможность выдавать CharsetDefault.

Вопрос:

Какую кодировку предпочтительнее выдавать Роботу Гугла:

Koi8-r или Windows-1251 ?

Или это базразлично?

Пока мы живы, смерти нет. Когда придёт она, не будет нас.
Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#1

Абсолютно безразлично. Все равно англоязычным пользователям он вместо snippet покажет - "The characters on this non-english page cannot be correctly displayed".

Кстати, также сделает и Teoma.

O
На сайте с 08.01.2002
Offline
157
og
#2
Как писал Gray
Абсолютно безразлично. Все равно англоязычным пользователям он вместо snippet покажет - "The characters on this non-english page cannot be correctly displayed".
Кстати, также сделает и Teoma.

Возьмёт из хидера или разберёт текст?

А если в хидере не выдавать: "charset=windows-1251" ? =)

Кстати скоррктирую вопрос:

Как выдача или не выдача в заголовке charset'a отразится

на нахождении русских вхождений с этого сайта в гугле?

AiK
На сайте с 27.10.2000
Offline
257
AiK
#3
Возьмёт из хидера или разберёт текст?

Текст разберёт.

Между прочим, выдавать charset уже давно считается моветоном, т.к. грамотные сервера меняют кодировку сами, в зависимости от предпочтений пользователя.

O
На сайте с 08.01.2002
Offline
157
og
#4
Как писал AiK

Текст разберёт.
Между прочим, выдавать charset уже давно считается моветоном, т.к. грамотные сервера меняют кодировку сами, в зависимости от предпочтений пользователя.

Речь идёт не про заголовки в html документе,

а про HTTP заголовки.

Кстати может быть подскажете ссылку на

алгоритм определения кодировки?

Интересно как это делают другие, сравнение по словарю?

Sergey Petrenko
На сайте с 23.10.2000
Offline
482
#5
Как выдача или не выдача в заголовке charset'a отразится
на нахождении русских вхождений с этого сайта в гугле?

Никак, ИМХО.

Кстати, и на ранжировании тоже.

O
На сайте с 08.01.2002
Offline
157
og
#6
Как писал Gray

Никак, ИМХО.
Кстати, и на ранжировании тоже.

Ок, значит дело в чём-то ещё =)

AiK
На сайте с 27.10.2000
Offline
257
AiK
#7
Речь идёт не про заголовки в html документе,
а про HTTP заголовки.

Был неправ, вспылил (невнимательно прочитал первоначальное сообщение).

И всё равно, я думаю, что речь идёт не о заголовках, а о кодировке текста, ибо если выдать текст в koi-8, а в заголовке указать win-1251,

то можно поставить в тупик любого неподготовленного к этому клиента.

Кстати может быть подскажете ссылку на
алгоритм определения кодировки?
Интересно как это делают другие, сравнение по словарю?

Врать не буду, не знаю. Но можно поискать программы - перекодировщики для почтовых клиентов. Раньше их было очень много, и ИМХО были среди них и с открытыми исходниками.

Одна из таких программ судя по размерам и скорости работы использовала такой подход - выбирала из текста одно- и двубуквенные слова (т.е. союзы и предлоги), а дальше добивалась того, чтобы какой-то процент из них имел осмысленное значение ну скажем, чтобы было не "р т эр яю ъ ют ё", а "а в на по к от с" - это win ошибочно перекодированный в dos.

Это очень эффективно, но только на более-менее больших текстах.

А добиваются не полной осмысленности только потому, чтобы учесть возможные описки. Если же текст состоял из маленьких фраз без предлогов, или предлоги содержали ошибки, то программа в автомате не срабатывала, а предлагала проверку вручную, т.к. словаря в ней не было.

O
На сайте с 08.01.2002
Offline
157
og
#8
Как писал AiK

И всё равно, я думаю, что речь идёт не о заголовках, а о кодировке текста, ибо если выдать текст в koi-8, а в заголовке указать win-1251,
то можно поставить в тупик любого неподготовленного к этому клиента.

О заголовках.

Дело в том, что есть 2 разных ресурса.

Один живёт на сервере выдающем в HTTP чарсет, другой не выдающем.

Charset выдаётся корректно.

Объём контента и тематика близкие.

Срок жизни тоже, оба сайта живут в зоне .com.

В Dmoz'е прописаны оба.

Текст не оптимизировался, спам не применялся.

Внешних ссылок много и у того и у другого, однако вес ссылающихся примерно равный.

Page Rank одинаковый.

Однако на тот, у которого в заголовке не выдаётся чарсет очень много

заходов с Гугла и Альтависты. Причём речь идёт о разнице в несколько

порядков. Вот пытаюсь понять почему такое происходит.

Однако видимо дело всётаки в чём-то ещё.

Разберусь =)



Одна из таких программ судя по размерам и скорости работы использовала такой подход - выбирала из текста одно- и двубуквенные слова ...
..SKIP..

Спасибо за алгоритм, весьма интересно.

Честно говоря я это делаю более громоздко, по усечёному словарю.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий