Предпочтительные кодировки. Win or Koi?

O

157

og

5 августа 2002, 20:42

1540

Ситуация:

На сервере русский апач.

Есть возможность выдавать CharsetDefault.

Вопрос:

Какую кодировку предпочтительнее выдавать Роботу Гугла:

Koi8-r или Windows-1251 ?

Или это базразлично?

Пока мы живы, смерти нет. Когда придёт она, не будет нас.

482

Sergey Petrenko

5 августа 2002, 21:04

#1

Абсолютно безразлично. Все равно англоязычным пользователям он вместо snippet покажет - "The characters on this non-english page cannot be correctly displayed".

Кстати, также сделает и Teoma.

O

157

og

6 августа 2002, 11:00

#2

Как писал Gray
Абсолютно безразлично. Все равно англоязычным пользователям он вместо snippet покажет - "The characters on this non-english page cannot be correctly displayed".
Кстати, также сделает и Teoma.

Возьмёт из хидера или разберёт текст?

А если в хидере не выдавать: "charset=windows-1251" ? =)

Кстати скоррктирую вопрос:

Как выдача или не выдача в заголовке charset'a отразится

на нахождении русских вхождений с этого сайта в гугле?

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

257

AiK

6 августа 2002, 11:05

#3

Возьмёт из хидера или разберёт текст?

Текст разберёт.

Между прочим, выдавать charset уже давно считается моветоном, т.к. грамотные сервера меняют кодировку сами, в зависимости от предпочтений пользователя.

O

157

og

6 августа 2002, 11:17

#4

Как писал AiK

Текст разберёт.
Между прочим, выдавать charset уже давно считается моветоном, т.к. грамотные сервера меняют кодировку сами, в зависимости от предпочтений пользователя.

Речь идёт не про заголовки в html документе,

а про HTTP заголовки.

Кстати может быть подскажете ссылку на

алгоритм определения кодировки?

Интересно как это делают другие, сравнение по словарю?

482

Sergey Petrenko

6 августа 2002, 13:23

#5

Как выдача или не выдача в заголовке charset'a отразится
на нахождении русских вхождений с этого сайта в гугле?

Никак, ИМХО.

Кстати, и на ранжировании тоже.

O

157

og

7 августа 2002, 10:52

#6

Как писал Gray

Никак, ИМХО.
Кстати, и на ранжировании тоже.

Ок, значит дело в чём-то ещё =)

257

AiK

7 августа 2002, 20:11

#7

Речь идёт не про заголовки в html документе,
а про HTTP заголовки.

Был неправ, вспылил (невнимательно прочитал первоначальное сообщение).

И всё равно, я думаю, что речь идёт не о заголовках, а о кодировке текста, ибо если выдать текст в koi-8, а в заголовке указать win-1251,

то можно поставить в тупик любого неподготовленного к этому клиента.

Кстати может быть подскажете ссылку на
алгоритм определения кодировки?
Интересно как это делают другие, сравнение по словарю?

Врать не буду, не знаю. Но можно поискать программы - перекодировщики для почтовых клиентов. Раньше их было очень много, и ИМХО были среди них и с открытыми исходниками.

Одна из таких программ судя по размерам и скорости работы использовала такой подход - выбирала из текста одно- и двубуквенные слова (т.е. союзы и предлоги), а дальше добивалась того, чтобы какой-то процент из них имел осмысленное значение ну скажем, чтобы было не "р т эр яю ъ ют ё", а "а в на по к от с" - это win ошибочно перекодированный в dos.

Это очень эффективно, но только на более-менее больших текстах.

А добиваются не полной осмысленности только потому, чтобы учесть возможные описки. Если же текст состоял из маленьких фраз без предлогов, или предлоги содержали ошибки, то программа в автомате не срабатывала, а предлагала проверку вручную, т.к. словаря в ней не было.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

O

157

og

8 августа 2002, 15:39

#8

Как писал AiK

И всё равно, я думаю, что речь идёт не о заголовках, а о кодировке текста, ибо если выдать текст в koi-8, а в заголовке указать win-1251,
то можно поставить в тупик любого неподготовленного к этому клиента.

О заголовках.

Дело в том, что есть 2 разных ресурса.

Один живёт на сервере выдающем в HTTP чарсет, другой не выдающем.

Charset выдаётся корректно.

Объём контента и тематика близкие.

Срок жизни тоже, оба сайта живут в зоне .com.

В Dmoz'е прописаны оба.

Текст не оптимизировался, спам не применялся.

Внешних ссылок много и у того и у другого, однако вес ссылающихся примерно равный.

Page Rank одинаковый.

Однако на тот, у которого в заголовке не выдаётся чарсет очень много

заходов с Гугла и Альтависты. Причём речь идёт о разнице в несколько

порядков. Вот пытаюсь понять почему такое происходит.

Однако видимо дело всётаки в чём-то ещё.

Разберусь =)

Одна из таких программ судя по размерам и скорости работы использовала такой подход - выбирала из текста одно- и двубуквенные слова ...
..SKIP..

Спасибо за алгоритм, весьма интересно.

Честно говоря я это делаю более громоздко, по усечёному словарю.

eTarget 2011:Панельная дискуссия «Стратегия eTarget 2011: Круглый стол Могут ли «плохие» входящие

Вышел новый Яндекс Браузер с YandexGPT и YandexART

Что делать, чтобы попасть в ответы Google Bard