Если есть строка 10000000000000000 0 D1. Загляните в исходный код страницы - Веб-строительство

Проблема с кодировкой на сервере.

mikuskov · 2021-08-29T10:05:06.0000000Z

Здравствуйте. У меня есть файл, который я сохраняю в UTF-8, а затем переношу на сервер. Файл содержит только стандартные символы ASCII, и только "нормальные", т.е. от 33 до 125, которые можно написать на любой клавиатуре. На сервере он, что ни делай, становится ASCII (как определяет mb_detect_encoding). И в результате - fread не может прочитать какие-то символы (не смог только символ с кодом 60 - "<", но, вероятно, там и с другими может быть проблема). Так вот, проблема в том, что я ни могу найти способ заставить сохраняться UTF-8 на сервере, либо (что предпочтительнее) заставить fread читать всё, что есть, не пропуская символы. Менять кодировку на уровне хостинга через админку - не вариант, поскольку юзер, который будет использовать мою программу, не должен об этом думать. .htaccess использовать тоже не хочется, да он и не помогает. Что делать?

EG

177

Евгений

29 августа 2021, 11:06

#11

И да, определяется как ASCII

С чего вообще возникла идея что проблема в плоскости ASCII/UTF8?

M

26

mikuskov

29 августа 2021, 11:15

#12

Евгений Крупченко #:
С чего вообще возникла идея что проблема в плоскости ASCII/UTF8?

Евгений, извините, я во время своих попыток-экспериментов ввёл вас в заблуждение. Там в коде мы читаем не 20, а 19 символов (но возвращаемся назад по-прежнему на 20). Т.е. всё, как было, но: $itog = fread($f, 19);
И тогда, если строка в файле: 10000000000000000 0 D1< (в конце пробел), то выведет 0000000000000 0 D1 - то есть, без <
Вот тут я и теряю байт, и тут я и подумал, что дело в кодировке.

Отцы и дети. Требуется Нормальная ли нагрузка на Продам тиц10 домен в

EG

177

Евгений

29 августа 2021, 11:16

#13

И даже вот так попробовал:

Под windows сохраняю этот файл в явно UTF8 (он становится 27 байт вместо 24), закидываю по фтп.

3 лишних байта в начале видим.

php снова читает все четко, хотя и по-прежнему думает что это ASCII

И снова вопрос - причем тут кодировка вообще? Если у вас не читает в конце пробел, то дело в чем-то другом.

А может вообще вы кусок кода выдрали и в полном там где-то затесался например trim(), обрезающий тот самый пробел.

Яндекс.Диск научился автоматически сохранять Внутренние дубли страниц чем 13 Excel-граблей, на которые

M

26

mikuskov

29 августа 2021, 11:22

#14

Евгений Крупченко #:
Если у вас не читает в конце пробел, то дело в чем-то другом.

Да, я его намеренно не читаю, я написал об этом в прошлом комментарии. Это я вас запутал, извините...

T7

63

timo-71

29 августа 2021, 11:40

#15

Евгений Крупченко #:
И да, определяется как ASCII

Там только ASCII символы, вот определяет его.

mikuskov #:
Вот тут я и теряю байт

А пробел есть в конце? Иногда редакторы убирают лишние пробелы и табуляции. Т.е. если файлы отличаются только последним "w" или " ", что с их размерами?

Букварикс представил новые бесплатные Toogle - новая услуга Google Ads запустил моделирование

M

26

mikuskov

29 августа 2021, 11:58

#16

timo-71 #:
А пробел есть в конце? Иногда редакторы убирают лишние пробелы и табуляции.

Пробел есть. Размер не меняется. Думаю, дело не в редакторе.
Вообще не понимаю, что происходит.
Вот есть код:

<?php

$f = fopen(__DIR__ . "/pos.plr", "r");

fseek($f, -20, SEEK_END);

$itog = fread($f, 19);

fclose($f);

echo $itog;

?>

В нём я намеренно не читаю последний байт. И если есть строка 10000000000000000 0 D1<J (последний байт - J, но он может быть любым, как я понял), на выходе будет 0000000000000 0 D1, то есть без <
А если вместо < написать, например, z (то есть, строка будет 10000000000000000 0 D1zJ), то на выходе всё будет как надо: 0000000000000 0 D1z
Ну что это, если не чертовщина!
А пробелы, как и всё остальное, я добавляю через fwrite.

Успешный сайт для Google 301, 302 редирект и SEO-фишки: простые вещи, которых

284

temniy

29 августа 2021, 12:08

#17

Вы читаете байты, а отбросить хотите символы. Не факт, что 1 символ занимает 1 байт. Считывайте целиком и отбрасывайте ненужное через substr, например.

⭐ Лучший хостинг от 4 евро, VPS от 6 евро - разные локации - любые карты - скидки до 20% - https://fornex.com/c/ffi2e3/ru/services/ ⭐

M

26

mikuskov

29 августа 2021, 12:24

#18

temniy #:
Вы читаете байты, а отбросить хотите символы. Не факт, что 1 символ занимает 1 байт. Считывайте целиком и отбрасывайте ненужное через substr, например.

Для строки
10000000000000000 0 D1<J
попробовал
$itog = substr(fread($f, 20), -2);
На выходе - пусто...

Для строки
10000000000000000 0 D1zJ
попробовал
$itog = substr(fread($f, 20), -2);
На выходе - zJ

Не работает...

M

26

mikuskov

29 августа 2021, 12:37

#19

fgetc тоже возвращает пустую строку при чтении символа <
абзац...

J

120

jkm

29 августа 2021, 13:04

#20

Результат выполнения смотрите в браузере? Ну так символ "<" и следующий за ним текст браузер интерпретирует как HTML тег <tag>.

Загляните в исходный код страницы.

1

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов

Зачем быть уникальным в мире, где все можно скопировать

Проблема с кодировкой на сервере.