Как определить кодировку текста на пхп

153

bicdibus

21 апреля 2020, 08:34

334

Я путем парсинга получаю текст с рандомных страниц сайтов, чарсет в хтмл очень часто не соответствует реальности. В задумке была перекодировка текста в утф-8, но перепробовав много разных вариантов(встроенных в пхп и сторонних бтблиотек) не получаеться даже нормально задетектить утф-8. Мне надо хотя бы определять что текст является утф. Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.

[cerebelum.ru

196

lutskboy

21 апреля 2020, 09:00

#1

mb_detect_encoding

я пользуюсь функцией


function set_utf8_meta($page)

{

 	return preg_replace('/<head.*?<meta[^>]+>/is',

   '<head><meta http-equiv="Content-Type" content="text/html; charset=utf-8">',

   $page);

}

а потом парсинг. xpath

IL

435

ivan-lev

21 апреля 2020, 09:11

#2

bicdibus:
Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.

Разбирать, что не так в "ошибочных" вариантах.

Бывает, что в одной странице смесь кодировок.. (ибо собиралась из разных файликов.. )

Какие ещё потенциально могут быть кодировки? Речь о кириллице или всё подряд?..

Возможно, на странице emoji используются..

... :) Облачные серверы от RegRu - промокод 3F85-3D10-806D-7224 ( http://levik.info/regru )

Почему яндекс не банит Массовая уборка левых 404 РКН заблокирует сайт, если

153

bicdibus

21 апреля 2020, 13:58

#3

мне кирилица нужна

O

18

onep

21 апреля 2020, 16:18

#4

bicdibus:
Мне надо хотя бы определять что текст является утф.

В инете куча классов и функций заменяющих некорректно работающую с кириллицей mb_detect_encoding.

Например: _github.com/onnov/detect-encoding

_github.com/ivanmtw/detect_encoding

Дзен реализовал для авторов возможность вывода денег через СПБ

Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ