- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Роскомнадзор может получить право блокировки рекомендательных сервисов
Ранее предполагалось, что пользователи сами смогут отключать алгоритмы рекомендаций
Оксана Мамчуева

Как продавать товары из Китая на маркетплейсах: пошаговая инструкция
Важно не прогадать с товаром и не попасть на штрафы
Сервис Кактус
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
по сабжу : есть контент в неизвестной кодировке ... в рнр есть функция, перекодирующая из одной в другую, но если входящая кодировка не известна получается полная лажа...
требуется примерно следующее:
по сабжу : есть контент в неизвестной кодировке ... в рнр есть функция, перекодирующая из одной в другую, но если входящая кодировка не известна получается полная лажа...
требуется примерно следующее:
Поищите таблицы частот в гугле. Все алгоритмы определения кодировок работают по ним. Суть алгоритма в том, что в каждом языке частотность символов разная, соответственно по ней и можно определить на каком языке текст и в какой он кодировке, особенно если язык известен заранее. Алгоритм не дает 100% результата и плохо работает на маленьком наборе данных. Но ИМХО иначе никак нельзя.
раньше тоже пытался найти таковую..
но такой нет.
только если самому создать эту ф-цию и по какимто, свойственным определенной кодировке символам, определять
иначе никак
либо если контент берется с сайта по мета-тегу
но там указывается не всегда та кодировка..
у меня 2 входные кодировки - UTF-8 и cp1251 ... берутся из RSS каналов, но и там не всегда она определена... 🙅
Посмотрите здесь http://phpclub.ru/faq/wakka.php?wakka=CharsetDetection&v=r5j
http://phpclub.ru/faq/wakka.php?wakka=encodings/encodings5&v=ktt
Вот здесь: http://xpoint.ru/forums/programming/PHP/thread/39758.xhtml было интересное обсуждение аналогичного вопроса.
у меня 2 входные кодировки - UTF-8 и cp1251
Тогда очень просто: в UTF-8 для русских букв очень часто повторяется байт 0xD0 или 0xD1.
Например, слово "привет": D0 BF D1 80 D0 B8 D0 BC D0 B5 D1 80.
Ugnich Anton, это если русский текст. В вопросе топикстартера об этом, вообще говоря, явно сказано не было. Так что в общем случае задача несколько сложнее. А в частном -- русский текст в UTF-8 можно детектировать с помощью достаточно простой регулярки типа
ТС, нужна еденичная обработка этого контента или же будет постоянно появляться все новый и свежий контент в непонятной кодировке?
если первое, то проще определить самому по куску контента путем всяких перекодировщиков, если второе то стоит задуматься а "откуда дровишки" обычно везде указывается кодировка и вариантов ее не так уж много... потому думаю что определить один раз для одного источника достаточно.
Ugnich Anton, это если русский текст. В вопросе топикстартера об этом, вообще говоря, явно сказано не было. Так что в общем случае задача несколько сложнее.
Не придумывайте себе трудности. Для каких языков применяется кодировка cp1251?
у меня 2 входные кодировки - UTF-8 и cp1251 ... берутся из RSS каналов, но и там не всегда она определена...
Чует мое сердце, что если передать в iconv('UTF-8', 'CP1251', $text); параметр в cp1251, то она гавкнет нотисом и возвратит null. Поэтому предлагаю такую функцию:
т.е. на вход передается текст в непонятной кодировке, а возвращается в utf-8