- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Маркетинг для шоколадной фабрики. На 34% выше средний чек
Через устранение узких мест
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Я путем парсинга получаю текст с рандомных страниц сайтов, чарсет в хтмл очень часто не соответствует реальности. В задумке была перекодировка текста в утф-8, но перепробовав много разных вариантов(встроенных в пхп и сторонних бтблиотек) не получаеться даже нормально задетектить утф-8. Мне надо хотя бы определять что текст является утф. Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.
mb_detect_encoding
я пользуюсь функцией
а потом парсинг. xpath
Лучшего что удалось достичь это около 70% точность определения, что слишком мало, приемлемо 90-95%.
Разбирать, что не так в "ошибочных" вариантах.
Бывает, что в одной странице смесь кодировок.. (ибо собиралась из разных файликов.. )
Какие ещё потенциально могут быть кодировки? Речь о кириллице или всё подряд?..
Возможно, на странице emoji используются..
мне кирилица нужна
Мне надо хотя бы определять что текст является утф.
В инете куча классов и функций заменяющих некорректно работающую с кириллицей mb_detect_encoding.
Например: _github.com/onnov/detect-encoding
_github.com/ivanmtw/detect_encoding