- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Доброго времени суток.
Хочется поинтересоваться у добрых людей, каким образом можно проверить
язык страницы средствами PHP?
То есть хочется максимально ближе подобраться к результату Гугл Хром, который определяет язык документа и предлагает его перевести на Русский (к примеру).
Первое, что приходит на ум - из общего числа символов на страницы искать русские и в процентном соотношении (тут уж я не знаю сколько нужно процентов русских символов) принимать решение, что страница русская.
Может есть проще реализация или грамотнее или сложнее... верри спасибо заранее всем, кто умнее меня. )
Может быть на это обратить внимание?
<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="ru-RU">
Может быть на это обратить внимание?
<html xmlns="http://www.w3.org/1999/xhtml" dir="ltr" lang="ru-RU">
Думал об этом, но не всегда в доктайпе указывается язык документа, да и заголовки могут быть не по стандарту составлены
Жаль, но точность тут не большая.
неправильно прочитал
Первое, что приходит на ум - из общего числа символов на страницы искать русские и в процентном соотношении (тут уж я не знаю сколько нужно процентов русских символов) принимать решение, что страница русская.
Нужно определять не по превышению процента, а просто по бòльшей доле.
Только возникает трудность в том, что у групп языков есть схожие символы.
Взять кириллицу.
Если на странице присутствует текст:
20% на русском
30% на украинском
50% на болгарском
То вы простым подсчётом символов не определите, что бòльшая часть текста на болгарском.
Действительно верный метод будет сначала определять принадлежность слов к языкам (по словарю), а потом в них уже считать символы.
http://php.southpark.com.ua/2007/language-detection/
Не подумал про славянские != русские символы (
Спасибо за наводку и за ссылку.
Сделать небольшую базу русскоязычных корней.
"Список 5000 наиболее частых слов" вот здесь:
http://bokrcorpora.narod.ru/frqlist/frqlist.html - весит кстати в архиве всего 45кб
Я думаю это самое оптимальное решение.
Alex_Pol добавил 16.02.2011 в 12:39
Кстати забыл упомянуть: "5000 наиболее частотных лемм покрывают 82.0604% текста. "
Я бы сделал еще систему "веса". Т.е. если в title странице есть русские слова, то к русскому языку прибавляется несколько баллов. Если в ссылке на страницу были русские слова - еще несколько баллов... И сам текст добавляет баллы относительно количество найденных слов....
Это конечно продумать нужно, но замысел я думаю понятен.
Копал в сети и остановился на http://abrdev.com/phplangdetect/source.html
Проверил на базе урлов - фунциклирует весьма даже очень . при желании расширяем (что и сделал) и будет весь даже "ДА".
Создателю мысленно желаю долгих лет жизни.