- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Некоторые партнерки дают XML в котором некоторые русские буквы заменены на графически похожие английские. Если их просто заменять str_replace то пострадают английские слова в тексте. Не хотелось бы изобретать велосипед, есть ли уже алгоритм или готовая функция?
Некоторые партнерки дают XML в котором некоторые русские буквы заменены на графически похожие английские.
Если не секрет, то кто делает такую гадость? И, главное, зачем? Яндекс и так автоматом переводит такие слова к русскому варинату, так что избавиться от дублей не получится...
И, главное, зачем?
это они "блох запускают" - чтобы можно было прищучить тех, кто пользуется их контентом, но не является их партнером... эдакое "доказательство" копирования их авторского текста.
Если не секрет, то кто делает такую гадость? И, главное, зачем? Яндекс и так автоматом переводит такие слова к русскому варинату, так что избавиться от дублей не получится...
Я не знаю зачем они делают. Яндкс переводит, но все таки хотелось по человечески сделать.
это они "блох запускают" - чтобы можно было прищучить тех, кто пользуется их контентом, но не является их партнером... эдакое "доказательство" копирования их авторского текста.
Каких блох? Такой текст отдается всем, в том числе и реальным партнерам.
Вообще вопрос был технический а не этический. Видимо пока нет готового решения, придется что-то изобретать.
есть ли уже алгоритм
Как вариант: "Топаем" от первого символа в тексте к последнему, если находим символ отличающийся от Русского - смотрим, к примеру, два предыдущих и два последующих (кроме знаков препинания и не забывая, что пробел является разделителем). На основании полученных данных делаем вывод в каком слове (Русском или Английском) находится проверяемый символ. Если в Русском - меняем (при необходимости) на Русский аналог.
Одни запускают "блох", другие делают текст уникальным. Универсальной проверки и замены подобрать не получится, всё зависит от алгоритма в исходнике. Самое простое это делать поиск по текту таких букв и анализировлать их окружение. Если окружение явно не из той же языковой раскладки, то букву меняем. Пройдя по второму заходу, меняем другие буквы в дургих словах, в тех котрые были не тронуты и в итоге получаем относительно уникальный текст.
Может проще через какой-нибудь speller пропустить
naster, и тут ты :) Ну поздравляю я тебя :) Спасибо :)
Некоторые партнерки дают XML в котором некоторые русские буквы заменены на графически похожие английские. Если их просто заменять str_replace то пострадают английские слова в тексте. Не хотелось бы изобретать велосипед, есть ли уже алгоритм или готовая функция?
Хм, мне как раз нужно похожий скриптиг писать на php. Чтобы находить опечатки в названиях товаров в магазине. Юзеры, когда вносят товар, частенько путают раскладку. Получается примерно так же как и в вашем случае ;)
Правда, написать скриптиг, который на 100% определял бы какой слово русское с опечаткой или английской с опечаткой, трудновато будет (например, бывают названия моделей смешанные и название может быть только из 2 букв, тогда какая из них в правильной раскладке? :) будет вопросом ). Поэтому перед заменой нужно сначало вывести админу, чтобы админ сам дал согласие, что мол, да, ЗАМЕНИТЬ БУКВУ.
Достанете раньше, поделитесь ;)
antono, алгоритм очевиден.
1. Разбиваете текст на слова.
2. Если в слове есть русские и латинские буквы и есть незаменяемые русские буквы (Щ, Ю, Ъ и т.д.), то заменяете все латинские буквы в слове на соответствующие русские.
3. Если в слове есть русские и латинские буквы и есть незаменяемые латинские буквы (W, F и т.д.), то заменяете все русские буквы в слове на соответствующие латинские
4. Если в слове нет никаких незаменяемых букв или есть одновременно и русские и латинские незаменяемые буквы - хз.
С Новым годом!
А если просто посчитать в слове количество русских и количество латинских букв и чего окажется больше, к тому языку принадлежит слово. И делать соответственно этому преобразования.