- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
PHP-скрипт для очистки текстов от мусора (по заданным фильтрам)
Описание
Скрипт разбивает текст на предложения, затем проверяет каждое предложение по фильтрами. Если совпало - предложение удаляется. Все предложения, прошедшие проверку записываются в результирующий файл.
Скрипт хорошо подходит для создания текстовок для доров из сканированных книг, в которых бывает полно мусора. И что ещё хуже, часто бывает, что русские буквы заменены на внешне идентичные английские буквы.
После работы скрипта в результирующем файле будут сохранены только чистые предложения (в зависимости от выбранных фильтров).
Требования
PHP 4
Фильтры
Для удобства все фильтры выведены в отдельный файл "filters.txt" и легко могут быть изменены\добавлены.
ps) Для тех, кто хочет другой фильтр и не разбирается в регулярных выражениях - пишите в ветке, подскажу
Скачать
http://trindex.ru/download/textcleaner.zip (4 кб)
//PS) Целесообразность чистки текстовок для доров каждый решает для себя. И флеймить на эту тему в этой ветке не нужно!
Хороший скрипт, думаю новичкам пригодится. Скачал ,хотя есть подобный ,но у вас фильтров больше. Если нетрудно сделайте сохранение обработанных файлов в отдельную папку.
Если нетрудно сделайте сохранение обработанных файлов в отдельную папку.
Создайте папку в корне скрипта, назовите её "otdelnaya_papka" и в поле "куда сохранять" напишите "otdelnaya_papka\result.txt", не вижу проблемы
Спасибо alexandr_nv, весьма полезный скрипт.
Как можно задать удалять предложения, которые начинаются с тире и с пробелом потом тире? Чтобы удалять диалоги.
Как можно задать удалять предложения, которые начинаются с тире и с пробелом потом тире? Чтобы удалять диалоги.
В скрипте по умолчанию удаляются тире. Для написания такого фильтра сперва закоменти строку
Т.к. в скрипте по умолчанию сперва удаляются лишние пробелы, то фильтр будет таким
Как можно задать удалять предложения, которые начинаются с тире и с пробелом потом тире? Чтобы удалять диалоги.
А зачем их удалять? Просто убрать тире и переносы не катит?
KWK нормально с этой задачей справляется + можно писать свои фильтры, например от запрещенки, если на исходник пускаешь новости или документалку.
А вообще такой скрипт - штука полезная.
Клон -=Светы=-?
в KWK есть не все функции,
а какой макс размер файла можно подсовывать7
Было бы круто, если бы использовали более интеллектуальные способы определения границ предложений, например, принцип максимальной энтропии :)
Способы разбиения текста на предложения