- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Делал когда-то такую штуку под себя. Алгоритм был что-то типа - найти элемент на странице у которого в дочках наибольшее количество тегов p и вытащить из него только текст. В большинстве случаев срабатывало.
https://github.com/aaronsw/html2text
https://github.com/aaronsw/html2text
У этого варианта есть серьезный минус: он сам не определяет кодировку исходного html документа. Т.е. придется предварительно поработать с ним.
regexp
десятьбукв
Могу выпарсить вам чистую текстовку из указанных вами сайтов, программу буду использовать CD 🍿
1MB текста = 1wmz
Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)
Uspeshniy, автоматический режим, по заверению разработчика распознает текст с вероятностью 65%, что неприемлемо для меня. А в ручную настраивать парсер под каждый сайт запаритесь же, если их 500 допустим. Уж легче руками собрать, хоть время на настройку не тратится :)
А что там в ручную настраивать? Нажать в браузере Ctrl+U посмотреть границы парсинга и указать их программе. :) Предварительно 1 раз, для всех сайтов, можно настроить шаблон сохранения.
а у меня под доры скрипт пашет на хуманэмуляторе
собирает и текст и заголовки ссылок то бишь кеи и картинки:)
запускаешь приходишь и оппа все уже разложено по полочкам:)
может потом еще дизайны буду собирать для анализа и тексты раскладывать на составляющие...
;)
ТС советую вам хорошую программу , юзаю давно в своих целях .
ZParserUltra универсальный парсер контента и графикиl
Искусственного интеллекта нет. Обычно пишется руками парсер под конкретный сайт, исходя из структуры его страниц.