- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
В 2023 году Google заблокировал более 170 млн фальшивых отзывов на Картах
Это на 45% больше, чем в 2022 году
Оксана Мамчуева
Тренды маркетинга в 2024 году: мобильные продажи, углубленная аналитика и ИИ
Экспертная оценка Адмитад
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Добрый день.
У меня есть потребность в относительно универсальном парсере контента.
Что я под этим понимаю:
Это программное решение - не важно, desktop или скрипт - способное спарсить контент(текст, рисунки и пр.) в указанных мной диапазонах с указанной мной структурой, по определённым правилам. И сохранить результат в виде html, txt и пр. соответствующего содержимого.
Хм.
Достаточно размытое описание вышло.
Но думаю, те, кто пользуются подобными решениями меня сразу поймут.
Идеальный вариант - Bget, но 2.5k я пока за него не готов отдать.
Возможно, уважаемое сообщество подскажет что-либо подходящее за относительно приемлемые деньги?
Идеальный вариант - Bget
он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу
он прекрасно парсит и сохраняет по 500 позиций. После этого выгружаете их в файл и очищаете резалт. Запускаете парсинг - он добирает ещё 500, сохраняете в ТОТ ЖЕ файл (дописывая) и так по кругу
Вот-вот.
Я как представлю - правила настроил, и ушел спать на всю ночь.. А к утру вся wikipedia :) у меня на рабочем столе в html.
Красота.
Именно из-за такой возможной автоматизации я и создал этот топик.
Тем более, что я использую лишь малую часть возможностей Bget.
Вы пользуетесь только Bget, или совмещаете с чем-то ещё?
Представьте, что нужно спарсить сто тысяч статей. Как вы это сделаете ?
ТС, попробуй заюзать мой бесплатный. все подробности на блоге в подписи.
зы - читай комменты.
Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.
Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.
Я сейчас дописываю программу, которая парсит контент (текст, картинки) на указанных сайтах между указанных меток, затем фильрует его и уникализирует на ходу алгоритмами "Бипод" и "М1pluss", картинки переименовывает как название новости.
Настроек много. но все интуитивно понятно, могу дать бесплатно вам для теста, все уже работает.
Дайте для теста
ya-ya,
Посмотрю, спасибо.
На первый взгляд - сыровато.
Но это только на первый взгляд, после первой попытки поработать с вашей программой.
Сохраняет весь доступный контент, включая рисунки, swf и flv ?
offlajn,
Спасибо за предложение, с удовольствием посмотрю вашу программу.
Хотя, у меня немного предвзятое отношение к программам-многоцелевым-комбайнам. Именно из-за их размытого назначения. Как ваша программа работает с английским языком и форматами, что я указал выше?
Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).
Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.
зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.
Siddhartha, сохранит то, что пропишешь в настройках (любое текстовое содержание со страницы).
Сохранять картинки, флэшки, видео не умеет. Даже не работал в этом направлении. Но ссылки на них запросто вытащит.
зы Предложения по улучшениям очень приветствуются. Желательно подробнее описывать, что нужно реализовать.
Ясно.
Мне недостаточно одного текста.
Что касается предложений и улучшений - мне нужно сейчас работать, а не ждать идеальной бесплатной программы.
Тем не менее, спасибо, что делаете бесплатный софт.
Возможно, есть ещё какие-либо варианты?
Siddhartha, тогда попробуйте Visual Web Ripper
http://www.visualwebripper.com/
демо ролики на сайте, программу брать на нулледе или в личку стукнитесь.
Но в настройке весьма сложен.
Ещё есть Web Info Extractor
Однозначно рекомендую Content Downloader (сам пользуюсь):
1. Настраивается просто и под любой сайт, где нет защиты от прасинга
2. мегаадекватный автор (а значит и поддержка)
3. смешная цена - 800руб. (Кроме этого, возможно договориться с автором о скидке, если одновременно брать нескольким людям)