- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Всем привет. Не знал в какую тему написать вопрос. Думаю эта оптимальная.
Подскажите, интересует вопрос , каким инструментом , кто пользуется для парсинга сайтов. Цена фото , описание (карточек товара)
Какой сайт (сайты), какое количество страниц, периодичность, 'экспорт данных куда, в каком формате. и .т.д....?
В зависимости от условий задачи можно в самых простых случаях использовать расширение для хрома, например scraper.
Можно воспользоваться онлайн сервисами (но как правило они буксуют если есть средства противодействия ботам), Есть всякие типа A-Parser (но под конкретику настраивать надо).
Можно заказать у специалистов.....
Все зависит от условий задачи....
У всех сайтов разный HTML.
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
drDaemon #:
Это вообще не проблема. Обычно 20 минут на то чтобы это расковырять. Проблемы совсем в другом месте.
А кто говорит, что это проблема? Просто факт - код разный. А значит, что либо настройками, либо в коде РУКАМИ по-любому придется указывать блок, в котором содержится искомая информация. И это к тому, что "взял-поставил-запустил-получил" - только для мегашаблонных сайтов. Для всех остальных придется работать ручками, при этом либо хоть немного понимая, что делаешь, либо заказывать. Не нужно додумывать за других то, что не было написано.
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что "скачать сайт". Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к "500", внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
Тем более, что речь идет за парсинг магазина, выборку цен и позиций, что точно не тоже самое, что "скачать сайт". Эти данные нужно получить, очистить, привести к нужному виду, залить в свою базу, либо создать возможность сортировки этих данных. Мало получить из <span>500,00 руб.</span>, нужно еще и привести эту строку к "500", внеся в таблицу. И чем разнообразнее возможные данные в одном и том же блоке, тем веселее.
Это вообще не проблема и решается, например в Python(Scrapy) одним плагином, который подключается к каждому парсеру и приводит данные к нужной модели. Делается 1 раз для конкретной модели данных.
Не нужно додумывать за других то, что не было написано.
Проблемы на самом деле начинаются во врем эксплуатации.
из готовых достаточно простой и понятный софт Datacol
Поддерживаю. Использую больше 3 лет. У меня ещё полноценная лицензия а не годовая. Datacol имеет очень внушительный функционал!