Создание парсера интернет магазинов

Solmyr
На сайте с 10.09.2007
Offline
501
#21
borisd:
Ответ простой и однозначный - ЭТО реализовать НЕВОЗМОЖНО.

Один конкретный сайт (за некоторыми исключениями и в случае отсутствия противодействия) спарсить достаточно просто и стоить это будет не дорого. Но спарсить некий абстрактный сайт в вакууме и отфильтровать необходимое - невозможно, так как у всех разная разметка, логика, ошибки форматирования и т.д.

Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки... Доступ к нему был в Webmaster Tools. Но потом не срослось и его убрали.

Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке. Проблема мне видится все-таки больше с тем, что потом делать с тем что спарсено.

Z0
На сайте с 03.09.2009
Offline
757
#22
Solmyr:

Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке.

Там в видео 5к магазинов. Вы представляете сколько это кодить? 🤪

V1
На сайте с 08.05.2012
Offline
55
#23
ziliboba0213:
Там в видео 5к магазинов. Вы представляете сколько это кодить? 🤪

Как я понимаю их больше 30 000 сейчас уже спаршено и полностью настроено под выгрузку в соц сети + они обновляются.

Но что-то дорабатывается ручками при выгрузке специалистами парсера в первый раз как я понимаю и все.

B
На сайте с 13.02.2008
Offline
262
#24
vl12:
Вот этот невозможный парсер. Его донастраивают под каждый сайт но это парсер который реализован

Это не парсер, это интерфейс ко множеству парсеров конкретных сайтов. Вы даже задачу сформулировать не можете.

---------- Добавлено 10.06.2018 в 19:39 ----------

Solmyr:
Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки...

Невозможно сделать универсальное решение. Для универсального решения нужна четкая и однозначная разметка (html+css), но разметка часто бывает кривая, может изменяться, а ее может и вообще не быть, но данные надо вычленять и их можно вычленять, но в индивидуальном порядке. Но в любом случае универсальное решение на все случаи невозможно.

---------- Добавлено 10.06.2018 в 19:41 ----------

ziliboba0213:
Там в видео 5к магазинов. Вы представляете сколько это кодить?

И это вершина айсберга. На этих 5к магазинах время от времени происходят какие-либо изменения в коде страниц и это надо постоянно отслеживать и постоянно вносить изменения.

Так что, как выше написали, для старта надо несколько миллионов рублей, а потом 100-300 тысяч ежемесячно на поддержку. Но это я рассматриваю не сам код, а минибизнес.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#25

Практически все CMS имеют выгрузку в яндекс-маркет. Т.е. XML с четкой структурой. Вот его и берите за основу, парсить уже не нужно, осталось сделать выгрузку в социальные сети. :)

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
V1
На сайте с 08.05.2012
Offline
55
#26

---------- Добавлено 10.06.2018 в 23:25 ----------

borisd:
Это не парсер, это интерфейс ко множеству парсеров конкретных сайтов. Вы даже задачу сформулировать не можете.







Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами. Никто не называет их по другому, так как название обычно отражает самую суть, а не имеет задачей расписать все нюансы работы. Ну хотели вы поддеть, естественно не вышло, В чем прикол?

---------- Добавлено 10.06.2018 в 23:27 ----------

Оптимизайка:
Практически все CMS имеют выгрузку в яндекс-маркет. Т.е. XML с четкой структурой. Вот его и берите за основу, парсить уже не нужно, осталось сделать выгрузку в социальные сети. :)

Вопрос в реализации.

---------- Добавлено 10.06.2018 в 23:32 ----------

borisd:

Так что, как выше написали, для старта надо несколько миллионов рублей, а потом 100-300 тысяч ежемесячно на поддержку. Но это я рассматриваю не сам код, а минибизнес.

С таким бюджетом стартуют стартапы с крупными инвесторами. Никаких плюсов эти стартапы не имеют перед командой из программиста из Белоруссии за 40 тыс в месяц и пары копирайтеров или еще кого-то кто нужен по 20 тыс в месяц. Наоборот второй вариант значительно жизнеспособнее, так как сможет месяцы терять на ошибки и эксперименты.

Про миллионы для начала и 300 тыс в месяц для поддержки я бы сам написать мог в первом посте, за такие деньги найти 10 студий, которые бы нашли сами менеджеров, сами сделали ТЗ, сами бы нашли исполнителей и что-то попробовали сами сделать. Не факт что седлали бы, но бюджет освоили весь точно. Я же написал, что это не интересный путь. Что еще мне написать, чтобы понятно стало?

Arsh
На сайте с 21.03.2007
Offline
199
#27
vl12:
Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами. Никто не называет их по другому, так как название обычно отражает самую суть, а не имеет задачей расписать все нюансы работы. Ну хотели вы поддеть, естественно не вышло, В чем прикол?

Прикол в том, что он не хотел поддеть.

У Вас иллюзия, что Вы понимаете, что такое парсер.

B
На сайте с 13.02.2008
Offline
262
#28
vl12:
Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами.

Суть в том, что у них не некий универсальный парсер, а как я понимаю, у них на каждый источник - отдельный парсер, и все эти парсеры объединены единым интерфейсом управления. Т.е. задача ваша по любому сводится к тому, чтобы написать скрипт парсинга конкретного сайта. Если вам нужен парсинг 10000 сайтов, значит надо будет писать 10000 скриптов. Всякие надстройки и конструкторы особо не помогут, так как в большинстве случаев (но далеко не во всех) скрипты парсинга весьма простые и проблема не в написании таких скриптов, а в выявлении структуры данных сайта-источника, признаков элементов этой структуры, преобразовании в нормализованный вид, т.е. в собственную промежуточную модель данных. А изучение структуры данных и выявление признаков - это по любому ручная работа индивидуально по каждому сайту-источнику и никакого универсального парсера написать невозможно.

Вы упомянули 30000 сайтов источников? Ну, прикиньте, сколько времени понадобится квалифицированному специалисту, чтобы по каждому сайто проанализировать структуру данных, выявить признаки, написать (или настроить) скрипт импорта, протестировать... И так 30000 раз. Но это еще не всё. Надо потом регулярно будет проверять каждый сайт, не поменялась ли структура его данных и если поменялась, вносить изменения в скрипты импорта. Также наверняка пондобится постоянно добавлять новые источники и т.д., т.е. будет нужна постоянная квалифицированная поддержка.

vl12:
С таким бюджетом стартуют стартапы с крупными инвесторами.

Какие крупные инвесторы? Я указал 100-300 тысяч, а это зарплата квалифицированного специалиста. Ну, можно дешевле найти в странах ближнего зарубежья. Только вы сами то прикиньте, сколько времени понадобиться на разработку импорта индивидуально по 30000 источников и на их поддержку. Боюсь, что мои цифры занижены. Я еще не говорю о том, что при парсинге такого количества объемных сайтов возможно придется распараллеливать процессы на множество компов, также необходимо будет учитывать обрывы связи и повторные соединения, контроль за точностью и целостностью данных и т.д. и т.п. Гладко было на бумаге, да забыли про овраги.

XAHTOB
На сайте с 08.03.2010
Offline
273
#29
vl12:
Другие парсеры, которые я видел, не уверен что будут решать мои задачи без доработки

сколько стоит автомобиль в салоне?

а сколько будет стоить разработка и изготовление похожего автомобиля с нуля?

всем кто окончил школу жизни вручают мраморный диплом ©
UmbrellaCoders
На сайте с 19.02.2016
Offline
18
#30

Этот сайт, турбопарсер, хоть и зовется парсером, но ничего он не парсит в принципе. Это агрегатор выгрузок от поставщиков, точка. технически это реализуется на раз два, поставщики скорее всего сами им выгрузки заливают в формате нужном и единственном. ну или делают ссылки на xml, csv выгрузки, а "турбопарсер" их просто забирает по расписанию и кладет/обновляет свою базу. все. никаких технических сложностей там нет, развели бред на три страницы ей богу .

вот и пример такой выгрузки, с которой я работал по одному проекту https://p5s.ru/e-commerce/feed/

---------- Добавлено 11.06.2018 в 02:49 ----------

fliger:
Народ, блокируйте ушлепков:
IP SELECTEL
82.202.198.186
82.202.207.37
82.202.207.38
82.202.207.42

Deny from 82.202.198.0/23
Deny from 82.202.200.0/21

🤣 ты думаешь там бот ходит и парсит сайты реально? это агрегатор выгрузок поставщиков, они сами с удовольствием отдают свои выгрузки кому захочешь, да еще и заказы по api примут, особо продвинутые. ппц сколько спецов тут...

основная сложность в реализации этого, это наладить контакты со всеми 30к поставщиками( это касается только тех, у кого выгрузки не в открытом доступе) и получить у них доступы к выгрузкам, либо затребовать свой формат, то есть тупо переписка, х.з. сколько времени нужно для этого. с точки зрения разработчика, не теоретика, в техническом плане сложностей нет от слова совсем.

Поисковик по экскурсиям мира (http://www.trip-finder.ru/) Разработка на php/phalcon, golang, postgresql

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий