Для начала нужно несколько миллионов рублей, а потом 100-300 тысяч ежемесячно на поддержку - Веб-строительство

501

Solmyr

10 июня 2018, 15:17

#21

borisd:
Ответ простой и однозначный - ЭТО реализовать НЕВОЗМОЖНО.

Один конкретный сайт (за некоторыми исключениями и в случае отсутствия противодействия) спарсить достаточно просто и стоить это будет не дорого. Но спарсить некий абстрактный сайт в вакууме и отфильтровать необходимое - невозможно, так как у всех разная разметка, логика, ошибки форматирования и т.д.

Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки... Доступ к нему был в Webmaster Tools. Но потом не срослось и его убрали.

Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке. Проблема мне видится все-таки больше с тем, что потом делать с тем что спарсено.

Z0

757

ziliboba0213

10 июня 2018, 15:23

#22

Solmyr:

Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке.

Там в видео 5к магазинов. Вы представляете сколько это кодить? 🤪

V1

55

vl12

10 июня 2018, 15:36

#23

ziliboba0213:
Там в видео 5к магазинов. Вы представляете сколько это кодить? 🤪

Как я понимаю их больше 30 000 сейчас уже спаршено и полностью настроено под выгрузку в соц сети + они обновляются.

Но что-то дорабатывается ручками при выгрузке специалистами парсера в первый раз как я понимаю и все.

B

262

borisd

10 июня 2018, 16:34

#24

vl12:
Вот этот невозможный парсер. Его донастраивают под каждый сайт но это парсер который реализован

Это не парсер, это интерфейс ко множеству парсеров конкретных сайтов. Вы даже задачу сформулировать не можете.

---------- Добавлено 10.06.2018 в 19:39 ----------

Solmyr:
Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки...

Невозможно сделать универсальное решение. Для универсального решения нужна четкая и однозначная разметка (html+css), но разметка часто бывает кривая, может изменяться, а ее может и вообще не быть, но данные надо вычленять и их можно вычленять, но в индивидуальном порядке. Но в любом случае универсальное решение на все случаи невозможно.

---------- Добавлено 10.06.2018 в 19:41 ----------

ziliboba0213:
Там в видео 5к магазинов. Вы представляете сколько это кодить?

И это вершина айсберга. На этих 5к магазинах время от времени происходят какие-либо изменения в коде страниц и это надо постоянно отслеживать и постоянно вносить изменения.

Так что, как выше написали, для старта надо несколько миллионов рублей, а потом 100-300 тысяч ежемесячно на поддержку. Но это я рассматриваю не сам код, а минибизнес.

1

396

Оптимизайка

10 июня 2018, 18:41

#25

Практически все CMS имеют выгрузку в яндекс-маркет. Т.е. XML с четкой структурой. Вот его и берите за основу, парсить уже не нужно, осталось сделать выгрузку в социальные сети. :)

2

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!

V1

55

vl12

10 июня 2018, 19:23

#26

---------- Добавлено 10.06.2018 в 23:25 ----------

borisd:
Это не парсер, это интерфейс ко множеству парсеров конкретных сайтов. Вы даже задачу сформулировать не можете.

Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами. Никто не называет их по другому, так как название обычно отражает самую суть, а не имеет задачей расписать все нюансы работы. Ну хотели вы поддеть, естественно не вышло, В чем прикол?

---------- Добавлено 10.06.2018 в 23:27 ----------

Оптимизайка:
Практически все CMS имеют выгрузку в яндекс-маркет. Т.е. XML с четкой структурой. Вот его и берите за основу, парсить уже не нужно, осталось сделать выгрузку в социальные сети. :)

Вопрос в реализации.

---------- Добавлено 10.06.2018 в 23:32 ----------

borisd:

Так что, как выше написали, для старта надо несколько миллионов рублей, а потом 100-300 тысяч ежемесячно на поддержку. Но это я рассматриваю не сам код, а минибизнес.

С таким бюджетом стартуют стартапы с крупными инвесторами. Никаких плюсов эти стартапы не имеют перед командой из программиста из Белоруссии за 40 тыс в месяц и пары копирайтеров или еще кого-то кто нужен по 20 тыс в месяц. Наоборот второй вариант значительно жизнеспособнее, так как сможет месяцы терять на ошибки и эксперименты.

Про миллионы для начала и 300 тыс в месяц для поддержки я бы сам написать мог в первом посте, за такие деньги найти 10 студий, которые бы нашли сами менеджеров, сами сделали ТЗ, сами бы нашли исполнителей и что-то попробовали сами сделать. Не факт что седлали бы, но бюджет освоили весь точно. Я же написал, что это не интересный путь. Что еще мне написать, чтобы понятно стало?

199

Arsh

10 июня 2018, 19:56

#27

vl12:
Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами. Никто не называет их по другому, так как название обычно отражает самую суть, а не имеет задачей расписать все нюансы работы. Ну хотели вы поддеть, естественно не вышло, В чем прикол?

Прикол в том, что он не хотел поддеть.

У Вас иллюзия, что Вы понимаете, что такое парсер.

1

B

262

borisd

10 июня 2018, 20:32

#28

vl12:
Разработчики этого парсера сами называют его парсером, все остальные проекты-аналоги так же называются парсерами.

Суть в том, что у них не некий универсальный парсер, а как я понимаю, у них на каждый источник - отдельный парсер, и все эти парсеры объединены единым интерфейсом управления. Т.е. задача ваша по любому сводится к тому, чтобы написать скрипт парсинга конкретного сайта. Если вам нужен парсинг 10000 сайтов, значит надо будет писать 10000 скриптов. Всякие надстройки и конструкторы особо не помогут, так как в большинстве случаев (но далеко не во всех) скрипты парсинга весьма простые и проблема не в написании таких скриптов, а в выявлении структуры данных сайта-источника, признаков элементов этой структуры, преобразовании в нормализованный вид, т.е. в собственную промежуточную модель данных. А изучение структуры данных и выявление признаков - это по любому ручная работа индивидуально по каждому сайту-источнику и никакого универсального парсера написать невозможно.

Вы упомянули 30000 сайтов источников? Ну, прикиньте, сколько времени понадобится квалифицированному специалисту, чтобы по каждому сайто проанализировать структуру данных, выявить признаки, написать (или настроить) скрипт импорта, протестировать... И так 30000 раз. Но это еще не всё. Надо потом регулярно будет проверять каждый сайт, не поменялась ли структура его данных и если поменялась, вносить изменения в скрипты импорта. Также наверняка пондобится постоянно добавлять новые источники и т.д., т.е. будет нужна постоянная квалифицированная поддержка.

vl12:
С таким бюджетом стартуют стартапы с крупными инвесторами.

Какие крупные инвесторы? Я указал 100-300 тысяч, а это зарплата квалифицированного специалиста. Ну, можно дешевле найти в странах ближнего зарубежья. Только вы сами то прикиньте, сколько времени понадобиться на разработку импорта индивидуально по 30000 источников и на их поддержку. Боюсь, что мои цифры занижены. Я еще не говорю о том, что при парсинге такого количества объемных сайтов возможно придется распараллеливать процессы на множество компов, также необходимо будет учитывать обрывы связи и повторные соединения, контроль за точностью и целостностью данных и т.д. и т.п. Гладко было на бумаге, да забыли про овраги.

273

XAHTOB

10 июня 2018, 20:55

#29

vl12:
Другие парсеры, которые я видел, не уверен что будут решать мои задачи без доработки

сколько стоит автомобиль в салоне?

а сколько будет стоить разработка и изготовление похожего автомобиля с нуля?

18

UmbrellaCoders

10 июня 2018, 23:41

#30

Этот сайт, турбопарсер, хоть и зовется парсером, но ничего он не парсит в принципе. Это агрегатор выгрузок от поставщиков, точка. технически это реализуется на раз два, поставщики скорее всего сами им выгрузки заливают в формате нужном и единственном. ну или делают ссылки на xml, csv выгрузки, а "турбопарсер" их просто забирает по расписанию и кладет/обновляет свою базу. все. никаких технических сложностей там нет, развели бред на три страницы ей богу .

вот и пример такой выгрузки, с которой я работал по одному проекту https://p5s.ru/e-commerce/feed/

---------- Добавлено 11.06.2018 в 02:49 ----------

fliger:
Народ, блокируйте ушлепков:
IP SELECTEL
82.202.198.186
82.202.207.37
82.202.207.38
82.202.207.42

Deny from 82.202.198.0/23
Deny from 82.202.200.0/21

🤣 ты думаешь там бот ходит и парсит сайты реально? это агрегатор выгрузок поставщиков, они сами с удовольствием отдают свои выгрузки кому захочешь, да еще и заказы по api примут, особо продвинутые. ппц сколько спецов тут...

основная сложность в реализации этого, это наладить контакты со всеми 30к поставщиками( это касается только тех, у кого выгрузки не в открытом доступе) и получить у них доступы к выгрузкам, либо затребовать свой формат, то есть тупо переписка, х.з. сколько времени нужно для этого. с точки зрения разработчика, не теоретика, в техническом плане сложностей нет от слова совсем.

Поисковик по экскурсиям мира (http://www.trip-finder.ru/) Разработка на php/phalcon, golang, postgresql

Как удалить плохие SEO-ссылки и очистить ссылочную массу сайта

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Создание парсера интернет магазинов