Если много страниц на сайте, то при быстрой скорости загрузки бот может сканировать больше страниц в день.
А вы знаете, что этот сайт делает с данными, после того как он их спарсит?
Если знаете - напишите. Если не знаете - как-нибудь разузнайте.
Сколько страниц наваяли, а ТС так и не написал, что он собирается делать, после того как данные спарсит.
Я примерно представляю, сколько это кодить, при условии если магазины сопротивляются парсингу. Эта распространенная вообще-то ситуация, и магазины постоянно парсят друг-друга для целей автоматического мониторинга цен. Ну и естественно сопротивляются тому, чтобы их парсили конкуренты. Вот сколько трудозатрат программистов в таком случае - я представляю. И все равно эта задача решаема на практике. А сколько если не сопротивляются - я себе не так четко представляю. Но по сравнению с предыдущим вариантом - "очень-очень мало".---------- Добавлено 11.06.2018 в 08:25 ----------P.S. И мне реально кажется что вы напрасно сфокусировались именно на парсинге. Главный вопрос "что потом"? Например, если у вас там есть задача, "найти все магазины в которых есть товар A" - то вот это уже очень сложно.
Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки... Доступ к нему был в Webmaster Tools. Но потом не срослось и его убрали.
Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке. Проблема мне видится все-таки больше с тем, что потом делать с тем что спарсено.
А вы нам расскажите, что делают такие парсеры, а мы тогда вам расскажем в чем сложность.
Так, на первый взгляд, спарсить данные с сайта, особенно если владельцы этого сайта не особо активно этому препятствуют - ничего сложного нет. Сложнее залить в соцсети, потому что соцсети этому препятствуют. И достаточно хорошо и эффективно препятствуют.
Если на странице где показан логотип Самсунга отображается реклама Сяоми - любой суд конечно признает что это нарушение. Правообладателю нужно только надлежащим образом заверить страницу, если это будет реклама адсенса с ПТ - с этим могут быть какие-то проблемы, а если это товарный информер - никаких проблем не будет, скорее всего нотариус с первого захода на страницу такое увидит. Если же нотариусу надо будет несколько раз страницу обновить, чтобы такое получить, нормальный нотариус это напишет в протоколе осмотра. Тогда уже пусть ваш юрист пытается доказать суду что-то наподобие, что нотариус понимал, что это реклама и не часть сайта.... не знаю. Формально все равно нарушение. В США с таким подают в суд непосредственно на гугл, а гугл потом доказывает в суде, что они принимает достаточные и обоснованные меры, чтобы так не было. Но у нас не США.
Если в результате размещения рекламных баннеров, на странице имеется одновременно товарный знак Samsung и реклама телефона другого производителя - это нарушение.
NetAssist это единственный провайдер, который в Украине имеет мнение против блокировок, все остальные выполняют все что захочет действующая власть аж бегом. Ну еще только Укртелеком плоховато выполняет, но только потому что у него совсем нет для этого технических возможностей. А так теоретически, они тоже готовы бегом.
Вы уверены что движение WMU тоже заблокировано? Тогда совсем плохо и приплыли.
Я о том говорю, что по правилам Webmoney WMU обеспечены банковским депозитом украинского гаранта. Собственно сами переводы WMU - это перевод прав требования возмещения этого депозита. Если депозит заблокирован, но и возмещения держателям WMU не будет. Ну со стороны самих Webmoney не будет, а друг-другу конечно могут перепродавать.