Solmyr

Solmyr
Рейтинг
501
Регистрация
10.09.2007

Если много страниц на сайте, то при быстрой скорости загрузки бот может сканировать больше страниц в день.

vl12:
А же показал в первом посте сайт, который является и парсером и бизнесом. Мне нужен такой же. Начинать буду с того, с чего смогу.

А вы знаете, что этот сайт делает с данными, после того как он их спарсит?

Если знаете - напишите. Если не знаете - как-нибудь разузнайте.

Сколько страниц наваяли, а ТС так и не написал, что он собирается делать, после того как данные спарсит.

ziliboba0213:
Там в видео 5к магазинов. Вы представляете сколько это кодить? 🤪

Я примерно представляю, сколько это кодить, при условии если магазины сопротивляются парсингу. Эта распространенная вообще-то ситуация, и магазины постоянно парсят друг-друга для целей автоматического мониторинга цен. Ну и естественно сопротивляются тому, чтобы их парсили конкуренты. Вот сколько трудозатрат программистов в таком случае - я представляю. И все равно эта задача решаема на практике. А сколько если не сопротивляются - я себе не так четко представляю. Но по сравнению с предыдущим вариантом - "очень-очень мало".

---------- Добавлено 11.06.2018 в 08:25 ----------

P.S. И мне реально кажется что вы напрасно сфокусировались именно на парсинге. Главный вопрос "что потом"? Например, если у вас там есть задача, "найти все магазины в которых есть товар A" - то вот это уже очень сложно.

borisd:
Ответ простой и однозначный - ЭТО реализовать НЕВОЗМОЖНО.

Один конкретный сайт (за некоторыми исключениями и в случае отсутствия противодействия) спарсить достаточно просто и стоить это будет не дорого. Но спарсить некий абстрактный сайт в вакууме и отфильтровать необходимое - невозможно, так как у всех разная разметка, логика, ошибки форматирования и т.д.

Гугл делал в свое время некий универсальный парсер структурированного контента, естественно с настройкой, но настройка была визуальная: типа "вот так наш парсер видит страницу вашего магазина, клацни туда где у тебя цена, а теперь клацни туда где у тебя фотки... Доступ к нему был в Webmaster Tools. Но потом не срослось и его убрали.

Но может прасер под каждый магазин и программист настраивать, ручками, это не сложно и не дорого на потоке. Проблема мне видится все-таки больше с тем, что потом делать с тем что спарсено.

vl12:
Буду признателен информации о подобных парсерах, точнее о сложности их создания и разработчиках.

А вы нам расскажите, что делают такие парсеры, а мы тогда вам расскажем в чем сложность.

Так, на первый взгляд, спарсить данные с сайта, особенно если владельцы этого сайта не особо активно этому препятствуют - ничего сложного нет. Сложнее залить в соцсети, потому что соцсети этому препятствуют. И достаточно хорошо и эффективно препятствуют.

Kenta:
Можно подробнее? А то у меня на куче сайтов, разных направлений каша полная. На страничке Альфа Банка реклама Тинькова появляется, на Аэрофлоте постоянно S7 тусит и так далее...

Если на странице где показан логотип Самсунга отображается реклама Сяоми - любой суд конечно признает что это нарушение. Правообладателю нужно только надлежащим образом заверить страницу, если это будет реклама адсенса с ПТ - с этим могут быть какие-то проблемы, а если это товарный информер - никаких проблем не будет, скорее всего нотариус с первого захода на страницу такое увидит. Если же нотариусу надо будет несколько раз страницу обновить, чтобы такое получить, нормальный нотариус это напишет в протоколе осмотра. Тогда уже пусть ваш юрист пытается доказать суду что-то наподобие, что нотариус понимал, что это реклама и не часть сайта.... не знаю. Формально все равно нарушение. В США с таким подают в суд непосредственно на гугл, а гугл потом доказывает в суде, что они принимает достаточные и обоснованные меры, чтобы так не было. Но у нас не США.

Alex Agent:
В самом начале сказано, что сайты - новостные, то есть носят чисто информационный характер. Используются для излечения прибыли посредством AdSense, товарных виджетов SocialMart и размещения баннеров рекламодателей. Непосредственно на сайтах товар не продается.

Если в результате размещения рекламных баннеров, на странице имеется одновременно товарный знак Samsung и реклама телефона другого производителя - это нарушение.

tina7177:
Вместе с Интернет ассоциацией мы повторно обратимся с письмом и к администрации Президента, и к НКРСИ о разъяснениях, что нам, как оператору телекоммуникаций, соблюдать: Указ Президента или Закон о телекоммуникациях», — рассказал директор провайдера NetAssist Сергей Чумак.

NetAssist это единственный провайдер, который в Украине имеет мнение против блокировок, все остальные выполняют все что захочет действующая власть аж бегом. Ну еще только Укртелеком плоховато выполняет, но только потому что у него совсем нет для этого технических возможностей. А так теоретически, они тоже готовы бегом.

trionz2:
Заблокировано движение WMU (создание wmu кошельков, оплата услуг, прямой вывод на карту). Не более того. И то можно вроде выводить через обменники.
Остальное всё работает в штатном режиме.

Вы уверены что движение WMU тоже заблокировано? Тогда совсем плохо и приплыли.

Я о том говорю, что по правилам Webmoney WMU обеспечены банковским депозитом украинского гаранта. Собственно сами переводы WMU - это перевод прав требования возмещения этого депозита. Если депозит заблокирован, но и возмещения держателям WMU не будет. Ну со стороны самих Webmoney не будет, а друг-другу конечно могут перепродавать.

Всего: 6170