Создание парсера интернет магазинов

B
На сайте с 13.02.2008
Offline
262
#61
UmbrellaCoders:
а 1 страница это сколько запросов к серверу от браузера? 1 запрос наверно в твоем представлении?

Да, именно так. Например в Nginx можно настроить такое ограничение для отдачи основной (html) страницы, а доступ к остальным ресурсам (картинкам и пр.) не ограничивать.

IPXI
На сайте с 04.11.2015
Offline
126
#62
vl12:

1.Понять сколько это стоит
2.Понять кто может это качественно реальзовать. К сожалению, за 10+ лет работы с сайтами четко понимаю, что это задача для профи, а предложений от дилетантов не хочется даже видеть. Надоели честно говоря люди, которые берутся за то, в чем имеют весьма общее понимание, но со словами что все сделают и обещаниями (таких по сложным темам процентов 95). Или студии, которые сообщают космический бюджет, думая, что если выгорит уже тогда подумают как это все делать.

Вам нужен python программист и чётко сформулированная для него задача. Сделать можно фсё! :o

IPXI
На сайте с 04.11.2015
Offline
126
#63
vl12:
...это задача для профи, а предложений от дилетантов не хочется даже видеть...

выбирайте биржу, выбирайте исполнителей, узнавайте цены, если есть желание сэкономить, книги в руки и вперёд, в любом случае, чтобы нанимать фрилансеров, неплохо было бы и самому вникнуть что сложно а что нет

---------- Добавлено 11.06.2018 в 17:05 ----------

vl12, я бы ещё посоветовал разбить задачу на этапы и, начиная с самого сложного этапа (вероятно это работа с соц.сетью), искать исполнителя именно на этот этап, чтобы ни у кого не было полного пазла, кроме вас. При этом используйте самые популярные технологии, чтобы проще было менять программистов.

---------- Добавлено 11.06.2018 в 17:31 ----------

vl12, а можете показать в каком формате это выглядит в соц.сетях?

---

V1
На сайте с 08.05.2012
Offline
55
#64
IPXI:


vl12, а можете показать в каком формате это выглядит в соц.сетях?

---

Каюсь, даже при установленных 2 виджетах на своем интернет магазине выгружать в свои группы что-либо я так и не стал) Но я думаю это выгрузка в альбомы типа такого https://vk.com/albums-38455341 Видите 200 тыс фото в альбоме с параметрами. Думаю это как раз этими парсерами сделано.

http://opt.fpeople-store.ru Вот не мой магазин - на сайте установлено 2 виджета 2х разных парсеров. Можно через любой выгрузить себе в соц сеть если интересно.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#65

vl12, т.е. если использовать встроенную во все CMS функцию экспорта яндекс-маркета, и использовать API VK товаров, то задача сводится к интеграции этих двух функций, т.е. можете обратиться к Милторгу, он за 2 евро все сделает.

А еще можно просто скачать себе соответствующий уже готовый плагин и не морочать людям голову.

⭐ BotGuard (https://botguard.net) ⭐ — защита вашего сайта от вредоносных ботов, воровства контента, клонирования, спама и хакерских атак!
Arsh
На сайте с 21.03.2007
Offline
199
#66
vl12:
Какая вам разница какой я заказчик и почему вы считаете что это можно обсуждать в моей теме?

1) Я любопытен

2) Можно. Априори.

V1
На сайте с 08.05.2012
Offline
55
#67
Оптимизайка:
vl12, т.е. если использовать встроенную во все CMS функцию экспорта яндекс-маркета, и использовать API VK товаров, то задача сводится к интеграции этих двух функций, т.е. можете обратиться к Милторгу, он за 2 евро все сделает.

А еще можно просто скачать себе соответствующий уже готовый плагин и не морочать людям голову.

Вы прочитали, про количество сайтов, которое нужно спарсить 30000+ Не о моем сайте говорим.

И как эти встроенные выгрузки для маркета помогут если просто парсить сайты? Это нужно, чтобы магазины сами передавали, я правильно понимаю? а они сами на начальном этапе далеко не все будут передавать. Да и потом, думаю, процентов 30% вообще взаимодействуют с парсером, остальных парсят без их ведома.

---------- Добавлено 11.06.2018 в 23:33 ----------

Arsh:
1) Я любопытен
2) Можно. Априори.

Человеку априори можно все, на что хватает его физических возможностей. Но ограничения, которые сам же человек себе ставит, обычно сдерживают большинство от "странных" поступков и самоутверждения в форумах типа этого ради самоутверждения.

Оптимизайка
На сайте с 11.03.2012
Offline
396
#68
vl12:
Это нужно, чтобы магазины сами передавали, я правильно понимаю? а они сами на начальном этапе далеко не все будут передавать. Да и потом, думаю, процентов 30% вообще взаимодействуют с парсером, остальных парсят без их ведома

Чуть ранее вы говорили, что:

А вы хоть поняли суть проекта? К этим парсерам владельцы сайтов сами обращаются, чтобы их спарсили

Вы определитесь для начала, с ведома или без такового. Это разные задачи.

_
На сайте с 24.03.2008
Offline
381
#69
ziliboba0213:
дешевле чем за 50к никто на постоянку из прогеров не пойдет

Где вы их таких берете, и что они вам за 50к в месяц пишут, интересно :) ?

10 лет назад участвовал в интервью, человек >50 прошло, "не шлак" начинался с 100к.

Если говорить об "архитекторах" "грамотных спецах" и прочее, то даже не буду озвучивать

сколько люди хотели денег. И да, их было... один... толи два.

Все остальные тоже хотели 100+к, но половине их яб и унитазы не доверил мыть...

Честно - мой коллега неиллюзорно плакал смотря в тесты...

Два года назад я не участвовал, но участвовал коллега... с инфарктом слег он в результате, вообще мрак адский.

Чейто вспомнил:

- собрались so-то ?

- а, да, смог наконец, после 3х недель трахача, вот они

- а где скрипты сборки ?

- я их удалил. Кому они теперь нужны ?

:)

borisd:

Есть желающие предложить универсальный алгоритм нормализации подобных вариантов написания, т.е. сведения их всех к одной и той же модели? А ведь таких нюансов там множество. А описание характеристик - вообще у всех по разному идет.

Дядька бурундук вроде делал. Т.е. всё по уму, разбор семантики итд итп.

ЗЫ. Спарсить один-два-пять современных ИМов - нет никаких проблем. Парсю же :).

Спарсить десятки тысяч произвольных ИМ - гарантированная жопа.

Не понимаю почему стартовый бюджет в ~3$ на ИМ (100.000$ итого) показался ТСу завышенным.

Как-бы не вышло под миллион на выходе... долларов.

Те, кто думает, что парсить в таком объеме можно без большой системы прокси и без анализа

скорости отдачи страниц (чтобы не перегружать доноров) люди довольно больные на голову.

И (к счастью) они такого напарсят, что мало не покажется.

Те, кто вообще собирается парсить что-то в таких объемах, вместо того, чтобы забрать это

все с амазоновского "образа инета" тоже люди не очень здоровые.

PS. А уж совсем дебилом надо быть, для того, чтобы вместо написания нормального плагина экспорта-импорта

под два десятка ИМ(да есть готовые небось), парсить html и из него что-то извлекать. Это если говорить о том,

что владельцы в курсе, что их парсят зачем-то.

---------- Добавлено 13.06.2018 в 14:05 ----------

ЗЫ. Пока обедал, понял, что "на массе" можно действительно добиться того, что довольно тупой оператор сможет распарсить 95% магазинов с "правильной" тулзой. Надо только хорошо подумать, и догадаться как она должна работать (конечно никаких регулярных выражений, никакого описания тэгов итп в ней быть не должно).

nezabor
На сайте с 19.07.2010
Offline
152
#70
vl12:
Если у вас всех, кто пишет всякую чепуху, не хватило времени зайти на сайт, котогрый я сразу показал и прочитать что это такое, но хватает времени написать всякий бред от нечего делать про 100 рублей и т.п., ну что тут скажешь?

получается вы банально прорекламировали свой сайт?

Чудес не бывает...

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий