Создание парсера интернет магазинов

Arsh
На сайте с 21.03.2007
Offline
199
#51
ziliboba0213:
Вы начали менять ТЗ своего первого поста еще на стадии обсуждения цены

Это такой тип заказчика. Большего ужаса не знаю.

Вынет весь мозг за 3 копейки.

Z0
На сайте с 03.09.2009
Offline
784
#52
Arsh:
Это такой тип заказчика. Большего ужаса не знаю.
Вынет весь мозг за 3 копейки.

Я из-за этого ушел из офиса, все нервы вымотал один заказчик, у меня даже глаз дергаться начал 🤣

B
На сайте с 13.02.2008
Offline
262
#53
UmbrellaCoders:
"проанализировать структуру данных и разметку источника" - это что, сложно? я за 5 мин вычленю все нужные xpath со страницы, никакой сверхмагии тут нет.

Ох, как же всё запущено... Вычленить, внедрить, проверить. Выше написали, что полчаса достаточно. Хорошо, остановимся на получасе. Вы простые арифметические действия знаете? На калькуляторе можете умножить полчаса на 30 тысяч и перевести в человеко-часы?

UmbrellaCoders:
а вообще, 5-10к usd вполне реальный бюджет, и ТС может найти исполнителя/команду за такую сумму

Где??? Где есть такая команда квалифицированных специалистов, готовая за 5-10К долларов на меня несколько лет ежедневно пахать?

UmbrellaCoders:
что это за бред? ты хоть один парсер писал на практике?

В том то и дело, что писал, причем серьезные.

UmbrellaCoders:
на каждый урл по 2-5 секунд?

Да, в среднем реакция хостингов сайтов именно такая. Даже если отклик менее секунды я бы рассчитывал на вышеуказанные цифры, принудительно бы к этим цифрам свёл, путем внедрения искусственной задержки.

UmbrellaCoders:
хочешь подарю парсер votpusk , запустишь и посмотришь сколько времени уходит на парсинг ВСЕХ статей ( 10к+ )

Теперь я знаю, кто гадит в инете :). Профессионал не будет причинять вреда сайту-источнику, не будет запускать загрузку сайта в сотни параллельных потоков, не будет подставлять своего клиента. Неразумные школьники сразу отправляются в бан вместе с их неразумными заказчиками.

---------- Добавлено 11.06.2018 в 14:09 ----------

И просто спарсить - это половина проблемы. Проблема еще обработать, нормализовать данные, установить связи.

Пример некоторых вариантов написания названия модели смартфона:

"Планшет Lenovo Phab 2 Pro"

"Смартфон Lenovo Phab 2 Pro"

"Фаблет Lenovo Phab 2 Pro"

"Lenovo Phab 2 Pro"

"Lenovo Phab2 Pro"

"Lenovo Phab2Pro"

"Lenovo PB 2 Pro"

"Lenovo PB2 Pro"

"Lenovo PB2Pro"

"Lenovo Phab 2 Pro PB2-690M"

"Lenovo Phab PB2-690M"

"Lenovo PB2-690M"

...

Это разные варианты написания одной и той же модели смартфона. Я еще опечатки не учитываю.

-------

Есть желающие предложить универсальный алгоритм нормализации подобных вариантов написания, т.е. сведения их всех к одной и той же модели? А ведь таких нюансов там множество. А описание характеристик - вообще у всех по разному идет.

UmbrellaCoders
На сайте с 19.02.2016
Offline
18
#54

"Планшет Lenovo Phab 2 Pro"

"Смартфон Lenovo Phab 2 Pro"

"Фаблет Lenovo Phab 2 Pro"

"Lenovo Phab 2 Pro"

"Lenovo Phab2 Pro"

"Lenovo Phab2Pro"

"Lenovo PB 2 Pro"

"Lenovo PB2 Pro"

"Lenovo PB2Pro"

"Lenovo Phab 2 Pro PB2-690M"

"Lenovo Phab PB2-690M"

все это лежит в теге <h2 class="title"> например, в чем сложность? пусть хоть там тайтл Lenovo Phab vsghshsh PB2-690...

про причинение вреда сайту донору это вообще мега LOL, яндекс/гугл боты тоже по 1 странице в 3-5 секунд ходят, не дай бог сайту плохо станет 🤣

короче, никаких сайтов ты не парсил, это сразу видно, иначе подобный бред бы не нес, а если и парсил, то представляю какими говнометодами и говнокодом. я в свою очередь за три года спарсил сотни сайтов, у меня на диске десятки баз всего, чего только возможно, и я знаю о чем говорю 😎

"Неразумные школьники сразу отправляются в бан вместе с их неразумными заказчиками." - а у местных я смотрю свой особенный и неповторимы колорит 🤣

и такие "специалисты" ведь и заказы берут, теперь я понимаю переживания ТС , с такими спецами реально продукта не получишь никогда в продашен

не могу остановится, я так и представляю "серьезный парсер", который ходит по 1-ой странице в 5 сек и парсит сайт три месяца, этож кому так повезло 🤣

Поисковик по экскурсиям мира (http://www.trip-finder.ru/) Разработка на php/phalcon, golang, postgresql
B
На сайте с 13.02.2008
Offline
262
#55
UmbrellaCoders:
все это лежит в теге <h2 class="title"> например, в чем сложность? пусть хоть там тайтл Lenovo Phab vsghshsh PB2-690...

Мда, вы, похоже, вообще не понимаете, о чем речь... Вы не можете понять той мысли, что вычленять надо не слова/токены, а семантические единицы. Мне надо все эти варианты написания в своей базе данных свести к единому товару, а у вас для каждого варианта написания отдельный товар будет создаваться - такие сырые данные непригодны для серьезной обработки - это халтура.

UmbrellaCoders:
не могу остановится, я так и представляю "серьезный парсер"

Да, представьте себе, что существуют парсеры не только для скачивания порнухи. Серьезные парсеры используются не для републикации всякой развлекательной дряни, а для анализа и обработки импортированных данны, для их систематизации, выявления связей и пр.

UmbrellaCoders
На сайте с 19.02.2016
Offline
18
#56
borisd:
Мда, вы, похоже, вообще не понимаете, о чем речь... Вы не можете понять той мысли, что вычленять надо не слова/токены, а семантические единицы. Мне надо все эти варианты написания в своей базе данных свести к единому товару, а у вас для каждого варианта написания отдельный товар будет создаваться - такие сырые данные непригодны для серьезной обработки - это халтура.

это вы не понимаете, еще раз перечитайте что нужно ТС, при чем тут сводить к единому товару вообще? какая серьезная обработка ? 🤣

"Серьезные парсеры" по 5сек на страницу? ну ок, зачем они нужны, если например на сайте 100к страниц, а данные с них нужны каждые 6 часов? вопрос риторический...

p.s. когда ты слишком "умный" ( или хочешь таким казаться ) и говоришь много умных слов, ты становишься заложником своего ума, и перестаешь адекватно видеть мир , имхо

еще и "репу" сливает, обиженка 🤣

B
На сайте с 13.02.2008
Offline
262
#57
UmbrellaCoders:
ну ок, зачем они нужны, если например на сайте 100к страниц, а данные с них нужны каждые 6 часов? вопрос риторический...

Ну, давайте, давайте, предложите простое и дешевое решение, как быстро спарсить 100к страниц при следующих условиях:

1) Не доставить проблем целевому сайту.

2) Не попасть под автоматический бан/капчу.

3) Не попасть под подмену информации на некорректную (очень неприятный вариант).

4) Сервер сайта не позволяет скачивать с одного ip более одной страницы в секунду.

???

V1
На сайте с 08.05.2012
Offline
55
#58
Arsh:
Это такой тип заказчика. Большего ужаса не знаю.
Вынет весь мозг за 3 копейки.

Как по мне, так ужасны люди, которые не в своей ветке совершенно не имея ничего толкового ни в качестве комментариев ни по теме допускают возможность обсуждения типа личности заказчика, сколько и как он может/ не может заплатить и т.д. и т.п.

Это же не флудоветка вроде? Какая вам разница какой я заказчик и почему вы считаете что это можно обсуждать в моей теме?

У меня опыт работы с исполнителями более 10 лет в роли ген. директора и владельца и сайтов, и интернет магазинов и т.п. Была и своя веб студия. Поэтому я так категоричен, потому, что знаю и кто такие фрилансеры и кто обитает на подобных форумах. и мне просто поговорить на предмет моей компетентности или платежеспособности и подобных вопросах не интересно. Я предельно конкретно обрубаю весь этот флуд, так как на 6 страниц текста его тут и так 80%. То есть по делу сказать нечего, давай ка скажу "Это стоит пять триллионов долларов и задачу надо начинать с составления ТЗ"

Прекрасно, когда мне нужно будет обучиться как вести проекты и с чего начинать и как формировать бюджет я так тему и назову.

А вторую тему назову "дельные советы обо всем". Вот в эти темы пожалуйста любую инфу. Сюда она зачем?

B
На сайте с 13.02.2008
Offline
262
#59

UmbrellaCoders, как я и полагал, кроме словесного поноса конкретики от вас не будет.

---------- Добавлено 11.06.2018 в 16:00 ----------

vl12, обращайтесь к UmbrellaCoders - он за две копейки вам всё сделает, вы подходите друг другу.

V1
На сайте с 08.05.2012
Offline
55
#60
borisd:
UmbrellaCoders, как я и полагал, кроме словесного поноса конкретики от вас не будет.

---------- Добавлено 11.06.2018 в 16:00 ----------

vl12, обращайтесь к UmbrellaCoders - он за две копейки вам всё сделает, вы подходите друг другу.

Спасибо за совет, но в свои 40 я уже сам научился принимать решения к кому мне обращаться.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий