это вы не понимаете, еще раз перечитайте что нужно ТС, при чем тут сводить к единому товару вообще? какая серьезная обработка ? 🤣
"Серьезные парсеры" по 5сек на страницу? ну ок, зачем они нужны, если например на сайте 100к страниц, а данные с них нужны каждые 6 часов? вопрос риторический...
p.s. когда ты слишком "умный" ( или хочешь таким казаться ) и говоришь много умных слов, ты становишься заложником своего ума, и перестаешь адекватно видеть мир , имхо
еще и "репу" сливает, обиженка 🤣
"Планшет Lenovo Phab 2 Pro"
"Смартфон Lenovo Phab 2 Pro"
"Фаблет Lenovo Phab 2 Pro"
"Lenovo Phab 2 Pro"
"Lenovo Phab2 Pro"
"Lenovo Phab2Pro"
"Lenovo PB 2 Pro"
"Lenovo PB2 Pro"
"Lenovo PB2Pro"
"Lenovo Phab 2 Pro PB2-690M"
"Lenovo Phab PB2-690M"
все это лежит в теге <h2 class="title"> например, в чем сложность? пусть хоть там тайтл Lenovo Phab vsghshsh PB2-690...
про причинение вреда сайту донору это вообще мега LOL, яндекс/гугл боты тоже по 1 странице в 3-5 секунд ходят, не дай бог сайту плохо станет 🤣
короче, никаких сайтов ты не парсил, это сразу видно, иначе подобный бред бы не нес, а если и парсил, то представляю какими говнометодами и говнокодом. я в свою очередь за три года спарсил сотни сайтов, у меня на диске десятки баз всего, чего только возможно, и я знаю о чем говорю 😎
"Неразумные школьники сразу отправляются в бан вместе с их неразумными заказчиками." - а у местных я смотрю свой особенный и неповторимы колорит 🤣
и такие "специалисты" ведь и заказы берут, теперь я понимаю переживания ТС , с такими спецами реально продукта не получишь никогда в продашен
не могу остановится, я так и представляю "серьезный парсер", который ходит по 1-ой странице в 5 сек и парсит сайт три месяца, этож кому так повезло 🤣
а вот так https://pastebin.com/c966Za75 примерно выглядит то о чем я говорил, это файл sources.json из одного из моих парсеров, как можно понять, это просто настройки для разных сайтов, для парсинга всех этих сайтов используется 1 php код, вся задача в добавлении новых источников сводится к добавлению нового элемента в этот sourses.json и все, сайт будет парсится этим парсером.---------- Добавлено 11.06.2018 в 13:16 ----------
а что, миллион рублей это какая-то фантастическая сумма? оффтоп уже какой-то , честное слово
15 месяце при 40 часовой рабочей неделе, но вы перепутали, добавлять новые сайты в налаженную систему буде не дорогой девелопер а дешевый аникейщик, и не один, а допустим 10, вот и получается что пары месяцев хватит для 5к сайтов. а сколько уж будет стоить аникейщик, я не знаю.
во первых, источники не произвольные, они более-менее унифицированы, это интернет магазины, у 99% структура одна /category/subcategory/itempage, у 99% нужные элементы(title,price,desc,img) будут обрамлены тегами. "проанализировать структуру данных и разметку источника" - это что, сложно? я за 5 мин вычленю все нужные xpath со страницы, никакой сверхмагии тут нет. я бы ни за сколько не взялся, мне такое не особо интересно, а вообще, 5-10к usd вполне реальный бюджет, и ТС может найти исполнителя/команду за такую сумму---------- Добавлено 11.06.2018 в 12:44 ----------
что это за бред? ты хоть один парсер писал на практике? на каждый урл по 2-5 секунд? 🤣 хочешь подарю парсер votpusk , запустишь и посмотришь сколько времени уходит на парсинг ВСЕХ статей ( 10к+ ) 😎
в остальном, зачем писать очевидные вещи? ясно что парсить 10к сайтов не 1им скриптиком, а как минимум армией воркеров которые из очереди задания берут.
Например спроксировать изображения со старого домена. все ссылки на картинки со старого домена заменить на http://emugame.com/image.php?uploads/posts/2017-08/1503340067_2.jpg' , в корень сайта положить image.php который будет проксировать со старого домена.
в отрыве от всего контекста, а как отсутствие класса или id у элемента(не размечен) или его родителя может помешать его парсингу? по дереву можно дойти до элемента нужного даже в том случае, если в элементах вообще нет ни одного тега и класса в принципе, хотя такого не бывает, даже если элемент сам не имеет классов/айди, имеют его родители, да и вообще xPath есть
по теме. ок, что-то парсит, создать универсальный пасрер тоже нет проблем, каждый новый сайт можно добавлять путем простого добавления xPath/css/id нужных элементов.
Допустим есть пасрер который забирает title, desc, price, img , создавая настройки с нужными данными(пути до нужных элементов) этот парсер спокойно расширяется, добавление 1-го сайта занимает минимум времени и делается даже не программистом а просто человеком который сможет определить xPath тот же у элементов через вебмастер консоль браузера.
я создавал парсеры, которые парсят N сайтов, каждый новый сайт добавлялся грубо говоря за 30 мин. Первое это стартовый урл для обхода, там где паджтнация ставил {N} , то есть если обходить нужно так http://site.com/page=1,2,3, в настройки пишем http://site.com/page={n}, лимит страниц, шаблон ссылки на страницу, и шаблоны для вычленение нужных данных, типа //*[@id="fo_boardpanel"]/table/tbody/tr[1]/td[1]/img и все в принципе, энергозатраты на добавление поддержки нового сайта минимальны, ученность особая не нужна
ТС интуитивно чувствует что ничего сверсложного и правильно делает, не надо его разводить и кошмарить суммами в 100к usd
как ни странно, в справочнике данного конкретного api.
Этот сайт, турбопарсер, хоть и зовется парсером, но ничего он не парсит в принципе. Это агрегатор выгрузок от поставщиков, точка. технически это реализуется на раз два, поставщики скорее всего сами им выгрузки заливают в формате нужном и единственном. ну или делают ссылки на xml, csv выгрузки, а "турбопарсер" их просто забирает по расписанию и кладет/обновляет свою базу. все. никаких технических сложностей там нет, развели бред на три страницы ей богу .
вот и пример такой выгрузки, с которой я работал по одному проекту https://p5s.ru/e-commerce/feed/---------- Добавлено 11.06.2018 в 02:49 ----------
🤣 ты думаешь там бот ходит и парсит сайты реально? это агрегатор выгрузок поставщиков, они сами с удовольствием отдают свои выгрузки кому захочешь, да еще и заказы по api примут, особо продвинутые. ппц сколько спецов тут...
основная сложность в реализации этого, это наладить контакты со всеми 30к поставщиками( это касается только тех, у кого выгрузки не в открытом доступе) и получить у них доступы к выгрузкам, либо затребовать свой формат, то есть тупо переписка, х.з. сколько времени нужно для этого. с точки зрения разработчика, не теоретика, в техническом плане сложностей нет от слова совсем.
Никогда бы не подумал что похвалю продукт Microsoft, но его Visual Studio Code реально крут, и под debian единственное что у меня работает стабильно(куча вкладок, линтеры, большие простыни). Перепробовал за три года почти все, остановился на VSCode, она даже глазу приятнее.
p.s. бесплатно опять-же