UmbrellaCoders

UmbrellaCoders
Рейтинг
18
Регистрация
19.02.2016
borisd:
Мда, вы, похоже, вообще не понимаете, о чем речь... Вы не можете понять той мысли, что вычленять надо не слова/токены, а семантические единицы. Мне надо все эти варианты написания в своей базе данных свести к единому товару, а у вас для каждого варианта написания отдельный товар будет создаваться - такие сырые данные непригодны для серьезной обработки - это халтура.

это вы не понимаете, еще раз перечитайте что нужно ТС, при чем тут сводить к единому товару вообще? какая серьезная обработка ? 🤣

"Серьезные парсеры" по 5сек на страницу? ну ок, зачем они нужны, если например на сайте 100к страниц, а данные с них нужны каждые 6 часов? вопрос риторический...

p.s. когда ты слишком "умный" ( или хочешь таким казаться ) и говоришь много умных слов, ты становишься заложником своего ума, и перестаешь адекватно видеть мир , имхо

еще и "репу" сливает, обиженка 🤣

"Планшет Lenovo Phab 2 Pro"

"Смартфон Lenovo Phab 2 Pro"

"Фаблет Lenovo Phab 2 Pro"

"Lenovo Phab 2 Pro"

"Lenovo Phab2 Pro"

"Lenovo Phab2Pro"

"Lenovo PB 2 Pro"

"Lenovo PB2 Pro"

"Lenovo PB2Pro"

"Lenovo Phab 2 Pro PB2-690M"

"Lenovo Phab PB2-690M"

все это лежит в теге <h2 class="title"> например, в чем сложность? пусть хоть там тайтл Lenovo Phab vsghshsh PB2-690...

про причинение вреда сайту донору это вообще мега LOL, яндекс/гугл боты тоже по 1 странице в 3-5 секунд ходят, не дай бог сайту плохо станет 🤣

короче, никаких сайтов ты не парсил, это сразу видно, иначе подобный бред бы не нес, а если и парсил, то представляю какими говнометодами и говнокодом. я в свою очередь за три года спарсил сотни сайтов, у меня на диске десятки баз всего, чего только возможно, и я знаю о чем говорю 😎

"Неразумные школьники сразу отправляются в бан вместе с их неразумными заказчиками." - а у местных я смотрю свой особенный и неповторимы колорит 🤣

и такие "специалисты" ведь и заказы берут, теперь я понимаю переживания ТС , с такими спецами реально продукта не получишь никогда в продашен

не могу остановится, я так и представляю "серьезный парсер", который ходит по 1-ой странице в 5 сек и парсит сайт три месяца, этож кому так повезло 🤣

а вот так https://pastebin.com/c966Za75 примерно выглядит то о чем я говорил, это файл sources.json из одного из моих парсеров, как можно понять, это просто настройки для разных сайтов, для парсинга всех этих сайтов используется 1 php код, вся задача в добавлении новых источников сводится к добавлению нового элемента в этот sourses.json и все, сайт будет парсится этим парсером.

---------- Добавлено 11.06.2018 в 13:16 ----------

ziliboba0213:
Я не перепутал, ответил выше. Лям выйдет, не меньше, я выше расписал, и это без учета форсмажеров 🍿

а что, миллион рублей это какая-то фантастическая сумма? оффтоп уже какой-то , честное слово

ziliboba0213:
А теперь умножьте это время на 5000 сайтов в примере и оцените свою работу пожалуйста, чтобы уже закрыть эту нелепую тему 🍿

Прям тянет меня сюда что-то, непонятно почему )))...

15 месяце при 40 часовой рабочей неделе, но вы перепутали, добавлять новые сайты в налаженную систему буде не дорогой девелопер а дешевый аникейщик, и не один, а допустим 10, вот и получается что пары месяцев хватит для 5к сайтов. а сколько уж будет стоить аникейщик, я не знаю.

borisd:

НУ, сами то вы за сколько бы взялись за разработку системы парсинга (которой мог бы управлять "чайник") из десятков тысяч произвольных источников? И сколько бы взяли за ее поддержку?

во первых, источники не произвольные, они более-менее унифицированы, это интернет магазины, у 99% структура одна /category/subcategory/itempage, у 99% нужные элементы(title,price,desc,img) будут обрамлены тегами. "проанализировать структуру данных и разметку источника" - это что, сложно? я за 5 мин вычленю все нужные xpath со страницы, никакой сверхмагии тут нет. я бы ни за сколько не взялся, мне такое не особо интересно, а вообще, 5-10к usd вполне реальный бюджет, и ТС может найти исполнителя/команду за такую сумму

---------- Добавлено 11.06.2018 в 12:44 ----------

borisd:

И еще момент. Просто скриптом парсить не получится. На каждый урл будет уходить по 2-5 секунд. А в магазинах обычтно страниц много - тысячи, десятки и сотни тысяч. Да и сайтов десятки тысяч. Так что простой скрипт - это не вариант. Необходимо разделить процессы загрузки и обработки, а также в обязательном порядке их распараллелить - в рамках одной машины и в рамках кластера машин. Также система должна быть устойчивой к обрывам соединений и пр. Эти моменты сильно усложнят систему. Да, на первый взгляд все выглядит просто, но в реальности...

что это за бред? ты хоть один парсер писал на практике? на каждый урл по 2-5 секунд? 🤣 хочешь подарю парсер votpusk , запустишь и посмотришь сколько времени уходит на парсинг ВСЕХ статей ( 10к+ ) 😎

в остальном, зачем писать очевидные вещи? ясно что парсить 10к сайтов не 1им скриптиком, а как минимум армией воркеров которые из очереди задания берут.

igaiga3:
Всем Привет! как исправить смешанное содержание. картинка показывается но она была загружена на сервер со старого домена и поэтому Mixed Content. поиск и замена не помогают. может как-то вручную или редиректом?

Mixed Content: The page at 'https://emugun.com/8-zoop-us-english-japan-download-iso-rom-bin-cue-ps1-psx.html' was loaded over HTTPS, but requested an insecure image 'http://emugame.fun/uploads/posts/2017-08/1503340067_2.jpg'. This content should also be served over HTTPS.

Например спроксировать изображения со старого домена. все ссылки на картинки со старого домена заменить на http://emugame.com/image.php?uploads/posts/2017-08/1503340067_2.jpg' , в корень сайта положить image.php который будет проксировать со старого домена.

borisd:

Представьте, что нужные вам данные в HTML коде источника вообще могут быть НИКАК не размечены

в отрыве от всего контекста, а как отсутствие класса или id у элемента(не размечен) или его родителя может помешать его парсингу? по дереву можно дойти до элемента нужного даже в том случае, если в элементах вообще нет ни одного тега и класса в принципе, хотя такого не бывает, даже если элемент сам не имеет классов/айди, имеют его родители, да и вообще xPath есть

по теме. ок, что-то парсит, создать универсальный пасрер тоже нет проблем, каждый новый сайт можно добавлять путем простого добавления xPath/css/id нужных элементов.

Допустим есть пасрер который забирает title, desc, price, img , создавая настройки с нужными данными(пути до нужных элементов) этот парсер спокойно расширяется, добавление 1-го сайта занимает минимум времени и делается даже не программистом а просто человеком который сможет определить xPath тот же у элементов через вебмастер консоль браузера.

я создавал парсеры, которые парсят N сайтов, каждый новый сайт добавлялся грубо говоря за 30 мин. Первое это стартовый урл для обхода, там где паджтнация ставил {N} , то есть если обходить нужно так http://site.com/page=1,2,3, в настройки пишем http://site.com/page={n}, лимит страниц, шаблон ссылки на страницу, и шаблоны для вычленение нужных данных, типа //*[@id="fo_boardpanel"]/table/tbody/tr[1]/td[1]/img и все в принципе, энергозатраты на добавление поддержки нового сайта минимальны, ученность особая не нужна

ТС интуитивно чувствует что ничего сверсложного и правильно делает, не надо его разводить и кошмарить суммами в 100к usd

DarkHorse:
Друзья, большое спасибо за советы. Вопрос решен.
Подскажите, пожалуйста, еще по теме.

Как узнать все возможные параметры в справочнике API?

как ни странно, в справочнике данного конкретного api.

Этот сайт, турбопарсер, хоть и зовется парсером, но ничего он не парсит в принципе. Это агрегатор выгрузок от поставщиков, точка. технически это реализуется на раз два, поставщики скорее всего сами им выгрузки заливают в формате нужном и единственном. ну или делают ссылки на xml, csv выгрузки, а "турбопарсер" их просто забирает по расписанию и кладет/обновляет свою базу. все. никаких технических сложностей там нет, развели бред на три страницы ей богу .

вот и пример такой выгрузки, с которой я работал по одному проекту https://p5s.ru/e-commerce/feed/

---------- Добавлено 11.06.2018 в 02:49 ----------

fliger:
Народ, блокируйте ушлепков:
IP SELECTEL
82.202.198.186
82.202.207.37
82.202.207.38
82.202.207.42

Deny from 82.202.198.0/23
Deny from 82.202.200.0/21

🤣 ты думаешь там бот ходит и парсит сайты реально? это агрегатор выгрузок поставщиков, они сами с удовольствием отдают свои выгрузки кому захочешь, да еще и заказы по api примут, особо продвинутые. ппц сколько спецов тут...

основная сложность в реализации этого, это наладить контакты со всеми 30к поставщиками( это касается только тех, у кого выгрузки не в открытом доступе) и получить у них доступы к выгрузкам, либо затребовать свой формат, то есть тупо переписка, х.з. сколько времени нужно для этого. с точки зрения разработчика, не теоретика, в техническом плане сложностей нет от слова совсем.

Никогда бы не подумал что похвалю продукт Microsoft, но его Visual Studio Code реально крут, и под debian единственное что у меня работает стабильно(куча вкладок, линтеры, большие простыни). Перепробовал за три года почти все, остановился на VSCode, она даже глазу приятнее.

p.s. бесплатно опять-же

12
Всего: 12