Vers

Рейтинг
68
Регистрация
29.09.2008
dijes:
Я прекрасно понимаю что все дело в раскрутке, меня попросили узнать за сколько можно сделать.

С собственным отделом разработки инхауз - это будет стоить зарплата отдела из 3-4 кодеров на фултайм в течение полугода.

Если заказывать на аутсорсе в какой-нибудь студии, то меньше пары лямов не отделаетесь. Не потому, что там что-то сложное есть, а слишком много мелочей, о которых не думают те, кто говорят, что это делается за 100К :)

burunduk:
это не апдейт - это подготовка данных, на прайс до 10000 позиций, по мойму нормально

подготовка данных каждый раз при загрузке этого прайса или разовая, а потом будет намного быстрее?

burunduk:

более ляма в словарях?
откуда??
в языке осмысленных слов столько нет ;)

А при чем тут осмысленные слова и номенклатура товарная? в осмысленном языке нет аббервиатур, например, товарная позиция cpc2 - это разве относится к осмысленным словам? У нас в базе сейчас более 500 000 товарных позиций, более 500 поставщиков в системе, у одного поставщика в среднем около 3 000 позиций, 500*3000= 1 500 000 вариантов написаний товаров, это только сейчас по нашей текущей базе. До конца года мы планируем иметь в базе 1 500 000 товарных позиций и более 2 000 поставщиков. Так что словари - это гиблое дело, особенно, если надо делать словари синонимов, ведь важно не только текущую номенклатуру привязать автоматически, но и предсказать возможные варианты ее написания другими поставщиками.

burunduk:

P.S. это не время написание приложения - это время его работы :)

Ох какая жесть, это первый импорт или последующие апдейты столько же работать будут?

burunduk:

P.P.S.
вы удивитесь, но с этим как раз проблем как раз нет - подобные словари (все) будут содержать не более нескольких тысяч лем :)

Удивлюсь, мы начинали со словарей, когда они перевалили за много миллионов позиций в базе мы поняли, что это тупиковое развитие :)

Тут Вы как раз ошиблись отчасти :) Да, мы не хотим быстро и без проблем импортировать файл поставщика в магазин, мы хотим вообще забыть про импорт и просто подключившись к API получить всю номенклатуру с аттрибутами и фотографиями, избавленную от дублей и прочего шлака.

DenisVS:
Vers
Что сложного в автоматическом импорте колонок, после прикрепления их к полям вручную?
Какая разница, сколько позиций?
Примечание: вы пробегаете глазами не сверху вниз, а слева направо. Для определения, какую колонку куда.

Вы посмотрели файл? Там столбцов 5 штук, и наименование вместе с параметрами идет в одном столбце, куда вы прикрепите этот столбец?

DenisVS:

А вот это задача на подумать, технически же сложностей не вижу. Если дубли невозможно опознать программным путём, импортируем всё подряд, потом прибиваем вручную.
НО! Для того, чтобы избежать такой ситуации, надо написать скрипт приведения к одному формату. В ряде случаев, это делается в одну строчку в шелле, скармливая переработанный в CSV файл.
Опять-таки, я не считаю это сложной проблемой.
После приведения строка обязана быть помеченной маркером, ну а далее дело техники.

Прибиваем вручную это отлично, но видимо не за 10 минут и явно не на паре десятков поставщиков :) Кстати стоит учитывать, некоторые поставщики любят сокращения, например, мы встречали такие вещи: Continental ContiPremiumContact 2 обозначается у поставщика как cpc2

DenisVS:

Не стану утвержать, что всё это решается за 10 минут с чашкой кофе в левой руке, повозиться нужно некоторое время. Но опять же, поставщики не каждый день форматы прайсов меняют. Один раз написать несколько скриптов, записать последовательность действий, отдать оператору.
Контролировать результат.

Не каждый день, но вот работая с несколькими сотнями поставщиков мы сталкиваемся со сменой форматов раз в неделю стабильно.

В принципе я не говорю, что решение невозможно, вопрос в трех пунктах:

1. скорость подключения новых поставщиков или внесения изменений по старым + добавление новых позиций товаров у старых поставщиков.

2. стоимость создания и саппорта такой системы.

3. качество разбора (% ошибок)

---------- Добавлено 30.07.2014 в 23:19 ----------

burunduk:
если брать данный конкретный файл, то первое что нужно сделать это произвести группировку (в excel это стандартная операция, как раз для того что бы выделить категорию/подкатегорию) делать надо на vba, далее переводим все строки в нижний/верхний регистр, проверяем на предмет слов со смешанной раскладкой (подряд идущие символы кириллица/латиница/цифры/спецсимволы) подобные слова обрабатываются отдельно, по определённым алгоритмам, например, попытаться перевести в единую раскладку и сравнение с существующей базой товаров (поиск опечаток, как показывает практика их будет очень много :) ), далее разбиваем строку по пробелам и с помощью словарей (названий товаров/цветов/брендов/размеров/возрастов...) пытаемся определить соответствующие поля (если необходимо, проводим объединение соседних слов), если в прайсе есть картинка или ссылка на картинку извлекаем его.

далее формируем xml, не прошедшие в работу товары, можно разобрать в ручную (заодно сразу поймёте почему они не прошли), товары в которых удалось однозначно исправить опечатку (с раскладкой/регистром) помечаем, что уже есть :)

P.S. это общий принцип разбора адаптированный под ваш файл :)

О, уже конкретика. В принципе понятно как Вы стали бы разбирать такой файл, забавно, что он далеко не самый трэшовый, при этом уже сейчас я не уверен, что Вы сможете это сделать за полчаса работы :)

Про словари все понятно. Поддержание такой системы со словарями, скорость ее работы и т.д. - это то еще удовольствие.

И это всего один поставщик.

Теперь представляем, что мы решили расширить ассортимент новой товарной категорией :)))))

Сколько времени Вы тратите на подключение одного нового поставщика с 2000 товарных позиций?

---------- Добавлено 30.07.2014 в 19:44 ----------

rtzra:
Это отличный прайс, который совсем не трудно импортировать 😂

Это я взял первый под руку попавшийся, где есть всего несколько интересных моментов. Раз это отличный прайс, то к Вам тот же вопрос, как быстро Вы импортируете такой вот файл к себе в ИМ. В файле более 2000 позиций.

DenisVS:
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…

Еще раз повторюсь, я привел скриншот реального файла остатков от поставщика, а не сферического коня в вакууме.

Пробегите глазами его и назначьте соответствующие поля необходимым столбцам и расскажите мне, что у Вас получится?

Вы будете пробегать вот так все 2000 позиций у каждого поставщика?

Никакое поле за уникальный id принять невозможно в виду отсутствия этого id у большого числа позиций + разное написание позиций у поставщиков.

Вам прислать файл остатков для Вашего парсера? Поделитесь потом результатами и расскажете сколько времени у Вас уйдет на разбор всех позиций из этого файла в том виде, как я написал?

---------- Добавлено 30.07.2014 в 19:38 ----------

burunduk:
Vers, по сути да, будет не фотка, а url фотки, происходит выгрузка по ftp на сервер, где по крону запускается обработка xml и графики

Так давайте еще раз, я привел пример реального файла :) Это Excel c 2000 позиций, я привел скриншот части этого файла. Расскажите последовательность действий, как именно Вы импортируете этот файл, чтобы получить карточки товаров того вида, как я описал из этого файла?

---------- Добавлено 30.07.2014 в 19:40 ----------

DenisVS:
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…

Да, сразу забегая вперед, как Вы создадите автоматом категорию, если описания категории НЕТ в строчке, она задается в отдельной строке для части последующих строк и в одном столбце у Вас товары из совершенно разных категорий?

Стесняюсь спросить, нафига ИМу импорт товаров без привязки поставщиков к карточкам товаров?

И я так понимаю Вы номенклатуру в итоге сводите вручную, вопрос, какая у Вас тематика магазина?

burunduk:
писал выше полчаса, руками там делать практически ни чего не надо ;)

То есть через полчаса работы Вы разберете файл с 2000 позиций, скриншот части которого я приложил и на сайте, куда Вы сделаете импорт будут сделаны категории товаров, а в каждой категории будет товар с аттрибутами.

Например, в категории Велосипеды на сайте будет товар:

STELS Navigator 400 с аттрибутами:

тип: горный

пол: подростковый

цвет: черно-бело-синий

ну про то, что в карточке в идеале должны быть и все остальные аттрибуты модели + фотка пока промолчим, у нас задача для начала только этот файл вгрузить.

И такие карточки будут по всем 2000 товаров?

Arsenij:
Vers, вы путаете две проблемы, или, точнее, две задачи.

Задача №1 - импорт в ИМ прайс-листа с товарами. Не вижу тут никакой проблемы. Берем и импортируем. Файл имеется, формат его согласовывается и т.д.

Задача №2 - сопоставление товаров поставщиков товарам в магазине. Она не имеет никакого отношения с импорту и живет отдельно. Делается в целом не очень просто, согласен. У нас это сложный многолистовой файл в Excel. Привязка нового товара осуществляется вручную. Но это единственный способ получить правильную и достоверную информацию в магазине.
Итогом - формируется один лист для работы менеджеров и экспорта в магазин. В нем уже те параметры, которые нужны для ИМ.

Главная засада всего этого процесса в том, что поставщики порой норовят изменить формат прайс-листа :)

На самом деле я их не путаю, а осознанно свожу к одной задаче.

Давайте тогда скажем так, если у магазина БОЛЕЕ одного поставщика и в магазине должны быть нормальные карточки товара, а не в том виде, как их называет поставщик, то эта задача становится однотипной. Плюс это же ежедневные апдейты цен и количества от поставщиков. Это к той же задаче по сути.

И да, про изменения формата у поставщика - это больная тема :)

Всего: 324