Что за фуфло в тренде развития движков ?

V
На сайте с 29.09.2008
Offline
68
#111
DenisVS:
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…

Еще раз повторюсь, я привел скриншот реального файла остатков от поставщика, а не сферического коня в вакууме.

Пробегите глазами его и назначьте соответствующие поля необходимым столбцам и расскажите мне, что у Вас получится?

Вы будете пробегать вот так все 2000 позиций у каждого поставщика?

Никакое поле за уникальный id принять невозможно в виду отсутствия этого id у большого числа позиций + разное написание позиций у поставщиков.

Вам прислать файл остатков для Вашего парсера? Поделитесь потом результатами и расскажете сколько времени у Вас уйдет на разбор всех позиций из этого файла в том виде, как я написал?

---------- Добавлено 30.07.2014 в 19:38 ----------

burunduk:
Vers, по сути да, будет не фотка, а url фотки, происходит выгрузка по ftp на сервер, где по крону запускается обработка xml и графики

Так давайте еще раз, я привел пример реального файла :) Это Excel c 2000 позиций, я привел скриншот части этого файла. Расскажите последовательность действий, как именно Вы импортируете этот файл, чтобы получить карточки товаров того вида, как я описал из этого файла?

---------- Добавлено 30.07.2014 в 19:40 ----------

DenisVS:
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…

Да, сразу забегая вперед, как Вы создадите автоматом категорию, если описания категории НЕТ в строчке, она задается в отдельной строке для части последующих строк и в одном столбце у Вас товары из совершенно разных категорий?

Аукционы от 1 рубля! (http://smallhorse.ru/)
DV
На сайте с 01.05.2010
Offline
644
#112

Vers

Что сложного в автоматическом импорте колонок, после прикрепления их к полям вручную?

Какая разница, сколько позиций?

Примечание: вы пробегаете глазами не сверху вниз, а слева направо. Для определения, какую колонку куда.

Никакое поле за уникальный id принять невозможно в виду отсутствия этого id у большого числа позиций + разное написание позиций у поставщиков.

А вот это задача на подумать, технически же сложностей не вижу. Если дубли невозможно опознать программным путём, импортируем всё подряд, потом прибиваем вручную.

НО! Для того, чтобы избежать такой ситуации, надо написать скрипт приведения к одному формату. В ряде случаев, это делается в одну строчку в шелле, скармливая переработанный в CSV файл.

как Вы создадите автоматом категорию, если описания категории НЕТ в строчке, она задается в отдельной строке для части последующих строк и в одном столбце у Вас товары из совершенно разных категорий?

Опять-таки, я не считаю это сложной проблемой.

После приведения строка обязана быть помеченной маркером, ну а далее дело техники.

Не стану утвержать, что всё это решается за 10 минут с чашкой кофе в левой руке, повозиться нужно некоторое время. Но опять же, поставщики не каждый день форматы прайсов меняют. Один раз написать несколько скриптов, записать последовательность действий, отдать оператору.

Контролировать результат.

VDS хостинг ( http://clck.ru/0u97l ) Нет нерешаемых задач ( https://searchengines.guru/ru/forum/806725 ) | Перенос сайтов на Drupal 7 с любых CMS. ( https://searchengines.guru/ru/forum/531842/page6#comment_10504844 )
[Удален]
#113
Vers:
Расскажите последовательность действий, как именно Вы импортируете этот файл, чтобы получить карточки товаров того вида, как я описал из этого файла?

если брать данный конкретный файл, то первое что нужно сделать это произвести группировку (в excel это стандартная операция, как раз для того что бы выделить категорию/подкатегорию) делать надо на vba, далее переводим все строки в нижний/верхний регистр, проверяем на предмет слов со смешанной раскладкой (подряд идущие символы кириллица/латиница/цифры/спецсимволы) подобные слова обрабатываются отдельно, по определённым алгоритмам, например, попытаться перевести в единую раскладку и сравнение с существующей базой товаров (поиск опечаток, как показывает практика их будет очень много :) ), далее разбиваем строку по пробелам и с помощью словарей (названий товаров/цветов/брендов/размеров/возрастов...) пытаемся определить соответствующие поля (если необходимо, проводим объединение соседних слов), если в прайсе есть картинка или ссылка на картинку извлекаем его.

далее формируем xml, не прошедшие в работу товары, можно разобрать в ручную (заодно сразу поймёте почему они не прошли), товары в которых удалось однозначно исправить опечатку (с раскладкой/регистром) помечаем, что уже есть :)

P.S. это общий принцип разбора адаптированный под ваш файл :)

[Удален]
#114
DenisVS:
Но опять же, поставщики не каждый день форматы прайсов меняют

очень часто он меняется из-за некорректного ввода в 1с, а очень часто специально изменяют названия одного и того же товара, для нужд бухгалтерии ;)

V
На сайте с 29.09.2008
Offline
68
#115
DenisVS:
Vers
Что сложного в автоматическом импорте колонок, после прикрепления их к полям вручную?
Какая разница, сколько позиций?
Примечание: вы пробегаете глазами не сверху вниз, а слева направо. Для определения, какую колонку куда.

Вы посмотрели файл? Там столбцов 5 штук, и наименование вместе с параметрами идет в одном столбце, куда вы прикрепите этот столбец?

DenisVS:

А вот это задача на подумать, технически же сложностей не вижу. Если дубли невозможно опознать программным путём, импортируем всё подряд, потом прибиваем вручную.
НО! Для того, чтобы избежать такой ситуации, надо написать скрипт приведения к одному формату. В ряде случаев, это делается в одну строчку в шелле, скармливая переработанный в CSV файл.
Опять-таки, я не считаю это сложной проблемой.
После приведения строка обязана быть помеченной маркером, ну а далее дело техники.

Прибиваем вручную это отлично, но видимо не за 10 минут и явно не на паре десятков поставщиков :) Кстати стоит учитывать, некоторые поставщики любят сокращения, например, мы встречали такие вещи: Continental ContiPremiumContact 2 обозначается у поставщика как cpc2

DenisVS:

Не стану утвержать, что всё это решается за 10 минут с чашкой кофе в левой руке, повозиться нужно некоторое время. Но опять же, поставщики не каждый день форматы прайсов меняют. Один раз написать несколько скриптов, записать последовательность действий, отдать оператору.
Контролировать результат.

Не каждый день, но вот работая с несколькими сотнями поставщиков мы сталкиваемся со сменой форматов раз в неделю стабильно.

В принципе я не говорю, что решение невозможно, вопрос в трех пунктах:

1. скорость подключения новых поставщиков или внесения изменений по старым + добавление новых позиций товаров у старых поставщиков.

2. стоимость создания и саппорта такой системы.

3. качество разбора (% ошибок)

---------- Добавлено 30.07.2014 в 23:19 ----------

burunduk:
если брать данный конкретный файл, то первое что нужно сделать это произвести группировку (в excel это стандартная операция, как раз для того что бы выделить категорию/подкатегорию) делать надо на vba, далее переводим все строки в нижний/верхний регистр, проверяем на предмет слов со смешанной раскладкой (подряд идущие символы кириллица/латиница/цифры/спецсимволы) подобные слова обрабатываются отдельно, по определённым алгоритмам, например, попытаться перевести в единую раскладку и сравнение с существующей базой товаров (поиск опечаток, как показывает практика их будет очень много :) ), далее разбиваем строку по пробелам и с помощью словарей (названий товаров/цветов/брендов/размеров/возрастов...) пытаемся определить соответствующие поля (если необходимо, проводим объединение соседних слов), если в прайсе есть картинка или ссылка на картинку извлекаем его.

далее формируем xml, не прошедшие в работу товары, можно разобрать в ручную (заодно сразу поймёте почему они не прошли), товары в которых удалось однозначно исправить опечатку (с раскладкой/регистром) помечаем, что уже есть :)

P.S. это общий принцип разбора адаптированный под ваш файл :)

О, уже конкретика. В принципе понятно как Вы стали бы разбирать такой файл, забавно, что он далеко не самый трэшовый, при этом уже сейчас я не уверен, что Вы сможете это сделать за полчаса работы :)

Про словари все понятно. Поддержание такой системы со словарями, скорость ее работы и т.д. - это то еще удовольствие.

И это всего один поставщик.

Теперь представляем, что мы решили расширить ассортимент новой товарной категорией :)))))

DV
На сайте с 01.05.2010
Offline
644
#116
Vers:
Вы посмотрели файл? Там столбцов 5 штук, и наименование вместе с параметрами идет в одном столбце, куда вы прикрепите этот столбец?

Ещё раз посмотрел. То, что наименования разделов идут другим шифтом, уже может быть якорем.

Но суть не в том. Конечно же, каждую неделю заниматься скриптописательством — мутата, и вопрос этот больше организационный, чем технический.

Получается, что к теме импорта в базу движка оно даже и не относится. Импортировать-то можно всё, вопрос в целесообразности. Если настройка импорта занимает неоправданно много времени и сил, возникает необходимость унификации прайсов. Как делать это — самим конвертить, нанимать кого-то, договариваться с IT отделом партнёров — дело хозяйское, но не вебмастерское.

[Удален]
#117

Vers, вы не поняли я уже писал подобное несколько лет назад и всё работало, вот именно поэтому я и говорю про полчаса

P.S. это не время написание приложения - это время его работы :)

P.P.S.

Vers:
Про словари все понятно. Поддержание такой системы со словарями, скорость ее работы и т.д. - это то еще удовольствие.

вы удивитесь, но с этим как раз проблем как раз нет - подобные словари (все) будут содержать не более нескольких тысяч лем :)

_
На сайте с 24.03.2008
Offline
381
#118
burunduk:

P.S. это не время написание приложения - это время его работы :)

Жесть какая.... а ээ.... почему так долго-то ?

[Удален]
#119
_SP_:
Жесть какая.... а ээ.... почему так долго-то ?

так я не прогер, писал как умел и на чём умел, точнее допиливал готовый функционал excel + там xml обмен с базой на сайте :)

_
На сайте с 24.03.2008
Offline
381
#120
burunduk:
так я не прогер, писал как умел и на чём умел, точнее допиливал готовый функционал excel + там xml обмен с базой на сайте :)

Ну в общем да, тут особо торопиться если некуда можно и не профилировать, главное знать как должно работать.

Но скрипты в vba у вас конечно чудовищно навороченные :).

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий