- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
В 2023 году Одноклассники пресекли более 9 млн подозрительных входов в учетные записи
И выявили более 7 млн подозрительных пользователей
Оксана Мамчуева
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…
Еще раз повторюсь, я привел скриншот реального файла остатков от поставщика, а не сферического коня в вакууме.
Пробегите глазами его и назначьте соответствующие поля необходимым столбцам и расскажите мне, что у Вас получится?
Вы будете пробегать вот так все 2000 позиций у каждого поставщика?
Никакое поле за уникальный id принять невозможно в виду отсутствия этого id у большого числа позиций + разное написание позиций у поставщиков.
Вам прислать файл остатков для Вашего парсера? Поделитесь потом результатами и расскажете сколько времени у Вас уйдет на разбор всех позиций из этого файла в том виде, как я написал?
---------- Добавлено 30.07.2014 в 19:38 ----------
Vers, по сути да, будет не фотка, а url фотки, происходит выгрузка по ftp на сервер, где по крону запускается обработка xml и графики
Так давайте еще раз, я привел пример реального файла :) Это Excel c 2000 позиций, я привел скриншот части этого файла. Расскажите последовательность действий, как именно Вы импортируете этот файл, чтобы получить карточки товаров того вида, как я описал из этого файла?
---------- Добавлено 30.07.2014 в 19:40 ----------
Vers, перед импортом пробегаете глазами и назначаете соответствующие поля необходимым столбцам.
Поля создаёте нужные вручную, если не хватает.
Категории пусть создаются на автомате.
Проблема дублей имеет решение, если знать, какое поле будет принято за уникальный id.
Кстати, прямо сейчас отвлёкся от написания парсера, выполняющего выдёргивание нужных данных для соответствующих полей…
Да, сразу забегая вперед, как Вы создадите автоматом категорию, если описания категории НЕТ в строчке, она задается в отдельной строке для части последующих строк и в одном столбце у Вас товары из совершенно разных категорий?
Vers
Что сложного в автоматическом импорте колонок, после прикрепления их к полям вручную?
Какая разница, сколько позиций?
Примечание: вы пробегаете глазами не сверху вниз, а слева направо. Для определения, какую колонку куда.
А вот это задача на подумать, технически же сложностей не вижу. Если дубли невозможно опознать программным путём, импортируем всё подряд, потом прибиваем вручную.
НО! Для того, чтобы избежать такой ситуации, надо написать скрипт приведения к одному формату. В ряде случаев, это делается в одну строчку в шелле, скармливая переработанный в CSV файл.
Опять-таки, я не считаю это сложной проблемой.
После приведения строка обязана быть помеченной маркером, ну а далее дело техники.
Не стану утвержать, что всё это решается за 10 минут с чашкой кофе в левой руке, повозиться нужно некоторое время. Но опять же, поставщики не каждый день форматы прайсов меняют. Один раз написать несколько скриптов, записать последовательность действий, отдать оператору.
Контролировать результат.
Расскажите последовательность действий, как именно Вы импортируете этот файл, чтобы получить карточки товаров того вида, как я описал из этого файла?
если брать данный конкретный файл, то первое что нужно сделать это произвести группировку (в excel это стандартная операция, как раз для того что бы выделить категорию/подкатегорию) делать надо на vba, далее переводим все строки в нижний/верхний регистр, проверяем на предмет слов со смешанной раскладкой (подряд идущие символы кириллица/латиница/цифры/спецсимволы) подобные слова обрабатываются отдельно, по определённым алгоритмам, например, попытаться перевести в единую раскладку и сравнение с существующей базой товаров (поиск опечаток, как показывает практика их будет очень много :) ), далее разбиваем строку по пробелам и с помощью словарей (названий товаров/цветов/брендов/размеров/возрастов...) пытаемся определить соответствующие поля (если необходимо, проводим объединение соседних слов), если в прайсе есть картинка или ссылка на картинку извлекаем его.
далее формируем xml, не прошедшие в работу товары, можно разобрать в ручную (заодно сразу поймёте почему они не прошли), товары в которых удалось однозначно исправить опечатку (с раскладкой/регистром) помечаем, что уже есть :)
P.S. это общий принцип разбора адаптированный под ваш файл :)
Но опять же, поставщики не каждый день форматы прайсов меняют
очень часто он меняется из-за некорректного ввода в 1с, а очень часто специально изменяют названия одного и того же товара, для нужд бухгалтерии ;)
Vers
Что сложного в автоматическом импорте колонок, после прикрепления их к полям вручную?
Какая разница, сколько позиций?
Примечание: вы пробегаете глазами не сверху вниз, а слева направо. Для определения, какую колонку куда.
Вы посмотрели файл? Там столбцов 5 штук, и наименование вместе с параметрами идет в одном столбце, куда вы прикрепите этот столбец?
А вот это задача на подумать, технически же сложностей не вижу. Если дубли невозможно опознать программным путём, импортируем всё подряд, потом прибиваем вручную.
НО! Для того, чтобы избежать такой ситуации, надо написать скрипт приведения к одному формату. В ряде случаев, это делается в одну строчку в шелле, скармливая переработанный в CSV файл.
Опять-таки, я не считаю это сложной проблемой.
После приведения строка обязана быть помеченной маркером, ну а далее дело техники.
Прибиваем вручную это отлично, но видимо не за 10 минут и явно не на паре десятков поставщиков :) Кстати стоит учитывать, некоторые поставщики любят сокращения, например, мы встречали такие вещи: Continental ContiPremiumContact 2 обозначается у поставщика как cpc2
Не стану утвержать, что всё это решается за 10 минут с чашкой кофе в левой руке, повозиться нужно некоторое время. Но опять же, поставщики не каждый день форматы прайсов меняют. Один раз написать несколько скриптов, записать последовательность действий, отдать оператору.
Контролировать результат.
Не каждый день, но вот работая с несколькими сотнями поставщиков мы сталкиваемся со сменой форматов раз в неделю стабильно.
В принципе я не говорю, что решение невозможно, вопрос в трех пунктах:
1. скорость подключения новых поставщиков или внесения изменений по старым + добавление новых позиций товаров у старых поставщиков.
2. стоимость создания и саппорта такой системы.
3. качество разбора (% ошибок)
---------- Добавлено 30.07.2014 в 23:19 ----------
если брать данный конкретный файл, то первое что нужно сделать это произвести группировку (в excel это стандартная операция, как раз для того что бы выделить категорию/подкатегорию) делать надо на vba, далее переводим все строки в нижний/верхний регистр, проверяем на предмет слов со смешанной раскладкой (подряд идущие символы кириллица/латиница/цифры/спецсимволы) подобные слова обрабатываются отдельно, по определённым алгоритмам, например, попытаться перевести в единую раскладку и сравнение с существующей базой товаров (поиск опечаток, как показывает практика их будет очень много :) ), далее разбиваем строку по пробелам и с помощью словарей (названий товаров/цветов/брендов/размеров/возрастов...) пытаемся определить соответствующие поля (если необходимо, проводим объединение соседних слов), если в прайсе есть картинка или ссылка на картинку извлекаем его.
далее формируем xml, не прошедшие в работу товары, можно разобрать в ручную (заодно сразу поймёте почему они не прошли), товары в которых удалось однозначно исправить опечатку (с раскладкой/регистром) помечаем, что уже есть :)
P.S. это общий принцип разбора адаптированный под ваш файл :)
О, уже конкретика. В принципе понятно как Вы стали бы разбирать такой файл, забавно, что он далеко не самый трэшовый, при этом уже сейчас я не уверен, что Вы сможете это сделать за полчаса работы :)
Про словари все понятно. Поддержание такой системы со словарями, скорость ее работы и т.д. - это то еще удовольствие.
И это всего один поставщик.
Теперь представляем, что мы решили расширить ассортимент новой товарной категорией :)))))
Вы посмотрели файл? Там столбцов 5 штук, и наименование вместе с параметрами идет в одном столбце, куда вы прикрепите этот столбец?
Ещё раз посмотрел. То, что наименования разделов идут другим шифтом, уже может быть якорем.
Но суть не в том. Конечно же, каждую неделю заниматься скриптописательством — мутата, и вопрос этот больше организационный, чем технический.
Получается, что к теме импорта в базу движка оно даже и не относится. Импортировать-то можно всё, вопрос в целесообразности. Если настройка импорта занимает неоправданно много времени и сил, возникает необходимость унификации прайсов. Как делать это — самим конвертить, нанимать кого-то, договариваться с IT отделом партнёров — дело хозяйское, но не вебмастерское.
Vers, вы не поняли я уже писал подобное несколько лет назад и всё работало, вот именно поэтому я и говорю про полчаса
P.S. это не время написание приложения - это время его работы :)
P.P.S.
Про словари все понятно. Поддержание такой системы со словарями, скорость ее работы и т.д. - это то еще удовольствие.
вы удивитесь, но с этим как раз проблем как раз нет - подобные словари (все) будут содержать не более нескольких тысяч лем :)
P.S. это не время написание приложения - это время его работы :)
Жесть какая.... а ээ.... почему так долго-то ?
Жесть какая.... а ээ.... почему так долго-то ?
так я не прогер, писал как умел и на чём умел, точнее допиливал готовый функционал excel + там xml обмен с базой на сайте :)
так я не прогер, писал как умел и на чём умел, точнее допиливал готовый функционал excel + там xml обмен с базой на сайте :)
Ну в общем да, тут особо торопиться если некуда можно и не профилировать, главное знать как должно работать.
Но скрипты в vba у вас конечно чудовищно навороченные :).