- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Посоветуйте пожалуйста найти автоматизированное или полуавтоматическое решение для следующей задачи?
Есть большой прайс лист 500 000 товаров, поделенный на глобальные разделы вида: игрушки, сувениры и т.д. (всего примерно 8 разделов)
рассмотрим каталог "игрушки"
в каталоге товары называются например:
Игрушка пазл в виде шара, MARVEL - арт 001
Игра пазл, 3000 элементов, DISNEY - арт 002
Игрушка пазл замок, тысяча элементов, DISNEY - арт 003
Игра пазл большой замок, 5000 элементов, DISNEY - арт 004
необходимо примерно следующее:
берем все названия товаров и ищем наиболее частые комбинации (устойчивые биграммы, триграммы) в названиях товара, при этом объединяя товары с одинаковой леммой (лемма - неизменяемая часть слова)
Из представленного массива были определенны:
1) слова с одной леммой: игра -игрушка
2) подчинения:
что? - игрушка (игра)
какая? - пазл | замок | элементов | DISNEY |
замок какой? - большой
элементов сколько? - три тысячи | пять тысяч
пазл какой? - в виде шара
и сформирован список вида:
биграммы:
игра (игрушка) пазл - 4 товарные позиций
игрушка DISNEY - 3 товарные позиций
игрушка замок - 2 товарные позиций
игрушка MARVEL - 1 товарная позиция
триграммы:
игрушка 3000 элементов - 1 товарная позиция
игрушка 5000 элементов - 1 товарная позиция
игрушка большой замок - 1 товарная позиция
игрушка в виде шара- 1 товарная позиция
у вас не хватает 2 вещей:
1.сам каталог не сможет быть паттерном - надо искать корпус, в сети 100% я встречал, там что-то около 170 000 лемм. Первичную лемматизацию проводить по корпусу.
2.самое сложное и главное:
2.1 форма базы для обработки - с широкими наименованиями могут быть проблемы типа "шар" и "шаровары"
2.2 уровень конечного результата - одно дело список, другое дело реляционная база... в SQL например.
Софта такого нет, но если правильно продумаете, то его вам напишут что-то около $300 / $500, если на php скажем.