Где найти решение для автоматизации разбора семантики?

OL
На сайте с 12.02.2010
Offline
71
803

Посоветуйте пожалуйста найти автоматизированное или полуавтоматическое решение для следующей задачи?

Есть большой прайс лист 500 000 товаров, поделенный на глобальные разделы вида: игрушки, сувениры и т.д. (всего примерно 8 разделов)

рассмотрим каталог "игрушки"

в каталоге товары называются например:

Игрушка пазл в виде шара, MARVEL - арт 001

Игра пазл, 3000 элементов, DISNEY - арт 002

Игрушка пазл замок, тысяча элементов, DISNEY - арт 003

Игра пазл большой замок, 5000 элементов, DISNEY - арт 004

необходимо примерно следующее:

берем все названия товаров и ищем наиболее частые комбинации (устойчивые биграммы, триграммы) в названиях товара, при этом объединяя товары с одинаковой леммой (лемма - неизменяемая часть слова)

Из представленного массива были определенны:

1) слова с одной леммой: игра -игрушка

2) подчинения:

что? - игрушка (игра)

какая? - пазл | замок | элементов | DISNEY |

замок какой? - большой

элементов сколько? - три тысячи | пять тысяч

пазл какой? - в виде шара

и сформирован список вида:

биграммы:

игра (игрушка) пазл - 4 товарные позиций

игрушка DISNEY - 3 товарные позиций

игрушка замок - 2 товарные позиций

игрушка MARVEL - 1 товарная позиция

триграммы:

игрушка 3000 элементов - 1 товарная позиция

игрушка 5000 элементов - 1 товарная позиция

игрушка большой замок - 1 товарная позиция

игрушка в виде шара- 1 товарная позиция

samimages
На сайте с 31.05.2009
Offline
427
#1

у вас не хватает 2 вещей:

1.сам каталог не сможет быть паттерном - надо искать корпус, в сети 100% я встречал, там что-то около 170 000 лемм. Первичную лемматизацию проводить по корпусу.

2.самое сложное и главное:

2.1 форма базы для обработки - с широкими наименованиями могут быть проблемы типа "шар" и "шаровары"

2.2 уровень конечного результата - одно дело список, другое дело реляционная база... в SQL например.

Софта такого нет, но если правильно продумаете, то его вам напишут что-то около $300 / $500, если на php скажем.

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий