Генерация синонимических поисковых запросов

kolchakA
На сайте с 19.06.2010
Offline
218
974

Создаем для внутреннего использования методику генерации синонимических поисковых запросов. Сразу уточню что имею ввиду под синонимических: это запросы, которые по смыслу подразумевают ту же самую сущность, что и исходные. Важно - не путать с производными запросами :dont:. Например:

Парсер и парсер контента - здесь второй запрос производный от первого.

Парсер и граббер - вот здесь второй запрос синонимичен первому (по крайней мере одно из его значений)

Как я вижу на данный момент набросок алгоритма, например для фразы “импорт товаров в Joomla”:

1. Подбираем синонимы для каждого слова:

Импорт = загрузка, заливание
Товар - продукт, контент (в данном случае)
Joomla = Virtuemart, Joomshoping (понимаю, вещи разные, но все же в данной ситуации актуально)

2. Генерируем комбинации родственных запросов:

Импорт товаров в Joomla
Загрузка товаров в Joomla
Заливание товаров в Joomla
Импорт продуктов в Joomla
И так далее...

Еще несколько вопросов

1. Какие этапы стоит добавить в алгоритм?

2. Подскажите как более эффективно реализовать тот или иной этап? Например, при подборе синонимов можно использовать синонимические словари (причем желательно и с жаргонными высказываниями), переводчики, поисковые подсказки, сервисы вроде вордстат (поиск что еще искали люди), related searches в гугле, что еще?

3. Насколько понимаю, поисковики также ищут по синонимичным запросам. Где можно почитать об этом подробнее?

4.Я так понимаю, к синонимам стоит добавить транслитерированные варианты ключевиков + ключевики, а также варианты, использованные в неправильных формах или с ошибками?

5.Может то, что я выше описал уже кем то реализовано и автоматизировано? Подскажите готовые решения?

Предложение

Кому интересно поучаствовать в разработке методики и дальнейшей автоматизации, давайте группироваться)

Я разработчик, ищу SEO для сотрудничества
Хелпзонович
На сайте с 15.06.2005
Offline
133
#1
kolchakA:

Как я вижу на данный момент набросок алгоритма, например для фразы “импорт товаров в Joomla”:
1. Подбираем синонимы для каждого слова:
Импорт = загрузка, заливание
Товар - продукт, контент (в данном случае)
Joomla = Virtuemart, Joomshoping (понимаю, вещи разные, но все же в данной ситуации актуально)

2. Генерируем комбинации родственных запросов:
Импорт товаров в Joomla
Загрузка товаров в Joomla
Заливание товаров в Joomla
Импорт продуктов в Joomla
И так далее...

Ну так, просто мысль...

Импорт = закупка

Товар - продукт

Joomla = Shop-Script, на втором проходе shop = магазин, на третьем Ашан

И генерируете родственные запрос

Закупка продуктов в Ашане
Покупка рыбы в Билле
И так далее...

Вы там держитесь! Хорошего вам настроения. Здоровья.
kolchakA
На сайте с 19.06.2010
Offline
218
#2

Ну тут запросы чуть не совсем о том, потому что в данном контексте Ашан не аналогичен магазину. Но это уже специфика контекста. Спасибо!

W
На сайте с 13.09.2013
Offline
122
#3

Очень трудная задача. ПС пользуются "переколдовкой", когда назначают возможным синонимам вероятность того, что какие-то термины могут быть синонимами.

Например, синонимом "продукт" может быть "товар" или "услуга", в зависимости от этого синонимами "заказать" будет "купить" или "нанять" со всеми их синонимами. Не говоря уже о том, что в свободном доступе не встречал нормальных продуктов для снятия омонимии (как определить, "пила" - это глагол или существительное).

Поэтому, как я вижу, тут сначала нужно очень внимательно отбирать данные для синонимизации, а потом смотреть - возможно, пополняемых словарей хватит. Если планируется синонимизировать запросы, то можно воспользоваться чем-то вроде расстояния Левенштейна, то есть, берём большую базу запросов, потом ищем запросы с максимальным количеством совпадающих слов, не совпадающие будут синонимами (или антонимами - у нас есть практически совпадающие пулы запросов "купить рубашку с коротким рукавом" и "купить рубашку с длинным рукавом", по ним "длинный" и "короткий" могут получиться синонимами).

В принципе, можно попробовать воспользоваться нейросетями, http://servponomarev.livejournal.com/7667.html - например так, автор выкладывал несколько утилит Word2Vec, обученных на запросах, рекомендую пробежаться по его блогу.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий