Lsi: зачем и почему

Anamnado
На сайте с 08.02.2010
Offline
242
#11
timo-71:
осень в нью-йорке

то что по это у Я есть только один вариант - когда берем эту фразу - и ручками помечаем что это название фильма ... а потом производим перетрубас...

любой другой адекватный вариант ранжирования должен был бы дать выдачу - текста про осень в городе нью йорk -

- что лишний раз доказывает что никакого LSI нет и никогда не было!

---------- Добавлено 01.10.2019 в 04:08 ----------

timo-71:
строит текстовый корпус и получает lsi/lda

ясно.

тогда будем делать как она сказала -чтобы продвинуть запрос создание сайтов бум писать про артатого...

МА
На сайте с 02.11.2018
Offline
123
#12
timo-71:
Ваш сайт я и не знаю.

Смысл моей глупой проги?
Во первых, не моей. <class 'gensim.models.lsimodel.LsiModel'> можно загуглить. Моя прога лишь берет топ Я-хмл по определенному запросу, парсит контент с этих урлов и с помощью gensim строит текстовый корпус и получает lsi/lda

Дело вообще не в проге. Любой, кто может парсер Я-хмл сделать и ему дать загуглить gensim напишет это за несколько часов.
----
зы
вот это, например
-0.209*"asterica" + -0.151*"студия" + -0.139*"проект" + 0.133*"артатый" + 0.133*"выгодный" + -0.125*"scrum" + -0.124*"надежный" + 0.119*"товар" + -0.118*"создавать" + -0.116*"компания" 

определено по запросу "Создание сайтов в Воронеже"

Так давай, сделай красиво. Докажи, что это тема хороша. У тебя уже есть окружение слов "осень" - вперёд. Пишешь какую-нибудь статью, впендюриваешь в неё все эти напарсенные слова - и ты король. :)

Nokia x71 (https://x71.ru/) - хороший смартфон, и отзывы интересные
SmileP
На сайте с 18.02.2010
Offline
372
#13
timo-71:
строит текстовый корпус и получает lsi/lda

ИМХО, это на дорах гонять. Чтобы с лету ПС не банили при автозамене слов на нужные.

SC
На сайте с 11.02.2013
Offline
57
#14
timo-71:
буду признателен за идеи и критику со стороны гуру seo. А надо ли?

Не претендую на "гуру", но пока этот список слов из ваших моделей выглядит очень бесполезно, применительно к SEO-копирайтингу. Гораздо лучшего эффекта можно добиться простым подсчетом пересечений каждого слова между различными документами из топа и дальнейшей ручной отбраковкой неподходящих слов.

Применение LSI в том виде, в котором оно у вас, навскидку, такое - можно определять неоднозначные запросы, попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.

Devvver
На сайте с 02.07.2008
Offline
635
#15

timo-71, это все давно используется на практике. Но помните, что поисковые системы не используют конкретно LSI.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой телеграм канал https://t.me/seobloggers
T7
На сайте с 19.09.2018
Offline
52
#16
Serg_CS:
попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.

Это без проблем. Каждая строчка - тема, количество которых задается lsi_model = gensim.models.LsiModel(corpus=corpus, id2word=dct, num_topics=14) при построении модели


<class 'gensim.models.lsimodel.LsiModel'>
0.720*"цезарь" + 0.212*"год" + 0.207*"the" + 0.182*"caesar" + 0.130*"julius" + 0.117*"гай" + 0.115*"of" + 0.108*"помпей" + 0.107*"римский" + 0.107*"война"
0.717*"салат" + 0.208*"цезарь" + 0.203*"рецепт" + 0.183*"масло" + 0.141*"сыр" + 0.132*"соус" + 0.123*"курица" + 0.115*"оливковый" + 0.114*"куриный" + -0.112*"the"
-0.300*"the" + 0.294*"цезарь" + 0.251*"помпей" + -0.216*"caesar" + -0.176*"салат" + -0.171*"julius" + -0.166*"of" + 0.156*"власть" + 0.151*"войско" + 0.133*"рим"
-0.364*"конкурс" + -0.268*"нарезать" + -0.230*"вкус" + -0.184*"блюдо" + -0.170*"минута" + -0.155*"добавлять" + 0.153*"цезарь" + 0.148*"салат" + -0.129*"спецпроект" + -0.128*"масло"
-0.667*"конкурс" + -0.236*"спецпроект" + -0.203*"блюдо" + 0.168*"масло" + 0.167*"нарезать" + -0.129*"мультиварка" + 0.101*"минута" + -0.100*"рецепт" + 0.096*"соль" + 0.094*"перец"
0.448*"фильм" + 0.239*"юлий" + -0.161*"войско" + -0.151*"помпей" + 0.144*"человек" + 0.130*"император" + 0.126*"римский" + 0.124*"сулла" + 0.111*"становиться" + 0.110*"полководец"
0.285*"фильм" + -0.271*"гай" + -0.222*"юлий" + 0.211*"рецепт" + -0.194*"римский" + -0.153*"масло" + 0.147*"шаг" + -0.144*"юлия" + -0.137*"конкурс" + -0.125*"становиться"
0.328*"фильм" + -0.284*"рецепт" + -0.217*"шаг" + -0.191*"соус" + 0.163*"масло" + -0.154*"гай" + 0.119*"помпей" + -0.113*"римский" + -0.113*"курица" + -0.112*"домашний"
-0.292*"соус" + 0.189*"вкус" + 0.170*"салат" + -0.167*"пармезан" + 0.165*"классический" + -0.161*"ложка" + 0.155*"блюдо" + 0.152*"простой" + 0.146*"рецепт" + -0.146*"масло"
-0.255*"юлиан" + -0.251*"август" + -0.249*"власть" + -0.230*"титул" + -0.148*"правитель" + 0.146*"помпей" + 0.145*"гай" + -0.143*"констанция" + -0.140*"император" + -0.128*"галл"
0.305*"ложка" + -0.208*"шаг" + 0.151*"курица" + -0.144*"сыр" + 0.141*"чайный" + -0.137*"соус" + 0.133*"столовый" + -0.118*"соль" + 0.118*"нарезать" + 0.117*"добавлять"
0.196*"гай" + -0.176*"год" + -0.167*"цезарь" + 0.165*"салат" + 0.139*"юлия" + 0.131*"принимать" + -0.131*"становиться" + 0.107*"фильм" + -0.107*"великий" + -0.107*"однако"
-0.217*"римский" + 0.185*"гай" + -0.164*"война" + -0.153*"император" + 0.153*"принимать" + 0.123*"политик" + 0.101*"становиться" + -0.098*"юлий" + -0.096*"войско" + -0.096*"однако"
-0.157*"должность" + -0.157*"республика" + -0.151*"theperson" + -0.132*"империя" + -0.124*"год" + -0.115*"провинция" + -0.115*"римский" + -0.112*"биография" + -0.109*"правление" + -0.109*"деятель"

<class 'gensim.models.lsimodel.LsiModel'>
0.715*"наполеон" + 0.426*"год" + 0.146*"армия" + 0.143*"франция" + 0.139*"французский" + 0.110*"бонапарт" + 0.086*"становиться" + 0.083*"войско" + 0.080*"военный" + 0.078*"император"
-0.525*"торт" + -0.286*"мука" + -0.269*"рецепт" + -0.239*"сахар" + -0.228*"наполеон" + -0.223*"масло" + -0.213*"молоко" + -0.211*"сливочный" + 0.193*"год" + -0.184*"крем"
0.360*"год" + -0.327*"бонапарт" + -0.299*"франция" + -0.219*"император" + -0.147*"французский" + 0.118*"тыс" + 0.115*"май" + -0.110*"фильм" + -0.106*"становиться" + -0.104*"генерал"
0.296*"наполеон" + 0.261*"фильм" + -0.241*"год" + -0.213*"франция" + 0.209*"конкурс" + 0.149*"человек" + 0.144*"клавье" + -0.144*"мука" + -0.121*"сахар" + -0.111*"молоко"
-0.657*"конкурс" + -0.233*"спецпроект" + -0.222*"блюдо" + -0.200*"рецепт" + 0.130*"наполеон" + -0.127*"мультиварка" + -0.126*"год" + 0.125*"мука" + -0.122*"торт" + 0.114*"сахар"
0.520*"бонапарт" + 0.252*"год" + 0.218*"император" + 0.136*"биография" + -0.115*"наполеон" + -0.115*"франция" + 0.113*"становиться" + -0.109*"фильм" + -0.103*"армия" + -0.087*"империя"
0.369*"год" + 0.324*"фильм" + -0.224*"наполеон" + 0.179*"клавье" + 0.143*"человек" + 0.119*"исторический" + 0.116*"история" + 0.110*"сериал" + 0.109*"роль" + -0.099*"англия"
-0.306*"конкурс" + 0.296*"торт" + -0.247*"мука" + 0.235*"приготавливать" + -0.230*"сахар" + -0.209*"сливочный" + -0.205*"масло" + -0.201*"молоко" + 0.172*"рецепт" + 0.166*"слоеный"
0.180*"битва" + -0.161*"the" + -0.154*"кавалер" + -0.151*"орден" + -0.130*"and" + -0.119*"of" + -0.107*"время" + -0.103*"император" + -0.097*"википедия" + -0.096*"буонапарт"
0.188*"французский" + -0.186*"биография" + -0.149*"становиться" + -0.146*"военный" + -0.145*"страна" + -0.136*"жозефина" + -0.125*"париж" + 0.124*"наполеон" + -0.118*"император" + 0.114*"республика"
0.285*"французский" + 0.167*"век" + 0.146*"деятель" + 0.144*"государственный" + -0.118*"большой" + 0.109*"война" + -0.106*"бонапарт" + -0.105*"кавалер" + -0.102*"получать" + 0.101*"наполеоновский"
0.300*"биография" + -0.169*"франция" + 0.152*"интересный" + -0.144*"год" + 0.133*"краткий" + 0.122*"деятельность" + 0.112*"поход" + 0.111*"факт" + 0.109*"бежать" + 0.107*"жена"
0.138*"полководец" + 0.127*"биография" + 0.122*"интересный" + 0.118*"факт" + 0.110*"однако" + 0.109*"являться" + 0.108*"француз" + 0.107*"результат" + -0.097*"карьера" + -0.094*"жена"
0.191*"краткий" + 0.190*"полководец" + 0.187*"великий" + 0.169*"армия" + 0.132*"союзный" + -0.126*"однако" + 0.122*"отступать" + 0.113*"сражение" + 0.109*"нужный" + 0.099*"карта"
0.231*"карта" + 0.197*"подарочный" + 0.197*"рубль" + 0.197*"книжный" + 0.197*"магазин" + 0.166*"класс" + 0.164*"ребенок" + 0.156*"биография" + -0.154*"великий" + 0.145*"получать"

цезарь салат

<class 'gensim.models.lsimodel.LsiModel'>
0.651*"салат" + 0.409*"цезарь" + 0.200*"рецепт" + 0.189*"масло" + 0.157*"курица" + 0.148*"соус" + 0.134*"гр" + 0.125*"чеснок" + 0.122*"оливковый" + 0.121*"куриный"
0.672*"гр" + 0.449*"шт" + 0.249*"ст" + -0.119*"салат" + -0.108*"рецепт" + -0.104*"нарезать" + 0.103*"зубчик" + -0.099*"сухарик" + -0.092*"соус" + 0.086*"чеснок"
-0.349*"цезарь" + 0.272*"нарезать" + -0.270*"салат" + 0.203*"масло" + 0.203*"соус" + 0.184*"добавлять" + 0.172*"минута" + 0.169*"ложка" + 0.151*"курица" + 0.145*"кусочек"
-0.700*"конкурс" + -0.248*"спецпроект" + -0.240*"блюдо" + -0.189*"рецепт" + -0.140*"мультиварка" + 0.133*"масло" + -0.129*"гр" + -0.094*"поединок" + -0.087*"время" + -0.085*"шт"
-0.338*"конкурс" + 0.283*"рецепт" + 0.279*"шаг" + -0.230*"масло" + 0.149*"пошаговый" + 0.143*"домашний" + 0.139*"соус" + 0.133*"приготовление" + 0.131*"условие" + 0.126*"вкусный"
0.219*"соус" + -0.212*"цезарь" + -0.209*"ложка" + 0.167*"куриный" + 0.162*"сыр" + -0.157*"гр" + 0.156*"чеснок" + -0.148*"простой" + 0.145*"шаг" + 0.142*"масло"
0.254*"классический" + 0.190*"простой" + 0.183*"хлеб" + -0.181*"ложка" + 0.157*"вариант" + 0.153*"мясо" + 0.148*"выкладывать" + 0.144*"блюдо" + -0.141*"шаг" + 0.135*"поджаривать"
0.245*"вкус" + -0.231*"соус" + 0.187*"помыть" + 0.185*"перец" + 0.185*"соль" + -0.179*"цезарь" + 0.177*"салат" + 0.175*"специя" + -0.168*"курица" + -0.146*"ложка"
0.222*"вариант" + 0.213*"получаться" + -0.190*"курица" + -0.158*"рецепт" + 0.145*"вкус" + 0.138*"грудка" + 0.127*"использовать" + 0.126*"приготовление" + 0.122*"вустерский" + 0.119*"куриный"
-0.345*"курица" + -0.277*"сухарик" + 0.264*"цезарь" + -0.237*"крабовый" + -0.174*"классический" + 0.172*"блюдо" + -0.138*"палочка" + -0.130*"сыр" + -0.128*"салат" + 0.127*"приготавливать"
0.268*"тесто" + 0.198*"перец" + 0.163*"черный" + 0.156*"красный" + 0.150*"фото" + -0.149*"сыр" + 0.139*"пошаговый" + 0.133*"яйцо" + -0.131*"нарезать" + -0.122*"креветка"
0.338*"рецепт" + -0.220*"креветка" + -0.194*"вкусный" + 0.147*"простой" + -0.143*"menu" + 0.141*"знаменитый" + -0.140*"домашний" + -0.138*"продукт" + 0.124*"популярный" + 0.119*"оливковый"
0.215*"соус" + 0.214*"айсберг" + -0.184*"классический" + -0.163*"вкусный" + -0.128*"майонез" + 0.127*"класть" + -0.127*"соль" + -0.124*"простой" + 0.116*"хлеб" + -0.116*"добавлять"
0.216*"сухарик" + 0.194*"сыр" + -0.162*"яйцо" + 0.158*"цезарь" + -0.133*"очень" + 0.129*"дуэль" + -0.128*"ингредиент" + -0.119*"оливковый" + -0.119*"класть" + 0.112*"соус"
samimages
На сайте с 31.05.2009
Offline
403
#17

timo-71, вы понимаете, что они вас не понимают? просто интересно... Вы, если, хотите разобраться конкретно с LSI, то не обращайте внимание на контент содержащий вместе слова LSI и копирайтинг. Получается разговор слепого с глухим.

В контексте Серча, предлагаемое вами решение не нужно, его нельзя применить в оптимизации и в заказе текстов — слишком мелко. Кроме того, я вам намекал, что в методе сбора может быть ошибка, т.к. СЕРП не однороден по ранжированию и попытка проиндексировать интент через представление в СЕРПе может дать размытый результат.

ищите форум лингвистов, там вас поймут.

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
Devvver
На сайте с 02.07.2008
Offline
635
#18
samimages:
вы понимаете, что они вас не понимают?

Ну почему? Понимаем. Не понятно что хочет ТС на выходе.

vold57
На сайте с 01.10.2007
Offline
242
#19

Наверное хочет написать очень подробное ТЗ дешевому копирайтеру, вместо того, чтобы дать тему хорошему и более дорогому.

Очень дружелюбный SEO форум ( https://webdistrict.pro/ ) SEO услуги от vold57 ( http://vold57.com/ )
samimages
На сайте с 31.05.2009
Offline
403
#20
vold57:
Наверное хочет написать

Нет. Он заморочился на том, что парсит СЕРП по запросу и индексирует его, полученные в результате индексы (не стоит воспринимать их как слова) он предлагает к применению, например для самостоятельного "сглаживания" границ между семантическими полями, за счет неявных/интентных синонимов.

Сам метод LSA/LSI используется для индексации вычищенных корпусов и для их последующего сопоставления по вероятному смыслу, это "шестеренка" огромной статистической машины, которая даже в ПС не используется в силу ресурсозатратности.

Тем не менее базовые методики расчета можно использовать для ограниченного объема семантики, например для 1000 документов СЕРПа ПС. К моменту нахождения интента, документы уже будут отранжированы по BM25 и это сильно сэкономит "электричество" Это пробовали в Палехе и это не заработало, многие из вас помнят.

Теперь к этой мульке привязывают только усредненные данные (Королев), а не суть-тексты, из-за этого началась путаница между непопаданием в семантическое поле запроса и ограничением в ранжировании из-за "переоптимизации"; Тулзы а-ля Арсенкин, как раз помогают посчитать вероятность того и другого.

Все! Как либо влиять на эту хрень из под парсинга выдачи невозможно ибо для этого нужно попасть в этот СЕРП, а тогда теряется смысл. Единственное для чего можно ее применить на уровне SEO, это, например рассчитать облако интентов одной конкретной коллекции сайтов, для создания собственного.

Например берем запрос, берем историю выдачи до ТОП-100, за пару лет, берем массив хостов и считаем. В последствии, при кластеризации это может сильно пригодиться для прототипирования поведения пользователя, например в ИМ если бюджеты позволяют думать о тестировании трафика))) Сама Тулза выйдет тоже не бесплатной по ресурсам так что он-лайн ждать ее не приходится.

Терминологическая проблема в том, что первый абзац определения LSI продали вместо ссылочного на взлете Минусинска, а разбираться никто не стал... или не смог, но это нормально.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий