Попробуйте продвинуть запрос создание сайтов бум писать про осень в городе нью йорk - Общие вопросы оптимизации

Lsi: зачем и почему

timo-71 · 2019-09-30T21:08:44.0000000Z

Собственно, вопрос. Насколько это необходимо в рамках сайта, и всего что с ним связано . SEO в т.ч. и в первую очередь. Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика. Например, запрос осень ответ: <class 'gensim.models.ldamodel. LdaModel '> 0.047*"осень" + 0.008*"время" + 0.008*"лето" + 0.007*"цитата" + 0.007*"год" + 0.006*"лист" + 0.005*"красивый" + 0.005*"осенний" + 0.005*"любовь" + 0.004*"слово" 0.021*"осень" + 0.006*"время" + 0.005*"лето" + 0.004*"осенний" + 0.004*"любовь" + 0.004*"год" + 0.004*"весна" + 0.004*"лист" + 0.003*"цитата" + 0.003*"дождь" 0.029*"осень" + 0.010*"время" + 0.006*"цитата" + 0.006*"год" + 0.006*"лист" + 0.005*"осенний" + 0.005*"лето" + 0.004*"афоризм" + 0.004*"человек" + 0.004*"фраза" 0.035*"осень" + 0.010*"время" + 0.005*"осенний" + 0.005*"лето" + 0.005*"год" + 0.005*"лист" + 0.004*"весна" + 0.003*"стих" + 0.003*"дождь" + 0.003*"любовь" 0.065*"осень" + 0.011*"время" + 0.008*"лето" + 0.007*"год" + 0.007*"осенний" + 0.007*"лист" + 0.007*"цитата" + 0.006*"любить" + 0.005*"весна" + 0.005*"теплый" 0.039*"осень" + 0.009*"время" + 0.008*"осенний" + 0.007*"год" + 0.006*"лист" + 0.005*"лето" + 0.004*"весна" + 0.004*"стих" + 0.004*"любить" + 0.004*"человек" 0.025*"осень" + 0.008*"время" + 0.006*"год" + 0.006*"осенний" + 0.005*"любить" + 0.004*"лето" + 0.004*"лист" + 0.004*"фильм" + 0.003*"жизнь" + 0.003*"любовь" 0.022*"осень" + 0.008*"год" + 0.007*"осенний" + 0.006*"время" + 0.004*"лист" + 0.003*"цитата" + 0.003*"лето" + 0.003*"день" + 0.003*"стих" + 0.003*"человек" 0.022*"осень" + 0.008*"осенний" + 0.006*"лист" + 0.006*"время" + 0.005*"стих" + 0.005*"год" + 0.004*"октябрь" + 0.003*"лето" + 0.003*"человек" + 0.003*"день" 0.028*"осень" + 0.008*"осенний" + 0.007*"год" + 0.007*"время" + 0.006*"лист" + 0.006*"лето" + 0.005*"стих" + 0.004*"цитата" + 0.004*"друг" + 0.004*"человек" <class 'gensim.models.lsimodel. LsiModel '> 0.851*"осень" + 0.195*"время" + 0.125*"лето" + 0.122*"лист" + 0.120*"год" + 0.117*"цитата" + 0.117*"осенний" + 0.088*"любить" + 0.083*"красивый" + 0.081*"весна" 0.354*"фильм" + 0.285*"друг" + 0.208*"любовь" + 0.160*"деревня" + 0.158*"отношение" + -0.152*"осень" + 0.127*"жизнь" + 0.126*"снимать" + 0.116*"год" + 0.115*"любить" -0.261*"цитата" + -0.192*"афоризм" + 0.175*"подсезон" + -0.168*"фраза" + 0.157*"осенний" + 0.153*"сентябрь" + 0.152*"температура" + -0.148*"статус" + 0.135*"праздник" + 0.129*"стих" -0.340*"афоризм" + -0.324*"цитата" + -0.320*"фраза" + -0.300*"статус" + -0.188*"тема" + 0.162*"лето" + 0.144*"теплый" + 0.102*"чай" + 0.098*"горячий" + 0.094*"каждый" -0.430*"стих" + -0.373*"осенний" + -0.142*"год" + 0.139*"слово" + -0.133*"золотой" + -0.106*"картина" + -0.099*"листопад" + -0.099*"фотография" + -0.093*"материал" + 0.091*"лето" 0.248*"слово" + -0.234*"афоризм" + 0.181*"год" + -0.149*"стих" + 0.142*"любить" + 0.131*"красивый" + -0.126*"оно" + -0.119*"тема" + -0.117*"каждый" + 0.115*"русский" -0.227*"афоризм" + -0.174*"слово" + 0.162*"время" + 0.120*"великий" + 0.112*"фраза" + -0.111*"очень" + -0.110*"осень" + 0.107*"человек" + 0.106*"the" + 0.099*"дождь" -0.394*"слово" + -0.253*"стих" + 0.221*"любить" + 0.135*"сентябрь" + -0.112*"язык" + -0.110*"фраза" + -0.099*"лес" + -0.094*"дождь" + 0.089*"красивый" + -0.089*"предложение" 0.175*"любить" + 0.170*"лето" + 0.160*"париж" + 0.155*"зима" + 0.146*"сайт" + 0.122*"ru" + -0.120*"красивый" + 0.113*"сентябрь" + 0.110*"слово" + 0.105*"звезда" -0.331*"стих" + -0.142*"любить" + 0.127*"год" + 0.119*"время" + 0.111*"краска" + -0.111*"лист" + 0.109*"фотография" + 0.107*"осенний" + -0.102*"листопад" + 0.102*"10" буду признателен за идеи и критику со стороны гуру seo. А надо ли? В качестве Dictionary для модели взят контент топ 30 выдачи Яндекс-xml уупс топ 20 только

242

Anamnado

1 октября 2019, 01:06

#11

timo-71:
осень в нью-йорке

то что по это у Я есть только один вариант - когда берем эту фразу - и ручками помечаем что это название фильма ... а потом производим перетрубас...

любой другой адекватный вариант ранжирования должен был бы дать выдачу - текста про осень в городе нью йорk -

- что лишний раз доказывает что никакого LSI нет и никогда не было!

---------- Добавлено 01.10.2019 в 04:08 ----------

timo-71:
строит текстовый корпус и получает lsi/lda

ясно.

тогда будем делать как она сказала -чтобы продвинуть запрос создание сайтов бум писать про артатого...

Посмотрите "белый" каталог. Чего Сайт не продвигается по Неизвестный фильтр Яндекса. Он

МА

184

Махмуд Аббас

1 октября 2019, 02:48

#12

timo-71:
Ваш сайт я и не знаю.

Смысл моей глупой проги?
Во первых, не моей. <class 'gensim.models.lsimodel.LsiModel'> можно загуглить. Моя прога лишь берет топ Я-хмл по определенному запросу, парсит контент с этих урлов и с помощью gensim строит текстовый корпус и получает lsi/lda

Дело вообще не в проге. Любой, кто может парсер Я-хмл сделать и ему дать загуглить gensim напишет это за несколько часов.
----
зы
вот это, например

-0.209*"asterica" + -0.151*"студия" + -0.139*"проект" + 0.133*"артатый" + 0.133*"выгодный" + -0.125*"scrum" + -0.124*"надежный" + 0.119*"товар" + -0.118*"создавать" + -0.116*"компания"

определено по запросу "Создание сайтов в Воронеже"

Так давай, сделай красиво. Докажи, что это тема хороша. У тебя уже есть окружение слов "осень" - вперёд. Пишешь какую-нибудь статью, впендюриваешь в неё все эти напарсенные слова - и ты король. :)

Nokia x71 (https://x71.ru/) - хороший смартфон, и отзывы интересные

386

SmileP

1 октября 2019, 04:19

#13

timo-71:
строит текстовый корпус и получает lsi/lda

ИМХО, это на дорах гонять. Чтобы с лету ПС не банили при автозамене слов на нужные.

SC

57

Serg_CS

1 октября 2019, 15:40

#14

timo-71:
буду признателен за идеи и критику со стороны гуру seo. А надо ли?

Не претендую на "гуру", но пока этот список слов из ваших моделей выглядит очень бесполезно, применительно к SEO-копирайтингу. Гораздо лучшего эффекта можно добиться простым подсчетом пересечений каждого слова между различными документами из топа и дальнейшей ручной отбраковкой неподходящих слов.

Применение LSI в том виде, в котором оно у вас, навскидку, такое - можно определять неоднозначные запросы, попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.

почитайте! коментарии оставьте для Оптимизация под Яндекс: мало Как массово собрать LSI

686

Devvver

1 октября 2019, 16:07

#15

timo-71, это все давно используется на практике. Но помните, что поисковые системы не используют конкретно LSI.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers

T7

63

timo-71

1 октября 2019, 17:36

#16

Serg_CS:
попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.

Это без проблем. Каждая строчка - тема, количество которых задается lsi_model = gensim.models.LsiModel(corpus=corpus, id2word=dct, num_topics=14) при построении модели


<class 'gensim.models.lsimodel.LsiModel'>

0.720*"цезарь" + 0.212*"год" + 0.207*"the" + 0.182*"caesar" + 0.130*"julius" + 0.117*"гай" + 0.115*"of" + 0.108*"помпей" + 0.107*"римский" + 0.107*"война"

0.717*"салат" + 0.208*"цезарь" + 0.203*"рецепт" + 0.183*"масло" + 0.141*"сыр" + 0.132*"соус" + 0.123*"курица" + 0.115*"оливковый" + 0.114*"куриный" + -0.112*"the"

-0.300*"the" + 0.294*"цезарь" + 0.251*"помпей" + -0.216*"caesar" + -0.176*"салат" + -0.171*"julius" + -0.166*"of" + 0.156*"власть" + 0.151*"войско" + 0.133*"рим"

-0.364*"конкурс" + -0.268*"нарезать" + -0.230*"вкус" + -0.184*"блюдо" + -0.170*"минута" + -0.155*"добавлять" + 0.153*"цезарь" + 0.148*"салат" + -0.129*"спецпроект" + -0.128*"масло"

-0.667*"конкурс" + -0.236*"спецпроект" + -0.203*"блюдо" + 0.168*"масло" + 0.167*"нарезать" + -0.129*"мультиварка" + 0.101*"минута" + -0.100*"рецепт" + 0.096*"соль" + 0.094*"перец"

0.448*"фильм" + 0.239*"юлий" + -0.161*"войско" + -0.151*"помпей" + 0.144*"человек" + 0.130*"император" + 0.126*"римский" + 0.124*"сулла" + 0.111*"становиться" + 0.110*"полководец"

0.285*"фильм" + -0.271*"гай" + -0.222*"юлий" + 0.211*"рецепт" + -0.194*"римский" + -0.153*"масло" + 0.147*"шаг" + -0.144*"юлия" + -0.137*"конкурс" + -0.125*"становиться"

0.328*"фильм" + -0.284*"рецепт" + -0.217*"шаг" + -0.191*"соус" + 0.163*"масло" + -0.154*"гай" + 0.119*"помпей" + -0.113*"римский" + -0.113*"курица" + -0.112*"домашний"

-0.292*"соус" + 0.189*"вкус" + 0.170*"салат" + -0.167*"пармезан" + 0.165*"классический" + -0.161*"ложка" + 0.155*"блюдо" + 0.152*"простой" + 0.146*"рецепт" + -0.146*"масло"

-0.255*"юлиан" + -0.251*"август" + -0.249*"власть" + -0.230*"титул" + -0.148*"правитель" + 0.146*"помпей" + 0.145*"гай" + -0.143*"констанция" + -0.140*"император" + -0.128*"галл"

0.305*"ложка" + -0.208*"шаг" + 0.151*"курица" + -0.144*"сыр" + 0.141*"чайный" + -0.137*"соус" + 0.133*"столовый" + -0.118*"соль" + 0.118*"нарезать" + 0.117*"добавлять"

0.196*"гай" + -0.176*"год" + -0.167*"цезарь" + 0.165*"салат" + 0.139*"юлия" + 0.131*"принимать" + -0.131*"становиться" + 0.107*"фильм" + -0.107*"великий" + -0.107*"однако"

-0.217*"римский" + 0.185*"гай" + -0.164*"война" + -0.153*"император" + 0.153*"принимать" + 0.123*"политик" + 0.101*"становиться" + -0.098*"юлий" + -0.096*"войско" + -0.096*"однако"

-0.157*"должность" + -0.157*"республика" + -0.151*"theperson" + -0.132*"империя" + -0.124*"год" + -0.115*"провинция" + -0.115*"римский" + -0.112*"биография" + -0.109*"правление" + -0.109*"деятель"



<class 'gensim.models.lsimodel.LsiModel'>

0.715*"наполеон" + 0.426*"год" + 0.146*"армия" + 0.143*"франция" + 0.139*"французский" + 0.110*"бонапарт" + 0.086*"становиться" + 0.083*"войско" + 0.080*"военный" + 0.078*"император"

-0.525*"торт" + -0.286*"мука" + -0.269*"рецепт" + -0.239*"сахар" + -0.228*"наполеон" + -0.223*"масло" + -0.213*"молоко" + -0.211*"сливочный" + 0.193*"год" + -0.184*"крем"

0.360*"год" + -0.327*"бонапарт" + -0.299*"франция" + -0.219*"император" + -0.147*"французский" + 0.118*"тыс" + 0.115*"май" + -0.110*"фильм" + -0.106*"становиться" + -0.104*"генерал"

0.296*"наполеон" + 0.261*"фильм" + -0.241*"год" + -0.213*"франция" + 0.209*"конкурс" + 0.149*"человек" + 0.144*"клавье" + -0.144*"мука" + -0.121*"сахар" + -0.111*"молоко"

-0.657*"конкурс" + -0.233*"спецпроект" + -0.222*"блюдо" + -0.200*"рецепт" + 0.130*"наполеон" + -0.127*"мультиварка" + -0.126*"год" + 0.125*"мука" + -0.122*"торт" + 0.114*"сахар"

0.520*"бонапарт" + 0.252*"год" + 0.218*"император" + 0.136*"биография" + -0.115*"наполеон" + -0.115*"франция" + 0.113*"становиться" + -0.109*"фильм" + -0.103*"армия" + -0.087*"империя"

0.369*"год" + 0.324*"фильм" + -0.224*"наполеон" + 0.179*"клавье" + 0.143*"человек" + 0.119*"исторический" + 0.116*"история" + 0.110*"сериал" + 0.109*"роль" + -0.099*"англия"

-0.306*"конкурс" + 0.296*"торт" + -0.247*"мука" + 0.235*"приготавливать" + -0.230*"сахар" + -0.209*"сливочный" + -0.205*"масло" + -0.201*"молоко" + 0.172*"рецепт" + 0.166*"слоеный"

0.180*"битва" + -0.161*"the" + -0.154*"кавалер" + -0.151*"орден" + -0.130*"and" + -0.119*"of" + -0.107*"время" + -0.103*"император" + -0.097*"википедия" + -0.096*"буонапарт"

0.188*"французский" + -0.186*"биография" + -0.149*"становиться" + -0.146*"военный" + -0.145*"страна" + -0.136*"жозефина" + -0.125*"париж" + 0.124*"наполеон" + -0.118*"император" + 0.114*"республика"

0.285*"французский" + 0.167*"век" + 0.146*"деятель" + 0.144*"государственный" + -0.118*"большой" + 0.109*"война" + -0.106*"бонапарт" + -0.105*"кавалер" + -0.102*"получать" + 0.101*"наполеоновский"

0.300*"биография" + -0.169*"франция" + 0.152*"интересный" + -0.144*"год" + 0.133*"краткий" + 0.122*"деятельность" + 0.112*"поход" + 0.111*"факт" + 0.109*"бежать" + 0.107*"жена"

0.138*"полководец" + 0.127*"биография" + 0.122*"интересный" + 0.118*"факт" + 0.110*"однако" + 0.109*"являться" + 0.108*"француз" + 0.107*"результат" + -0.097*"карьера" + -0.094*"жена"

0.191*"краткий" + 0.190*"полководец" + 0.187*"великий" + 0.169*"армия" + 0.132*"союзный" + -0.126*"однако" + 0.122*"отступать" + 0.113*"сражение" + 0.109*"нужный" + 0.099*"карта"

0.231*"карта" + 0.197*"подарочный" + 0.197*"рубль" + 0.197*"книжный" + 0.197*"магазин" + 0.166*"класс" + 0.164*"ребенок" + 0.156*"биография" + -0.154*"великий" + 0.145*"получать"

цезарь салат

<class 'gensim.models.lsimodel.LsiModel'>
0.651*"салат" + 0.409*"цезарь" + 0.200*"рецепт" + 0.189*"масло" + 0.157*"курица" + 0.148*"соус" + 0.134*"гр" + 0.125*"чеснок" + 0.122*"оливковый" + 0.121*"куриный"
0.672*"гр" + 0.449*"шт" + 0.249*"ст" + -0.119*"салат" + -0.108*"рецепт" + -0.104*"нарезать" + 0.103*"зубчик" + -0.099*"сухарик" + -0.092*"соус" + 0.086*"чеснок"
-0.349*"цезарь" + 0.272*"нарезать" + -0.270*"салат" + 0.203*"масло" + 0.203*"соус" + 0.184*"добавлять" + 0.172*"минута" + 0.169*"ложка" + 0.151*"курица" + 0.145*"кусочек"
-0.700*"конкурс" + -0.248*"спецпроект" + -0.240*"блюдо" + -0.189*"рецепт" + -0.140*"мультиварка" + 0.133*"масло" + -0.129*"гр" + -0.094*"поединок" + -0.087*"время" + -0.085*"шт"
-0.338*"конкурс" + 0.283*"рецепт" + 0.279*"шаг" + -0.230*"масло" + 0.149*"пошаговый" + 0.143*"домашний" + 0.139*"соус" + 0.133*"приготовление" + 0.131*"условие" + 0.126*"вкусный"
0.219*"соус" + -0.212*"цезарь" + -0.209*"ложка" + 0.167*"куриный" + 0.162*"сыр" + -0.157*"гр" + 0.156*"чеснок" + -0.148*"простой" + 0.145*"шаг" + 0.142*"масло"
0.254*"классический" + 0.190*"простой" + 0.183*"хлеб" + -0.181*"ложка" + 0.157*"вариант" + 0.153*"мясо" + 0.148*"выкладывать" + 0.144*"блюдо" + -0.141*"шаг" + 0.135*"поджаривать"
0.245*"вкус" + -0.231*"соус" + 0.187*"помыть" + 0.185*"перец" + 0.185*"соль" + -0.179*"цезарь" + 0.177*"салат" + 0.175*"специя" + -0.168*"курица" + -0.146*"ложка"
0.222*"вариант" + 0.213*"получаться" + -0.190*"курица" + -0.158*"рецепт" + 0.145*"вкус" + 0.138*"грудка" + 0.127*"использовать" + 0.126*"приготовление" + 0.122*"вустерский" + 0.119*"куриный"
-0.345*"курица" + -0.277*"сухарик" + 0.264*"цезарь" + -0.237*"крабовый" + -0.174*"классический" + 0.172*"блюдо" + -0.138*"палочка" + -0.130*"сыр" + -0.128*"салат" + 0.127*"приготавливать"
0.268*"тесто" + 0.198*"перец" + 0.163*"черный" + 0.156*"красный" + 0.150*"фото" + -0.149*"сыр" + 0.139*"пошаговый" + 0.133*"яйцо" + -0.131*"нарезать" + -0.122*"креветка"
0.338*"рецепт" + -0.220*"креветка" + -0.194*"вкусный" + 0.147*"простой" + -0.143*"menu" + 0.141*"знаменитый" + -0.140*"домашний" + -0.138*"продукт" + 0.124*"популярный" + 0.119*"оливковый"
0.215*"соус" + 0.214*"айсберг" + -0.184*"классический" + -0.163*"вкусный" + -0.128*"майонез" + 0.127*"класть" + -0.127*"соль" + -0.124*"простой" + 0.116*"хлеб" + -0.116*"добавлять"
0.216*"сухарик" + 0.194*"сыр" + -0.162*"яйцо" + 0.158*"цезарь" + -0.133*"очень" + 0.129*"дуэль" + -0.128*"ингредиент" + -0.119*"оливковый" + -0.119*"класть" + 0.112*"соус"

427

samimages

1 октября 2019, 18:00

#17

timo-71, вы понимаете, что они вас не понимают? просто интересно... Вы, если, хотите разобраться конкретно с LSI, то не обращайте внимание на контент содержащий вместе слова LSI и копирайтинг. Получается разговор слепого с глухим.

В контексте Серча, предлагаемое вами решение не нужно, его нельзя применить в оптимизации и в заказе текстов — слишком мелко. Кроме того, я вам намекал, что в методе сбора может быть ошибка, т.к. СЕРП не однороден по ранжированию и попытка проиндексировать интент через представление в СЕРПе может дать размытый результат.

ищите форум лингвистов, там вас поймут.

1

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС

неверная страница по запросу Копирайтинг 1.6$ | Рерайт LSI-копирайтинг: контент будущего

686

Devvver

1 октября 2019, 18:10

#18

samimages:
вы понимаете, что они вас не понимают?

Ну почему? Понимаем. Не понятно что хочет ТС на выходе.

1

261

vold57

1 октября 2019, 18:48

#19

Наверное хочет написать очень подробное ТЗ дешевому копирайтеру, вместо того, чтобы дать тему хорошему и более дорогому.

1

Аудит сайтов - главная часть это тщательная ручная работа, а не отчеты сервисов и программ (https://vold57.com/audit). Продвижение сайтов (https://vold57.com/seo)

427

samimages

1 октября 2019, 21:14

#20

vold57:
Наверное хочет написать

Нет. Он заморочился на том, что парсит СЕРП по запросу и индексирует его, полученные в результате индексы (не стоит воспринимать их как слова) он предлагает к применению, например для самостоятельного "сглаживания" границ между семантическими полями, за счет неявных/интентных синонимов.

Сам метод LSA/LSI используется для индексации вычищенных корпусов и для их последующего сопоставления по вероятному смыслу, это "шестеренка" огромной статистической машины, которая даже в ПС не используется в силу ресурсозатратности.

Тем не менее базовые методики расчета можно использовать для ограниченного объема семантики, например для 1000 документов СЕРПа ПС. К моменту нахождения интента, документы уже будут отранжированы по BM25 и это сильно сэкономит "электричество" Это пробовали в Палехе и это не заработало, многие из вас помнят.

Теперь к этой мульке привязывают только усредненные данные (Королев), а не суть-тексты, из-за этого началась путаница между непопаданием в семантическое поле запроса и ограничением в ранжировании из-за "переоптимизации"; Тулзы а-ля Арсенкин, как раз помогают посчитать вероятность того и другого.

Все! Как либо влиять на эту хрень из под парсинга выдачи невозможно ибо для этого нужно попасть в этот СЕРП, а тогда теряется смысл. Единственное для чего можно ее применить на уровне SEO, это, например рассчитать облако интентов одной конкретной коллекции сайтов, для создания собственного.

Например берем запрос, берем историю выдачи до ТОП-100, за пару лет, берем массив хостов и считаем. В последствии, при кластеризации это может сильно пригодиться для прототипирования поведения пользователя, например в ИМ если бюджеты позволяют думать о тестировании трафика))) Сама Тулза выйдет тоже не бесплатной по ресурсам так что он-лайн ждать ее не приходится.

Терминологическая проблема в том, что первый абзац определения LSI продали вместо ссылочного на взлете Минусинска, а разбираться никто не стал... или не смог, но это нормально.

1

На что повлияют нейронные LSI-копирайтинг и SEO или Карго-культ кластеризации по ТОПу

Дзен реализовал для авторов возможность вывода денег через СПБ

Что делать, если ваша email-рассылка попала в спам

Lsi: зачем и почему