Lsi: зачем и почему

T7
На сайте с 19.09.2018
Offline
51
4807

Собственно, вопрос. Насколько это необходимо в рамках сайта, и всего что с ним связано . SEO в т.ч. и в первую очередь.

Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика.

Например, запрос осень

ответ:

<class 'gensim.models.ldamodel.LdaModel'>

0.047*"осень" + 0.008*"время" + 0.008*"лето" + 0.007*"цитата" + 0.007*"год" + 0.006*"лист" + 0.005*"красивый" + 0.005*"осенний" + 0.005*"любовь" + 0.004*"слово"
0.021*"осень" + 0.006*"время" + 0.005*"лето" + 0.004*"осенний" + 0.004*"любовь" + 0.004*"год" + 0.004*"весна" + 0.004*"лист" + 0.003*"цитата" + 0.003*"дождь"
0.029*"осень" + 0.010*"время" + 0.006*"цитата" + 0.006*"год" + 0.006*"лист" + 0.005*"осенний" + 0.005*"лето" + 0.004*"афоризм" + 0.004*"человек" + 0.004*"фраза"
0.035*"осень" + 0.010*"время" + 0.005*"осенний" + 0.005*"лето" + 0.005*"год" + 0.005*"лист" + 0.004*"весна" + 0.003*"стих" + 0.003*"дождь" + 0.003*"любовь"
0.065*"осень" + 0.011*"время" + 0.008*"лето" + 0.007*"год" + 0.007*"осенний" + 0.007*"лист" + 0.007*"цитата" + 0.006*"любить" + 0.005*"весна" + 0.005*"теплый"
0.039*"осень" + 0.009*"время" + 0.008*"осенний" + 0.007*"год" + 0.006*"лист" + 0.005*"лето" + 0.004*"весна" + 0.004*"стих" + 0.004*"любить" + 0.004*"человек"
0.025*"осень" + 0.008*"время" + 0.006*"год" + 0.006*"осенний" + 0.005*"любить" + 0.004*"лето" + 0.004*"лист" + 0.004*"фильм" + 0.003*"жизнь" + 0.003*"любовь"
0.022*"осень" + 0.008*"год" + 0.007*"осенний" + 0.006*"время" + 0.004*"лист" + 0.003*"цитата" + 0.003*"лето" + 0.003*"день" + 0.003*"стих" + 0.003*"человек"
0.022*"осень" + 0.008*"осенний" + 0.006*"лист" + 0.006*"время" + 0.005*"стих" + 0.005*"год" + 0.004*"октябрь" + 0.003*"лето" + 0.003*"человек" + 0.003*"день"
0.028*"осень" + 0.008*"осенний" + 0.007*"год" + 0.007*"время" + 0.006*"лист" + 0.006*"лето" + 0.005*"стих" + 0.004*"цитата" + 0.004*"друг" + 0.004*"человек"

<class 'gensim.models.lsimodel.LsiModel'>

0.851*"осень" + 0.195*"время" + 0.125*"лето" + 0.122*"лист" + 0.120*"год" + 0.117*"цитата" + 0.117*"осенний" + 0.088*"любить" + 0.083*"красивый" + 0.081*"весна"
0.354*"фильм" + 0.285*"друг" + 0.208*"любовь" + 0.160*"деревня" + 0.158*"отношение" + -0.152*"осень" + 0.127*"жизнь" + 0.126*"снимать" + 0.116*"год" + 0.115*"любить"
-0.261*"цитата" + -0.192*"афоризм" + 0.175*"подсезон" + -0.168*"фраза" + 0.157*"осенний" + 0.153*"сентябрь" + 0.152*"температура" + -0.148*"статус" + 0.135*"праздник" + 0.129*"стих"
-0.340*"афоризм" + -0.324*"цитата" + -0.320*"фраза" + -0.300*"статус" + -0.188*"тема" + 0.162*"лето" + 0.144*"теплый" + 0.102*"чай" + 0.098*"горячий" + 0.094*"каждый"
-0.430*"стих" + -0.373*"осенний" + -0.142*"год" + 0.139*"слово" + -0.133*"золотой" + -0.106*"картина" + -0.099*"листопад" + -0.099*"фотография" + -0.093*"материал" + 0.091*"лето"
0.248*"слово" + -0.234*"афоризм" + 0.181*"год" + -0.149*"стих" + 0.142*"любить" + 0.131*"красивый" + -0.126*"оно" + -0.119*"тема" + -0.117*"каждый" + 0.115*"русский"
-0.227*"афоризм" + -0.174*"слово" + 0.162*"время" + 0.120*"великий" + 0.112*"фраза" + -0.111*"очень" + -0.110*"осень" + 0.107*"человек" + 0.106*"the" + 0.099*"дождь"
-0.394*"слово" + -0.253*"стих" + 0.221*"любить" + 0.135*"сентябрь" + -0.112*"язык" + -0.110*"фраза" + -0.099*"лес" + -0.094*"дождь" + 0.089*"красивый" + -0.089*"предложение"
0.175*"любить" + 0.170*"лето" + 0.160*"париж" + 0.155*"зима" + 0.146*"сайт" + 0.122*"ru" + -0.120*"красивый" + 0.113*"сентябрь" + 0.110*"слово" + 0.105*"звезда"
-0.331*"стих" + -0.142*"любить" + 0.127*"год" + 0.119*"время" + 0.111*"краска" + -0.111*"лист" + 0.109*"фотография" + 0.107*"осенний" + -0.102*"листопад" + 0.102*"10"

буду признателен за идеи и критику со стороны гуру seo. А надо ли?

В качестве Dictionary для модели взят контент топ 30 выдачи Яндекс-xml

уупс топ 20 только

Anamnado
На сайте с 08.02.2010
Offline
242
#1

Нет никакого LSI

ваша "код" - фуфло !

Просто поисковые системы наделали в своей базе слов и фраз синонимов ну например слово "красивый" является В ИХ ПОНИМАНИИ синонимом слова "изящный". Фраза "Написать текст выступления" синоним фразы "подготовить речь выступления".... И так далее и тому подобное и этого мнооооого....

отсюда в моем понимании вопрос не актауальный. потому что в отличии от дорвеев которые тупо вставлют ключи в любой текст, когда пишите нормальную тематическую статью вы волей неволей используете околотемматические фразы и вот эти самые синонимы. (обычно чтобы не переспамить ключами).. .... со всеми вытекающими.... а писать эттот так называемый LSI нет смысла = если вы пишите слово колесо - ну под запрос "насос" вы не будете лучше ранжироваться хоть описайтесь - хотя насос и колесо одна и и таже тематика... потому что - "водяной насос" = фраза - и всё ПИПЕЦ нет у вас никакого LSI и синоним уже "гидронасос" и к колесу отношения не имеет.....

Так что - "осень" - в вашем примере не имеет никакого отношения к "лету" -

"лето" - это синоним слова "ГОД" (иногда) .. короч без 100 грамм не разобраться..

я понимаю что мало понятно так вот сразу. да и фиг сним , кому нада разберуться!

(готов принимать наки, но правда-честь мне дороже чем фальшивая игра тем более тогда эта ваше репутация ничего не стоит!!!)

T7
На сайте с 19.09.2018
Offline
51
#2
Anamnado:
Нет никакого LSI
ваша "код" - фуфло !

Понял, хотя никакого кода не выкладывал, кроме

for i in [1,2]:

result.append(parse_(i))
Anamnado:

Просто поисковые системы наделали в своей базе слов и фраз синонимов ну например слово "красивый" является В ИХ ПОНИМАНИИ синонимом слова "изящный".

Тут не о синонимах.

0.851*"осень"

0.354*"фильм"

0.261*"цитата"

-0.340*"афоризм"

документы об этом, прям сейчас в топ20 Яндекса по запросу осень (lr=225)

Станислав Романенко
На сайте с 05.09.2007
Offline
325
#3

timo-71, смысл всего этого в том, чтобы текст был более разнообразным в плане слога, т. е. чтобы один и тот же "посыл" передавался разнокоренными словами. Обычно у людей с большим словарным запасом (у филологов, например) это получается легко, а у людей с маленьким словарным запасом (у юристов, например) с этим проблемы. Короче говоря, нужно, чтобы в тексте один и тот же смысл передавался разными словами, вот и всё. И "LSI" тут ни при чём, просто в среде сеошников этот термин прижился, поэтому мы это и называем "элэсай".

Сайт не лезет в топ? Сделаю аудит без воды всего за 8000 рублей! Отзывы клиентов тут (https://searchengines.guru/ru/forum/939454), почта для связи: ingref@ya.ru Посмотрю, в чём проблема с вашим сайтом, за 100 рублей (https://searchengines.guru/ru/forum/comment/15662080).
T7
На сайте с 19.09.2018
Offline
51
#4
Ingref:
Короче говоря, нужно, чтобы в тексте один и тот же смысл передавался разными словами, вот и всё. И "LSI" тут ни при чём, просто в среде сеошников этот термин прижился, поэтому мы это и называем "элэсай".

Это похоже, опять на синонимы. С терминами бы определиться.

Моя задача состоит в том, чтобы расширить готовый документ, с готовой статьей обвесом (aside, "последние новости", "с этим покупают", "хиты продаж", "картинки", "видео") с учетом, например, запрос "аксессуары для шкода октавия" в т.ч. имеет по LsiModel

-0.402*"рейлинг" -0.382*"дуга" -0.325*"комплект" -0.295*"крыша" -0.222*"багажник" -0.166*"крепление" -0.163*"нагрузка" -0.163*"евродеталь"

samimages
На сайте с 31.05.2009
Offline
403
#5
timo-71:
Lsi: зачем и почему

Действительно... давайте выдумаем термин "интентный синоним" и порешим что для их точного определения, в коллекции документов, нам может помочь LSA, естественным продуктом которого является LSI внутри каждого вектора.

timo-71:
Насколько это необходимо в рамках сайта, и всего что с ним связано

Ну поскольку LSI является суть анализом сущности "текст", то вероятный вопрос звучал бы странно в таком контексте... LSI можно рассчитывать при ранжировании или не рассчитывать при ранжировании... надысь Яндекс подписался на это дело, но там есть маленька проблема с затратами, впрочем это уже за рамками темы.

timo-71:
Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика.

это не про это

timo-71:
буду признателен за идеи и критику со стороны гуру seo.

Ну идея... нужно добиться такой степени расчета, чтобы при расширении корпуса коэффициенты LSI внутри векторов не размывались.

Критика... вот посчитали мы LSI для одной пары запрос/документ, определили вектора в каждом кластере ядра и заказываем топовый seo копирайтинг на тему йоги от боли в шее, а нас спрашивают: как же это я вам за 1700 могу написать топовую seo статью, если у вас только ключей на 1000К символов без/пробелов? А мы ему, погодите это только первый запрос, а у нас их 5, вот на этих хардах.

Anamnado:
Нет никакого LSI

Да не, есть, только не как инструмент копирайтера. Эти демоны увидели слово синоним и потеряли волю. В языках есть много интересной фигни по ту сторону, то что исследует и систематизирует уже созданное, пытается научить машины уже существующим принципам, но при этом никак не влияет на производство объекта исследования.

ТС, LSI для продукта (сайт, книга и пр.) это связка словарного запаса автора и редактуры, и для многих копирайтеров это уже не по силам.

ну и если делать нехрен то можно потратить время здесь

---------- Добавлено 01.10.2019 в 03:57 ----------

timo-71:
Моя задача состоит в том, чтобы расширить готовый документ, с готовой статьей обвесом (aside, "последние новости", "с этим покупают", "хиты продаж", "картинки", "видео") с учетом, например, запрос "аксессуары для шкода октавия" в т.ч. имеет по LsiModel
-0.402*"рейлинг" -0.382*"дуга" -0.325*"комплект" -0.295*"крыша" -0.222*"багажник" -0.166*"крепление" -0.163*"нагрузка" -0.163*"евродеталь"

Академически она не выполнима,т.к. вы, на данный момент считаете СЕРП запроса, как коллекцию/корпус, а размещать будете на сайте, который вероятно не является участником расчетного СЕРПа, но самое плохое даже не в этом, а в том, что ранжирование в СЕРПе не равномерно.

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
T7
На сайте с 19.09.2018
Offline
51
#6
samimages:

на тему йоги от боли в шее

На корпусе топ20 lr=225, text=йога от боли в шее

<class 'gensim.models.lsimodel.LsiModel'>
0.436*"шея" + 0.407*"плечо" + 0.381*"йога" + 0.211*"боль" + 0.209*"мышца" + 0.166*"упражнение" + 0.150*"осанка" + 0.149*"спина" + 0.148*"рука" + 0.146*"голова"
-0.360*"плечо" + 0.289*"нога" + 0.229*"остеохондроз" + 0.224*"правый" + 0.219*"шейный" + 0.216*"рука" + -0.199*"шея" + 0.180*"левый" + 0.152*"ладонь" + 0.149*"позвоночник"
-0.322*"йога" + 0.307*"плечо" + 0.253*"выдох" + 0.222*"рука" + -0.219*"шейный" + 0.213*"вдох" + -0.200*"отдел" + -0.176*"шея" + 0.164*"спина" + -0.140*"боль"
-0.264*"остеохондроз" + 0.260*"голова" + 0.214*"боль" + 0.200*"положение" + -0.187*"плечо" + 0.182*"шея" + -0.155*"правый" + 0.155*"рука" + -0.152*"осанка" + -0.143*"стопа"
-0.425*"упражнение" + 0.227*"пол" + -0.198*"йога" + -0.167*"мат" + -0.153*"образ" + 0.152*"боль" + 0.146*"позиция" + 0.120*"стопа" + 0.119*"шея" + 0.118*"позвоночник"
0.271*"вьяяма" + 0.217*"поза" + -0.202*"боль" + 0.194*"асана" + 0.144*"немой" + 0.128*"дискомфорт" + 0.127*"каждый" + 0.119*"10" + 0.114*"подбородок" + 0.110*"овал"
0.307*"мышца" + 0.266*"упражнение" + 0.250*"положение" + -0.227*"йога" + 0.178*"следовать" + 0.155*"состояние" + 0.155*"часть" + -0.151*"правый" + 0.149*"должный" + -0.141*"нога"
-0.262*"плечо" + 0.216*"поза" + 0.208*"йога" + -0.193*"затем" + -0.179*"боль" + -0.162*"выполнять" + -0.143*"стопа" + -0.139*"рука" + -0.129*"упражнение" + -0.128*"ширина"
-0.478*"поза" + -0.150*"упражнение" + 0.138*"выдох" + 0.137*"шейный" + 0.131*"мышца" + 0.123*"вдох" + 0.123*"отдел" + -0.113*"выполнять" + -0.111*"зона" + 0.108*"сторона"
0.194*"поза" + 0.182*"позвоночник" + 0.159*"боль" + -0.156*"шея" + -0.144*"стопа" + -0.137*"положение" + -0.135*"позвонок" + 0.131*"средство" + -0.120*"практика" + -0.099*"мышца"
samimages:

timo-71:
...обвес документа...

это не про это

А я, больше, именно в этом плане, чтобы победить это:

samimages:

а нас спрашивают: как же это я вам за 1700 могу написать топовую seo статью, если у вас только ключей на 1000К символов без/пробелов?

Использованные материалы: gensim

---------- Добавлено 01.10.2019 в 02:39 ----------

вы, на данный момент считаете СЕРП запроса, как коллекцию/корпус

Ну да, Яндекс уже все сделал - подобрал экспертные документы как мог. А мы крохи с его стола подберем.

а в том, что ранжирование в СЕРПе не равномерно

Другие (ПФ, ссылки, ...) факторы? Улучшим документные внутренние, глядишь и другие подтянутся

Anamnado
На сайте с 08.02.2010
Offline
242
#7
timo-71:
топ20 Яндекса по запросу- осень

да хоть топ 5

запрос никчемный - даже кто и спросит дальше топ 2 - вики , не уйдет .... слово осень в запросах всегда используется в словосочетаниях а вот тут и овраг...

вот не поленился сделал - чуть в бок в любую тематику и всё уже другая выдача ....

запрос с нью йорком....- ну это понятно ... но не стал другое искать ....

jpg 186893.jpg
jpg 186894.jpg
jpg 186895.jpg
jpg 186897.jpg
T7
На сайте с 19.09.2018
Offline
51
#8
Anamnado:
да хоть топ 5
запрос никчемный - даже кто и спросит дальше топ 2 - вики , не уйдет .... слово осень в запросах всегда используется в словосочетаниях а вот тут и овраг...

запрос с нью ерком.... И это уже не ранжирование .... это .. .. .. бубль гум

Запрос "Создание сайтов в Воронеже"

-0.209*"asterica" + -0.151*"студия" + -0.139*"проект" + 0.133*"артатый" + 0.133*"выгодный" + -0.125*"scrum" + -0.124*"надежный" + 0.119*"товар" + -0.118*"создавать" + -0.116*"компания"

Долго не мог понять что такое "артатый"

$ mystem АРТАТОМ

АРТАТОМ{артат?|артатый?} 😆

осень в нью-йорке

<class 'gensim.models.lsimodel.LsiModel'>

0.679*"фильм" + 0.203*"осень" + 0.186*"любовь" + 0.186*"нью" + 0.179*"йорк" + 0.141*"жизнь" + 0.141*"хороший" + 0.137*"смотреть" + 0.124*"очень" + 0.105*"гир"
0.230*"фильм" + -0.217*"autumn" + -0.206*"in" + -0.205*"york" + -0.205*"new" + -0.178*"gabriel" + -0.178*"yared" + -0.153*"1" + 0.141*"просто" + -0.138*"история"
0.365*"любовь" + 0.237*"друг" + -0.222*"фильм" + 0.173*"время" + 0.159*"девушка" + 0.131*"чувство" + 0.114*"уилл" + -0.113*"просто" + 0.111*"кинопоиск" + -0.107*"жизнь"
0.264*"осень" + 0.257*"нью" + 0.228*"йорк" + 0.206*"онлайн" + -0.189*"жизнь" + -0.179*"просто" + 0.148*"смотреть" + -0.137*"история" + 0.136*"качество" + 0.135*"hd"
0.231*"онлайн" + 0.219*"качество" + 0.213*"уилл" + 0.190*"шарлотта" + -0.173*"фильм" + 0.169*"жизнь" + 0.162*"просто" + -0.155*"любовь" + 0.140*"2000" + 0.127*"бесплатно"
0.242*"кино" + -0.215*"бесплатно" + -0.201*"онлайн" + -0.197*"качество" + -0.190*"хороший" + 0.144*"ru" + 0.136*"mail" + -0.134*"смотреть" + 0.134*"in" + 0.132*"york"
-0.329*"русский" + -0.326*"мелодрама" + -0.251*"hd" + -0.208*"комедия" + -0.165*"новинка" + -0.146*"2018" + -0.132*"гирр" + -0.132*"youtube" + -0.125*"драма" + -0.114*"вайнона"
-0.211*"любовь" + 0.174*"смотреть" + -0.155*"очень" + -0.153*"старый" + 0.140*"фильм" + -0.140*"пересматривать" + 0.128*"время" + 0.127*"актер" + -0.126*"рекомендовать" + -0.124*"человек"
0.295*"драма" + -0.136*"онлайн" + 0.130*"комедия" + -0.122*"русский" + -0.121*"фильм" + -0.120*"hd" + 0.119*"человек" + 0.113*"осень" + 0.111*"снова" + 0.107*"нью"
0.319*"драма" + 0.216*"бесплатно" + -0.180*"русский" + 0.179*"кино" + 0.151*"онлайн" + -0.145*"hd" + -0.127*"год" + -0.124*"ричард" + 0.120*"великобритания" + 0.120*"германия"
0.180*"кейн" + 0.178*"megogo" + -0.155*"качество" + 0.148*"работа" + 0.145*"видео" + 0.138*"бесплатно" + 0.133*"плечо" + 0.133*"руб" + 0.131*"отношение" + 0.128*"человек"
-0.169*"сердце" + 0.132*"хороший" + -0.123*"in" + 0.113*"to" + 0.111*"how" + 0.111*"taught" + -0.110*"красивый" + -0.110*"время" + -0.106*"детский" + -0.099*"любовь"
0.305*"драма" + -0.190*"онлайн" + 0.123*"мелодрама" + 0.114*"красивый" + 0.113*"комедия" + 0.102*"1080p" + 0.101*"германия" + 0.101*"индия" + 0.101*"франция" + 0.100*"великобритания"
0.234*"бесплатно" + -0.187*"год" + -0.177*"шарлотта" + 0.170*"смотреть" + -0.161*"комментарий" + -0.150*"просмотр" + -0.135*"фильм" + 0.116*"2000" + 0.114*"приключенческий" + -0.106*"качество"
-0.151*"шарлотта" + 0.145*"приключенческий" + 0.138*"боевик" + -0.135*"осень" + -0.130*"википедия" + 0.127*"уилл" + -0.126*"hd" + 0.124*"качество" + -0.123*"2000" + 0.117*"триллер"
0.306*"википедия" + 0.235*"операция" + 0.162*"шарлотта" + 0.153*"статья" + 0.153*"wikipedia" + -0.152*"hd" + 0.107*"сильный" + 0.101*"осень" + -0.100*"смотреть" + 0.100*"кейн"
0.174*"день" + -0.163*"hd" + -0.127*"гир" + -0.124*"оставаться" + 0.121*"поставлять" + 0.121*"становиться" + -0.114*"википедия" + -0.110*"zona" + -0.110*"w37" + -0.110*"plus"
0.219*"hd" + -0.180*"plus" + -0.180*"w37" + -0.180*"zona" + 0.179*"красавица" + 0.161*"привычный" + 0.120*"выбирать" + 0.114*"появляться" + -0.112*"шарлотта" + -0.112*"кин"
0.336*"plus" + 0.336*"zona" + 0.336*"w37" + -0.263*"hd" + -0.229*"сайт" + -0.227*"1080" + -0.223*"720" + -0.172*"качество" + 0.154*"хороший" + -0.121*"картина"
-0.294*"megogo" + -0.269*") - " + -0.258*"york" + -0.258*"new" + -0.254*"autumn" + -0.250*"in" + -0.238*"ru" + -0.236*"нью-йорк" + -0.218*"смотреть" + 0.194*"2000"
-0.457*".." + -0.296*"йорк" + 0.289*"ru" + -0.278*"нью" + 0.272*"нью-йорк" + 0.249*") - " + 0.229*"megogo" + 0.228*"онлайн" + 0.203*"бесплатно" + -0.179*"смотреть"
Anamnado
На сайте с 08.02.2010
Offline
242
#9

похоже из описания сайта в партфолио хватнуло

я уже сам не помню лет 5-7 контент не менял....

я в чем смысл этой вот вашей глупой проги - которая показывает какие то слова с циферками ?

мня нет в ТОП по запрос этому, у меня топ 25 по запросу Сделать сайт в воронеже... (тока - локализация жешь)

T7
На сайте с 19.09.2018
Offline
51
#10
Anamnado:
похоже из описания сайта в партфолио хватнуло
я уже сам не помню лет 5-7 контент не менял....

я в чем смысл этой вот вашей глупой проги - которая показывает какие то слова с циферками ?
мня нет в ТОП по запрос этому, у меня топ 25 по запросу Сделать сайт в воронеже... (тока - локализация жешь)

Ваш сайт я и не знаю.

Смысл моей глупой проги?

Во первых, не моей. <class 'gensim.models.lsimodel.LsiModel'> можно загуглить. Моя прога лишь берет топ Я-хмл по определенному запросу, парсит контент с этих урлов и с помощью gensim строит текстовый корпус и получает lsi/lda

Дело вообще не в проге. Любой, кто может парсер Я-хмл сделать и ему дать загуглить gensim напишет это за несколько часов.

----

зы

вот это, например

-0.209*"asterica" + -0.151*"студия" + -0.139*"проект" + 0.133*"артатый" + 0.133*"выгодный" + -0.125*"scrum" + -0.124*"надежный" + 0.119*"товар" + -0.118*"создавать" + -0.116*"компания" 

определено по запросу "Создание сайтов в Воронеже"

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий