Попробуйте брать первые 10 наиболее значительных с каждого документа из топа. Используйте метод к большой коллекции биграмм, содержащей - Общие вопросы оптимизации

Lsi: зачем и почему

timo-71 · 2019-09-30T21:08:44.0000000Z

Собственно, вопрос. Насколько это необходимо в рамках сайта, и всего что с ним связано . SEO в т.ч. и в первую очередь. Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика. Например, запрос осень ответ: <class 'gensim.models.ldamodel. LdaModel '> 0.047*"осень" + 0.008*"время" + 0.008*"лето" + 0.007*"цитата" + 0.007*"год" + 0.006*"лист" + 0.005*"красивый" + 0.005*"осенний" + 0.005*"любовь" + 0.004*"слово" 0.021*"осень" + 0.006*"время" + 0.005*"лето" + 0.004*"осенний" + 0.004*"любовь" + 0.004*"год" + 0.004*"весна" + 0.004*"лист" + 0.003*"цитата" + 0.003*"дождь" 0.029*"осень" + 0.010*"время" + 0.006*"цитата" + 0.006*"год" + 0.006*"лист" + 0.005*"осенний" + 0.005*"лето" + 0.004*"афоризм" + 0.004*"человек" + 0.004*"фраза" 0.035*"осень" + 0.010*"время" + 0.005*"осенний" + 0.005*"лето" + 0.005*"год" + 0.005*"лист" + 0.004*"весна" + 0.003*"стих" + 0.003*"дождь" + 0.003*"любовь" 0.065*"осень" + 0.011*"время" + 0.008*"лето" + 0.007*"год" + 0.007*"осенний" + 0.007*"лист" + 0.007*"цитата" + 0.006*"любить" + 0.005*"весна" + 0.005*"теплый" 0.039*"осень" + 0.009*"время" + 0.008*"осенний" + 0.007*"год" + 0.006*"лист" + 0.005*"лето" + 0.004*"весна" + 0.004*"стих" + 0.004*"любить" + 0.004*"человек" 0.025*"осень" + 0.008*"время" + 0.006*"год" + 0.006*"осенний" + 0.005*"любить" + 0.004*"лето" + 0.004*"лист" + 0.004*"фильм" + 0.003*"жизнь" + 0.003*"любовь" 0.022*"осень" + 0.008*"год" + 0.007*"осенний" + 0.006*"время" + 0.004*"лист" + 0.003*"цитата" + 0.003*"лето" + 0.003*"день" + 0.003*"стих" + 0.003*"человек" 0.022*"осень" + 0.008*"осенний" + 0.006*"лист" + 0.006*"время" + 0.005*"стих" + 0.005*"год" + 0.004*"октябрь" + 0.003*"лето" + 0.003*"человек" + 0.003*"день" 0.028*"осень" + 0.008*"осенний" + 0.007*"год" + 0.007*"время" + 0.006*"лист" + 0.006*"лето" + 0.005*"стих" + 0.004*"цитата" + 0.004*"друг" + 0.004*"человек" <class 'gensim.models.lsimodel. LsiModel '> 0.851*"осень" + 0.195*"время" + 0.125*"лето" + 0.122*"лист" + 0.120*"год" + 0.117*"цитата" + 0.117*"осенний" + 0.088*"любить" + 0.083*"красивый" + 0.081*"весна" 0.354*"фильм" + 0.285*"друг" + 0.208*"любовь" + 0.160*"деревня" + 0.158*"отношение" + -0.152*"осень" + 0.127*"жизнь" + 0.126*"снимать" + 0.116*"год" + 0.115*"любить" -0.261*"цитата" + -0.192*"афоризм" + 0.175*"подсезон" + -0.168*"фраза" + 0.157*"осенний" + 0.153*"сентябрь" + 0.152*"температура" + -0.148*"статус" + 0.135*"праздник" + 0.129*"стих" -0.340*"афоризм" + -0.324*"цитата" + -0.320*"фраза" + -0.300*"статус" + -0.188*"тема" + 0.162*"лето" + 0.144*"теплый" + 0.102*"чай" + 0.098*"горячий" + 0.094*"каждый" -0.430*"стих" + -0.373*"осенний" + -0.142*"год" + 0.139*"слово" + -0.133*"золотой" + -0.106*"картина" + -0.099*"листопад" + -0.099*"фотография" + -0.093*"материал" + 0.091*"лето" 0.248*"слово" + -0.234*"афоризм" + 0.181*"год" + -0.149*"стих" + 0.142*"любить" + 0.131*"красивый" + -0.126*"оно" + -0.119*"тема" + -0.117*"каждый" + 0.115*"русский" -0.227*"афоризм" + -0.174*"слово" + 0.162*"время" + 0.120*"великий" + 0.112*"фраза" + -0.111*"очень" + -0.110*"осень" + 0.107*"человек" + 0.106*"the" + 0.099*"дождь" -0.394*"слово" + -0.253*"стих" + 0.221*"любить" + 0.135*"сентябрь" + -0.112*"язык" + -0.110*"фраза" + -0.099*"лес" + -0.094*"дождь" + 0.089*"красивый" + -0.089*"предложение" 0.175*"любить" + 0.170*"лето" + 0.160*"париж" + 0.155*"зима" + 0.146*"сайт" + 0.122*"ru" + -0.120*"красивый" + 0.113*"сентябрь" + 0.110*"слово" + 0.105*"звезда" -0.331*"стих" + -0.142*"любить" + 0.127*"год" + 0.119*"время" + 0.111*"краска" + -0.111*"лист" + 0.109*"фотография" + 0.107*"осенний" + -0.102*"листопад" + 0.102*"10" буду признателен за идеи и критику со стороны гуру seo. А надо ли? В качестве Dictionary для модели взят контент топ 30 выдачи Яндекс-xml уупс топ 20 только

[Удален]

1 октября 2019, 23:52

#21

samimages, сама методика требует серьёзной доработки, тогда что-то можно выжать, но не для указанных целей, а скорее для прогноза попадания в топ, точнее вероятность соответствия проверяемого документа выдаче

samimages:
это "шестеренка" огромной статистической машины, которая даже в ПС не используется в силу ресурсозатратности.

объём данных можно серьёзно уменьшить, без серьёзной потери точности (проверял только на коммерческих супер вч вк 2-3 словниках)

проблема в том что, после обработки данные невозможно восстановить, т.е. невозможен обратный процесс - что и как необходимо изменить на тестируемом документе, для получения наилучшего результата

2

Продвижение в Яндексе группы Страница со сниппетом в Создаю программу для массовой

T7

63

timo-71

2 октября 2019, 07:20

#22

samimages:
timo-71, вы понимаете, что они вас не понимают? просто интересно... Вы, если, хотите разобраться конкретно с LSI, то не обращайте внимание на контент содержащий вместе слова LSI и копирайтинг. Получается разговор слепого с глухим.

Да, копирайтинг в данном контексте точно не рассматриваю. Задача возникла в результате разработки портала/доски/агрегатора/отраслевых новостей. Как задача автоматического определения ключевых фраз для товарного предложения/листинга и обвеса документа различным доп. контентом максимально раскрывающую тему документа.

Например, есть объявление (только в качестве примера). Используя данные (это не все):

$ /home/web/py/w2v/corpus
<class 'gensim.models.ldamodel.LdaModel'> num_topics=4
0.043*"битый" + 0.042*"renault" + 0.042*"привод" + 0.042*"состояние" + 0.042*"купить" + 0.042*"полный" + 0.041*"kaptur" + 0.024*"комплект" + 0.024*"проверка" + 0.024*"красить"
0.075*"тип" + 0.075*"двигатель" + 0.042*"внедорожник" + 0.042*"renault" + 0.042*"бензин" + 0.042*"кузов" + 0.042*"выпуск" + 0.042*"марка" + 0.041*"год" + 0.041*"объем"
0.055*"kaptur" + 0.051*"челябинский" + 0.051*"область" + 0.032*"renault" + 0.032*"купить" + 0.031*"комплектация" + 0.029*"avito" + 0.029*"салон" + 0.029*"перекуп" + 0.029*"торг"
0.039*"проверка" + 0.039*"запуск" + 0.039*"машина" + 0.039*"доступ" + 0.039*"система" + 0.039*"сигнализация" + 0.039*"готовый" + 0.039*"бесключевой" + 0.039*"авто" + 0.038*"руль"
<class 'gensim.models.lsimodel.LsiModel'> num_topics=4
0.365*"renault" + 0.365*"kaptur" + 0.343*"купить" + 0.238*"двигатель" + 0.235*"полный" + 0.235*"привод" + 0.233*"машина" + 0.222*"состояние" + 0.222*"год" + 0.222*"комплектация"
0.433*"проверка" + 0.261*"авто" + 0.261*"система" + 0.261*"запуск" + 0.261*"доступ" + 0.261*"готовый" + 0.261*"сигнализация" + 0.261*"бесключевой" + 0.259*"машина" + 0.194*"битый"
0.434*"челябинский" + 0.434*"область" + 0.256*"осмотр" + 0.256*"квартал" + 0.256*"машгородок" + 0.256*"место" + 0.256*"миасс" + 0.178*"avito" + 0.156*"renault" + 0.156*"kaptur"
-0.349*"битый" + -0.292*"кредит" + -0.292*"залог" + -0.292*"проходить" + -0.292*"резина" + -0.292*"комплект" + -0.292*"красить" + 0.205*"авто" + 0.205*"система" + 0.205*"запуск"

=summarize=word_count=20=
Renault Kaptur, 2018 купить. Renault Kaptur, 2018 купить в Челябинской области на Avito. Тип двигателя: бензин. Renault Kaptur в отличном состоянии, машина на гарантии.

=bigram=gensim.models.phrases.Phrases(dataset, min_count=1, threshold=1, delimiter=b'  ')
['renault kaptur', 'купить']
['renault kaptur', 'купить', 'челябинский область', 'avito']
['марка', 'renault']
['модель', 'kaptur']
['поколение']
['модификация', 'mt']
['год', 'выпуск']
['пробег', 'км']
['состояние', 'битый']
['владелец', 'птс']
['тип', 'кузов', 'внедорожник']
['количество', 'дверь']
['тип', 'двигатель', 'бензин']
['коробка', 'передача', 'механика']
['привод', 'полный']
['руль', 'левый']
['цвет', 'серебряный']
['комплектация', 'drive']
['место', 'осмотр', 'челябинский область', 'миасс', 'квартал', 'машгородок']
['объем', 'двигатель']
['renault kaptur',
 'отличный',
 'состояние',
 'машина',
 'гарантия',
 'купить',
 'октябрь',
 'год',
 'комплектация',
 'драйв',
 'литровый',
 'двигатель',
 'полный',
 'привод']
['битый',
 'красить',
 'кредит',
 'залог',
 'проверка',
 'проходить',
 'комплект',
 'резина']
['сигнализация',
 'авто',
 'запуск',
 'система',
 'бесключевой',
 'доступ',
 'машина',
 'готовый',
 'проверка']
['салон', 'перекуп', 'беспокоить', 'торг']

+ свои данные. Например, несложно заметить биграммы определены по этому маленькому тексту только 'renault kaptur' и 'челябинский область'. Понятно почему. Но, если применить метод к большой коллекции биграмм будет больше.

Дальше, букварикс/мутаген АПИ и ключевики для объявления подобраны. Потом, на основе lda/lsi топа - дополнительные темы для полного раскрытия темы, на основе которых сделать обвес документа. Изначально идея была такой.

Но, хотелось услышать еще идей-направлений как можно это применить. А тут - задания для копирайтеров :(

* массив биграмм, содержит нормализованные пассажи исследуемого текста.

samimages:

Кроме того, я вам намекал, что в методе сбора может быть ошибка, т.к. СЕРП не однороден по ранжированию и попытка

Я анализирую, больше всего "странных" слов дает 2гис, вк и т.п. Но, экспертного корпуса построенного на "диссертациях" по теме у меня нет:) Поэтому сделано допущение, что контент 20 (не суть, пробовал разные варианты) первых документов выдачи Я можно рассматривать как экспертный корпус по теме ключевика.

тем не менее, спасибо за конструктивную критику и направления куда еще можно посмотреть:)

Как массово собрать LSI SEO или LSI копирайтинг Идеальная CMS/CУК для бизнеса

386

SmileP

2 октября 2019, 07:38

#23

Хм, а Акварель-генератор. Документация. не похожее?

Хотя там скорее акцент на копирайтенге.

T7

63

timo-71

2 октября 2019, 08:16

#24

SmileP:
Хм, а Акварель-генератор. Документация. не похожее?
Хотя там скорее акцент на копирайтенге.

Смысл схож, но неясно какой алгоритм и какой текстовый корпус используется для построения списка.

Судя по

том случае 0.298

не делают

words = mystem.lemmatize(text)

    #....

    words = [t for t in words if t not in ru_stopwords]

[Удален]

2 октября 2019, 11:34

#25

timo-71:
Как задача автоматического определения ключевых фраз для товарного предложения/листинга

попробуйте брать первые 10 наиболее значимых (лем/биграм...) с каждого документа из топа, в принципе должно быть достаточно для определения связанных запросов

2

T7

63

timo-71

2 октября 2019, 13:34

#26

burunduk:
попробуйте брать первые 10 наиболее значимых (лем/биграм...) с каждого документа из топа, в принципе должно быть достаточно для определения связанных запросов

В том числе, для определения значимости и заморочился.

Если в лоб, по кол-ву вхождений, то для "renault kaptur купить", на корпусе - контент документов из 20:

[["chernyj tsvet", 191], ["bezopasnost' podushka", 181], ["zadnij zerkalo", 170], ["kaptur vnedorozhnik", 163], ["perednij zadnij", 149], ["kaptur renault", 148], ["djujmovyj legkosplavnyj", 142], ["bezopasnost' perednij", 140], ["perednij voditel'", 137], ["naruzhnyj zerkalo", 131], ["avto ostavat'sja", 114], ["vid zadnij", 103], ["hromirovannyj nakladka", 97], ["slonovyj tsvet", 94]...

Если по одному, то часто вообще непредсказуемо получается, типа как "avto ostavat'sja" несколько первых

* биграммы сортированы, в "kaptur renault" включен "renault kaptur".

Что касается, когда есть запрос и надо расширить, еще используется

[["kaptur renault", 125], ["disk renault", 4], ["renault vozduhovod", 4], ["diler ofitsial'nyj", 3], ["nakladka porog", 3], ["moskva ofitsial'nyj", 2], ["deflektor vozduhovod", 2], ["nizhnij novgorod", 2], ["porog renault", 1]]

...

0.220*"renault" + 0.220*"купить" + 0.220*"kaptur" + 0.027*"официальный" + 0.027*"самара" + 0.027*"дилер" + 0.027*"москва" + 0.014*"дон" + 0.014*"новгород" + 0.014*"ижевск"

...

анализ ключевиков в качестве данных для окончательной сборки запроса на поиск обвеса.

феномен буквы "в" Странный фильтр Яндекса Сервисы анализа контента сайтов

695

Devvver

2 октября 2019, 18:46

#27

timo-71:
несложно заметить биграммы определены по этому маленькому тексту только 'renault kaptur' и 'челябинский область'

Яндекс не использует биграммы, а триграммы.

https://www.youtube.com/watch?v=QkUmCnDe3xI&feature=youtu.be&t=1676

вообще полезно посмотреть.

Еще поиграйтесь для ваших запросов с https://serphunt.ru/cabinet/competitors/

1

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers

348

yanus

2 октября 2019, 19:28

#28

Devvver:
Яндекс не использует биграммы, а триграммы.

В ролике буквенные триграммы, а ТС о биграммах слов.

И про словарные биграммы в ролике тоже есть )

2

427

samimages

2 октября 2019, 20:06

#29

timo-71:
Поэтому сделано допущение, что контент 20 (не суть, пробовал разные варианты) первых документов выдачи Я можно рассматривать как экспертный корпус по теме ключевика.

В Яндексе точно нет... там скорее начиная с ТОП 30... ну, ТОП 20, можно искать интенты, а первая 20-ка сглажена до среднего под ПФ, но если рассчитать корпуса самих представителей ТОП-10, например и сопоставить, то может получиться интересно, а если получится сохранить привязку к хосту, то еще и нужно.

Devvver:
Яндекс не использует биграммы

Использует, это прямо следует из слитой в паблик документации, по сути там с биграмм и начинается блок обработчиков, в том числе и на синонимы

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС

У сайтов полностью упали ad1.ru - партнерская сеть Что не так с

T7

63

timo-71

2 октября 2019, 20:12

#30

Devvver:
Яндекс не использует биграммы, а триграммы.
https://www.youtube.com/watch?v=QkUmCnDe3xI&feature=youtu.be&t=1676
вообще полезно посмотреть.
Еще поиграйтесь для ваших запросов с https://serphunt.ru/cabinet/competitors/

Вообще все н-граммы юзаются до 4

 [["disk_djujmovyj_legkosplavnyj_steppe", 97], ["bachok_bol'shoj_ob'em_omyvatel'", 84], ["kozyrek_solntsezaschitnyj_vstraivat'_zerkalo", 81], ["esp_kursovoj_sistema_stabilizatsija", 73]

Другой вопрос, что в задаче надо

наиболее значимых

а тут

 ["kaptur_kupit'_renault", 20]

а запрос повторю "renault kaptur купить"

Циферка кол - во найденных н-грамм. kaptur_kupit'_renault это все сочетания слов kaptur kupit' и renault

Курс биткоина превысил $50 тысяч

Как снизить ДРР до 4,38% и повысить продажи с помощью VK Рекламы

Lsi: зачем и почему