Запрос осень в нью-йорке, данные отсюда - Общие вопросы оптимизации

Lsi: зачем и почему

timo-71 · 2019-09-30T21:08:44.0000000Z

Собственно, вопрос. Насколько это необходимо в рамках сайта, и всего что с ним связано . SEO в т.ч. и в первую очередь. Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика. Например, запрос осень ответ: <class 'gensim.models.ldamodel. LdaModel '> 0.047*"осень" + 0.008*"время" + 0.008*"лето" + 0.007*"цитата" + 0.007*"год" + 0.006*"лист" + 0.005*"красивый" + 0.005*"осенний" + 0.005*"любовь" + 0.004*"слово" 0.021*"осень" + 0.006*"время" + 0.005*"лето" + 0.004*"осенний" + 0.004*"любовь" + 0.004*"год" + 0.004*"весна" + 0.004*"лист" + 0.003*"цитата" + 0.003*"дождь" 0.029*"осень" + 0.010*"время" + 0.006*"цитата" + 0.006*"год" + 0.006*"лист" + 0.005*"осенний" + 0.005*"лето" + 0.004*"афоризм" + 0.004*"человек" + 0.004*"фраза" 0.035*"осень" + 0.010*"время" + 0.005*"осенний" + 0.005*"лето" + 0.005*"год" + 0.005*"лист" + 0.004*"весна" + 0.003*"стих" + 0.003*"дождь" + 0.003*"любовь" 0.065*"осень" + 0.011*"время" + 0.008*"лето" + 0.007*"год" + 0.007*"осенний" + 0.007*"лист" + 0.007*"цитата" + 0.006*"любить" + 0.005*"весна" + 0.005*"теплый" 0.039*"осень" + 0.009*"время" + 0.008*"осенний" + 0.007*"год" + 0.006*"лист" + 0.005*"лето" + 0.004*"весна" + 0.004*"стих" + 0.004*"любить" + 0.004*"человек" 0.025*"осень" + 0.008*"время" + 0.006*"год" + 0.006*"осенний" + 0.005*"любить" + 0.004*"лето" + 0.004*"лист" + 0.004*"фильм" + 0.003*"жизнь" + 0.003*"любовь" 0.022*"осень" + 0.008*"год" + 0.007*"осенний" + 0.006*"время" + 0.004*"лист" + 0.003*"цитата" + 0.003*"лето" + 0.003*"день" + 0.003*"стих" + 0.003*"человек" 0.022*"осень" + 0.008*"осенний" + 0.006*"лист" + 0.006*"время" + 0.005*"стих" + 0.005*"год" + 0.004*"октябрь" + 0.003*"лето" + 0.003*"человек" + 0.003*"день" 0.028*"осень" + 0.008*"осенний" + 0.007*"год" + 0.007*"время" + 0.006*"лист" + 0.006*"лето" + 0.005*"стих" + 0.004*"цитата" + 0.004*"друг" + 0.004*"человек" <class 'gensim.models.lsimodel. LsiModel '> 0.851*"осень" + 0.195*"время" + 0.125*"лето" + 0.122*"лист" + 0.120*"год" + 0.117*"цитата" + 0.117*"осенний" + 0.088*"любить" + 0.083*"красивый" + 0.081*"весна" 0.354*"фильм" + 0.285*"друг" + 0.208*"любовь" + 0.160*"деревня" + 0.158*"отношение" + -0.152*"осень" + 0.127*"жизнь" + 0.126*"снимать" + 0.116*"год" + 0.115*"любить" -0.261*"цитата" + -0.192*"афоризм" + 0.175*"подсезон" + -0.168*"фраза" + 0.157*"осенний" + 0.153*"сентябрь" + 0.152*"температура" + -0.148*"статус" + 0.135*"праздник" + 0.129*"стих" -0.340*"афоризм" + -0.324*"цитата" + -0.320*"фраза" + -0.300*"статус" + -0.188*"тема" + 0.162*"лето" + 0.144*"теплый" + 0.102*"чай" + 0.098*"горячий" + 0.094*"каждый" -0.430*"стих" + -0.373*"осенний" + -0.142*"год" + 0.139*"слово" + -0.133*"золотой" + -0.106*"картина" + -0.099*"листопад" + -0.099*"фотография" + -0.093*"материал" + 0.091*"лето" 0.248*"слово" + -0.234*"афоризм" + 0.181*"год" + -0.149*"стих" + 0.142*"любить" + 0.131*"красивый" + -0.126*"оно" + -0.119*"тема" + -0.117*"каждый" + 0.115*"русский" -0.227*"афоризм" + -0.174*"слово" + 0.162*"время" + 0.120*"великий" + 0.112*"фраза" + -0.111*"очень" + -0.110*"осень" + 0.107*"человек" + 0.106*"the" + 0.099*"дождь" -0.394*"слово" + -0.253*"стих" + 0.221*"любить" + 0.135*"сентябрь" + -0.112*"язык" + -0.110*"фраза" + -0.099*"лес" + -0.094*"дождь" + 0.089*"красивый" + -0.089*"предложение" 0.175*"любить" + 0.170*"лето" + 0.160*"париж" + 0.155*"зима" + 0.146*"сайт" + 0.122*"ru" + -0.120*"красивый" + 0.113*"сентябрь" + 0.110*"слово" + 0.105*"звезда" -0.331*"стих" + -0.142*"любить" + 0.127*"год" + 0.119*"время" + 0.111*"краска" + -0.111*"лист" + 0.109*"фотография" + 0.107*"осенний" + -0.102*"листопад" + 0.102*"10" буду признателен за идеи и критику со стороны гуру seo. А надо ли? В качестве Dictionary для модели взят контент топ 30 выдачи Яндекс-xml уупс топ 20 только

T7

63

timo-71

2 октября 2019, 22:43

#41

Devvver, "достопримечательности праги"

lsi/lda сюда, пока в консоль пишутся🙄

<class 'gensim.models.ldamodel.LdaModel'> num_topics=14

0.041*"прага" + 0.015*"место" + 0.015*"пражский" + 0.012*"большой" + 0.009*"город" + 0.008*"град" + 0.008*"район" + 0.008*"день" + 0.008*"человек" + 0.008*"очень"

0.026*"башня" + 0.017*"прага" + 0.015*"площадка" + 0.014*"бесплатно" + 0.012*"вид" + 0.011*"смотровой" + 0.011*"еврейский" + 0.010*"петршинский" + 0.010*"век" + 0.009*"красивый"

0.013*"век" + 0.012*"пражский" + 0.010*"храм" + 0.009*"ратуша" + 0.007*"музей" + 0.007*"галерея" + 0.007*"город" + 0.006*"располагать" + 0.006*"новый" + 0.006*"прага"

0.036*"прага" + 0.014*"год" + 0.012*"чехия" + 0.011*"уникальный" + 0.011*"святой" + 0.010*"деньги" + 0.008*"время" + 0.008*"музей" + 0.008*"стоить" + 0.007*"готический"

0.025*"прага" + 0.015*"площадка" + 0.013*"адрес" + 0.011*"место" + 0.011*"praha" + 0.010*"сад" + 0.009*"смотровой" + 0.009*"век" + 0.009*"лоретанский" + 0.008*"тратить"

0.020*"музей" + 0.015*"здание" + 0.011*"год" + 0.011*"площадь" + 0.010*"дворец" + 0.009*"дом" + 0.008*"известный" + 0.008*"построить" + 0.007*"век" + 0.007*"американский"

0.033*"прага" + 0.017*"музей" + 0.013*"год" + 0.011*"место" + 0.010*"национальный" + 0.010*"метр" + 0.010*"здание" + 0.009*"чешский" + 0.007*"театр" + 0.007*"длина"

0.052*"прага" + 0.022*"площадь" + 0.013*"пражский" + 0.011*"располагать" + 0.010*"староместский" + 0.010*"фото" + 0.009*"главный" + 0.009*"исторический" + 0.008*"район" + 0.008*"век"

0.018*"прага" + 0.012*"пражский" + 0.011*"град" + 0.011*"святой" + 0.009*"заставлять" + 0.009*"церковь" + 0.008*"чешский" + 0.007*"век" + 0.007*"район" + 0.007*"запрещать"

0.020*"год" + 0.011*"факт" + 0.009*"километр" + 0.008*"св" + 0.008*"москва" + 0.007*"чехия" + 0.007*"кладбище" + 0.007*"чешский" + 0.007*"знаменитый" + 0.006*"пражский"

0.018*"пражский" + 0.013*"зоопарк" + 0.013*"величие" + 0.011*"человек" + 0.011*"мельница" + 0.011*"музей" + 0.009*"место" + 0.009*"прага" + 0.008*"прочий" + 0.008*"право"

0.012*"окно" + 0.012*"азиатский" + 0.012*"площадь" + 0.011*"место" + 0.010*"рынок" + 0.009*"надпись" + 0.008*"располагать" + 0.008*"пражский" + 0.007*"дом" + 0.006*"карлова"

0.022*"прага" + 0.013*"чешский" + 0.010*"холм" + 0.009*"город" + 0.009*"место" + 0.008*"синагога" + 0.007*"красивый" + 0.007*"старый" + 0.006*"мост" + 0.006*"интересный"

0.036*"прага" + 0.028*"мост" + 0.018*"день" + 0.011*"коммунизм" + 0.010*"памятник" + 0.010*"карлова" + 0.009*"остров" + 0.009*"посмотреть" + 0.008*"располагать" + 0.008*"название"

<class 'gensim.models.lsimodel.LsiModel'> num_topics=14

0.630*"прага" + 0.186*"год" + 0.180*"век" + 0.172*"пражский" + 0.165*"город" + 0.164*"место" + 0.150*"площадь" + 0.136*"здание" + 0.134*"чешский" + 0.129*"музей"

0.686*"прага" + -0.246*"пражский" + -0.244*"век" + -0.216*"год" + -0.175*"здание" + -0.143*"святой" + -0.135*"град" + -0.127*"стиль" + -0.110*"площадь" + -0.099*"собор"

0.636*"год" + -0.442*"пражский" + -0.310*"град" + 0.195*"музей" + 0.173*"здание" + -0.124*"век" + -0.106*"собор" + -0.099*"святой" + 0.090*"построить" + 0.086*"театр"

0.562*"площадь" + 0.271*"дом" + 0.253*"располагать" + -0.253*"пражский" + -0.232*"год" + 0.223*"здание" + 0.220*"староместский" + -0.179*"град" + -0.166*"мост" + -0.159*"чешский"

0.659*"мост" + 0.322*"место" + -0.281*"музей" + 0.208*"карлов" + 0.191*"башня" + -0.154*"здание" + 0.131*"город" + 0.104*"статуя" + -0.091*"стиль" + -0.090*"дворец"

0.503*"музей" + -0.317*"святой" + -0.250*"храм" + -0.242*"собор" + 0.194*"пражский" + -0.191*"век" + 0.184*"мост" + 0.159*"место" + 0.141*"еврейский" + -0.137*"башня"

0.506*"башня" + -0.372*"площадь" + -0.318*"святой" + 0.238*"век" + -0.166*"год" + 0.146*"смотровой" + -0.145*"собор" + -0.145*"место" + 0.143*"площадка" + 0.129*"вид"

0.436*"музей" + -0.348*"пражский" + 0.274*"век" + -0.242*"год" + -0.238*"здание" + -0.186*"дом" + 0.182*"святой" + 0.176*"город" + -0.171*"располагать" + 0.170*"храм"

-0.372*"мост" + 0.323*"год" + -0.309*"здание" + 0.270*"башня" + 0.259*"город" + -0.226*"стиль" + 0.177*"пражский" + -0.168*"век" + -0.153*"дом" + 0.146*"площадь"

0.403*"еврейский" + 0.338*"старый" + -0.325*"башня" + -0.309*"музей" + 0.245*"синагога" + 0.199*"кладбище" + 0.172*"век" + -0.168*"чешский" + 0.157*"район" + -0.152*"площадь"

-0.481*"чешский" + -0.443*"город" + 0.258*"музей" + -0.200*"место" + 0.179*"пражский" + 0.155*"еврейский" + -0.150*"столица" + 0.139*"мост" + 0.137*"святой" + 0.135*"храм"

-0.634*"место" + -0.258*"дом" + 0.247*"располагать" + 0.205*"чешский" + 0.200*"мост" + 0.167*"город" + 0.164*"являться" + 0.151*"площадь" + -0.135*"находиться" + 0.134*"старый"

-0.408*"дом" + -0.357*"святой" + 0.354*"век" + -0.267*"город" + 0.231*"площадь" + -0.196*"улица" + -0.187*"собор" + -0.167*"старый" + 0.136*"место" + -0.129*"располагать"

-0.369*"чешский" + 0.351*"город" + -0.248*"место" + 0.246*"дом" + -0.202*"еврейский" + -0.200*"храм" + -0.189*"располагать" + -0.175*"кладбище" + 0.164*"век" + -0.163*"район

1

zip praga.zip

[Удален]

3 октября 2019, 03:04

#42

Devvver:
burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?

слишком долго /ru/forum/comment/16208919

703

Евгений Молдовану

3 октября 2019, 03:10

#43

burunduk, я имел ввиду одноразовый съем.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers

[Удален]

3 октября 2019, 03:27

#44

Devvver, могу сделать, но толку будет мало

[Удален]

3 октября 2019, 05:36

#45

Devvver, для униграмм получилось

площадь 10,7027027

музей 9,783783784

век 9,72972973

башня 7,702702703

здание 7,648648649

святой 7,135135135

мост 6,945945946

старый 6,756756757

дом 5,918918919

град 5,864864865

но это не о чём, n-граммы формировать, надо дописывать вывод, т.к. нет исторических данных

Нужна Программа для учёта "Какой движок выбрать для Метод продвижения абсолютно новых

T7

63

timo-71

4 октября 2019, 06:05

#46

запрос "достопримечательности праги" для сравнения с этим

Интересный результат получается, если сматчить биграммы полученные из топ20 выдачи, с биграммами из

запросов

$ /home/web/py/w2v/key.py

['град_пражский',

'площадь_староместский',

'карлов_мост',

'город_старый',

'святой_собор',

'вацлавская_площадь',

'тынский_храм',

'еврейский_квартал',

'дом_танцующий',

'башня_пороховой',

'место_стар',

'исторический_центр',

'маленький_страна',

'берег_левый',

'малый_страна',

'площадь_республика',

'место_нова',

'камп_остров',

'интересный_место',

'билет_входной',

'вар_карлов',

'место_стара',

'метро_станция',

'гора_кутна',

'метро_схема',

'отзыв_турист',

'виноград_район',

'проезд_схема',

'интересный_факт',

'петь_фонтан']

mystem "вацлавская" не умеет

$ mystem

вацлавская

вацлавская{вацлавская?}

вацлавский

вацлавский{вацлавский?}

танцующие

танцующие{танцующий|танцевать}

Посоветуйте движок для новостного "Kalinin-Trophy". Литературный конкурс Читаете ли Вы местные

T7

63

timo-71

4 октября 2019, 21:39

#47

samimages:
Например берем запрос, берем историю выдачи до ТОП-100, за пару лет

burunduk:
нет исторических данных

Зачем? Какой то урл долго в топе? И именно его контент включить в корпус, или наоборот исключить. А может, без разницы... Ну онжетрастпфвитальный и шум.

И еще вопрос. Про цифру в корпусе. Запрос осень в нью-йорке, данные отсюда

Один из тематических векторов

-0.151*"шарлотта" + 0.145*"приключенческий" + 0.138*"боевик" +

-0.135*"осень" + -0.130*"википедия" + 0.127*"уилл" + -0.126*"hd"

+ 0.124*"качество" + -0.123*"2000" + 0.117*"триллер"

2000, нужно ли закладывать цифру? В буквах и цифрах типа 0.041*"прага" + 0.015*"место" на самом деле разные модели

где то в корпусе все кроме слов выжигается, а где то нет

шарлотта уилл

шарлотта уилл 2000

См. скрины. Браузер выбрал Опера, с которым практически не работаю. Ну там, резка с кино и т.д. Все, что через впн. Вспомнил, еще браузер есть, Вивальди, похожий топ. Один файл не поместился, >5.

Буду признателен за

1. Ваш топ, если он не совпадает с моим

2. Интерпретацию такого поведения

jpg g-s-y.jpg

jpg ya-s-y.jpg

jpg ya-s-y-2000.jpg

jpg g-s-y-2000.jpg

png viva-ya.png

3 главных вывода из Уилл Кричлоу о поисковом Уилл Рейнольдс: где взять

703

Евгений Молдовану

5 октября 2019, 09:24

#48

timo-71,

шарлотта уилл 2000

http://picplus.ru/img/1910/05/2a32948c.png

Зачем вы в гугле смотрите?

T7

63

timo-71

5 октября 2019, 11:01

#49

Devvver:
timo-71,
шарлотта уилл 2000
http://picplus.ru/img/1910/05/2a32948c.png

Зачем вы в гугле смотрите?

шарлотта уилл

осень в нью-йорке в гугле есть

осень в нью-йорке в я нет

шарлотта уилл 2000

осень в нью-йорке в обоих пс есть

* в пределах 1 экрана

Для Яндекса цифры 2000 достаточно чтобы значимость в топе темы "осень в нью-йорке" усилилась для запроса про шарлотту и уилла. Если, конечно, нет чего-то того, что я не учел. В сниппете 2000 не видать, опять же.

Отсюда и вопрос к сообществу - цифры в корпусе "убрать нельзя оставить", где поставить запятую?

У gensim есть метод simple_preprocess , который готовит пассаж, для включения в корпус. Оно удаляет все кроме слов. То что выкладывал, иногда цифры оставлял иногда нет.

* 2000 год выхода фильма.

А гугл - просто для сравнения.

Google рассказал, какие изменения Мета поисковик Ixquick расширяет Сравнительный тест голосовых поисков:

[Удален]

5 октября 2019, 11:17

#50

Из крайности в крайность. Кто-то вообще не верит в эффективность ЛСИ, а кто-то верит в них до самозабвения и типа знает все параметры идеального текста. Механистический подход тоже туповат. Лично я пишу такие тексты, пользуясь лишь интуицией и опытом своим и конкурентов. Не применяю ни одного сервиса для анализа текстов. А тексты от копирайтеров проверяю лишь на здравый смысл и уникальность в Яндексе.

Дружба и деловые отношения Почему так? Опять что-то мутят: "В

Маркетинг для шоколадной фабрики. На 34% выше средний чек

Open AI тестирует память для ChatGPT

Lsi: зачем и почему