Lsi: зачем и почему

T7
На сайте с 19.09.2018
Offline
61
#41

Devvver, "достопримечательности праги"

lsi/lda сюда, пока в консоль пишутся🙄

<class 'gensim.models.ldamodel.LdaModel'> num_topics=14

0.041*"прага" + 0.015*"место" + 0.015*"пражский" + 0.012*"большой" + 0.009*"город" + 0.008*"град" + 0.008*"район" + 0.008*"день" + 0.008*"человек" + 0.008*"очень"
0.026*"башня" + 0.017*"прага" + 0.015*"площадка" + 0.014*"бесплатно" + 0.012*"вид" + 0.011*"смотровой" + 0.011*"еврейский" + 0.010*"петршинский" + 0.010*"век" + 0.009*"красивый"
0.013*"век" + 0.012*"пражский" + 0.010*"храм" + 0.009*"ратуша" + 0.007*"музей" + 0.007*"галерея" + 0.007*"город" + 0.006*"располагать" + 0.006*"новый" + 0.006*"прага"
0.036*"прага" + 0.014*"год" + 0.012*"чехия" + 0.011*"уникальный" + 0.011*"святой" + 0.010*"деньги" + 0.008*"время" + 0.008*"музей" + 0.008*"стоить" + 0.007*"готический"
0.025*"прага" + 0.015*"площадка" + 0.013*"адрес" + 0.011*"место" + 0.011*"praha" + 0.010*"сад" + 0.009*"смотровой" + 0.009*"век" + 0.009*"лоретанский" + 0.008*"тратить"
0.020*"музей" + 0.015*"здание" + 0.011*"год" + 0.011*"площадь" + 0.010*"дворец" + 0.009*"дом" + 0.008*"известный" + 0.008*"построить" + 0.007*"век" + 0.007*"американский"
0.033*"прага" + 0.017*"музей" + 0.013*"год" + 0.011*"место" + 0.010*"национальный" + 0.010*"метр" + 0.010*"здание" + 0.009*"чешский" + 0.007*"театр" + 0.007*"длина"
0.052*"прага" + 0.022*"площадь" + 0.013*"пражский" + 0.011*"располагать" + 0.010*"староместский" + 0.010*"фото" + 0.009*"главный" + 0.009*"исторический" + 0.008*"район" + 0.008*"век"
0.018*"прага" + 0.012*"пражский" + 0.011*"град" + 0.011*"святой" + 0.009*"заставлять" + 0.009*"церковь" + 0.008*"чешский" + 0.007*"век" + 0.007*"район" + 0.007*"запрещать"
0.020*"год" + 0.011*"факт" + 0.009*"километр" + 0.008*"св" + 0.008*"москва" + 0.007*"чехия" + 0.007*"кладбище" + 0.007*"чешский" + 0.007*"знаменитый" + 0.006*"пражский"
0.018*"пражский" + 0.013*"зоопарк" + 0.013*"величие" + 0.011*"человек" + 0.011*"мельница" + 0.011*"музей" + 0.009*"место" + 0.009*"прага" + 0.008*"прочий" + 0.008*"право"
0.012*"окно" + 0.012*"азиатский" + 0.012*"площадь" + 0.011*"место" + 0.010*"рынок" + 0.009*"надпись" + 0.008*"располагать" + 0.008*"пражский" + 0.007*"дом" + 0.006*"карлова"
0.022*"прага" + 0.013*"чешский" + 0.010*"холм" + 0.009*"город" + 0.009*"место" + 0.008*"синагога" + 0.007*"красивый" + 0.007*"старый" + 0.006*"мост" + 0.006*"интересный"
0.036*"прага" + 0.028*"мост" + 0.018*"день" + 0.011*"коммунизм" + 0.010*"памятник" + 0.010*"карлова" + 0.009*"остров" + 0.009*"посмотреть" + 0.008*"располагать" + 0.008*"название"
<class 'gensim.models.lsimodel.LsiModel'> num_topics=14
0.630*"прага" + 0.186*"год" + 0.180*"век" + 0.172*"пражский" + 0.165*"город" + 0.164*"место" + 0.150*"площадь" + 0.136*"здание" + 0.134*"чешский" + 0.129*"музей"
0.686*"прага" + -0.246*"пражский" + -0.244*"век" + -0.216*"год" + -0.175*"здание" + -0.143*"святой" + -0.135*"град" + -0.127*"стиль" + -0.110*"площадь" + -0.099*"собор"
0.636*"год" + -0.442*"пражский" + -0.310*"град" + 0.195*"музей" + 0.173*"здание" + -0.124*"век" + -0.106*"собор" + -0.099*"святой" + 0.090*"построить" + 0.086*"театр"
0.562*"площадь" + 0.271*"дом" + 0.253*"располагать" + -0.253*"пражский" + -0.232*"год" + 0.223*"здание" + 0.220*"староместский" + -0.179*"град" + -0.166*"мост" + -0.159*"чешский"
0.659*"мост" + 0.322*"место" + -0.281*"музей" + 0.208*"карлов" + 0.191*"башня" + -0.154*"здание" + 0.131*"город" + 0.104*"статуя" + -0.091*"стиль" + -0.090*"дворец"
0.503*"музей" + -0.317*"святой" + -0.250*"храм" + -0.242*"собор" + 0.194*"пражский" + -0.191*"век" + 0.184*"мост" + 0.159*"место" + 0.141*"еврейский" + -0.137*"башня"
0.506*"башня" + -0.372*"площадь" + -0.318*"святой" + 0.238*"век" + -0.166*"год" + 0.146*"смотровой" + -0.145*"собор" + -0.145*"место" + 0.143*"площадка" + 0.129*"вид"
0.436*"музей" + -0.348*"пражский" + 0.274*"век" + -0.242*"год" + -0.238*"здание" + -0.186*"дом" + 0.182*"святой" + 0.176*"город" + -0.171*"располагать" + 0.170*"храм"
-0.372*"мост" + 0.323*"год" + -0.309*"здание" + 0.270*"башня" + 0.259*"город" + -0.226*"стиль" + 0.177*"пражский" + -0.168*"век" + -0.153*"дом" + 0.146*"площадь"
0.403*"еврейский" + 0.338*"старый" + -0.325*"башня" + -0.309*"музей" + 0.245*"синагога" + 0.199*"кладбище" + 0.172*"век" + -0.168*"чешский" + 0.157*"район" + -0.152*"площадь"
-0.481*"чешский" + -0.443*"город" + 0.258*"музей" + -0.200*"место" + 0.179*"пражский" + 0.155*"еврейский" + -0.150*"столица" + 0.139*"мост" + 0.137*"святой" + 0.135*"храм"
-0.634*"место" + -0.258*"дом" + 0.247*"располагать" + 0.205*"чешский" + 0.200*"мост" + 0.167*"город" + 0.164*"являться" + 0.151*"площадь" + -0.135*"находиться" + 0.134*"старый"
-0.408*"дом" + -0.357*"святой" + 0.354*"век" + -0.267*"город" + 0.231*"площадь" + -0.196*"улица" + -0.187*"собор" + -0.167*"старый" + 0.136*"место" + -0.129*"располагать"
-0.369*"чешский" + 0.351*"город" + -0.248*"место" + 0.246*"дом" + -0.202*"еврейский" + -0.200*"храм" + -0.189*"располагать" + -0.175*"кладбище" + 0.164*"век" + -0.163*"район
zip praga.zip
[Удален]
#42
Devvver:
burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?

слишком долго /ru/forum/comment/16208919

Devvver
На сайте с 02.07.2008
Offline
642
#43

burunduk, я имел ввиду одноразовый съем.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой телеграм канал https://t.me/seobloggers
[Удален]
#44

Devvver, могу сделать, но толку будет мало

[Удален]
#45

Devvver, для униграмм получилось

площадь 10,7027027

музей 9,783783784

век 9,72972973

башня 7,702702703

здание 7,648648649

святой 7,135135135

мост 6,945945946

старый 6,756756757

дом 5,918918919

град 5,864864865

но это не о чём, n-граммы формировать, надо дописывать вывод, т.к. нет исторических данных

T7
На сайте с 19.09.2018
Offline
61
#46
запрос "достопримечательности праги" для сравнения с этим

Интересный результат получается, если сматчить биграммы полученные из топ20 выдачи, с биграммами из

запросов

$ /home/web/py/w2v/key.py

['град_пражский',

'площадь_староместский',

'карлов_мост',

'город_старый',

'святой_собор',

'вацлавская_площадь',

'тынский_храм',

'еврейский_квартал',

'дом_танцующий',

'башня_пороховой',

'место_стар',

'исторический_центр',

'маленький_страна',

'берег_левый',

'малый_страна',

'площадь_республика',

'место_нова',

'камп_остров',

'интересный_место',

'билет_входной',

'вар_карлов',

'место_стара',

'метро_станция',

'гора_кутна',

'метро_схема',

'отзыв_турист',

'виноград_район',

'проезд_схема',

'интересный_факт',

'петь_фонтан']

mystem "вацлавская" не умеет

$ mystem

вацлавская
вацлавская{вацлавская?}
вацлавский
вацлавский{вацлавский?}
танцующие
танцующие{танцующий|танцевать}
T7
На сайте с 19.09.2018
Offline
61
#47
samimages:
Например берем запрос, берем историю выдачи до ТОП-100, за пару лет
burunduk:
нет исторических данных

Зачем? Какой то урл долго в топе? И именно его контент включить в корпус, или наоборот исключить. А может, без разницы... Ну онжетрастпфвитальный и шум.

И еще вопрос. Про цифру в корпусе. Запрос осень в нью-йорке, данные отсюда

Один из тематических векторов

-0.151*"шарлотта" + 0.145*"приключенческий" + 0.138*"боевик" +

-0.135*"осень" + -0.130*"википедия" + 0.127*"уилл" + -0.126*"hd"

+ 0.124*"качество" + -0.123*"2000" + 0.117*"триллер"

2000, нужно ли закладывать цифру? В буквах и цифрах типа 0.041*"прага" + 0.015*"место" на самом деле разные модели

где то в корпусе все кроме слов выжигается, а где то нет

шарлотта уилл

шарлотта уилл 2000

См. скрины. Браузер выбрал Опера, с которым практически не работаю. Ну там, резка с кино и т.д. Все, что через впн. Вспомнил, еще браузер есть, Вивальди, похожий топ. Один файл не поместился, >5.

Буду признателен за

1. Ваш топ, если он не совпадает с моим

2. Интерпретацию такого поведения

jpg g-s-y.jpg
jpg ya-s-y.jpg
jpg ya-s-y-2000.jpg
jpg g-s-y-2000.jpg
png viva-ya.png
Devvver
На сайте с 02.07.2008
Offline
642
#48

timo-71,

шарлотта уилл 2000

http://picplus.ru/img/1910/05/2a32948c.png

Зачем вы в гугле смотрите?

T7
На сайте с 19.09.2018
Offline
61
#49
Devvver:
timo-71,
шарлотта уилл 2000
http://picplus.ru/img/1910/05/2a32948c.png

Зачем вы в гугле смотрите?

шарлотта уилл

осень в нью-йорке в гугле есть

осень в нью-йорке в я нет

шарлотта уилл 2000

осень в нью-йорке в обоих пс есть

* в пределах 1 экрана

Для Яндекса цифры 2000 достаточно чтобы значимость в топе темы "осень в нью-йорке" усилилась для запроса про шарлотту и уилла. Если, конечно, нет чего-то того, что я не учел. В сниппете 2000 не видать, опять же.

Отсюда и вопрос к сообществу - цифры в корпусе "убрать нельзя оставить", где поставить запятую?

У gensim есть метод simple_preprocess , который готовит пассаж, для включения в корпус. Оно удаляет все кроме слов. То что выкладывал, иногда цифры оставлял иногда нет.

* 2000 год выхода фильма.

А гугл - просто для сравнения.

[Удален]
#50

Из крайности в крайность. Кто-то вообще не верит в эффективность ЛСИ, а кто-то верит в них до самозабвения и типа знает все параметры идеального текста. Механистический подход тоже туповат. Лично я пишу такие тексты, пользуясь лишь интуицией и опытом своим и конкурентов. Не применяю ни одного сервиса для анализа текстов. А тексты от копирайтеров проверяю лишь на здравый смысл и уникальность в Яндексе.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий