Если вы хотите использовать 10К запросы, проверяйте честно - Общие вопросы оптимизации

Lsi: зачем и почему

timo-71 · 2019-09-30T21:08:44.0000000Z

Собственно, вопрос. Насколько это необходимо в рамках сайта, и всего что с ним связано . SEO в т.ч. и в первую очередь. Я пока вижу - только в том, чтобы обвес документа имел дополнительные ответы в виде ссылок, картинок и др. контента для максимально полного раскрытия темы ключевика. Например, запрос осень ответ: <class 'gensim.models.ldamodel. LdaModel '> 0.047*"осень" + 0.008*"время" + 0.008*"лето" + 0.007*"цитата" + 0.007*"год" + 0.006*"лист" + 0.005*"красивый" + 0.005*"осенний" + 0.005*"любовь" + 0.004*"слово" 0.021*"осень" + 0.006*"время" + 0.005*"лето" + 0.004*"осенний" + 0.004*"любовь" + 0.004*"год" + 0.004*"весна" + 0.004*"лист" + 0.003*"цитата" + 0.003*"дождь" 0.029*"осень" + 0.010*"время" + 0.006*"цитата" + 0.006*"год" + 0.006*"лист" + 0.005*"осенний" + 0.005*"лето" + 0.004*"афоризм" + 0.004*"человек" + 0.004*"фраза" 0.035*"осень" + 0.010*"время" + 0.005*"осенний" + 0.005*"лето" + 0.005*"год" + 0.005*"лист" + 0.004*"весна" + 0.003*"стих" + 0.003*"дождь" + 0.003*"любовь" 0.065*"осень" + 0.011*"время" + 0.008*"лето" + 0.007*"год" + 0.007*"осенний" + 0.007*"лист" + 0.007*"цитата" + 0.006*"любить" + 0.005*"весна" + 0.005*"теплый" 0.039*"осень" + 0.009*"время" + 0.008*"осенний" + 0.007*"год" + 0.006*"лист" + 0.005*"лето" + 0.004*"весна" + 0.004*"стих" + 0.004*"любить" + 0.004*"человек" 0.025*"осень" + 0.008*"время" + 0.006*"год" + 0.006*"осенний" + 0.005*"любить" + 0.004*"лето" + 0.004*"лист" + 0.004*"фильм" + 0.003*"жизнь" + 0.003*"любовь" 0.022*"осень" + 0.008*"год" + 0.007*"осенний" + 0.006*"время" + 0.004*"лист" + 0.003*"цитата" + 0.003*"лето" + 0.003*"день" + 0.003*"стих" + 0.003*"человек" 0.022*"осень" + 0.008*"осенний" + 0.006*"лист" + 0.006*"время" + 0.005*"стих" + 0.005*"год" + 0.004*"октябрь" + 0.003*"лето" + 0.003*"человек" + 0.003*"день" 0.028*"осень" + 0.008*"осенний" + 0.007*"год" + 0.007*"время" + 0.006*"лист" + 0.006*"лето" + 0.005*"стих" + 0.004*"цитата" + 0.004*"друг" + 0.004*"человек" <class 'gensim.models.lsimodel. LsiModel '> 0.851*"осень" + 0.195*"время" + 0.125*"лето" + 0.122*"лист" + 0.120*"год" + 0.117*"цитата" + 0.117*"осенний" + 0.088*"любить" + 0.083*"красивый" + 0.081*"весна" 0.354*"фильм" + 0.285*"друг" + 0.208*"любовь" + 0.160*"деревня" + 0.158*"отношение" + -0.152*"осень" + 0.127*"жизнь" + 0.126*"снимать" + 0.116*"год" + 0.115*"любить" -0.261*"цитата" + -0.192*"афоризм" + 0.175*"подсезон" + -0.168*"фраза" + 0.157*"осенний" + 0.153*"сентябрь" + 0.152*"температура" + -0.148*"статус" + 0.135*"праздник" + 0.129*"стих" -0.340*"афоризм" + -0.324*"цитата" + -0.320*"фраза" + -0.300*"статус" + -0.188*"тема" + 0.162*"лето" + 0.144*"теплый" + 0.102*"чай" + 0.098*"горячий" + 0.094*"каждый" -0.430*"стих" + -0.373*"осенний" + -0.142*"год" + 0.139*"слово" + -0.133*"золотой" + -0.106*"картина" + -0.099*"листопад" + -0.099*"фотография" + -0.093*"материал" + 0.091*"лето" 0.248*"слово" + -0.234*"афоризм" + 0.181*"год" + -0.149*"стих" + 0.142*"любить" + 0.131*"красивый" + -0.126*"оно" + -0.119*"тема" + -0.117*"каждый" + 0.115*"русский" -0.227*"афоризм" + -0.174*"слово" + 0.162*"время" + 0.120*"великий" + 0.112*"фраза" + -0.111*"очень" + -0.110*"осень" + 0.107*"человек" + 0.106*"the" + 0.099*"дождь" -0.394*"слово" + -0.253*"стих" + 0.221*"любить" + 0.135*"сентябрь" + -0.112*"язык" + -0.110*"фраза" + -0.099*"лес" + -0.094*"дождь" + 0.089*"красивый" + -0.089*"предложение" 0.175*"любить" + 0.170*"лето" + 0.160*"париж" + 0.155*"зима" + 0.146*"сайт" + 0.122*"ru" + -0.120*"красивый" + 0.113*"сентябрь" + 0.110*"слово" + 0.105*"звезда" -0.331*"стих" + -0.142*"любить" + 0.127*"год" + 0.119*"время" + 0.111*"краска" + -0.111*"лист" + 0.109*"фотография" + 0.107*"осенний" + -0.102*"листопад" + 0.102*"10" буду признателен за идеи и критику со стороны гуру seo. А надо ли? В качестве Dictionary для модели взят контент топ 30 выдачи Яндекс-xml уупс топ 20 только

427

samimages

2 октября 2019, 20:12

#31

burunduk:
попробуйте брать первые 10 наиболее значимых (лем/биграм...) с каждого документа из топа,

Для Яндекса может быть грязно, т.к. он ранее считал сайт как отдельную коллекцию и по сути не ранжировал документы отдельно от общего восприятия... в отличии от Гугла.

т.е. прямо релевантных лемм может и не случиться у некоторых представителей ТОП-10, или находиться они будут на статистически не значимых позициях. Хотя может сейчас что-то поменялось в этом отношении.

Опыт как иммунитет — приобретается в муках! Аудит семантики от 15К [долго] - ЛС

Яндекс не понять Новый корпус А вы все еще

[Удален]

2 октября 2019, 20:13

#32

timo-71:
Если в лоб, по кол-ву вхождений, то для "renault kaptur купить", на корпусе - контент документов из 20:

не, для каждого документа отдельно считать, а потом составлять из отобранных корпус

(я топ 50 брал, это примерно 37-48 документов, в зависимости от запроса)

для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа

самое сложное при составлении словаря n-грамм (я до 5 составлял) , не включать полный бред, например, 2 подряд идущих глагола в биграмме или 3 прилагательных в триграмме и выше, и тому подобное

(и да, я оставлял только глаголы, существительные и прилагательные, остальные части речи убивал, но учитывал их при составлении n-грамм, часть обрывала n-грамму, часть нет)

при условии что внутри n-граммы они отсортированы по алфавиту

P.S. достаточно тяжёлая технология при не очень явных плюсах

2

Как массово собрать LSI Исследование Ашманова о факторах Анализ текствов конкурентов

[Удален]

2 октября 2019, 20:16

#33

samimages:
или находиться они будут на статистически не значимых позициях

ни разу с таким не сталкивался, возможно на нч запросах подобное и проявится

проверять честно лень, т.к. надо хотя бы 5-6 съёмов по каждому запросу, а это примерно 1,5месяца

+ последующая обработка

примерный объём 13 запросов 2,5 месяца съёма

1

jpg 186940.jpg

А вы все еще Количество ключевых слов на Закупка ссылок для НЧ

348

yanus

2 октября 2019, 20:31

#34

burunduk:

P.S. достаточно тяжёлая технология при не очень явных плюсах

Все что "глубже" триграмм вообще дает какой-то практический смысл?

[Удален]

2 октября 2019, 20:34

#35

yanus, для понимания о чём документ

самое прикольное, хорошо копипаст отслеживает

+ позволяет убивать устоявшиеся обороты

и да сразу выявляет большие фрагменты текста

2

T7

63

timo-71

2 октября 2019, 20:41

#36

samimages:
В Яндексе точно нет... там скорее начиная с ТОП 30... ну, ТОП 20, можно искать интенты, а первая 20-ка сглажена до среднего под ПФ, но если рассчитать корпуса самих представителей ТОП-10, например и сопоставить, то может получиться интересно, а если получится сохранить привязку к хосту

Ну да, как уже говорил, странные штучки дает 2гис, вк а так же, наверное, то что называлось спектр, что намекнули н-граммы (я их реже глазами смотрел, а там "disk_djujmovyj_legkosplavnyj_steppe", 97], ["bachok_bol'shoj_ob'em_omyvatel'", 84) видимо запчасти какие то зашли

привязку к хосту

файл во вложении снят сейчас. Нет проблем их писать. Выше приведенные данные могут отличаться по источникам

чуть торможу, не успеваю, осмысливаю.

-------

если по смыслу

можно искать интенты

то 2гис чаще всего нормальные данные дает, но осмыслить это может только человек. Ну, типа "Рога и копыта", если чел посмотрит, сразу скажет, так ё, они розовых слонов продают в моем городе, а я как раз их и искал.

txt hosts.txt

Ссылки с ГС Товара нет в наличии [en СДЛ] Организации Англии.

702

Евгений Молдовану

2 октября 2019, 20:58

#37

burunduk:
для каждого документа составлял отдельные словари и уже их обрабатывал нормируя вес в словарях в зависимости от позиции документа

Каким образом формировался текст? Отбирался только текст статьи или весь контент?

Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://e-moldovanu.com/ ) Мой SEO телеграм канал https://t.me/seobloggers

[Удален]

2 октября 2019, 21:16

#38

Devvver:
Каким образом формировался текст? Отбирался только текст статьи или весь контент?

пробовал по разному, брал сохранёнку из яндекса и обрабатывал

только индексируемый текст с анкорами ,индексируемый текст без анкорной составляющей, и весь текст

обрабатывал весь документ, а не только статью со страницы

T7

63

timo-71

2 октября 2019, 22:00

#39

Devvver:
Каким образом формировался текст? Отбирался только текст статьи или весь контент?

Кстати Алексей тоже пробовал обучать на выборке https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html

Алексей:
Для примера я спарсил чуть больше тысячи статей о SEO и загрузил получившийся файлик на 15 мегабайт в python-оболочку к оригинальному Word2vec.
Источник: https://alexeytrudov.com/web-marketing/seo/poigralsya-s-word2vec-mashinnoe-obuchenie.html

Это тоже самое, но машинно с шумом. Огрехи парсинга. Пассажи. Пассажи - важно: би-три-граммы, lsi/lda модели оттуда. Тут есть еще проблемы. А так ручками 1000 - или 20-сколько есть лимитов не суть. Пассажи необработанные во вложении, на 00:41

Шум это у меня, а не когда ручками корпус сделать. Когда ручками, исключаются 2 типа ошибок:

1. не возьмешь этот урл

2. аккуратно выберешь контент (хотя не уверен, что это ошибка. Яндекс то тоже это видит)

txt bi.txt

txt ngr.txt

txt lda-lsi.txt

zip a928b005259427cc511531faf316a950.txt.zip

Список факторов ранжирования Баян - программа теста Использование контента с нашего

702

Евгений Молдовану

2 октября 2019, 22:21

#40

timo-71, да не очистите вы от шума. Только если выбирать вручную. Но это тогда не автоматизируется - если вы хотите для 10К запросов использовать.

Еще одна проблема - нерелевантные статьи.

Еще проблема - алгоритм хорош на статьях, а у вас в примере в выдаче много агрегаторов и мало текста.

burunduk, сейчас работаете? Можете добавить запрос "достопримечательности праги" для сравнения с этим?

1

мож кто захочет совместно Свой движок - стоит Сайт на html

Что такое Power BI и зачем это нужно бизнесу

Яндекс Вебмастер вынес товарные фиды в отдельный раздел

Lsi: зачем и почему