Lsi: зачем и почему

[Удален]
#61
alaev:
Текст дает результат в первичной оценке документа.

а именно об этом и разговор

samimages
На сайте с 31.05.2009
Offline
427
#62
miha4udin:
Если получается вставить lsi в тексты без ущерба читаемости и смыслу, то почему бы и нет

вы бы хотя бы попытались понять о чем речь в топике...

Опыт как иммунитет — приобретается в муках! Хостинг: экономия до 1300 руб + домен в подарок ( https://clck.ru/XLscf ) / Аудит семантики от 15К [долго] - ЛС
alaev
На сайте с 18.11.2010
Offline
821
#63
samimages:
вы бы хотя бы попытались понять о чем речь в топике...

Да ни о чем 😂

Очередной поиск философского камня. Распарсить выдачу и проанализировать. В топах прикрученные ПФ сайты, агрегаторы, отзовики, инфо-сайты, форумы, справочники и доры.

Очень серьезный у вас подход, ооочень научный. Пожалуйста, не заразите этим Нижегородцева, он пока только по ТОП 10 анализ делает.

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
T7
На сайте с 19.09.2018
Offline
63
#64
alaev:
Да ни о чем 😂

Очередной поиск философского камня. Распарсить выдачу и проанализировать. В топах прикрученные ПФ сайты, агрегаторы, отзовики, инфо-сайты, форумы, справочники и доры.

Очень серьезный у вас подход, ооочень научный. Пожалуйста, не заразите этим Нижегородцева, он пока только по ТОП 10 анализ делает.

доры тоже ПФ прикрутили:D

Для своих целей - обвес документа, в моем случае - карточки товара, связанными тематически товарами, новостями, статьями, видео с ютуба и т.д., результат уже годный. От покатит (часто), до вау(пока редко).

Для СЕО, сообщество не придумало как использовать технологию. Копирайтеры прибежали. Хотя, повторю, что вообще для этого на рассматривал. Плюс у них, часто, странное понимание lsi - синонимы.

Несколько человек ( samimages, burunduk, Devvver) явно что то знают и направления подкинули. Респект🍻

Одно из них анализ конкурентов. Ну например, по этим данным можно получить

"директ_яндекс";1420.8192357168632

"интернет_магазин";775.3101392947609

"вк_группа";716.7936561916383

"деньги_яндекс";450.33173125775517

"почта_рамблер";336.1453415537198

"метрика_яндекс";311.69419759044774

"adwords_google";243.67762536248173

"домен_регистрация";221.47089971881667

.... 1057 н-грамм

А для этого:

"интернет_магазин";1940.6636331215689

"каталог_товар";355.30837666024

"нокиан_нордман";293.49859816069124

"arctic_ice";130.42074089707793

"arctic_goodyear_ice_ultragrip";102.47343927627553

"нокиан_хакка";100.18268179331146

"евро_кама";92.72717358524078

"ice_sibir";90.49602429593163

"кама_флейм";85.41184492408178

"formula_pirelli";68.14245310308087

"nokian_nordman";63.1354804778151

"грин_нокиан_хакка";62.23469626554196

"guard_ice";61.21789878842434

"ice_kumho_wi_wintercraft";55.894603241604834

"ice_north";54.56377935489996

"guard_ice_yokohama";53.23295546819508

"ice_winter";52.9140104378242

"бриз_кама";51.989818649441084

"formula_ice_pirelli";49.71399094312819

всего 306, только из того что в топ10 для этого сайта. Плюс, это в корне неверный результат для шин, так, как корпус без цифр.

Наглядно, что попадает в корпус. Пока в скрипте обработка simple_preprocess, поскольку функция обработки и фильтрации еще в тестах

Автомобильные шины nokian nordman 5 175/70-r14 зимние. Шина Nokian Nordman 7 185 70 R14 92T шип. Покрышки Nokian Nordman 5 185 70 R14 92T шип

simple_preprocess:
['автомобильный', 'шина', 'nokian', 'nordman', 'зимний']
['шина', 'nokian', 'nordman', 'шип']
['покрышка', 'nokian', 'nordman', 'шип']
split:
['автомобильный', 'шина', 'nokian', 'nordman', '5', '175', '70', 'r14', 'зимний']
['шина', 'Nokian', 'Nordman', '7', '185', '70', 'R14', '92T', 'шип']
['покрышка', 'Nokian', 'Nordman', '5', '185', '70', 'R14', '92T', 'шип']

И, да. Никакой науки здесь нет. Любая сео-контора при необходимости это может иметь в своем арсенале. Это не дорого.

Gensim - это библиотека с открытым исходным кодом

Питон прогер средней руки тоже доступно. Хотя, никого не переубеждаю. Хозяин-барин.

samimages
На сайте с 31.05.2009
Offline
427
#65
alaev:
Да ни о чем

Ну не то чтобы совсем))) Прикладной пользы мало, да, но для общего кругозора полезно в любом случае.

alaev:
Пожалуйста, не заразите этим Нижегородцева

У него иммунитет, т.к. он уверен, что LSI это сущность)))

[Удален]
#66
samimages:
Прикладной пользы мало

польза тут есть, не чисто сеошная,

понимание что находиться в топе, какие продукты/услуги предлагают конкуренты, особенно важно в сезонных тематиках или в ширпотребе

например, какие товарные позиции необходимо показывать на странице по запросу джинсы, в осенний период, а в весенний, а на новый год?

alaev:
В топах прикрученные ПФ сайты

обратил внимание, что они тоже меняются местами и достаточно часто?

а не пробовал сопоставить изменения контента и изменения позиций, в следствии изменения пф ;)

samimages
На сайте с 31.05.2009
Offline
427
#67

burunduk, спору нет, но я на уровне самого индексирования не могу понять рентабельность затрат + еще обработка данных. Врятли это когда-то найдет массовое применение в виде автоматизации, за что ТС и борется как я понял.

Как вид дорогостоящей аналитики, как услуга — да.

T7
На сайте с 19.09.2018
Offline
63
#68
джинсы

денить_сэлвидж

Долго думал.

$ mystem

деним
деним{денить?}
😂
samimages:
рентабельность затрат + еще обработка данных

Затраты:

gensim бесплатно

понять что это и что можно, плюс тз кодеру - несколько вечеров, документация есть. Пара неплохих переводов. Нюансы - англоязычная.

скрипт обработки (232 строки у меня) - максимум несколько часов, если знать что делать (методики)

скрипты парсера я-хмл, урлов, ввиду огромного кол-ва библиотек питона - максимум пара часов спецу

методики - ваше время

Итого время аналитика - несколько дней, кодер - несколько часов.

Плюсы: word2vec, lsi и еще куча моделей

ресурсы (пока время)

2019-10-06 17:57:02,109 - root - INFO - Start

2019-10-06 17:57:12,603 - root - INFO - lib loaded
2019-10-06 17:57:12,609 - root - INFO - ru_stopwords loaded
2019-10-06 17:57:16,998 - root - INFO - text content loaded and lemmatized
2019-10-06 17:57:17,091 - gensim.corpora.dictionary - INFO - built Dictionary(3567 unique tokens: ['wildberries', 'большой', 'выбор']...) (total 16396 corpus positions)
2019-10-06 17:57:17,091 - root - INFO - id2word = corpora.Dictionary: done
2019-10-06 17:57:17,130 - root - INFO - corpus by id2word: done
2019-10-06 17:57:17,132 - gensim.models.lsimodel - INFO - using serial LSI version on this node
2019-10-06 17:57:17,132 - gensim.models.lsimodel - INFO - updating model with new documents
2019-10-06 17:57:17,132 - gensim.models.lsimodel - INFO - preparing a new chunk of documents
2019-10-06 17:57:17,158 - gensim.models.lsimodel - INFO - using 100 extra samples and 2 power iterations
2019-10-06 17:57:17,158 - gensim.models.lsimodel - INFO - 1st phase: constructing (3567, 150) action matrix
2019-10-06 17:57:17,194 - gensim.models.lsimodel - INFO - orthonormalizing (3567, 150) action matrix
2019-10-06 17:57:18,101 - gensim.models.lsimodel - INFO - 2nd phase: running dense svd on (150, 1272) matrix
2019-10-06 17:57:18,178 - gensim.models.lsimodel - INFO - computing the final decomposition
2019-10-06 17:57:18,179 - gensim.models.lsimodel - INFO - keeping 50 factors (discarding 33.128% of energy spectrum)
2019-10-06 17:57:18,196 - root - INFO - lsi_model: done
2019-10-06 17:57:18,356 - gensim.topic_coherence.probability_estimation - INFO - using WordOccurrenceAccumulator to estimate probabilities from sliding windows
2019-10-06 17:57:25,422 - root - INFO - CoherenceModel: done
2019-10-06 17:57:25,447 - gensim.models.phrases - INFO - collecting all words and their counts
2019-10-06 17:57:25,447 - gensim.models.phrases - INFO - PROGRESS: at sentence #0, processed 0 words and 0 word types
2019-10-06 17:57:25,566 - gensim.models.phrases - INFO - collected 14999 word types from a corpus of 16396 words (unigram + bigrams) and 1272 sentences
2019-10-06 17:57:25,574 - gensim.models.phrases - INFO - using 14999 counts as vocab in Phrases<0 vocab, min_count=1, threshold=5, max_vocab_size=40000000>
2019-10-06 17:57:25,576 - gensim.models.phrases - INFO - collecting all words and their counts
2019-10-06 17:57:25,578 - gensim.models.phrases - INFO - PROGRESS: at sentence #0, processed 0 words and 0 word types
2019-10-06 17:57:25,932 - gensim.models.phrases - INFO - collected 15207 word types from a corpus of 13221 words (unigram + bigrams) and 1272 sentences
2019-10-06 17:57:25,932 - gensim.models.phrases - INFO - using 15207 counts as vocab in Phrases<0 vocab, min_count=5, threshold=5, max_vocab_size=40000000>
2019-10-06 17:57:25,932 - root - INFO - n-gramm: done
2019-10-06 17:57:26,957 - root - INFO - lsi result sorted
2019-10-06 17:57:27,223 - root - INFO - Result n-gramm file saved

25 сек на обработку примерно пол мегабайт текста, из них 8 сек когеренцию считал.

coherence: 0.4222778935820691

что то типа согласованности тематик, правильней от нее плясать.

сначала определить модель и кол-во тем с максимальной

[Удален]
#69

samimages, к сожалению времена поправил тайтлы купил ссылок и клиент получает прибыль прошли :(

осталось всего несколько вариантов и большинство из них совсем не белые и пушистые, а остальные нерентабельны с финансовой точки зрения

да и сейчас можно вытащить любой сайт в топ абсолютно белыми методами и получать трафик, но финансово это никогда не окупиться, особенно в высоко конкурентных тематиках

поэтому приходится искать другие способы честного заработка - это когда клиент платит за то что ему приносит прогнозируемую и главное понятную прибыль

подобные методики это всего лишь один из инструментов для решения конкретных бизнес задач при оптимизации бизнес процессов, очень часто к онлайну не имеющего прямого отношения

ну так что бы совсем просто, продать можно абсолютно любой товар если у него адекватная цена и подобный товар пользуется спросом, можно даже успешно продавать по явно завышенной цене (есть такие группы товаров на рынке)

а вот как выявить эти группы товаров?

нужно либо быть с головой погруженным в данную тематику на протяжении достаточно длительного времени - самый хороший вариант для бизнеса, но очень редко встречающийся

либо заказывать подобные исповедования

я много раз сталкивался с проблемами, когда и цена низкая и спрос есть, а продаж нет или они совсем не отвечают ожиданиям

самое интересное, что иногда просто повышение цены поднимает и продажи и рентабельность ;)

alaev
На сайте с 18.11.2010
Offline
821
#70
burunduk:

обратил внимание, что они тоже меняются местами и достаточно часто?
а не пробовал сопоставить изменения контента и изменения позиций, в следствии изменения пф ;)

Рекомендую в формулу добавить накрутку отказов конкурентами )))

И сильно они меняются местами? Мегаиндекс не обратил внимания, а вот и пример lsi-копиратинга. 🤣

Вот еще и еще пример аналогичного копирайтинга из ТОП 10.

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий