Нет. Он заморочился на том, что парсит СЕРП по запросу и индексирует его, полученные в результате индексы (не стоит воспринимать их как слова) он предлагает к применению, например для самостоятельного "сглаживания" границ между семантическими полями, за счет неявных/интентных синонимов.
Сам метод LSA/LSI используется для индексации вычищенных корпусов и для их последующего сопоставления по вероятному смыслу, это "шестеренка" огромной статистической машины, которая даже в ПС не используется в силу ресурсозатратности.
Тем не менее базовые методики расчета можно использовать для ограниченного объема семантики, например для 1000 документов СЕРПа ПС. К моменту нахождения интента, документы уже будут отранжированы по BM25 и это сильно сэкономит "электричество" Это пробовали в Палехе и это не заработало, многие из вас помнят.
Теперь к этой мульке привязывают только усредненные данные (Королев), а не суть-тексты, из-за этого началась путаница между непопаданием в семантическое поле запроса и ограничением в ранжировании из-за "переоптимизации"; Тулзы а-ля Арсенкин, как раз помогают посчитать вероятность того и другого.
Все! Как либо влиять на эту хрень из под парсинга выдачи невозможно ибо для этого нужно попасть в этот СЕРП, а тогда теряется смысл. Единственное для чего можно ее применить на уровне SEO, это, например рассчитать облако интентов одной конкретной коллекции сайтов, для создания собственного.
Например берем запрос, берем историю выдачи до ТОП-100, за пару лет, берем массив хостов и считаем. В последствии, при кластеризации это может сильно пригодиться для прототипирования поведения пользователя, например в ИМ если бюджеты позволяют думать о тестировании трафика))) Сама Тулза выйдет тоже не бесплатной по ресурсам так что он-лайн ждать ее не приходится.
Терминологическая проблема в том, что первый абзац определения LSI продали вместо ссылочного на взлете Минусинска, а разбираться никто не стал... или не смог, но это нормально.
timo-71, вы понимаете, что они вас не понимают? просто интересно... Вы, если, хотите разобраться конкретно с LSI, то не обращайте внимание на контент содержащий вместе слова LSI и копирайтинг. Получается разговор слепого с глухим.
В контексте Серча, предлагаемое вами решение не нужно, его нельзя применить в оптимизации и в заказе текстов — слишком мелко. Кроме того, я вам намекал, что в методе сбора может быть ошибка, т.к. СЕРП не однороден по ранжированию и попытка проиндексировать интент через представление в СЕРПе может дать размытый результат.
ищите форум лингвистов, там вас поймут.
https://korona-remonta.ru/ - играйтесь, кому времени кулек
Действительно... давайте выдумаем термин "интентный синоним" и порешим что для их точного определения, в коллекции документов, нам может помочь LSA, естественным продуктом которого является LSI внутри каждого вектора.
Ну поскольку LSI является суть анализом сущности "текст", то вероятный вопрос звучал бы странно в таком контексте... LSI можно рассчитывать при ранжировании или не рассчитывать при ранжировании... надысь Яндекс подписался на это дело, но там есть маленька проблема с затратами, впрочем это уже за рамками темы.
это не про это
Ну идея... нужно добиться такой степени расчета, чтобы при расширении корпуса коэффициенты LSI внутри векторов не размывались.
Критика... вот посчитали мы LSI для одной пары запрос/документ, определили вектора в каждом кластере ядра и заказываем топовый seo копирайтинг на тему йоги от боли в шее, а нас спрашивают: как же это я вам за 1700 могу написать топовую seo статью, если у вас только ключей на 1000К символов без/пробелов? А мы ему, погодите это только первый запрос, а у нас их 5, вот на этих хардах.
Да не, есть, только не как инструмент копирайтера. Эти демоны увидели слово синоним и потеряли волю. В языках есть много интересной фигни по ту сторону, то что исследует и систематизирует уже созданное, пытается научить машины уже существующим принципам, но при этом никак не влияет на производство объекта исследования.
ТС, LSI для продукта (сайт, книга и пр.) это связка словарного запаса автора и редактуры, и для многих копирайтеров это уже не по силам.
ну и если делать нехрен то можно потратить время здесь---------- Добавлено 01.10.2019 в 03:57 ----------
Академически она не выполнима,т.к. вы, на данный момент считаете СЕРП запроса, как коллекцию/корпус, а размещать будете на сайте, который вероятно не является участником расчетного СЕРПа, но самое плохое даже не в этом, а в том, что ранжирование в СЕРПе не равномерно.
Огонька нет, утеряно очарование мазафаки
Косяк, например, в том, что баба с простатой не совсем баба, многие хлопцы, в буквальном смысле, напарывались на сие понимание.
В контексте созданного топика это нехило намекает на бардак в кластеризации ядра и скорее даже в его отсутствии.
Не имея на руках семантики вы не можете ни рассчитать трафик, ни рассчитать CTR-ы... лететь по приборам вам тоже не нравится.
Соберите ядро и желание переделать сайт возникнет само собой.
Нет конечно, но я не часто вижу подобный метод работы с конечным потребителем
в том плане, если человек работает от вашей компании, если обратились к вашей компании, к сайту вашей компании, то может быть было бы уместно вам самостоятельно решить вопрос с "вашим" юристом и предоставить квалифицированный ответ.
Исключительное право на определение что есть сор, находится в заботливых руках модераторов раздела. Рядовой серчанин волен свободно самовыражаться в рамках свободного объема своих штрафных баллов.
В этой простой схеме, вы либо ненужны, либо пытаетесь оказать услугу ненадлежащего качества.
artemacox, ну а чего ради вы тему создали? У вас, если допустить наличие какого-либо веса на старых адресах, на новых его еще не будет, но самое забавное это склейщик. Так что ждите... месяцок так точно, а там как пойдет.
Ну, например:
1. Взять запрос
2. Собрать по нему ТОПы... ну скажем за год
3. Отобрать сайты с максимальным вхождением за период
4. Найти на отобранных сайтах релевантные запросу страницы
5. Посчитать количество слов/стоп-слов к вхождениям
6. Повторить у себя
7. Взять следующий запрос
8. Повторить пункты 1-7