Сервис по сбору LSI фраз

7

artur2k

1 июля 2019, 08:31

1741

Этот сервис помогает найти LSI n-граммы для составления ТЗ копирайтеру.

Для поиска можно использовать как одну ключевую фразу, так и целый кластер.

Можно поставить галочку "анализировать самые свежие тексты", чтобы получить только новые LSI.

Результаты можно выгружать в csv.

Сам инструмент: https://artur2k.ru/tools/poisk-lsi/

6

A

100

Александр

11 июля 2019, 08:30

#1

Спасибо! Отличный сервис, понравился однозначно.

7

artur2k

15 июля 2019, 12:58

#2

Приятно слышать!

Инструменты постоянно совершенствую и добавляю новые - уникальные, если будут какие-то предложения по доработки существующих или данного - пишите, возможно реализую!

V

93

vipvie

22 июля 2019, 10:57

#3

В закладки добавлено, пригодится. Хороший инструмент! Спасибо.

7

artur2k

7 сентября 2019, 13:34

#4

Добавил колонки "Популярность слов" и "Популярность фраз" в процентах.

E

134

ezon

13 сентября 2019, 09:16

#5

Роль LSI фраз велика, так как с помощью них поисковые системы понимают смысл вашего текста. Можно конечно использовать Подсказки Яндекса и Google. Или парасинг подсветок от Арсенкина подключить. Хотя Яндекс частично отключил подсветку. В остальном понравилось, спасибо, так легче писать. Использовать LSI важно, так как смысловое соответствие важно когда классифицируешь документ.

Хороший текст должен иметь не только ключевой запрос по которому продвигается статья, но и те ключи которые семантически будут связываться с основными запросами.

Кластеризатор ключевых слов (https://seoquick.com.ua/keyword-grouping/) - Группировка 20,000 слов за 1 минуту. Калькулятор качества Title (https://seoquick.com.ua/calculator-title/) - Калькулятор качества заголовков Генератор объявлений Google Ads (https://seoquick.com.ua/adwords-generator/) - Генерируй сотни объявлений

SC

57

Serg_CS

15 сентября 2019, 22:03

#6

ezon:
Роль LSI фраз велика, так как с помощью них поисковые системы понимают смысл вашего текста.

Да ладно? А вот тут один из разработчиков поиска утверждает, что LSI не применим на практике 🤣 https://youtu.be/QkUmCnDe3xI?t=1715

И LSI это уж точно не про "смысл" текста.

231

Lazy Badger

16 сентября 2019, 03:54

#7

Serg_CS:
вот тут один из разработчиков поиска утверждает, что LSI не применим на практике

Я вижу тут некоторый бандл проблем и вопросов

1. Александр Сафронов - не разработчик, а "руководитель службы релевантности и лингвистики" (надо ли пояснять, что это две большие разницы)

2. Он высказывает свое личное частное мнение, а не официальную позицию компании

3. Это видео - от июня 17 года, после которого нас уже накрыло и Королевым, и (особенно) Андромедой, так что как минимум - информация устаревшая на пару алгоритмов

4. В этом фрагменте он говорит про БМ25, который несколько иная песня, чем LSI

Serg_CS:
LSI это уж точно не про "смысл" текста

Нет, как раз про него (+- лапоть)

RTFM, dude

1

Производство жести методом непрерывного отжига

SC

57

Serg_CS

16 сентября 2019, 12:15

#8

LazyBadger:
Я вижу тут некоторый бандл проблем и вопросов

Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.

LazyBadger:

1. Александр Сафронов - не разработчик, а "руководитель службы релевантности и лингвистики" (надо ли пояснять, что это две большие разницы)

https://moikrug.ru/alsafr вот тут подробная инфа из первых рук - он уже 9,5 лет уже как разработчик только в этом направлении, а сейчас еще и совмещает это с руководительской должностью.

Тут вопрос в том, что вы понимаете под этим. Если спеца, который непосредственно реализует (на C/C++) просчёт факторов ранжирования или хранение поискового индекса (что близко к специальности data engineer), то его в первую очередь интересует производительность, ресурсоемкость и отказоустойчивость поискового движка, а не влияние ранжирующих факторов факторов на качество выдачи. А вот руководитель такой службы вполне может играть роль data scientist, который формирует гипотезы и дает техзадание своим подчиненным, и он же в итоге принимает решение, какой алгоритм выкинуть в помойку, а какой выкатить в прод. Data scientist всегда ближе к разработчику. Уж точно, это не менеджер, который не разбирается в матчасти, а только рисует диаграммы Ганта и считает KPI.

LazyBadger:

2. Он высказывает свое личное частное мнение, а не официальную позицию компании

Но источник всё равно более авторитетный, чем статьи сомнительных авторов из SEO комьюнити, называющих вещи не своими именами.

LazyBadger:

3. Это видео - от июня 17 года, после которого нас уже накрыло и Королевым, и (особенно) Андромедой, так что как минимум - информация устаревшая на пару алгоритмов
4. В этом фрагменте он говорит про БМ25, который несколько иная песня, чем LSI
Нет, как раз про него (+- лапоть)
RTFM, dude

В видео упоминается Палех, и кроме того, на следующем же слайде, среди "работающих" методов идет DSSM, лежащий в основе как Палеха, так и Королева. Королёв, как известно, это почти Палех, только расширенный с тайтла+заголовков на весь текст документа, и вычисляемый теперь не в рантайме, а фоново при индексировании. Андромеда вообще никак не соотносится с текстовой релевантностью, это просто маркетинговое название для нескольких фич (значки для сайтов, быстрые ответы и т.п.). Если прослушать еще дальше - там будет как раз про выделение "значимых" для ранжирования слов, но не по LSI, а по поведенческим факторам (больший вес словам, которые присутствуют на страницах с лучшим CTR в выдаче - положительная обратная связь, по факту).

Поисковые алгоритмы - это не то, что делается и выкатывается за короткий срок - это могут быть годы экспериментов и поиска рабочего решения. Вот маркетинговые названия очередным алгоритмам могут придумать достаточно быстро - сегодня Королёв, завтра какой-нибудь Циолковский.

BM25 там употребляется в контексте того, что авторы всех этих чудо-алгоритмов в своих академических работах любят сравнивать с ним результаты, полученные этими алгоритмами. Т.е. типа "наша модель работает лучше, чем BM25, на столько-то процентов". Но на практике ничего из этого не используется в реальных системах. Тоже самое можно сказать про кучу простых ML-алгоритмов, таких как k-means, decision trees, svm - всё это хорошо для обучения начинающих DS, работает на специально отобранных датасетах, а стоит только попытаться сделать на базе этих методов что-то практическое - результат сильно разочарует.

Есть ряд очевидных ограничений, почему LSI в чистом виде не может применяться поисковиками.

Во-первых, необходимость жестко задавать количество тем - а это в масштабах поисковой системы попросту невозможно - темы практически безграничны и ежедневно появляются новые. Суть алгоритма LSI вкратце: исходно есть матрица слово-документ в масштабах корпуса, LSI её сжимает по количеству документов до жестко зашитого числа документов, которые обзывает темами. DSSM это тоже по сути сжатие с потерями, но оно сохраняет больше информации за счет наличия нелинейных связей. Связи, выдаваемые LSI, получаются всегда линейны. И никакой магии - LSI не в состоянии определить реальное количество тем в корпусе - можно лишь прогнать алгоритм с несколькими жестко заданными значениями и попытаться выбрать наилучшую модель исходя из каких-то метрик качества.

Во-вторых, в любом маломальски крупном тексте упоминается множество разных тем, даже в рамках одного абзаца. А ранжировать на соответствие запросу нужно целые документы.

И наконец, метод очень вычислительно тяжелый. Сложность пропорциональна квадрату количества документов в степени количества тем. Для масштаба веб-корпуса не применимо в принципе. Зато в различных публикациях на искусственных корпусах в десяток тыщ документов считаются и хвастают, как обгоняют по качеству bm25. Кроме того, авторы этих работ редко берут веб-корпус, обычно ограничиваются литературными документами. Особенность веб-корпусов - не всегда правильно с точки зрения языка строятся фразы, и не всегда можно правильно извлечь абзацы (пример - карточки товара, там нет абзацев как таковых), да еще и спамный контент может подпортить всю статистику.

Про RTFM посмешило, учитывая что поисковики не особо где разглашают внутренние детали реализации своих алгоритмов. Но совет дельный, если применять его к тем, кто употребляет аббревиатуру LSI не к месту :)

Говоря о понимании поисковиком смысла, надо сначала договориться об определениях. Навскидку, чтобы роботу понять смысл фразы "салоны красоты рядом", вычисленная модель LSI или даже DSSM для этого будет бесполезна - нужен переколдунщик, который оттригерится на слово "рядом" в запросе, возьмет регион выдачи, услугу и поищет организации в базе знаний, в том же яндекс.справочнике или на картах.

3

7

artur2k

16 сентября 2019, 19:20

#9

Serg_CS:
Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.

В целом согласен, мой инструмент вместе с LSI выдаёт и синонимы и DSSM, и даже может разбавить всё это фразами из документов многорукого бандита, но уже с гораздо более низким показателем популярности.

Следовательно если человек, а не машина пишет текст, то эти слова могут помочь ему усилить релевантность документа, т.к. они уже выбраны самим Яндексом как релевантные и тематические.

346

lkm

16 сентября 2019, 19:29

#10

Serg_CS:
Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.

https://moikrug.ru/alsafr вот тут подробная инфа из первых рук - он уже 9,5 лет уже как разработчик только в этом направлении, а сейчас еще и совмещает это с руководительской должностью.

Тут вопрос в том, что вы понимаете под этим. Если спеца, который непосредственно реализует (на C/C++) просчёт факторов ранжирования или хранение поискового индекса (что близко к специальности data engineer), то его в первую очередь интересует производительность, ресурсоемкость и отказоустойчивость поискового движка, а не влияние ранжирующих факторов факторов на качество выдачи. А вот руководитель такой службы вполне может играть роль data scientist, который формирует гипотезы и дает техзадание своим подчиненным, и он же в итоге принимает решение, какой алгоритм выкинуть в помойку, а какой выкатить в прод. Data scientist всегда ближе к разработчику. Уж точно, это не менеджер, который не разбирается в матчасти, а только рисует диаграммы Ганта и считает KPI.

Но источник всё равно более авторитетный, чем статьи сомнительных авторов из SEO комьюнити, называющих вещи не своими именами.

В видео упоминается Палех, и кроме того, на следующем же слайде, среди "работающих" методов идет DSSM, лежащий в основе как Палеха, так и Королева. Королёв, как известно, это почти Палех, только расширенный с тайтла+заголовков на весь текст документа, и вычисляемый теперь не в рантайме, а фоново при индексировании. Андромеда вообще никак не соотносится с текстовой релевантностью, это просто маркетинговое название для нескольких фич (значки для сайтов, быстрые ответы и т.п.). Если прослушать еще дальше - там будет как раз про выделение "значимых" для ранжирования слов, но не по LSI, а по поведенческим факторам (больший вес словам, которые присутствуют на страницах с лучшим CTR в выдаче - положительная обратная связь, по факту).

Поисковые алгоритмы - это не то, что делается и выкатывается за короткий срок - это могут быть годы экспериментов и поиска рабочего решения. Вот маркетинговые названия очередным алгоритмам могут придумать достаточно быстро - сегодня Королёв, завтра какой-нибудь Циолковский.

BM25 там употребляется в контексте того, что авторы всех этих чудо-алгоритмов в своих академических работах любят сравнивать с ним результаты, полученные этими алгоритмами. Т.е. типа "наша модель работает лучше, чем BM25, на столько-то процентов". Но на практике ничего из этого не используется в реальных системах. Тоже самое можно сказать про кучу простых ML-алгоритмов, таких как k-means, decision trees, svm - всё это хорошо для обучения начинающих DS, работает на специально отобранных датасетах, а стоит только попытаться сделать на базе этих методов что-то практическое - результат сильно разочарует.

Есть ряд очевидных ограничений, почему LSI в чистом виде не может применяться поисковиками.

Во-первых, необходимость жестко задавать количество тем - а это в масштабах поисковой системы попросту невозможно - темы практически безграничны и ежедневно появляются новые. Суть алгоритма LSI вкратце: исходно есть матрица слово-документ в масштабах корпуса, LSI её сжимает по количеству документов до жестко зашитого числа документов, которые обзывает темами. DSSM это тоже по сути сжатие с потерями, но оно сохраняет больше информации за счет наличия нелинейных связей. Связи, выдаваемые LSI, получаются всегда линейны. И никакой магии - LSI не в состоянии определить реальное количество тем в корпусе - можно лишь прогнать алгоритм с несколькими жестко заданными значениями и попытаться выбрать наилучшую модель исходя из каких-то метрик качества.

Во-вторых, в любом маломальски крупном тексте упоминается множество разных тем, даже в рамках одного абзаца. А ранжировать на соответствие запросу нужно целые документы.

И наконец, метод очень вычислительно тяжелый. Сложность пропорциональна квадрату количества документов в степени количества тем. Для масштаба веб-корпуса не применимо в принципе. Зато в различных публикациях на искусственных корпусах в десяток тыщ документов считаются и хвастают, как обгоняют по качеству bm25. Кроме того, авторы этих работ редко берут веб-корпус, обычно ограничиваются литературными документами. Особенность веб-корпусов - не всегда правильно с точки зрения языка строятся фразы, и не всегда можно правильно извлечь абзацы (пример - карточки товара, там нет абзацев как таковых), да еще и спамный контент может подпортить всю статистику.

Про RTFM посмешило, учитывая что поисковики не особо где разглашают внутренние детали реализации своих алгоритмов. Но совет дельный, если применять его к тем, кто употребляет аббревиатуру LSI не к месту :)

Говоря о понимании поисковиком смысла, надо сначала договориться об определениях. Навскидку, чтобы роботу понять смысл фразы "салоны красоты рядом", вычисленная модель LSI или даже DSSM для этого будет бесполезна - нужен переколдунщик, который оттригерится на слово "рядом" в запросе, возьмет регион выдачи, услугу и поищет организации в базе знаний, в том же яндекс.справочнике или на картах.

Пожалуй, главный претендент в номинации пост года на Серче.

1

VK приобрела 70% в структуре компании-разработчика red_mad_robot

Все что нужно знать о DDоS-атаках грамотному менеджеру