- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу
Переиграть и победить: как анализировать конкурентов для продвижения сайта
С помощью Ahrefs
Александр Шестаков
VK приобрела 70% в структуре компании-разработчика red_mad_robot
Которая участвовала в создании RuStore
Оксана Мамчуева
Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий
Этот сервис помогает найти LSI n-граммы для составления ТЗ копирайтеру.
Для поиска можно использовать как одну ключевую фразу, так и целый кластер.
Можно поставить галочку "анализировать самые свежие тексты", чтобы получить только новые LSI.
Результаты можно выгружать в csv.
Сам инструмент: https://artur2k.ru/tools/poisk-lsi/
Спасибо! Отличный сервис, понравился однозначно.
Приятно слышать!
Инструменты постоянно совершенствую и добавляю новые - уникальные, если будут какие-то предложения по доработки существующих или данного - пишите, возможно реализую!
В закладки добавлено, пригодится. Хороший инструмент! Спасибо.
Добавил колонки "Популярность слов" и "Популярность фраз" в процентах.
Роль LSI фраз велика, так как с помощью них поисковые системы понимают смысл вашего текста. Можно конечно использовать Подсказки Яндекса и Google. Или парасинг подсветок от Арсенкина подключить. Хотя Яндекс частично отключил подсветку. В остальном понравилось, спасибо, так легче писать. Использовать LSI важно, так как смысловое соответствие важно когда классифицируешь документ.
Хороший текст должен иметь не только ключевой запрос по которому продвигается статья, но и те ключи которые семантически будут связываться с основными запросами.
Роль LSI фраз велика, так как с помощью них поисковые системы понимают смысл вашего текста.
Да ладно? А вот тут один из разработчиков поиска утверждает, что LSI не применим на практике 🤣 https://youtu.be/QkUmCnDe3xI?t=1715
И LSI это уж точно не про "смысл" текста.
вот тут один из разработчиков поиска утверждает, что LSI не применим на практике
Я вижу тут некоторый бандл проблем и вопросов
1. Александр Сафронов - не разработчик, а "руководитель службы релевантности и лингвистики" (надо ли пояснять, что это две большие разницы)
2. Он высказывает свое личное частное мнение, а не официальную позицию компании
3. Это видео - от июня 17 года, после которого нас уже накрыло и Королевым, и (особенно) Андромедой, так что как минимум - информация устаревшая на пару алгоритмов
4. В этом фрагменте он говорит про БМ25, который несколько иная песня, чем LSI
LSI это уж точно не про "смысл" текста
Нет, как раз про него (+- лапоть)
RTFM, dude
Я вижу тут некоторый бандл проблем и вопросов
Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.
1. Александр Сафронов - не разработчик, а "руководитель службы релевантности и лингвистики" (надо ли пояснять, что это две большие разницы)
https://moikrug.ru/alsafr вот тут подробная инфа из первых рук - он уже 9,5 лет уже как разработчик только в этом направлении, а сейчас еще и совмещает это с руководительской должностью.
Тут вопрос в том, что вы понимаете под этим. Если спеца, который непосредственно реализует (на C/C++) просчёт факторов ранжирования или хранение поискового индекса (что близко к специальности data engineer), то его в первую очередь интересует производительность, ресурсоемкость и отказоустойчивость поискового движка, а не влияние ранжирующих факторов факторов на качество выдачи. А вот руководитель такой службы вполне может играть роль data scientist, который формирует гипотезы и дает техзадание своим подчиненным, и он же в итоге принимает решение, какой алгоритм выкинуть в помойку, а какой выкатить в прод. Data scientist всегда ближе к разработчику. Уж точно, это не менеджер, который не разбирается в матчасти, а только рисует диаграммы Ганта и считает KPI.
2. Он высказывает свое личное частное мнение, а не официальную позицию компании
Но источник всё равно более авторитетный, чем статьи сомнительных авторов из SEO комьюнити, называющих вещи не своими именами.
3. Это видео - от июня 17 года, после которого нас уже накрыло и Королевым, и (особенно) Андромедой, так что как минимум - информация устаревшая на пару алгоритмов
4. В этом фрагменте он говорит про БМ25, который несколько иная песня, чем LSI
Нет, как раз про него (+- лапоть)
RTFM, dude
В видео упоминается Палех, и кроме того, на следующем же слайде, среди "работающих" методов идет DSSM, лежащий в основе как Палеха, так и Королева. Королёв, как известно, это почти Палех, только расширенный с тайтла+заголовков на весь текст документа, и вычисляемый теперь не в рантайме, а фоново при индексировании. Андромеда вообще никак не соотносится с текстовой релевантностью, это просто маркетинговое название для нескольких фич (значки для сайтов, быстрые ответы и т.п.). Если прослушать еще дальше - там будет как раз про выделение "значимых" для ранжирования слов, но не по LSI, а по поведенческим факторам (больший вес словам, которые присутствуют на страницах с лучшим CTR в выдаче - положительная обратная связь, по факту).
Поисковые алгоритмы - это не то, что делается и выкатывается за короткий срок - это могут быть годы экспериментов и поиска рабочего решения. Вот маркетинговые названия очередным алгоритмам могут придумать достаточно быстро - сегодня Королёв, завтра какой-нибудь Циолковский.
BM25 там употребляется в контексте того, что авторы всех этих чудо-алгоритмов в своих академических работах любят сравнивать с ним результаты, полученные этими алгоритмами. Т.е. типа "наша модель работает лучше, чем BM25, на столько-то процентов". Но на практике ничего из этого не используется в реальных системах. Тоже самое можно сказать про кучу простых ML-алгоритмов, таких как k-means, decision trees, svm - всё это хорошо для обучения начинающих DS, работает на специально отобранных датасетах, а стоит только попытаться сделать на базе этих методов что-то практическое - результат сильно разочарует.
Есть ряд очевидных ограничений, почему LSI в чистом виде не может применяться поисковиками.
Во-первых, необходимость жестко задавать количество тем - а это в масштабах поисковой системы попросту невозможно - темы практически безграничны и ежедневно появляются новые. Суть алгоритма LSI вкратце: исходно есть матрица слово-документ в масштабах корпуса, LSI её сжимает по количеству документов до жестко зашитого числа документов, которые обзывает темами. DSSM это тоже по сути сжатие с потерями, но оно сохраняет больше информации за счет наличия нелинейных связей. Связи, выдаваемые LSI, получаются всегда линейны. И никакой магии - LSI не в состоянии определить реальное количество тем в корпусе - можно лишь прогнать алгоритм с несколькими жестко заданными значениями и попытаться выбрать наилучшую модель исходя из каких-то метрик качества.
Во-вторых, в любом маломальски крупном тексте упоминается множество разных тем, даже в рамках одного абзаца. А ранжировать на соответствие запросу нужно целые документы.
И наконец, метод очень вычислительно тяжелый. Сложность пропорциональна квадрату количества документов в степени количества тем. Для масштаба веб-корпуса не применимо в принципе. Зато в различных публикациях на искусственных корпусах в десяток тыщ документов считаются и хвастают, как обгоняют по качеству bm25. Кроме того, авторы этих работ редко берут веб-корпус, обычно ограничиваются литературными документами. Особенность веб-корпусов - не всегда правильно с точки зрения языка строятся фразы, и не всегда можно правильно извлечь абзацы (пример - карточки товара, там нет абзацев как таковых), да еще и спамный контент может подпортить всю статистику.
Про RTFM посмешило, учитывая что поисковики не особо где разглашают внутренние детали реализации своих алгоритмов. Но совет дельный, если применять его к тем, кто употребляет аббревиатуру LSI не к месту :)
Говоря о понимании поисковиком смысла, надо сначала договориться об определениях. Навскидку, чтобы роботу понять смысл фразы "салоны красоты рядом", вычисленная модель LSI или даже DSSM для этого будет бесполезна - нужен переколдунщик, который оттригерится на слово "рядом" в запросе, возьмет регион выдачи, услугу и поищет организации в базе знаний, в том же яндекс.справочнике или на картах.
Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.
В целом согласен, мой инструмент вместе с LSI выдаёт и синонимы и DSSM, и даже может разбавить всё это фразами из документов многорукого бандита, но уже с гораздо более низким показателем популярности.
Следовательно если человек, а не машина пишет текст, то эти слова могут помочь ему усилить релевантность документа, т.к. они уже выбраны самим Яндексом как релевантные и тематические.
Самый главный из них - что подразумевает большинство сеошников под LSI. То, что предлагается на практике, совершенно таковым не является. Это всё равно, что называть системник процессором.
https://moikrug.ru/alsafr вот тут подробная инфа из первых рук - он уже 9,5 лет уже как разработчик только в этом направлении, а сейчас еще и совмещает это с руководительской должностью.
Тут вопрос в том, что вы понимаете под этим. Если спеца, который непосредственно реализует (на C/C++) просчёт факторов ранжирования или хранение поискового индекса (что близко к специальности data engineer), то его в первую очередь интересует производительность, ресурсоемкость и отказоустойчивость поискового движка, а не влияние ранжирующих факторов факторов на качество выдачи. А вот руководитель такой службы вполне может играть роль data scientist, который формирует гипотезы и дает техзадание своим подчиненным, и он же в итоге принимает решение, какой алгоритм выкинуть в помойку, а какой выкатить в прод. Data scientist всегда ближе к разработчику. Уж точно, это не менеджер, который не разбирается в матчасти, а только рисует диаграммы Ганта и считает KPI.
Но источник всё равно более авторитетный, чем статьи сомнительных авторов из SEO комьюнити, называющих вещи не своими именами.
В видео упоминается Палех, и кроме того, на следующем же слайде, среди "работающих" методов идет DSSM, лежащий в основе как Палеха, так и Королева. Королёв, как известно, это почти Палех, только расширенный с тайтла+заголовков на весь текст документа, и вычисляемый теперь не в рантайме, а фоново при индексировании. Андромеда вообще никак не соотносится с текстовой релевантностью, это просто маркетинговое название для нескольких фич (значки для сайтов, быстрые ответы и т.п.). Если прослушать еще дальше - там будет как раз про выделение "значимых" для ранжирования слов, но не по LSI, а по поведенческим факторам (больший вес словам, которые присутствуют на страницах с лучшим CTR в выдаче - положительная обратная связь, по факту).
Поисковые алгоритмы - это не то, что делается и выкатывается за короткий срок - это могут быть годы экспериментов и поиска рабочего решения. Вот маркетинговые названия очередным алгоритмам могут придумать достаточно быстро - сегодня Королёв, завтра какой-нибудь Циолковский.
BM25 там употребляется в контексте того, что авторы всех этих чудо-алгоритмов в своих академических работах любят сравнивать с ним результаты, полученные этими алгоритмами. Т.е. типа "наша модель работает лучше, чем BM25, на столько-то процентов". Но на практике ничего из этого не используется в реальных системах. Тоже самое можно сказать про кучу простых ML-алгоритмов, таких как k-means, decision trees, svm - всё это хорошо для обучения начинающих DS, работает на специально отобранных датасетах, а стоит только попытаться сделать на базе этих методов что-то практическое - результат сильно разочарует.
Есть ряд очевидных ограничений, почему LSI в чистом виде не может применяться поисковиками.
Во-первых, необходимость жестко задавать количество тем - а это в масштабах поисковой системы попросту невозможно - темы практически безграничны и ежедневно появляются новые. Суть алгоритма LSI вкратце: исходно есть матрица слово-документ в масштабах корпуса, LSI её сжимает по количеству документов до жестко зашитого числа документов, которые обзывает темами. DSSM это тоже по сути сжатие с потерями, но оно сохраняет больше информации за счет наличия нелинейных связей. Связи, выдаваемые LSI, получаются всегда линейны. И никакой магии - LSI не в состоянии определить реальное количество тем в корпусе - можно лишь прогнать алгоритм с несколькими жестко заданными значениями и попытаться выбрать наилучшую модель исходя из каких-то метрик качества.
Во-вторых, в любом маломальски крупном тексте упоминается множество разных тем, даже в рамках одного абзаца. А ранжировать на соответствие запросу нужно целые документы.
И наконец, метод очень вычислительно тяжелый. Сложность пропорциональна квадрату количества документов в степени количества тем. Для масштаба веб-корпуса не применимо в принципе. Зато в различных публикациях на искусственных корпусах в десяток тыщ документов считаются и хвастают, как обгоняют по качеству bm25. Кроме того, авторы этих работ редко берут веб-корпус, обычно ограничиваются литературными документами. Особенность веб-корпусов - не всегда правильно с точки зрения языка строятся фразы, и не всегда можно правильно извлечь абзацы (пример - карточки товара, там нет абзацев как таковых), да еще и спамный контент может подпортить всю статистику.
Про RTFM посмешило, учитывая что поисковики не особо где разглашают внутренние детали реализации своих алгоритмов. Но совет дельный, если применять его к тем, кто употребляет аббревиатуру LSI не к месту :)
Говоря о понимании поисковиком смысла, надо сначала договориться об определениях. Навскидку, чтобы роботу понять смысл фразы "салоны красоты рядом", вычисленная модель LSI или даже DSSM для этого будет бесполезна - нужен переколдунщик, который оттригерится на слово "рядом" в запросе, возьмет регион выдачи, услугу и поищет организации в базе знаний, в том же яндекс.справочнике или на картах.
Пожалуй, главный претендент в номинации пост года на Серче.