Lsi: зачем и почему

donc
На сайте с 16.01.2007
Offline
663
#51
Сергей Нижегородцев:
Лично я пишу такие тексты, пользуясь лишь интуицией и опытом своим и конкурентов.

Да мы видели уже твои тексты. Узбагойся. Уж не знаю, чем ты их пишешь, но как напишешь - трогаешь ушами. Достаточно они горячие, или нет.

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )
Devvver
На сайте с 02.07.2008
Offline
662
#52
timo-71:
Для Яндекса цифры 2000 достаточно чтобы значимость в топе темы "осень в нью-йорке" усилилась для запроса про шарлотту и уилла. Если, конечно, нет чего-то того, что я не учел. В сниппете 2000 не видать, опять же.

В моем скриншоте в первых 2 позициях есть 2000 и в сниппете и в титле.

Не забывайте что Яндекс мог использовать умножающие коэффициенты для отдельных источников. Например для Википедии как для авторитетного источника.

В видео о ранжировании упоминаются кликовые факторы и удовлетворенность текстом.

Мой блог. Все о создании сайтов,Seo и СДЛ ( https://devvver.ru/ ) Мой SEO телеграм канал https://t.me/seobloggers
T7
На сайте с 19.09.2018
Offline
63
#53
Devvver:
В моем скриншоте в первых 2 позициях есть 2000 и в сниппете и в титле.
Не забывайте что Яндекс мог использовать умножающие коэффициенты для отдельных источников. Например для Википедии как для авторитетного источника.
В видео о ранжировании упоминаются кликовые факторы и удовлетворенность текстом.

В вашем скрине, про кино только кинопоиск и вики справа, еще осень в нью-йорке упоминается как песня. Но, не настаиваю про сниппет. Я не сеошник. Отметил лишь факт что 2000 четко акцентирует тему "осень в нью-йорке", а без 2000, первые 3 страницы выдачи не содержат осень по cntrl-f

Так что цифры оставлю пока☝

Devvver
На сайте с 02.07.2008
Offline
662
#54
timo-71:
Я не сеошник

Я вам о том, что другие факторы могут влиять. Не только LSI.

Кстати по запросу шарлотта уилл фильм есть.

http://picplus.ru/img/1910/05/5ddcd1fa.png

И в подсказках 2000 тоже.

так что имхо - тут пересечение 2 понятий и Яндекс не знает что конкретно вам нужно и выдает 1 из понятий. Поэтому кликовые факторы в топе начинают рулить и пересиливают LSI

Может спектр срабатывать https://yandex.ru/blog/company/32028

«Спектр» умеет использовать данные из справочников и энциклопедий – в том числе из Википедии. Это помогает распознавать недавно появившиеся объекты, узнавать, какие значения объектов не укладываются ни в одну из существующих категорий, и добавлять новые.
[Удален]
#55
timo-71:
Отсюда и вопрос к сообществу - цифры в корпусе "убрать нельзя оставить", где поставить запятую?

а это запросозависимый фактор, есть куча запросов, которые без цифр будут неполные

timo-71:
Зачем? Какой то урл долго в топе?

не, это особенности системы, заточенной на поиск значимых изменений, т.е. переписывать часть обработчика просто лень

Cuys
На сайте с 05.12.2016
Offline
195
#56

Заканчивался 2019 год.. А разговоры всё про LSI.

miha4udin
На сайте с 27.10.2018
Offline
8
#57

Если получается вставить lsi в тексты без ущерба читаемости и смыслу, то почему бы и нет

T7
На сайте с 19.09.2018
Offline
63
#58
burunduk:
а это запросозависимый фактор, есть куча запросов, которые без цифр будут неполные

Беда в том, что сразу не понять:( Много шума от них. Для своих нужд принял решение цифры оставить, но фильтровать. Как на уровне парсера хтмл, так и другими методами.

burunduk:
не, это особенности системы, заточенной на поиск значимых изменений, т.е. переписывать часть обработчика просто лень

С другой стороны, их может и можно отдельно проанализировать. Ну, чтобы понять за счет чего они тут. Типа 2гис, а там... И, в итоге, исключить тех кто не достоин быть в топе по тексту. Короче, методику надо.

Про изменения важно на самом деле, типа когда все пересчитать. Спасибо за наводку.

alaev
На сайте с 18.11.2010
Offline
693
#59
Сергей Нижегородцев:
Из крайности в крайность. Кто-то вообще не верит в эффективность ЛСИ, а кто-то верит в них до самозабвения и типа знает все параметры идеального текста. Механистический подход тоже туповат. Лично я пишу такие тексты, пользуясь лишь интуицией и опытом своим и конкурентов. Не применяю ни одного сервиса для анализа текстов. А тексты от копирайтеров проверяю лишь на здравый смысл и уникальность в Яндексе.

Кто-то просто не в курсе, что в Яндексе рулит ПФ и умение его накручивать.

Это и есть реализация старой байки Яндекса про картошку на марсе, когда ПФ настолько переоценен, что фактически без вхождения ключей текст становится релевантным.

Все эти истории про чудо-копирайт - прошлый век. Тебе даже могут выкинуть сайт из топа путем накрутки отказов, а Платон скажет: "так не бывает, мы все учли, все предусмотрели".

---------- Добавлено 06.10.2019 в 00:03 ----------

miha4udin:
Если получается вставить lsi в тексты без ущерба читаемости и смыслу, то почему бы и нет

Раньше такими методиками накачивали "релевантность" страницы, но люди как не читали эти тексты, так и не читают.

Сегодня это не работает. Яндекс отдал приоритет в оценке для ПФ. Я говорю о коммерческих сайтах.

Текст дает результат в первичной оценке документа.

Создание и продвижение сайтов - https://alaev.net , аудиты сайтов, контекстная реклама
T7
На сайте с 19.09.2018
Offline
63
#60

Вообще, конечно gensim пушка.

Что известно:

Запрос "шина nokian nordman 175 70 r14";

Топ20 Яндекса.

Ответ в н-раммах. Больше во вложении.

[('nokian_шина', 121.03604096752892),

('nokian_nordman', 92.53252877327878),
('nordman_sx', 40.662454067075835),
('зимний_шина', 33.50702178650591),
('диск_шина', 28.009722415062864),
('легковой_шина', 28.009722415062864),
('nokian_nordman_sx_шина', 25.414033791922396),
('летний_шина', 24.185662496717313),
('nokian_nordman_шина', 19.401981839558452),
('автомобильный_шина', 19.391346287351215),
('купить_шина', 19.155270066072582),
('зимний_шиповать', 18.847699754909573),
('качество_соотношение_цена', 18.49635303877127),
('соотношение_цена', 18.49635303877127),
('nokian_резина', 17.751952675237575),
('nokian_nordman_шина_шип', 16.417061556549463),
('nordman_шип', 16.417061556549463),
('зимний_резина', 15.903417392949137),
('интернет_магазин', 15.38824439328674),
('получение_товар', 15.061724842672314),
('отличный_резина', 13.915490218830495),
('nokian_nordman_летний_шина', 13.302114373194524),
('nordman_xl', 12.049024177230285),
('nokian_nordman_зимний_шина', 11.939681132035972),
('управляемость_хороший', 11.771353930087644),
('доступный_цена', 11.560220649232045),
('балашиха_мо', 11.146053943565045),
('зимний_купить', 10.314376189423697),
('nokian_nordman_sx', 10.165613516768959),

Алгоритм, кол-во н-грамм в корпусе на вес слова в топике lsi модели, если он больше трети от максимума.

уупс, цифры из корпуса удалены

t = ' '.join(simple_preprocess(t.strip()))

Это без цифр, хотя в запросе они есть. Потом с цифрами сделаю. Сравним.

zip 187013.zip

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий