- Поисковые системы
- Практика оптимизации
- Трафик для сайтов
- Монетизация сайтов
- Сайтостроение
- Социальный Маркетинг
- Общение профессионалов
- Биржа и продажа
- Финансовые объявления
- Работа на постоянной основе
- Сайты - покупка, продажа
- Соцсети: страницы, группы, приложения
- Сайты без доменов
- Трафик, тизерная и баннерная реклама
- Продажа, оценка, регистрация доменов
- Ссылки - обмен, покупка, продажа
- Программы и скрипты
- Размещение статей
- Инфопродукты
- Прочие цифровые товары
- Работа и услуги для вебмастера
- Оптимизация, продвижение и аудит
- Ведение рекламных кампаний
- Услуги в области SMM
- Программирование
- Администрирование серверов и сайтов
- Прокси, ВПН, анонимайзеры, IP
- Платное обучение, вебинары
- Регистрация в каталогах
- Копирайтинг, переводы
- Дизайн
- Usability: консультации и аудит
- Изготовление сайтов
- Наполнение сайтов
- Прочие услуги
- Не про работу

В 2023 году 36,9% всех DDoS-атак пришлось на сферу финансов
А 24,9% – на сегмент электронной коммерции
Оксана Мамчуева

Все что нужно знать о DDоS-атаках грамотному менеджеру
И как реагировать на "пожар", когда неизвестно, где хранятся "огнетушители
Антон Никонов
осень в нью-йорке
то что по это у Я есть только один вариант - когда берем эту фразу - и ручками помечаем что это название фильма ... а потом производим перетрубас...
любой другой адекватный вариант ранжирования должен был бы дать выдачу - текста про осень в городе нью йорk -
- что лишний раз доказывает что никакого LSI нет и никогда не было!
---------- Добавлено 01.10.2019 в 04:08 ----------
строит текстовый корпус и получает lsi/lda
ясно.
тогда будем делать как она сказала -чтобы продвинуть запрос создание сайтов бум писать про артатого...
Ваш сайт я и не знаю.
Смысл моей глупой проги?
Во первых, не моей. <class 'gensim.models.lsimodel.LsiModel'> можно загуглить. Моя прога лишь берет топ Я-хмл по определенному запросу, парсит контент с этих урлов и с помощью gensim строит текстовый корпус и получает lsi/lda
Дело вообще не в проге. Любой, кто может парсер Я-хмл сделать и ему дать загуглить gensim напишет это за несколько часов.
----
зы
вот это, например
определено по запросу "Создание сайтов в Воронеже"
Так давай, сделай красиво. Докажи, что это тема хороша. У тебя уже есть окружение слов "осень" - вперёд. Пишешь какую-нибудь статью, впендюриваешь в неё все эти напарсенные слова - и ты король. :)
строит текстовый корпус и получает lsi/lda
ИМХО, это на дорах гонять. Чтобы с лету ПС не банили при автозамене слов на нужные.
буду признателен за идеи и критику со стороны гуру seo. А надо ли?
Не претендую на "гуру", но пока этот список слов из ваших моделей выглядит очень бесполезно, применительно к SEO-копирайтингу. Гораздо лучшего эффекта можно добиться простым подсчетом пересечений каждого слова между различными документами из топа и дальнейшей ручной отбраковкой неподходящих слов.
Применение LSI в том виде, в котором оно у вас, навскидку, такое - можно определять неоднозначные запросы, попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.
timo-71, это все давно используется на практике. Но помните, что поисковые системы не используют конкретно LSI.
попробуйте на примере топов по запросам в яндексе "цезарь" или "наполеон" разбить пространство прямой линией на два класса - назовем их условно "кулинария" и "история". Если получится, значит есть-таки полезный кейс у "настоящего" LSI.
Это без проблем. Каждая строчка - тема, количество которых задается lsi_model = gensim.models.LsiModel(corpus=corpus, id2word=dct, num_topics=14) при построении модели
цезарь салат
0.651*"салат" + 0.409*"цезарь" + 0.200*"рецепт" + 0.189*"масло" + 0.157*"курица" + 0.148*"соус" + 0.134*"гр" + 0.125*"чеснок" + 0.122*"оливковый" + 0.121*"куриный"
0.672*"гр" + 0.449*"шт" + 0.249*"ст" + -0.119*"салат" + -0.108*"рецепт" + -0.104*"нарезать" + 0.103*"зубчик" + -0.099*"сухарик" + -0.092*"соус" + 0.086*"чеснок"
-0.349*"цезарь" + 0.272*"нарезать" + -0.270*"салат" + 0.203*"масло" + 0.203*"соус" + 0.184*"добавлять" + 0.172*"минута" + 0.169*"ложка" + 0.151*"курица" + 0.145*"кусочек"
-0.700*"конкурс" + -0.248*"спецпроект" + -0.240*"блюдо" + -0.189*"рецепт" + -0.140*"мультиварка" + 0.133*"масло" + -0.129*"гр" + -0.094*"поединок" + -0.087*"время" + -0.085*"шт"
-0.338*"конкурс" + 0.283*"рецепт" + 0.279*"шаг" + -0.230*"масло" + 0.149*"пошаговый" + 0.143*"домашний" + 0.139*"соус" + 0.133*"приготовление" + 0.131*"условие" + 0.126*"вкусный"
0.219*"соус" + -0.212*"цезарь" + -0.209*"ложка" + 0.167*"куриный" + 0.162*"сыр" + -0.157*"гр" + 0.156*"чеснок" + -0.148*"простой" + 0.145*"шаг" + 0.142*"масло"
0.254*"классический" + 0.190*"простой" + 0.183*"хлеб" + -0.181*"ложка" + 0.157*"вариант" + 0.153*"мясо" + 0.148*"выкладывать" + 0.144*"блюдо" + -0.141*"шаг" + 0.135*"поджаривать"
0.245*"вкус" + -0.231*"соус" + 0.187*"помыть" + 0.185*"перец" + 0.185*"соль" + -0.179*"цезарь" + 0.177*"салат" + 0.175*"специя" + -0.168*"курица" + -0.146*"ложка"
0.222*"вариант" + 0.213*"получаться" + -0.190*"курица" + -0.158*"рецепт" + 0.145*"вкус" + 0.138*"грудка" + 0.127*"использовать" + 0.126*"приготовление" + 0.122*"вустерский" + 0.119*"куриный"
-0.345*"курица" + -0.277*"сухарик" + 0.264*"цезарь" + -0.237*"крабовый" + -0.174*"классический" + 0.172*"блюдо" + -0.138*"палочка" + -0.130*"сыр" + -0.128*"салат" + 0.127*"приготавливать"
0.268*"тесто" + 0.198*"перец" + 0.163*"черный" + 0.156*"красный" + 0.150*"фото" + -0.149*"сыр" + 0.139*"пошаговый" + 0.133*"яйцо" + -0.131*"нарезать" + -0.122*"креветка"
0.338*"рецепт" + -0.220*"креветка" + -0.194*"вкусный" + 0.147*"простой" + -0.143*"menu" + 0.141*"знаменитый" + -0.140*"домашний" + -0.138*"продукт" + 0.124*"популярный" + 0.119*"оливковый"
0.215*"соус" + 0.214*"айсберг" + -0.184*"классический" + -0.163*"вкусный" + -0.128*"майонез" + 0.127*"класть" + -0.127*"соль" + -0.124*"простой" + 0.116*"хлеб" + -0.116*"добавлять"
0.216*"сухарик" + 0.194*"сыр" + -0.162*"яйцо" + 0.158*"цезарь" + -0.133*"очень" + 0.129*"дуэль" + -0.128*"ингредиент" + -0.119*"оливковый" + -0.119*"класть" + 0.112*"соус"
timo-71, вы понимаете, что они вас не понимают? просто интересно... Вы, если, хотите разобраться конкретно с LSI, то не обращайте внимание на контент содержащий вместе слова LSI и копирайтинг. Получается разговор слепого с глухим.
В контексте Серча, предлагаемое вами решение не нужно, его нельзя применить в оптимизации и в заказе текстов — слишком мелко. Кроме того, я вам намекал, что в методе сбора может быть ошибка, т.к. СЕРП не однороден по ранжированию и попытка проиндексировать интент через представление в СЕРПе может дать размытый результат.
ищите форум лингвистов, там вас поймут.
вы понимаете, что они вас не понимают?
Ну почему? Понимаем. Не понятно что хочет ТС на выходе.
Наверное хочет написать очень подробное ТЗ дешевому копирайтеру, вместо того, чтобы дать тему хорошему и более дорогому.
Наверное хочет написать
Нет. Он заморочился на том, что парсит СЕРП по запросу и индексирует его, полученные в результате индексы (не стоит воспринимать их как слова) он предлагает к применению, например для самостоятельного "сглаживания" границ между семантическими полями, за счет неявных/интентных синонимов.
Сам метод LSA/LSI используется для индексации вычищенных корпусов и для их последующего сопоставления по вероятному смыслу, это "шестеренка" огромной статистической машины, которая даже в ПС не используется в силу ресурсозатратности.
Тем не менее базовые методики расчета можно использовать для ограниченного объема семантики, например для 1000 документов СЕРПа ПС. К моменту нахождения интента, документы уже будут отранжированы по BM25 и это сильно сэкономит "электричество" Это пробовали в Палехе и это не заработало, многие из вас помнят.
Теперь к этой мульке привязывают только усредненные данные (Королев), а не суть-тексты, из-за этого началась путаница между непопаданием в семантическое поле запроса и ограничением в ранжировании из-за "переоптимизации"; Тулзы а-ля Арсенкин, как раз помогают посчитать вероятность того и другого.
Все! Как либо влиять на эту хрень из под парсинга выдачи невозможно ибо для этого нужно попасть в этот СЕРП, а тогда теряется смысл. Единственное для чего можно ее применить на уровне SEO, это, например рассчитать облако интентов одной конкретной коллекции сайтов, для создания собственного.
Например берем запрос, берем историю выдачи до ТОП-100, за пару лет, берем массив хостов и считаем. В последствии, при кластеризации это может сильно пригодиться для прототипирования поведения пользователя, например в ИМ если бюджеты позволяют думать о тестировании трафика))) Сама Тулза выйдет тоже не бесплатной по ресурсам так что он-лайн ждать ее не приходится.
Терминологическая проблема в том, что первый абзац определения LSI продали вместо ссылочного на взлете Минусинска, а разбираться никто не стал... или не смог, но это нормально.