Попробуйте собрать по запросу все термины, без которых тема раскрыта не полно - Общие вопросы оптимизации

El_grapaduro · 2018-05-31T13:39:33.0000000Z

Есть проги бесплатные, но они по одному ключу делают. Я хочу большую пачку прогнать, но не знаю как. Может есть сервисы?

686

donc

6 июня 2018, 04:27

#61

Miha Kuzmin (KMY):
Конечно есть, прогер только нужен. Тоже мне бином ньютона.

У меня тоже есть, и прогер то там не особо нужен, просто интересно что скажет купечество. А то оно шибко умное.

SmileP:
Не быстрое, но кардинальное- разные сайты под Яндекс и под Гугл.

Это дорогое удовольствие, задача ограничена бюджетом.

---------- Добавлено 06.06.2018 в 07:33 ----------

Cepreu:
Специалист, который не понимает, что LSI - единственный, в общем и целом, способ для робота связать кучу непонятных ему слов в один общий смысл - это плохой специалист, имхо. А который ничего не может объяснить при этом - подавно))

Это кто у нас тут чего не понимает? сейчас мы его на партсобрание вызовем, пропесочим и вкатаем выговор!

Про LSI нубы начали нести свет в массы только после конфы яндекса, как некое сакральное знание. До нее они про это и знать не знали.

Продвижение сайтов от 25 000 в мес, прозрачно, надежно https://searchengines.guru/ru/forum/818412 , но не быстро, отзывы

Webgarden (Украинская биржа вечных Вот так трафик из Вяло рыдал - получи

315

El_grapaduro

6 июня 2018, 08:29

#62

Если в сео хорошие результаты, то какая разница зубрил ты или опирался на многолетний опыт. Это все не важно.

Важно только то, что мы не знаем, как парсить всю эту историю для большого объема и это печально.

Приговор Ходорковскому и Лебедеву Кто-нибудь еще использует PHP Двигаю сайт уже 5

C

12

Cepreu

6 июня 2018, 12:45

#63

burunduk:
вообще-то, не единственный и не самый простой ;)

можно понять о чём текст имея только 1 текст, а не целый корпус обработанных текстов в обучающей выборке, причём чем больше текст тем точнее его разбор ;)

Каким образом? Я знаком в общих чертах с принципом работы нейросетей, и вы, думаю, тоже. Самообучение требует большого разнообразия данных, согласны? Как человек поймет, о чем книга, если она будет на клингонском, а он, к тому же, никогда ничего до этого не читал? Все познается в сравнении.

Я считаю, что LSI очень сильно влияет на выдачу. Конечно, оно не решает, потому что есть заголовки, ссылки и т.д.(тоже тематику задают), но релевантность самого контента - это его заслуга, и только его. Никаким другим способом, кроме как путем построения терм-документной матрицы, невозможно точнее определить тематическую принадлежность текста. Разве что на кофейной гуще погадать )

Ну это опять таки всего лишь мое скромное мнение. Если у кого-то есть конструктивное опровержение, с удовольствием выслушаю 🍿

Зачем текст рядом с Прогноз бюджета в Яндекс.Маркет Консультирую копирайтеров: «Работайте эффективно!»

[Удален]

6 июня 2018, 13:20

#64

Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано

а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)

P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1

составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте

+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию

1

Уникальность контента Признаки похожести Можно ли продвигаться без

88

Samba1982

6 июня 2018, 13:56

#65

burunduk:
Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано
а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)

P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1
составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте
+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию

Это верно, я так и делал, только еще подсчитывал общее количество слов из текстов всего топа - картинка получается еще интересней, а если провести данные манипуляции с гуглом и майлом например и сравнить все три результата - то картинка вообще очень интересная !!!

Интересный вопрос по ключевым Любые манипуляции с текстом, Официальные поведенческие факторы Яндекса

88

Samba1982

6 июня 2018, 20:25

#66

Ну что могу добавить, LSI работает - только нужно уметь пользоваться !! Вчера проверил позиции по экспериментальной статье которую описывал в этой теме, сегодня тоже проверил - статья заняла второе место по высокочастотному запросу после википедии обойдя такие сайты как fb.ru, syl.ru (про персональную выдачу знаю - ее нет). Что сказать, есть мысль по поводу разработки софта для LSI. Кстати добавлю момент - статья держится особняком - она абсолютно не в тему основного сайта на котором расположена - и это ей не мешает висеть в топе !!! (интересный факт)

1

Сколько должно пройти апов Гугл обновление поискового алгоритма Разные титле и заголовки

MK

126

Marat_Kh

8 июня 2018, 18:57

#67

Подниму тему:)

burunduk:
для им самым популярным будет руб - по любому запросу

Ну да, а в этом топике на 1 странице: kuzmin kmy и miha kuzmin 😂

[Интро]
Так чта, может быть, скоро без упоминания miha kuzmin вы в топ по "Как массово собрать LSI ключи" не войдете. (TOP1 Ya - /ru/forum/993454 )
Но нет, внутренний голос подозревает, что если искать "Как массово собрать LSI ключи miha kuzmin" никто не будет, не парьтесь😂
[/Интро]

Array (

     => /ru/forum/993454

    ....

)

Array (

    [wc] => 847

    [bigram] => Array

        (

            [kuzmin_kmy] => Array

                (

                    [stem] => kuzmin kmy

                    [cnt] => 16

                    [var] => Array

                        (

                            [0] => kuzmin kmy

                            .....

                        )

                )

            [miha_kuzmin] => Array

                (

                    [stem] => miha kuzmin

                    [cnt] => 16

                    [var] => Array

                        (

                            [0] => miha kuzmin

                            .....

                        )

                )

            [lsi_klyuch] => Array

                (

                    [stem] => lsi ключ

                    [cnt] => 12

                    [var] => Array

                        (

                            [0] => lsi ключи

                            .....

                        )

                )

            [mass_sobr] => Array

                (

                    [stem] => масс собр

                    [cnt] => 12

                    [var] => Array

                        (

                            [0] => массово собрать

                            .....

                        )

                )

            [sobr_lsi] => Array

                (

                    [stem] => собр lsi

                    [cnt] => 12

                    [var] => Array

                        (

                            [0] => собрать lsi

                            .....

                        )



                )

...........

Или так:


Array (

     => https://www.reg.ru/domain/new/

    ....

)

Array (

    [wc] => 4860

    [bigram] => Array

        (

            [podrobn_zon] => Array

                (

                    [stem] => подробн зон

                    [cnt] => 828

                    [var] => Array

                        (

                            [0] => подробнее зоне

                            ....еще 827...

                        )

                )

             ....1005000...                            

            [domen_zaregistrir] => Array

                (

                    [stem] => домен зарегистрир

                    [cnt] => 2

                    [var] => Array

                        (

                            [0] => домены зарегистрировать

                            [1] => доменов зарегистрировать

                        )



                )                

           ....еще 1005000...

Поэтому, сравнение с одним документом лишено смысла. Тут или 0-х граммы пресекающиеся по документам топа, или взятые из корпуса слов, например ТОП 10/20/30, обработанные как то вместе в вордстатом и еще чем то *. Но и тут, искусственного интеллекта ждать не приходится. "10 первых по частотности" не катит. Море мусора и на 121 месте и по логике, и вордстату вполне себе "термин, без которого тема раскрыта не полно"🍿

Таким образом задача - убрать мусор и не пропустить нужный термин.

руб руб :)

Может, эта, просто цифры из текста не удалять☝

тогда получится "250 руб", "руб 350", "350 руб" и в частотные не попадут. Да и КАМАЗ 6520 не потеряется...

* А может и в комплексе со словами:

[c] => Array

        (

            [зон] => 842

            [подробн] => 828

            [com] => 116

            [756] => 102

            [199] => 98

            [net] => 82

            [org] => 67

            [домен] => 67

            [912] => 63

            [idn] => 57

            [646] => 37

            [097] => 29

            [195] => 22

            [сайт] => 21

            [207] => 21

            [reg] => 20

            [487] => 19

            [292] => 18

            [хостинг] => 17

            [услуг] => 17

            [radio] => 16

            [доменн] => 14

            [ssl] => 13

            [icon] => 12

            [549] => 11

            [biz] => 11

            ..........

Это для https://www.reg.ru/domain/new/ Прям, сейчас. Завтра может быть по другому. Отсюда идея - 5 разных вариантов и тем, что есть везде, как то вес увеличить.

нет

Вопрос к вебмастерам и Интро на сайте и Новая страница плохо ищется

[Удален]

9 июня 2018, 02:32

#68

Marat_Kh, вы ошиблись и не внимательно прочитали что я написал ;)

1.

kuzmin kmy
собрать lsi
подробн зон
....

таких биграм м быть не должно - это так сразу на скидку ;)

2.

Marat_Kh:
Поэтому, сравнение с одним документом лишено смысла

а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)

Marat_Kh:
Может, эта, просто цифры из текста не удалять

надо - выдача по цифрам строиться на других принципах

очень показательна выдача по номерам телефонов/гостам

Опрос о коде телефона! Какой движок ИМ для Разминка для мозгов! Отгадайте,

ST

3

seo_trade

9 июня 2018, 07:07

#69

burunduk:

таких биграм м быть не должно - это так сразу на скидку ;)

вы имеете ввиду нужно анализировать буквенные n-граммы ?

MK

126

Marat_Kh

9 июня 2018, 09:13

#70

burunduk:
таких биграм м быть не должно - это так сразу на скидку ;)

Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен. По результату анализа документа с этого форума "посмотреть профиль|найти сообщения|регистрация:([0-9\. ]+)" и т.д. добавлены в stopwords_pattern

burunduk:

а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)

Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно". Задача понять о чем документ, остро пока не стоит. Да и судя по ответам, всех интересует как, на запрос "слоны", получить внятный план:

Раскрой "ТТХ слонов", "отзывы о слонах", "фото слонов", "розовые, зеленые, красные слоны", "цены на слоны", "классификацию бивней", "цветовую гамму ушей", "размер яиц хобота", "мамонты волосатые". И будет тебе счастье:) Желательно с численными характеристиками для справки: "мамонты волосатые" частота (%/абс): мин/мах/средн по топ-х и т.д.

burunduk:

>>Может, эта, просто цифры из текста не удалять
надо - выдача по цифрам строиться на других принципах
очень показательна выдача по номерам телефонов/гостам

А, как, например, с такими запросами:

Вместе с «маз 6422» ищут:
маз 6430, маз 5432, маз 6303, маз-5516, камаз 5410, маз 5440, маз-6440, камаз 54115, маз 5551, маз-500

И, да, тогда миритесь с руб руб

Я почему сюда влез? Некоторые моменты еще непонятны😕

Пока, имею:

1. Ключи. Например:


id	parent	bigramm	keyword	word_cnt	freq	sfreq	up

kamaz_65206	65206_kamaz	65206_kamaz,kamaz_65206	камаз 65206	2	1781	357	2018-06-05 09:38:06

kamaz_65206_sedelnyj_tyagach	65206_kamaz_sedelnyj_tyagach	65206_kamaz,kamaz_65206,kamaz_sedeln,sedeln_tyagach,kamaz_tyagach	камаз 65206 седельный тягач	4	139	17	2018-06-05 09:38:06

.....100500....

опять цифры в биграммах🙄 Алгоритм немного другой "все-со-всеми"

2. Топ по ключу (яХмл) с аналогично обработанными данными - ровно тот же алгоритм обрабатывающий документы кушает сниппеты. + подсветки, какие есть.

3. Данные по документам топ-х (пример куска данных в сообщении)

4. Корпус всех слов документов ТОП-х

По п.3 смотрим пересечение по запросу => список, который обрабатывается совместно с п.1 => результат

другой вариант:

По п.4 список, который обрабатывается совместно с п.1 => результат (чаще, чуть шире чем по предыдущему варианту)

Но, понятно, что по п.1 не все запросы есть. Поэтому, если ручками перебираешь, не фильтрованные данные, например корпуса слов документов ТОП-20, чаще всего хочется включить и "это", и это тоже вроде "катит" :( А надо максимум

Отсюда вопросы:)

1. пересечение в документах по запросу в топ или из корпуса всех слов топа?

2. был бы признателен за ссылки на разного рода списки стоп-слов/фраз/регулярок

3. вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)

Lsi: зачем и почему Textmania - инструменты для Тошнота не текста а

Дзен реализовал для авторов возможность вывода денег через СПБ

Все что нужно знать о DDоS-атаках грамотному менеджеру

Как массово собрать LSI ключи?