Как массово собрать LSI ключи?

donc
На сайте с 16.01.2007
Offline
663
#61
Miha Kuzmin (KMY):
Конечно есть, прогер только нужен. Тоже мне бином ньютона.

У меня тоже есть, и прогер то там не особо нужен, просто интересно что скажет купечество. А то оно шибко умное.

SmileP:
Не быстрое, но кардинальное- разные сайты под Яндекс и под Гугл.

Это дорогое удовольствие, задача ограничена бюджетом.

---------- Добавлено 06.06.2018 в 07:33 ----------

Cepreu:
Специалист, который не понимает, что LSI - единственный, в общем и целом, способ для робота связать кучу непонятных ему слов в один общий смысл - это плохой специалист, имхо. А который ничего не может объяснить при этом - подавно))

Это кто у нас тут чего не понимает? сейчас мы его на партсобрание вызовем, пропесочим и вкатаем выговор!

Про LSI нубы начали нести свет в массы только после конфы яндекса, как некое сакральное знание. До нее они про это и знать не знали.

Осуждаем применение нейросетей в SEO и не только ( https://webimho.ru/forum/148/ ) :) Продвижение сайтов от 25 000 в мес, прозрачно, надежно ( /ru/forum/818412 ), но не быстро, отзывы ( http://webimho.ru/topic/3225/ )
El_grapaduro
На сайте с 01.09.2008
Offline
288
#62

Если в сео хорошие результаты, то какая разница зубрил ты или опирался на многолетний опыт. Это все не важно.

Важно только то, что мы не знаем, как парсить всю эту историю для большого объема и это печально.

Бесплатный курс по SEO продвижению и аудиту сайтов (http://webimho.ru/topic/11569/) Лучший Anti-DDos хостинг в Европе за 10 евро в год. (https://ru.alexhost.md/) icq: 394375320
C
На сайте с 26.05.2018
Offline
12
#63
burunduk:
вообще-то, не единственный и не самый простой ;)

можно понять о чём текст имея только 1 текст, а не целый корпус обработанных текстов в обучающей выборке, причём чем больше текст тем точнее его разбор ;)

Каким образом? Я знаком в общих чертах с принципом работы нейросетей, и вы, думаю, тоже. Самообучение требует большого разнообразия данных, согласны? Как человек поймет, о чем книга, если она будет на клингонском, а он, к тому же, никогда ничего до этого не читал? Все познается в сравнении.

Я считаю, что LSI очень сильно влияет на выдачу. Конечно, оно не решает, потому что есть заголовки, ссылки и т.д.(тоже тематику задают), но релевантность самого контента - это его заслуга, и только его. Никаким другим способом, кроме как путем построения терм-документной матрицы, невозможно точнее определить тематическую принадлежность текста. Разве что на кофейной гуще погадать )

Ну это опять таки всего лишь мое скромное мнение. Если у кого-то есть конструктивное опровержение, с удовольствием выслушаю 🍿

[Удален]
#64

Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано

а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)

P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1

составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте

+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию

Samba1982
На сайте с 29.04.2013
Offline
88
#65
burunduk:
Cepreu, способов много, LSI используется для более широкой выборки документов из базы для их последующего ранжирования - это как раз оправдано
а вот прямой цели ранжировать документы по смыслу нет, да и не требуется этого ;)

P.S. возьмите любой текст, разбейте его на шинглы длиной количество слов в запросе +1
составьте биграмы/триграмы/ методом каждый с каждым из слов шингла, приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем) - топ 10 частотностей даст вам полное представление о тексте
+ при сравнении разных текстов таким способом можно получить достаточно интересную информацию

Это верно, я так и делал, только еще подсчитывал общее количество слов из текстов всего топа - картинка получается еще интересней, а если провести данные манипуляции с гуглом и майлом например и сравнить все три результата - то картинка вообще очень интересная !!!

Samba1982
На сайте с 29.04.2013
Offline
88
#66

Ну что могу добавить, LSI работает - только нужно уметь пользоваться !! Вчера проверил позиции по экспериментальной статье которую описывал в этой теме, сегодня тоже проверил - статья заняла второе место по высокочастотному запросу после википедии обойдя такие сайты как fb.ru, syl.ru (про персональную выдачу знаю - ее нет). Что сказать, есть мысль по поводу разработки софта для LSI. Кстати добавлю момент - статья держится особняком - она абсолютно не в тему основного сайта на котором расположена - и это ей не мешает висеть в топе !!! (интересный факт)

MK
На сайте с 18.08.2005
Offline
126
#67

Подниму тему:)

burunduk:
для им самым популярным будет руб - по любому запросу

Ну да, а в этом топике на 1 странице: kuzmin kmy и miha kuzmin 😂

[Интро]
Так чта, может быть, скоро без упоминания miha kuzmin вы в топ по "Как массово собрать LSI ключи" не войдете. (TOP1 Ya - /ru/forum/993454 )
Но нет, внутренний голос подозревает, что если искать "Как массово собрать LSI ключи miha kuzmin" никто не будет, не парьтесь😂
[/Интро]

Array (

=> /ru/forum/993454
....
)
Array (
[wc] => 847
[bigram] => Array
(
[kuzmin_kmy] => Array
(
[stem] => kuzmin kmy
[cnt] => 16
[var] => Array
(
[0] => kuzmin kmy
.....
)
)
[miha_kuzmin] => Array
(
[stem] => miha kuzmin
[cnt] => 16
[var] => Array
(
[0] => miha kuzmin
.....
)
)
[lsi_klyuch] => Array
(
[stem] => lsi ключ
[cnt] => 12
[var] => Array
(
[0] => lsi ключи
.....
)
)
[mass_sobr] => Array
(
[stem] => масс собр
[cnt] => 12
[var] => Array
(
[0] => массово собрать
.....
)
)
[sobr_lsi] => Array
(
[stem] => собр lsi
[cnt] => 12
[var] => Array
(
[0] => собрать lsi
.....
)

)
...........

Или так:


Array (
=> https://www.reg.ru/domain/new/
....
)
Array (
[wc] => 4860
[bigram] => Array
(
[podrobn_zon] => Array
(
[stem] => подробн зон
[cnt] => 828
[var] => Array
(
[0] => подробнее зоне
....еще 827...
)
)
....1005000...
[domen_zaregistrir] => Array
(
[stem] => домен зарегистрир
[cnt] => 2
[var] => Array
(
[0] => домены зарегистрировать
[1] => доменов зарегистрировать
)

)
....еще 1005000...

Поэтому, сравнение с одним документом лишено смысла. Тут или 0-х граммы пресекающиеся по документам топа, или взятые из корпуса слов, например ТОП 10/20/30, обработанные как то вместе в вордстатом и еще чем то *. Но и тут, искусственного интеллекта ждать не приходится. "10 первых по частотности" не катит. Море мусора и на 121 месте и по логике, и вордстату вполне себе "термин, без которого тема раскрыта не полно"🍿

Таким образом задача - убрать мусор и не пропустить нужный термин.

руб руб :)

Может, эта, просто цифры из текста не удалять☝

тогда получится "250 руб", "руб 350", "350 руб" и в частотные не попадут. Да и КАМАЗ 6520 не потеряется...

* А может и в комплексе со словами:

[c] => Array

(
[зон] => 842
[подробн] => 828
[com] => 116
[756] => 102
[199] => 98
[net] => 82
[org] => 67
[домен] => 67
[912] => 63
[idn] => 57
[646] => 37
[097] => 29
[195] => 22
[сайт] => 21
[207] => 21
[reg] => 20
[487] => 19
[292] => 18
[хостинг] => 17
[услуг] => 17
[radio] => 16
[доменн] => 14
[ssl] => 13
[icon] => 12
[549] => 11
[biz] => 11
..........

Это для https://www.reg.ru/domain/new/ Прям, сейчас. Завтра может быть по другому. Отсюда идея - 5 разных вариантов и тем, что есть везде, как то вес увеличить.

нет
[Удален]
#68

Marat_Kh, вы ошиблись и не внимательно прочитали что я написал ;)

1.


kuzmin kmy
собрать lsi
подробн зон
....

таких биграм м быть не должно - это так сразу на скидку ;)

2.

Marat_Kh:
Поэтому, сравнение с одним документом лишено смысла

а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)

Marat_Kh:
Может, эта, просто цифры из текста не удалять

надо - выдача по цифрам строиться на других принципах

очень показательна выдача по номерам телефонов/гостам

ST
На сайте с 09.06.2018
Offline
3
#69
burunduk:

таких биграм м быть не должно - это так сразу на скидку ;)

вы имеете ввиду нужно анализировать буквенные n-граммы ?

MK
На сайте с 18.08.2005
Offline
126
#70
burunduk:
таких биграм м быть не должно - это так сразу на скидку ;)

Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен. По результату анализа документа с этого форума "посмотреть профиль|найти сообщения|регистрация:([0-9\. ]+)" и т.д. добавлены в stopwords_pattern

burunduk:

а ни кто сравнивать документ сам с собой не предлагал - для понимания о чём текст достаточно одного документа, для этого не нужен корпус документов ;)

Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно". Задача понять о чем документ, остро пока не стоит. Да и судя по ответам, всех интересует как, на запрос "слоны", получить внятный план:

Раскрой "ТТХ слонов", "отзывы о слонах", "фото слонов", "розовые, зеленые, красные слоны", "цены на слоны", "классификацию бивней", "цветовую гамму ушей", "размер яиц хобота", "мамонты волосатые". И будет тебе счастье:) Желательно с численными характеристиками для справки: "мамонты волосатые" частота (%/абс): мин/мах/средн по топ-х и т.д.

burunduk:

>>Может, эта, просто цифры из текста не удалять
надо - выдача по цифрам строиться на других принципах
очень показательна выдача по номерам телефонов/гостам

А, как, например, с такими запросами:

Вместе с «маз 6422» ищут:
маз 6430, маз 5432, маз 6303, маз-5516, камаз 5410, маз 5440, маз-6440, камаз 54115, маз 5551, маз-500

И, да, тогда миритесь с руб руб

Я почему сюда влез? Некоторые моменты еще непонятны😕

Пока, имею:

1. Ключи. Например:


id parent bigramm keyword word_cnt freq sfreq up
kamaz_65206 65206_kamaz 65206_kamaz,kamaz_65206 камаз 65206 2 1781 357 2018-06-05 09:38:06
kamaz_65206_sedelnyj_tyagach 65206_kamaz_sedelnyj_tyagach 65206_kamaz,kamaz_65206,kamaz_sedeln,sedeln_tyagach,kamaz_tyagach камаз 65206 седельный тягач 4 139 17 2018-06-05 09:38:06
.....100500....

опять цифры в биграммах🙄 Алгоритм немного другой "все-со-всеми"

2. Топ по ключу (яХмл) с аналогично обработанными данными - ровно тот же алгоритм обрабатывающий документы кушает сниппеты. + подсветки, какие есть.

3. Данные по документам топ-х (пример куска данных в сообщении)

4. Корпус всех слов документов ТОП-х

По п.3 смотрим пересечение по запросу => список, который обрабатывается совместно с п.1 => результат

другой вариант:

По п.4 список, который обрабатывается совместно с п.1 => результат (чаще, чуть шире чем по предыдущему варианту)

Но, понятно, что по п.1 не все запросы есть. Поэтому, если ручками перебираешь, не фильтрованные данные, например корпуса слов документов ТОП-20, чаще всего хочется включить и "это", и это тоже вроде "катит" :( А надо максимум

Отсюда вопросы:)

1. пересечение в документах по запросу в топ или из корпуса всех слов топа?

2. был бы признателен за ссылки на разного рода списки стоп-слов/фраз/регулярок

3. вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий