Как массово собрать LSI ключи?

[Удален]
#71
Marat_Kh:
Почему? "Служебные области" документа? Может и не должно, но Яндекс вполне себе ищет по "подробн зон" анализируемый документ (картинко-скрин). С тем, что мусор из текста удалять надо качественнЕй, вполне согласен

я же говорю не разобрались в том что я написал :)

приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем)

использовать лучше именно текст, а не служебные фрагменты

маз 6422 это немного другое, в данном случае это стоит рассматривать как одно слово ;)

просто по запросу 6422 можно получить кучу эпиляторов и это будет зависеть от истории пользователя/рекламы и пр.

Marat_Kh:
Судя по всему у нас разные задачи. У меня такая - собрать по запросу все (максимум) "термины, без которых тема раскрыта не полно".

вы пытаетесь пойти в лоб решая задачу и поэтому возникает ошибка в логике, а именно:

"термины, без которых тема раскрыта не полно" - миф это ни как не повлияет на ранжирование документа, в существующих реалиях, подобное позволяет документу попасть в выборку для ранжирования и всё именно эту задачу можно решать с помощью LSI

но не забывайте, что расширяя таким образом документ вы теряете в релевантности + у подобного документа будет больше конкурентов ;)

если внимательно посмотреть на выдачу, то вы обнаружите, что каждый документ предлагает решение задачи пользователя по своему - повторов практически нет (за редким исключением и по запросам не допускающим иного толкования)

сравни выдачу по 2 запросам эпилятор филипс 6422 и эпилятор филипс 6422 купить в москве

Marat_Kh:
1. пересечение в документах по запросу в топ или из корпуса всех слов топа?

бесполезное занятие, по большому спектру запросов, кроме слов самого запроса пересечений в документах практически не будет (тематика одежда)

неплохие словари есть http://www.ruscorpora.ru/

учитывать стоит не только биграммы

P.S. я как-то приводил график текстового анализа топа по запросу, правда тогда не описывал методику сам запрос и что находится по осям, повторю его с небольшими комментариями

запрос: мужская одежда

не подписанная ось это искусственно придуманные параметры типа, отношение количество существительных из запроса в полных триграммах к количеству прилагательных в полных биграммах (это полный бред, но для набора большого количества параметров годиться) или просто частота триплета (3 подряд идущие буквы)

*полная биграмма, при обработке текста не значимые фрагменты удаляются (устоявшиеся выражения, обороты, цифры (если их нет в запросе), остаётся пустое место они и попадают в биграммы

[Удален]
#72

burunduk, а можно покороче, ибо даже я тя не понял (точнее понял, но частично - вот это яндекс точно отфильтрует)))))

[Удален]
#73

Miha Kuzmin (KMY), ну если совсем коротко, то LSI ключи не являются обязательным условием для попадания в топ

MK
На сайте с 18.08.2005
Offline
126
#74
burunduk:
я же говорю не разобрались в том что я написал :)
приведите полученный и n-грамы к начальным словоформам и посчитайте их частотность(без учёта порядка лем)

Вначале, приведение к начальным словоформам делал посредством словарей http://opencorpora.org/?page=downloads или апи , но по результатам экспериментов (не все слова есть или апи через пень колоду) остановился на простом стеммере. MyStem есть в планах. Но, пока группировка словоформ меня в общем и целом устраивает. Тут, главное, одинаковым алгоритмом нормализовать "ключи", н-граммы ТОПа и сниппеты яХМЛ (пока не используются, но есть идея вес терминов, если они в сниппете увеличивать).

Осознаю, что при

[sobr_lsi] => Array          (

[stem] => собр lsi
[cnt] => 12
[var] => Array (
[0] => собрать lsi
.....
)
)

возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi, одновременно с высокой частотностью (cnt) в документе, урл которого получен из топа по запросу "Как массово собрать LSI ключи". Но, все равно спасибо.

burunduk:
без учёта порядка лем

Для "ключевиков" это у меня есть, "без учёта порядка лем" достигается простой сортировкой "камаз 65206" => parent = 65206_kamaz (видно в примере бд). Грубо, из базы ключевиков будут вынуты (если, там 2 записи как в вышестоящем сообщении) ид биграмм:

65206_kamaz, kamaz_65206, kamaz_sedeln, sedeln_tyagach, kamaz_tyagach, tyagach_kamaz. По факту, обычно (сильно больше 2-х записей в базе), идешек биграмм может быть тысячи. Кстати, видно, что данные "просто по запросу 6422" не нашумят.

Для н-грамм документов, вероятно, стоит делать также ☝ Только в массивчик "65206_kamaz" добавить частоты "65206_kamaz" и "kamaz_65206". И в этом случае не надо в таблице ключей хранить "каждый к каждому". Тем, не менее скептично настроен, к тому, что это позволит решить проблему левых, но высокочастотных в документе н-грамм:(

Так или иначе, пока, приоритет - копать сюда:

вес биграммы для запроса = F(частота/s?freq в списке ключей, частота в сниппетах yaXML по запросу, пересечение в документах по запросу в топ, что то еще)

Ибо, просто Х-первых по частотности не дает приемлемых для меня результатов.

burunduk:

использовать лучше именно текст, а не служебные фрагменты

Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи. Работает ведь как, взяли топ-20 и следующим шагом - контент всех 20 урлов домой на обработку. + 100% уверенности, что нужен только контент статьи нет. Да и многие документы не имеют статьи как таковой.

burunduk:

"термины, без которых тема раскрыта не полно" - миф это ни как не повлияет на ранжирование документа, в существующих реалиях, подобное позволяет документу попасть в выборку для ранжирования и всё именно эту задачу можно решать с помощью LSI но не забывайте, что расширяя таким образом документ вы теряете в релевантности + у подобного документа будет больше конкурентов ;)

Тут могут быть разные взгляды, могу лишь сказать, собственноручно проведенный эксперимент убедил меня, что рациональное зерно есть. Когда-то, когда они были не только лишь город +, подсветки пособирал немного. Потом нашел эту базу, + разные акварели и т.п. сервисы. Скорректировал выкачанными из топ-20 и ручками, в соответствии с обычной житейской логикой, отфильтрованными терминами (1,2,3 - граммы). Результат порадовал. На домене была заглушка пару лет, потом вордпресс, пяток статей и ТОП-3 по ключу, стоимость которого чаще с 3 нулями, чем с 2-мя, 30-50 переходов в сутки. Понятно, что разные факторы ведут к топу, но, имхо, контент по-делу один из них. + Обилие а-ля фб в топах, не все из которых на доменах с супер ПФ и ссылочным. Да и выше в топике говорят, что

LSI работает - только нужно уметь пользоваться !!

Посему, задача - научиться пользоваться в промышленных масштабах.

burunduk:

бесполезное занятие, по большому спектру запросов, кроме слов самого запроса пересечений в документах практически не будет (тематика одежда)

Тоже, имхо, двояко. Те, темы (не одежда), которые смотрел, там можно что то накопать. А так время покажет, есть ли в этой идее что то интересное:)

burunduk:

неплохие словари есть http://www.ruscorpora.ru/

Спасибо!!! Кое что уже взял. + представляет интерес corpora-freq.html

burunduk:

учитывать стоит не только биграммы

Я много данных собираю. Но, еще до конца не осмыслил как их прикрутить для пользы дела😕

Кому как, по мне так, конструктивно получилось - несколько идей есть🍻

нет
[Удален]
#75
Marat_Kh:
MyStem есть в планах

очень удобно, но желательно добавлять свои словари

Marat_Kh:
возможна конкуренция каких то других "собр", но думаю невероятно, что это будет вместе c lsi

смотрите немного шире через слово/через2...

Marat_Kh:
И в этом случае не надо в таблице ключей хранить "каждый к каждому"

зависит от задачи, если потом оценивать корректность, то надо (сам с этим столкнулся, обратное преобразование для тз) как раз корректность исходной n-граммы можно использовать для корректировки её веса

купить белое платье - 1

белое платье купить - 1

платье купить белое - 0,8

итого получаем частота 3 вес не 1, а 0,93

белый купить платье

Marat_Kh:
Пока, есть некоторые сложности с корректным определением текста статьи на документе из выдачи.

надо брать именно весь текстовый контент - с этим у всех проблема, хорошего парсера html пока вроде нет, регулярно в текст влезают артефакты html кода, особенно по низко конкурентным запросам или за пределами топ 20

Marat_Kh:
Посему, задача - научиться пользоваться в промышленных масштабах.

плохо получается :(

MK
На сайте с 18.08.2005
Offline
126
#76
burunduk:
плохо получается :(

Сложности есть. Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата. Врукопашную добавлять для каждого запроса муторно. Все остальное более менее автоматизированно, а тут затык.

Вместе с «утеплить дом» ищут:
услуги тепловизора
утепление пенополиуретаном
утепление
пенополиуретан
утеплить фасад
ппу
утепление ппу
утеплить пенополиуретаном

Не всегда выборка ид биграмм из моей базы ключей, например по запросу "утеплить дом", дойдет до тепловизора или ппу:(

overnight
На сайте с 23.05.2008
Offline
262
#77

Какое-то сборище задротов, уже 8 лет как сделали себе сервис: http://stxt.ru/

И благополучно пользуемся. А тут что-то вдруг стали обсуждать. :D

[Удален]
#78

overnight, он криво работает, более того, он не понимает о чём текст ;)

Распознана тематика (5 наиболее соответствующих тексту): «просто не знаю» , «просто жить» , «просто смотреть» , «не хочется жить» , «это о»
Индекс тематичности: 9,02*. Прогноз посещаемости из поисковых систем по низкочастотным запросам: 36 в месяц.
Распознанные ключи
в о что это, жить надо проще, как жить проще, к о это, о что это, просто буду жить проще, просто жить, просто надо жить, просто не знаю, просто хочется жить, с о это, так хочется жить, ты знаешь так хочется жить, это о, я просто смотрю
Анализируемый текст (2 848 знаков без пробелов)
MK
На сайте с 18.08.2005
Offline
126
#79
И благополучно пользуемся

И дальше пользуйтесь, тем что никому тут не надо😂 Тут не про то как вставить статью в форму и узнать тематику (криво кстати) и выдернуть и нее ключи (тоже криво). А про то, как на нужный ключ подобрать "термины, которые наиболее полно раскроют тему". Причем, сделать это быстро, массово и дешево.

El_grapaduro
На сайте с 01.09.2008
Offline
287
#80
Marat_Kh:
Одна из - не могу найти сервис с апи возвращающий "вместе с **** ищут", ну или "Запросы, похожие на ****" вордстата.

ya-bot.net дает по апи запросы, но не из вордстата, а которые в поиске внизу выводятся - "так же ищут"

Бесплатный курс по SEO продвижению и аудиту сайтов ( http://webimho.ru/topic/11569/ )

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий