Автоматизация LSI анализа ТОПа выдачи (скрипт/программа)

big boy
На сайте с 18.11.2006
Offline
307
5114

Назрела необходимость софта, который автоматизировал бы анализ топа по заданным ключевым фразам для определения корреляций и часто встречающихся слов в текстах, относящихся к тематике.

Примерно так это должно выглядеть:

- вбиваем ключевик

- программа парсит топ 10.. 20... 30 выдачи гугла и яши (миинус стоп домены, например youtube)

- собирает статистику по всем используемым словам в текстах (минус стоп слова)

- анализирует и составляет список наиболее часто используемых слов (приоритет: слова, которые используются на максимальном количестве сайтов)

- анализ целевой страницы сайта (или текста) и определение какие еще слова не были вписаны (сравнение с конкурентами)

В списке слов не обязательно должны быть слова, которые встречаются часто в текстах. Скорее наиболее частые совпадения слов на разных сайтах. Это разные вещи.

Дополнительно:

- автоматический парсинг Spywords - вхождение ключевых слов на целевые страницы конкурентов; автоматически (поиск по ключу в сервисе), фактический топ или по заданным урлам

Грубый пример

Ключевик: поезд

Возможные корреляции: состав, рельсы, пути, машинист, железная дорога, станция, вокзал, шпалы, электричка, расписание, билет, путешествие, пассажир, тамбур и тд

Что-то вроде словаря ассоциаций, но с уклоном в нишу. По одному запросу "поезд" можно написать про путешествия или ремонт и обслуживание поездов и в каждой из этих тем будут использоваться характерные для неё слова.

Что я хочу: собрать людей, заинтересованных в автоматизации сего процесса, скинуться баблом и заказать софт.

Почему не хочу заказать один? Всё просто - группой можно сделать больше, будут появляться правильные идеи.

А может, озвучив такую тему, дам идею кому-нибудь создать софт (или сервис) который я (и не только я один) с радостью буду использовать. Или владелец уже существующего решения добавит описанные здесь фичи.

Кей коллектор - это хорошо, но он не даёт собрать именно корреляции слов по ключевику.

Прошу прощения, если сумбурно объяснил. Немного больше технической и теоретической информации можно прочитать по ссылкам:

http://habrahabr.ru/post/110078/

http://seoprofy.ua/blog/wiki/what-is-lsi-keywords

http://www.toboom.name/2013/07/LSI-content.html

Или попробуйте объяснить мне почему я придумал ересь и мне стоит убиться головой об какой-нибудь более твердый предмет.

✔ Google spam update убил сайты? Что делать - https://webmasta.ru/blog/google-october-2022-spam-brain-update
S
На сайте с 05.01.2013
Offline
40
#1
big boy:

Примерно так это должно выглядеть:
- вбиваем ключевик
- программа парсит топ 10.. 20... 30 выдачи гугла и яши (миинус стоп домены, например youtube)
- собирает статистику по всем используемым словам в текстах (минус стоп слова)
- анализирует и составляет список наиболее часто используемых слов (приоритет: слова, которые используются на максимальном количестве сайтов)
- анализ целевой страницы сайта (или текста) и определение какие еще слова не были вписаны (сравнение с конкурентами)

я пишу сейчас свой парсер выдачи, в течении месяца намерен выпустить на бета тестирование скромное пока ядро, и то, о чем вы говорите - вполне укладывается в мои скрипты. Но! Прежде чем бросаться в бой, давайте проясним (все таки изложение да, немного сумбурное получилось:)

Я правильно понимаю, механика следующая:

берем ключевик (множество ключевиков)

парсим по ним ТОПХ

парсим контент страниц ТОПа

составляем частотный словарь

... вот здесь вопрос - дальше что? Т.е. полученный словарь имеет ценность сам по себе или же его надо готовить дальше?

MIND
На сайте с 08.03.2007
Offline
238
#2

big boy, не сориентируем по срокам, но, возможно, скоро в КК будет :).

Key Collector - автоматизированная система анализа семантического ядра (/ru/forum/863504)
big boy
На сайте с 18.11.2006
Offline
307
#3
seogearbox:
Прежде чем бросаться в бой, давайте проясним (все таки изложение да, немного сумбурное получилось:)
Я правильно понимаю, механика следующая:
берем ключевик (множество ключевиков)
парсим по ним ТОПХ
парсим контент страниц ТОПа
составляем частотный словарь
... вот здесь вопрос - дальше что? Т.е. полученный словарь имеет ценность сам по себе или же его надо готовить дальше?

Этот "словарь" имеет рекомендательный характер для копирайтера при написании текста - слова, употребление которых крайне желательно в тексте. Они не относятся напрямую к ключам, но вкупе с ними сыграют очень хорошую роль, во-первых, увеличив длинный хвост НЧ запросов, во-вторых, повысив релевантность страницы.

Нужно понимать, что получаемый список - не анализ частотности. Может быть какое-то слово используется лишь 1 раз, но является сугубо тематическим и за счет этого обеспечивает топ по какому-то пулу запросов. Вдобавок, в данный словарь не должны входить сами вбиваемые ключи.

Очень хорошо разжевали про LSI копирайтинг в texterra, но, как говорится, это уже другая история - http://texterra.ru/blog/lsi-kopirayting-trend-blizhayshego-vremeni.html

MIND:
big boy, не сориентируем по срокам, но, возможно, скоро в КК будет :).

А вот за это спасибо! Кто если не вы! 😂 А парсинг Spywords так же будет доработан? А то он в рекомендациях своих выдаёт ерунду полнейшую. Нужен парсинг именно целевых страниц конкурентов.

Буду с нетерпением ждать.

MIND
На сайте с 08.03.2007
Offline
238
#4
А вот за это спасибо! Кто если не вы!

Спасибо по не за что говорить. Это не мешает Вам параллельную разработку вести :).

NF
На сайте с 15.06.2007
Offline
73
#5
big boy:
Назрела необходимость софта, который автоматизировал бы анализ топа по заданным ключевым фразам для определения корреляций и часто встречающихся слов в текстах, относящихся к тематике.

Попробуй бету сервиса, который я разрабатываю - очень похоже на то, что описано (демо результата анализа топ по ключу).

NT
На сайте с 06.08.2011
Offline
71
#6

big boy, что-то такое http://arsenkin.ru/tools/sp/? кроме подсветок собирает слова задающие тематику.

big boy
На сайте с 18.11.2006
Offline
307
#7
net-free:
Попробуй бету сервиса, который я разрабатываю - очень похоже на то, что описано (демо результата анализа топ по ключу).

Не совсем то, но сервис интересный. Немного доработать и будет гуд. ИМХО в текущих реалиях подсчет точных вхождений можно не учитывать.

npocToNIK:
big boy, что-то такое http://arsenkin.ru/tools/sp/? кроме подсветок собирает слова задающие тематику.

А вот это гораздо ближе к теме и очень практично - подсветки так же очень важны. Еще бы добавить парсинг и анализ контента.

SEMparser
На сайте с 29.09.2014
Offline
61
#8

Для анализа топа по заданным ключевым фразам для определения корреляций и часто встречающихся слов в текстах, относящихся к тематике можете попробовать наш сервис. Можно загрузить 50 запросов бесплатно сразу же после регистрации.

Сервис

Пример работы (видео)

Тема на серче

Функционал:

  • Автоматическая группировка семантического ядра на основе выдачи Яндекс и Google (любые регионы)
  • Интерфейс для структуризации и корректировки полученной разбивки с многоступенчатыми фильтрами групп
  • Получение параметров текстов самых видимых документов для запросов/групп (пересекающиеся часто встречаемые слова, % вхождений, размер текста и т.д.)
  • Проверка текста на соответствие запросу/группе запросов (выделяет нерелевантные слова и воду)
  • Выявление сайтов с лучшей видимостью по загруженным запросам
  • Функционал изменения "силы группировки"
  • Выявление лидеров для каждой группы
  • Просмотр лидеров по каждому запросу
  • Определение отключения ссылочного для Яндекса (московская выдача)
  • Определение геозависимости по ПС Яндекс (данные из выдачи, достоверность 100%)
  • Определение степени "коммерческости" запроса
  • Парсинг всей подсветки Яндекса по каждому запросу
  • Просмотр подсветки для всей группы (за вычетом дублей)
  • Определение релевантных страниц на вашем сайте для каждого запроса
  • Определение релевантных страниц на вашем сайте для каждой группы
  • Выгрузка всех данных в Excel
SEMparser (http://semparser.ru) - автоматическая группировка запросов, ТЗ копирайтеру, анализ релевантности текстов, парсинг подсветки, определение "коммерческости", лидеров тематики, геозависимости и релевантных страниц.
irbs
На сайте с 23.01.2012
Offline
72
#9
J4
На сайте с 21.05.2009
Offline
99
#10

https://just-magic.org/doc/aqua_gen.php - по-моему(судя по верхнему ответу не только по-моему) то, что вам нужно!

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий