Уникальная база ключей, 91 млн запросов из метрики, спая и подсказок

12
cheboor
На сайте с 13.12.2005
Offline
123
6938

Приветствую.

Раз уж нынче таков тренд, то и я предложу базу ключевых слов, построенную на основе спаршенных данных открытых счетчиков Яндекс.Метрики. Но у моей базы есть несколько, на мой взгляд, очень важных отличий:

  • Метрику насиловал не сильно – снял только те ключи, которые были видны в выборке «все переходы по ключам за последний год». Соответственно я снял сильно меньше ключей, чем ребята из соседних топиков. Но снят самый жир, в базе минимум запросов, которые в следующий раз спросят в следующем веке. Итак, 83 млн ключей из метрики.
  • Помимо метрики в базе все подсказки яндекса 2012 года. Если кто помнит, тогда подсказки были конечны, т.е. не генерировались на лету, а представляли собой четкий список наиболее популярных (или трендовых) запросов. Мой комплект подсказок – один из последних, они у меня снимались раз в месяц-два. 11 млн ключей из подсказок
  • Спайвордс и мегаиндекс. Не знаю, для каких целей базы ключей нужны вам, но я использую все это исключительно для составления семант ядер под контентники, поэтому анализ конкурентов у меня стоит во главе угла, поэтому спайвордс и мегаиндекс очень долго оставались основными инструментами. Их базы распаршены и 12 млн ключевых слов заброшены в мою версию.

И, самое главное отличие моей базы от остальных - всем ключам проверен вордстат. Вот только-только проверен, еще диски не остыли :)

Итак, если вам нужен самый сок, если вы не хотите промывать миллиарды ключей в поисках хоть как-то запрашиваемых – буду рад предложить хороший инструмент. Во всяком случае сам пользуюсь.

Для пущей классности я сделал страничку, где более подробно рассказал о базе, причинах и следствиях, загляните, ознакомьтесь

www.keysbase.ru

По заведенной традиции, у меня тоже ограниченная серия, будет продано только 30 копий, 2 из них уже нашли своих покупателей.

Итак:

  • Объем базы: 91 514 803 ключей, основная масса - открытые счетчики Яндекс.Метрика;
  • Цена базы: 10 000 рублей;
  • Будет продано: не более 30 копий;
  • Оплата: Webmoney (у меня персональный аттестат, BL 330+) или безналичный расчет для юрлиц (+10% - издержки на мороку с бумагами);
  • Никаких дополнительных эмиссий, если наивные мечты об ажиотажном спросе начнут сбываться - оставляю за собой право поднятия стоимости;
  • Вес базы: примерно 14 Gb в развернутом виде (для варианта в Firebird), 3 Gb в архиве;
  • Толковая оболочка для доступа к данным;
  • Вариант базы в формате Firebird (для работы через оболочку) и в формате текстового CSV файла (для любителей покопаться самостоятельно или использовать внешний софт); Покупатель может выбрать один или оба варианта, на цене это никак не отражается.
  • Отгрузка по HTTP в течение полутора суток с момента оплаты.

С радостью отвечу на все вопросы.

TF-Studio
На сайте с 17.08.2010
Offline
334
#1

можно стату интервальную?

по вордстату

(какой процент ключей в каждой группе)

примерно в таком диапазоне

0-10

10-30

30-100

100-500

500-1500

1500+

Чтобы оценить примерно

Всё ещё лучший способ заработка для белых сайтов: GoGetLinks (https://www.gogetlinks.net/?inv=fahbn8).
cheboor
На сайте с 13.12.2005
Offline
123
#2
TF-Studio:
можно стату интервальную?
примерно в таком диапазоне
0-10
10-30
30-100
100-500
500-1500
1500+
Чтобы оценить примерно

Разумеется, только я не в %%, а в абсолютах.

57 436 330 с частотностью <=10X;

9 068 838 с частотностью 10 <X<=30;

10 122 239 с частотностью 30<X<=100;

10 854 550 с частотностью 100<X<=500;

4 791 333 с частотностью 500<X<=1500;

6 274 933 с частотностью от 1500.

[Удален]
#3

будет ли обновляться база, если да, то как часто?

cheboor
На сайте с 13.12.2005
Offline
123
#4

Именно обновлений в привычном понимании этого слова (пополнения базы) не будет, но с вероятностью близкой к 100% для 32+ млн ключей (все, что имеет частотность от 30) будет снят "!вордстат", т.е. в кавычках и с восклицательным знаком. Плюс для тех же 32млн будет снято количество найденных яндексом документов.

Все купившие получат апдейт с этими данными (если их все же сниму, а вероятность этого очень и очень высока - данные нужны мне для личных нужд).

Почему не будет обновлений? А где их брать? Метрика счетчики закрыла, подсказки утратили смысл, спайвордс и прочие - тоже сомнительно. Вливать запросы из прямого эфира или из вордстата я определенно не буду, т.к. там слишком много мусора.

юни
На сайте с 01.11.2005
Offline
902
#5
cheboor:
А где их брать?

Ну, к примеру, у MOAB'а таких вопросов не возникает.

https://a-parser.com/ - парсер для профессионалов SEO, маркетологов, арбитражников и SaaS, https://searchengines.guru/ru/forum/944108 - прокси-сервис на базе операторов домашнего интернета, сотни тысяч IP-адресов, канал от 20 Мбит
cheboor
На сайте с 13.12.2005
Offline
123
#6
юни:
Ну, к примеру, у MOAB'а таких вопросов не возникает.

Юни, при всем уважении, Вы вот это прочитали?

cheboor:
Вливать запросы из прямого эфира или из вордстата я определенно не буду, т.к. там слишком много мусора.

Простой пример. Делаем сайт про напольные покрытия, придумали слово линолеум. Нам все же нужен трафик, а не просто набор ключей, поэтому ставим рамки (хоть и жутко широкие) - берем в работу только ключи с "!частотностью" от 10 (все что ниже, согласитесь, слабо пойдет для формата контентника, да и в коммерцию в целом тоже).

Есть база Пастухова, которая 1млрд примерно, есть моя - 90млн. Делаем выборку по запросу линолеум, из Пастухова получается порядка 80к ключей с вхождениями, у меня - 20к, мою можно отфильтровать по частотности (частотность есть для всех ключей и она адекватна). Фильтруем - берем в работу только те, что имеют обычную частотность от 10, остается 8к ключей. И первое (80к из Пастухова) и второе (8к из моей) загружаем в КейКоллектор, чекаем. Что мы получаем на выходе? 2.88к ключей при фильтре на "!частотность" от 10 в моей базе и 3,51к - в базе Пастухова.

Проверок ровно в 10 раз меньше, результат отличается на 18% (моя база "проигрывает"). Но есть одно но - в моей базе только один источник потенциального мусора - спайвордс (от него уникальных запросов - всего 6,8млн, остальное встречалось в метрике и саджестах) и его можно отфильтровать добавив параметр в запрос, все остальные ключи - это ключи, где были реальные переходы, а не "линолеум купить линолеум" или "руками линолеум уложить своими". Если поднять фильтры и оставлять не от "!">=10, а от 30, то моя база показывает 1224 ключа, база Пастухова - 1405 (разрыв сократился до 13% и сократится еще, если ужесточить условия).

Надо ли превращать текущую базу в очередное "все на свете"? У меня ответ однозначный - нет. Благо предложений "все на свете" море - Пастухов, МОАБ, bunyatov, Букварикс (кстати оч классные ребята). Я в своей базе считаю 60% запросов мусором. Вот реально, какой смысл в ключах, если базовая частотность у них ниже 30? Да, есть тематики уровня "купить электрический вилочный погрузчик" где каждый ключ, каждый показ на вес золота, но будем реалистами, почти весь наш реальный интерес простирается в других нишах. И я бы очень порадовался возможности покупки, например, МОАБа с пробитой частотностью, но проблема в том, что это невозможно. Ну или я просто не знаю способов снять частотность для 3.2млрд ключей, даже для 100млн ключей это была не самая простая задача.

Как то так.

юни
На сайте с 01.11.2005
Offline
902
#7
cheboor:
Вы вот это прочитали?

Ну, конечно. А Вы читали их тему?

Вопрос-то не в том, что в вордстате и пр. много мусора - вопрос именно в том, что у MOAB'а нет проблем с источниками и обновлениями. Во всяком случае, как они декларируют.

MB
На сайте с 20.12.2014
Offline
26
#8
юни:
Ну, конечно. А Вы читали их тему?

Вопрос-то не в том, что в вордстате и пр. много мусора - вопрос именно в том, что у MOAB'а нет проблем с источниками и обновлениями. Во всяком случае, как они декларируют.

Ну раз уж нас даже в соседних топиках обсуждают, то мы только недавно выкатили: /ru/forum/comment/13753101

Люди уже вовсю пользуются. Суммарно - 4,6 млрд, обновления 2 раза в месяц.

И это, собственно, только начало: количество регулярно обновляемых баз будет только расти.

Не хотелось бы раскрывать наших планов, но и то, что у нас уже есть, несопоставимо с любым из существующих сервисов/локальных баз.

cheboor
На сайте с 13.12.2005
Offline
123
#9

Вот я об этом и говорю, да, 1.4 млрд подсказок. Автогенеренных яндексом подсказок. По ту сторону браузера работает грубо говоря навороченный и подслащенный бигдатой аналог цепи Маркова, каждый раз считающий, что вероятность следующего слова в веденном тексте вот такая то, поэтому предложим ка мы это в подсказку. Вот смотрите, ценный ключ в подсказке http://clip2net.com/s/3iCtOyl

Предлагаю просто сделать в базе на 1.4 млрд, на 3.2 или там 8.45млрд ключей все ту же выборку - по слову линолеум. Если проэкстраполировать данные моей базы и базы Пастухова на объем в 1.4 млрд, то мы можно предположить, что найдется примерно 160-180к ключей с вхождением слова "линолеум". Что вы с ними делать будете? Вы их так же скормите в Кейколлектор или какой нить аналог, потратите больше аккаунтов директа и запросов на ********е, так же просеете и на выходе получите все те же 3к +- 15-20% ключей с "!частотностью" от 10. От того, что вы знаете больше ключей, в сети не стало больше людей, интересующихся линолеумом. Думаю, абсолютное большинство всех нужных ключей выловятся на базе уже в 20 млн. Да что там 20 - вон спайвордс какой бизнес поднял на базе в 12 млн из которых четверть не имеет частотности.

И конечно я не заставляю покупать мою базу или признавать ее исключительность, если считаете, что обновления для недоступного более источника данных нужны - ок, значит нам не по пути.

Просто есть данность - основная ценность в ключах из метрики, потому что это реальные переходы, потому что это реальные данные и более источник знаний о новых ключах по этому каналу недоступен. Метрика закрыла счетчики. У аналитикса эти данные никогда и небыли открыты, от лиру тоже толку немного, т.к. оба поисковика все шифруют. Как вы предлагаете обновлять данные о реальных переходах?

В МОАБе на мой взгляд так же ценность именно в метриковой части, я даже больше скажу, круто парни, выгрести столько - это действительно классно и если вы доделаете работу - снимете частотности например или каким то другим образом реализуете возможность определения популярности слова, то ваша база заиграет новыми красками.

seocore
На сайте с 25.09.2006
Offline
143
#10
cheboor:
Если проэкстраполировать данные моей базы и базы Пастухова на объем в 1.4 млрд, то мы можно предположить, что найдется примерно 160-180к ключей с вхождением слова "линолеум". Что вы с ними делать будете?

все логично, экономия времени - существенный плюс, а количество ключей в базе уже не столь важно, там хоть 1 млрд, хоть 10 млрд. реальная выборка для работы будет примерно схожа, в этом плане spywords и MOAB рулят, так как там нет этой "синтетики", а реальные ключи

еще вопрос в удобстве пользования базой, опять же все упирается во время, если мне понадобиться для моих задач 2 часа вместо 15 минут, то какая бы ни была классная база, уже возникнет вопрос в целесообразности пользования этим инструментом

и я бы предпочел онлайн-решение, чем десктопного "бегемота" под сотню гигабайт на жестком диске 🍿

Инструменты для веб-мастера: кластеризатор СЯ (https://goo.gl/MQWfqO), все запросы конкурента (https://goo.gl/hd5uHS), дешевые XML-лимиты (https://goo.gl/aDZbPI)
12

Авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий